【A18】债券图表数据ocr检测与文本识别【同花顺】
发布时间: 2020-12-11 13:52:54

A18】债券图表数据ocr检测与文本识别【同花顺】

1. 命题方向

企业服务

2. 题目类别

应用类

3. 题目名称

债券图表数据ocr检测与文本识别

4. 背景说明

【公司背景】

浙江核新同花顺网络信息股份有限公司是一家互联网金融信息提供商,公司主要业务是为各类机构客户提供软件产品和系统维护服务、金融数据服务、智能推广服务,为个人投资者提供金融资讯和投资理财分析工具。同时,公司基于现有的业务、技术、用户、数据优势,积极探索和开发基于人工智能、大数据、云计算等前沿技术的产品和应用,以期形成新的业务模式和增长点。

【业务背景】

关于光学字符识别(Optical Character Recognition, 下面都简称OCR),是指将图像上的文字转化为计算机可编辑的文字内容;在金融领域的应用则更加广泛,对于上市公司发布的公告、财报、研报等不可编辑的pdf文档,需要做结构化处理并抽取还原,提取关键信息供需要的用户参考。

5. 项目说明

本比赛包括两个任务:债券图片数据文本检测、ocr文本内容识别

任务1:文本检测

本任务要求对提供的业务检测数据进行文本框检测,输出文本框坐标

【目标和数据样式】

数据集将有50个完整的扫描债券数据图像(测试集)、训练集不提供,参赛者可以自行收集或者人工合成,文档图片的内容主要包括常规的表格,三线表,无框表,文本行等。下面显示了一个扫描债券数据的示例

数据集中的每个图像都用文本边界框(bbox)和每个文本边界框的label(文本检测数据中提供的文本label为假label,可以不用关心)进行注释。位置被标注为带有四个顶点的矩形,从顶部开始按顺时针顺序排列。图像的注释存储在具有相同文件名的文本文件中。注释格式与ICDAR2015 dataset类似,如下所示

x1_1, y1_1,x2_1,y2_1,x3_1,y3_1,x4_1,y4_1, transcript_1

x1_2,y1_2,x2_2,y2_2,x3_2,y3_2,x4_2,y4_2, transcript_2

x1_3,y1_3,x2_3,y2_3,x3_3,y3_3,x4_3,y4_3, transcript_3

【评测指标】

采用平均精度和平均召回率进行评价

(IOU=0.5,  TP:正确预判的正例数,FP:错误预判的正例数,FN:错误预判的负例数)

边框检测map准确率:TP/(TP+FP)

召回率:TP/(TP+FN)

【结果提交】

提交格式打包为zip文件,文件包含所有测试文本结尾为(.txt)的文档,每个文档对应一个测试数据;文档内容测试标注一样,每行包括检测框的四个顶点坐标(从左上角顺时针排序)

如下所示:

result.zip

result

test1.txt

x1_1, y1_1,x2_1,y2_1,x3_1,y3_1,x4_1,y4_1

x1_2,y1_2,x2_2,y2_2,x3_2,y3_2,x4_2,y4_2

x1_3,y1_3,x2_3,y2_3,x3_3,y3_3,x4_3,y4_3

test2.txt

x1_1, y1_1,x2_1,y2_1,x3_1,y3_1,x4_1,y4_1

x1_2,y1_2,x2_2,y2_2,x3_2,y3_2,x4_2,y4_2

x1_3,y1_3,x2_3,y2_3,x3_3,y3_3,x4_3,y4_3

...

任务2:债券文本OCR

【目标和数据样式】

本任务的目标是精确识别出金融债券文档中的文本信息,我们假定已对整张图片做了每个文本框的切分,训练的数据是一张张切分好的文本框小图,统一保存在images文件中,样例数据如下:

要求参赛者将每张小图的文字识别成对应的字符串,待识别的字符主要是简体中文,数字和少量英文,要求可识别的汉字数量超过5000个。我们提供类似的2万张小图作为测试集,具体训练数据需要参赛者自行收集。

另外提供一个txt标注文件包含测试集中所有图片的标签信息,标注文件格式如下:

img_path_1,    label_1

img_path_2,    label_2

……

【评测指标】

我们会根据参赛者的返回结果,计算文本框的识别准确率(字符完全匹配算识别正确),另外会按统计总的字符准确率,并按字符分类统计每个字符的准确率precision和召回率recall,作为预测结果的评价指标。

【结果提交】

要求参赛者提交一个包含所有测试图片的预测结果的txt文件,格式如下:

img_path1pred1

img_path2pred2

……

6. 任务要求

【技术要求与指标】

任务一:采用平均精度和平均召回率

任务二:文本框的识别准确率和字符准确率

【任务清单】

1)模型的概述与简介,对算法模型有充分的认识理解,切不可只会套用;

2)模型的参数调优过程(如果包含调优过程);

3)模型的效率(包括处理文本的效率与打标签的效率)。

【提交材料】

1)项目概要介绍;

2)项目简介PPT

3)项目详细方案;

4)项目演示视频;

5)企业要求提交材料:

Ø 所使用的方法原理与参数调优过程概述

Ø 训练后的结果文档,对给定测试集打标签结果

6)团队自愿提交的其他补充材料。

7. 参考信息

8. 评分要点

本赛题评分要点参考附件一:A类企业命题统一评分标准。

订阅号