【A17】金融领域的事件因果关系抽取【同花顺】
1. 命题方向
企业服务
2. 题目类别
应用类
3. 题目名称
金融领域的事件因果关系抽取
4. 背景说明
【整体背景】
信息抽取 (Information Extraction,IE)是从自然语言文本中自动地抽取结构化的信息,事件因果关系抽取就是其中一个具有代表性的信息抽取任务。在金融领域中的研报、公告中,存在着大量的事件之间直接作用关系的阐述,比如:由于猪肉价格飙升,拉升了CPI增速。我们迫切地希望将这种金融事件逻辑抽取出来,构建成事理图谱,来指导事件溯因、问答、公司业绩预测等等下游任务。
【公司背景】
浙江核新同花顺网络信息股份有限公司是一家互联网金融信息提供商,公司主要业务是为各类机构客户提供软件产品和系统维护服务、金融数据服务、智能推广服务,为个人投资者提供金融资讯和投资理财分析工具。同时,公司基于现有的业务、技术、用户、数据优势,积极探索和开发基于人工智能、大数据、云计算等前沿技术的产品和应用,以期形成新的业务模式和增长点。
【业务背景】
浙江核新同花顺网络信息股份有限公司基于现有的业务、技术、用户、数据等多方面优势,积极探索和开发基于人工智能、大数据、云计算等前沿技术的产品和应用,目前已构建同花顺AI开放平台,可面向客户提供智能投顾、智能投研等多项AI产品及服务。
5. 项目说明
【问题说明】
提供金融领域的研究报告、公司公告约800篇的语料以及约50条的标注样例,并且事件因果关系抽取定义了原因中的核心词、原因中的谓语或状态、结果中的核心名词、结果中的谓语或状态四个论元,训练模型并抽取因果关系。
论元 |
原因中的核心词 |
原因中的谓语或状态 |
结果中的核心名词 |
结果中的谓语或状态 |
实例 |
新三板股权 |
高度集中 |
市场流动性 |
匮乏 |
【用户期望】
追求抽取关系对的f1值以及抽取速度。
6. 任务要求
【开发说明】
对语料做适当的文本预处理并标注,根据问题定义建立合适的模型训练并优化,最终会在约2000条的评测集中抽取结果并评测效果。
【技术要求与指标】
(1)要求详细阐述整个训练过程包括文本预处理方法、模型选择及调优等等。
(2)评价指标包含:
a)关系对f1
precision = 预测对的关系对数 / 总共预测的关系对数
recall = 预测对的关系对数 / 真实的关系对数
关系对f1 = (2 * precision * recall) / (precision + recall)
b)推理速度:说明使用的机器配置(cpu、内存、显卡)下的平均每秒处理条数
【任务清单】
(1)模型的概述与简介,对算法模型有充分的认识理解,切不可只会套用;
(2)模型的参数调优过程(如果包含调优过程);
(3)模型的效率(包括处理文本的效率与抽取的效率)。
【提交材料】
(1)项目概要介绍;
(2)项目简介PPT;
(3)项目详细方案;
(4)项目演示视频;
(5)企业要求提交材料:
Ø 所使用的抽取方法原理与参数调优过程概述
Ø 最优的模型
(6)团队自愿提交的其他补充材料。
【开发工具与接口】
(1)开发工具:开发工具以及开发平台不限,可以借助开源的工具;
(2)数据接口:企业会通过网盘提供。
7. 参考信息
无
8. 评分要点
本赛题评分要点参考附件一:A类企业命题统一评分标准。