本届A类赛题可通过以下方式提问与交流:
1、大赛官网团队账号-赛题答疑区提问,组委会定期收集问题提交至企业解答后公布;
2、可前往赛题答疑论坛(PC端点击链接):https://mastergo.com/file/77782156635006?utm_source=fwwb&utm_medium=saitishouce&utm_campaign=&utm_term=&utm_content=提问或交流,企业定期回复。
1.命题方向
企业服务+智能计算
2.题目类别
应用类
3.题目名称
基于文本数据标准的元数据提取算法
4.背景说明
【整体背景】
随着大数据时代的到来,人们已经认识到数据是一种无形的宝贵资产,谷歌、Facebook、阿里巴巴、腾讯等企业市值高达数千亿美元,不仅在于其独特的商业模式和市场垄断地位,更多的估值是给予了其拥有的海量用户数据所蕴含的巨大价值。对于数据的拥有者和管理者来说,通过对数据的合理管理和有效应用,能盘活并充分释放数据的巨大价值。但如果数据的拥有者和管理者缺乏对数据的有效管理,数据就用不起来,或者即便用起来也用不好,在这种情况下,堆积如山的无序数据给企业带来的是高额的成本,数据成为一项棘手的“负债”,数据的价值将会大打折扣,甚至根本不可用、不敢用,因此,数据治理是大数据时代将海量数据发挥价值的必然选择。
目前,企业在数据治理方面总是摆脱不了“头痛治头,脚痛治脚”的弊端,往往会导致数据问题总是会重复出现。而要从根本上解决这些数据问题,那就必须从数据标准管理出发,对数据全生命周期进行规范化管理,从而从根本上解决这些数据问题。
数据标准是通过制定一套由管理制度、管控流程、技术工具共同组成的体系,来对数据定义、分类、格式、编码等标准化管理。通俗地讲,对企业来说,数据标准就是对数据类型、长度、归属部门等定义一套统一的规范,以保障不同业务系统之间可以做到对同样的数据理解统一和使用统一。通过数据标准的建设,可以有效消除数据跨系统的非一致性,从根源上解决数据定义和使用的不一致问题,为企业数据建设带来诸多好处。
而现阶段,现有国家(GB)、行业(HB)数据标准大多以纸质或电子文档形式存在,实际使用过程中往往存在关键信息查找、检索、内容提取效率低下等现象,给标准的快速应用带来了较大的阻碍,影响了数据的汇集流通及共享使用。因此需开展基于文本数据标准的元数据提取研究工作,形成基于标准文本的元数据资源库,给数据标准的智能化应用提供支撑。
【公司背景】
华质卓越公司成立于2004年,是国家高新技术企业,是航空工业生产力促进中心、航空工业高技术人才培训基地,航空工业集团编码中心,军工标准体系服务部的运营主体。华质卓越公司以标准质量为牵引,以数据技术为手段,以促进航空产业协同、提升装备研制效能、服务装备高质量发展为目标,打通设计仿真、制造装配、试验鉴定、综合保障、维修大修、循环利用等装备研制全过程数据链路,提升装备全生命周期状态智能管理与追溯水平。核心业务是提供数据应用解决方案。以数据标准、数据治理、数据挖掘、数据分析为技术主线,围绕装备在设计仿真、试验检测、综合保障、维修大修等全生命周期环节,形成系列数据与知识服务产品与解决方案,已为航空、航发、航天、中电、兵器、船舶、核工业、政府、科研院所、民营企业等在内的3500余家客户提供基于场景需求的数据技术综合解决方案。拥有数据可视化分析系统、标准电子地图软件系统、通用条码标引、航空产品统一代码注册系统、航空产品履历信息管理系统、数据交换共享平台等40余项软著、专利。拥有北京市科学技术委员会颁发的高新技术企业证书,中关村高新技术企业证书,武器装备科研生产单位二级保密资格、武器装备质量管理体系等10余项资质。获北京市经济和信息化委员会“北京市中小企业服务平台”的称号。承接了多个重大重点国家级、行业级、集团级项目和工程,涉及范围包括:数据标准制修订、数据治理、数据仓库建设、数据模型+知识图谱开发及数据管理软件平台建设,为国家及军工行业提供有效支撑。
【业务背景】
华质卓越公司在数据治理领域持续深耕,通过构建数据标准规范体系,引领航空装备数智化转型升级,搭建CORMD元数据核心技术应用平台。借鉴航空行业成功经验,以元数据核心技术(“融融芯”)作为软件或平台内嵌模块,联合产业伙伴开展数据技术服务,衍生数据技术公共服务,包括数据资产化、数据质量评价、数据价值评估、培训、数据包及数据类产品测评和认证、数据产权交易和服务平台等。
5.项目说明
【问题说明】
文本数据标准的元数据提取工作是一项复杂的系统工程,包括标准采集、标准分类、元数据审核、元数据提取、元数据校核、元数据入库等环节。基于文本数据标准的元数据提取算法,旨在通过利用大数据技术和自然语言处理等人工智能算法对文本数据标准中的关键字段信息,按照数据标准元数据编制要求进行自动化提取,并对提取完成的字段元数据属性进行恰当的赋值,形成规范化的数据标准元数据,最终校核后录入数据标准元数据资源库。
【用户期望】
利用大数据技术和自然语言处理等人工智能算法对文本数据标准的元数据进行提取,保证提取的准确性和完整性,需注意以下几点:
(1)可根据数据标准的类型进行分类处理,提高文本数据标准字段元数据提取的准确性;
(2)对于文本数据标准提取出的元数据,应做到越精准越好,保证提取的完整性;
(3)在元数据提取完成后,需根据元数据编制要求对各个字段的属性信息进行自动化填充,保证所赋值的完整性及准确性。
6.任务要求
【开发说明】
需要评估该方案实际工程落地的可行性,以及落地的具体方案。方案希望轻量简单,能较为准确的提取出标准文本中元数据(即字段和字段的属性),有效辅助人工操作,提高工作效率,赋能元数据资源体系建立。
【技术要求与指标】
在算法开发中,要求详细阐述算法模型使用的数据指标以及衍生指标,建立在标准文本中提取出元数据(即字段和字段的属性)的算法模型的逻辑思路,建模过程中对提取文本中元数据算法模型涉及到的参数如何调优,最终模型达到比较好的效果。
主要评价指标:
(1)提取元数据准确率(提取出正确元数据数量/总元数据数量);
(2)可以运行在intel CPU机器上。
【提交材料】
(1)项目概要介绍;
(2)项目详细方案,包括算法思路和对数据的认识、特征工程、使用的模型、训练和调优过程、评估效果;
(3)项目演示视频;
(4)项目简介PPT;
(5)企业要求提交材料:
1算法思路及其效果展示。
(6)团队自愿提交的其他补充材料。
【任务清单】
(1)调研基于NLP算法的文本提取相关研究现状;
(2)进行赛题相关需求的分析;
(3)算法设计;
(4)编码开发与功能实现;
(5)测试验证主要功能和创新成果;
(6)探索应用场景落地。
【开发工具与数据接口】
开发工具:深度学习框架建议使用pytorch1.8.1及以上版本,C++程序建议使用Visual Studio 2017及以上版本。
7.其他
无
8.参考信息
无
9.评分要点
赛题评分要点见附件一:A 类企业命题初赛统一评分标准。