【A12】基于手势识别的会议控制系统【长安计算】
发布时间: 2020-12-11 13:47:19

A12】基于手势识别的会议控制系统【长安计算】

1. 命题方向

智能计算

2. 题目类别

计算类

3. 题目名称

基于手势识别的会议控制系统

4. 背景说明

【整体背景】

随着人工智能技术的发展,包括人体行为识别、目标检测、目标跟踪、语音识别等在内的各个计算机领域的应用都取得了长足进步,业界普遍对人工智能的发展持乐观态度。人工智能技术将在未来给世界带来巨大影响,并成为新一轮的科学盛宴。于此同时,相关技术也逐渐经历从理论研究到应用落地的转变,正慢慢从实验室走向真正的市场。从行动到智能,从机器到机器人,这个过程将重塑整个世界。智能x”将成为一种创新时尚。人工智能将广泛应用于国防、医疗、工业、农业、金融、商业、教育、公安等领域。这将导致新的模式和商业模式以及产业结构的深刻变化。在生产方式方面,高水平人机协同正在成为主流的生产和服务方式,跨界融合成为重要经济形态,共创分享成为经济生态基本特征,个性化需求与定制成为消费新潮流。智能经济时代,通过发掘数据和知识作为新的生产要素的价值,通过发掘智能算法作为新的生产力的价值,通过变革生产、营销、服务的组织模式,都会极大地提高各行各业的生产效率,形成新的产业形态。

【公司背景】

陕西长安计算科技有限公司是由陕西电子信息集团与深圳市宝德计算机系统有限公司共同出资设立的混合所有制公司,以服务器和PC整机研发、生产、销售和为客户提供云计算综合解决方案为主营业务,致力于成为国内一流的IT产品和解决方案提供商。公司将围绕计算产业创新、算力多元化发展大力投入,积极探索技术+资本+人才+服务的多维融合模式,致力于打造国产自主可控计算机知名品牌,助力传统行业数字化转型。

【业务背景】

在公司日常的运营中,常常需要多个部门对项目进行开会研讨。然而,基于传统方法只能单一演讲者进行演示,无法让其他参会人员进行点评,难以进行实时讨论,不利于协同会商的高效开展。因此,本题主要针对基于增强现实多人协同研讨,通过技术集成实现在线的手势识别演示系统,为多人协同交互式增强现实系统应用提供技术支撑。

5. 项目说明

【问题说明】

本题着力于解决会商演示系统中的非接触式人机交互问题,具体而言,其核心问题就是通过计算机视觉技术实现对基于视频流的手势动作进行实时检测和识别。通过摄像头采集并识别控制者连续的手势动作,完成包括1.点击,2.平移,3.缩放,4.抓取,5.旋转等5种基本交互功能,除此之外参赛选手还可针对不同客户的具体业务需求,可在这五种基本手势动作的基础上进行扩展。选手可利用传统计算机视觉方法或基于机器学习/深度学习的方法,通过对基于摄像头采集的连续视频输入中用户的手势动作进行检测和识别,输出相应的控制信号,从而完成会商演示系统的交互。

【用户期望】

参赛选手结合业务需求,进行算法模型的开发,实现真实环境下对用户控制手势的识别,达到实时交互的目的。

6. 任务要求

【开发说明】

需要对设计的应用场景有深入的了解和阐述,所开发的算法模型需满足真实会商控制演示需求。

【技术要求与指标】

能够实现对摄像头拍摄的视频流中控制手势进行检测和识别,并以此实时控制演示系统。指标要求:1)每一种手势动作的检测识别准确率达到80%以上;2)每一个手势动作的检测和识别时间(即从执行完手势动作到输出结果之间的时间)不超过200ms。一般开发环境以及开发语言不限(可使用Python+OpencCV,深度学习框架可使用PyTorchTensorFlow等)。开发过程允许使用开源代码,但需要在文档中详细注明,且其许可证需保证商业可用,不能采用商用模块。

【任务清单】

1)项目立项,确定项目方向和开发方向;

2)确定开发周期,按照计划进行项目开发;

3)按照比赛要求按时提交相应的比赛作品材料。

【提交材料】

1)项目概要介绍;

2)项目简介PPT

3)项目详细方案;

4)项目演示视频;

5)企业要求提交材料:

Ø 需求分析文档

Ø 系统设计文档

Ø 详细的设计方案(包括模型训练方案)

Ø 测试报告

Ø 可实际运行的演示demo程序

6)团队自愿提交的其他补充材料。

【开发工具与数据接口】

1)推荐开发语言:Python;

2)推荐开发工具:PyCharm等。

7. 参考信息

问题说明中提到的5种基本动作示例视频通过网盘链接提供。

8. 评分要点

本赛题评分要点参考附件一:A类企业命题统一评分标准。

订阅号