1.命题方向
智能计算
2.题目类别
计算类
3.题目名称
音频多人声分离算法
4.背景说明
【整体背景】
随着深度学习的发展,近些年来音频算法在智能医疗、语音识别、声源定位等领域的应用非常火热,其效能和速度也不断得到精进。从过去的云端服务,逐步脱离并发展到PC端边缘运算,到这几年再往移动端运算发展。尽管硬件的运算能力越来越强大,但是模型轻量化仍是算法设计所追求的核心之一。唯有如此,AI算法才可以随时随地调用,发挥它们强大的作用。
语音识别是音频深度学习的重要研究课题,被广泛应用到各个领域,比如语音文字转换,可以快速把说话人的信息以文字的形式保存下来,又比如人声背景声分离,可以减弱背景声对人声的干扰,加强语音识别能力。
语音识别中的音频多人声分离算法, 主要针对多人发声的场景下,可以把分离之后的音轨和特定的说话人物对应起来。此种方式为其后的语音识别领域提供了许多的可能性。譬如,音频多人声分离算法未来可能会应用于视频通话降噪、提升波束成形的质量和目标人识别等领域,并为传统的语音识别带来一个比较大的突破。
【公司背景】
万兴科技(300624.SZ)成立于2003年,并于2018年登陆A股创业板,是全球领先的新生代数字创意赋能者,致力于成为全世界范围内有特色、有影响力的百年软件老店。
公司面向全球海量新生代互联网用户提供潮流前沿、简单便捷的数字创意软件产品与服务,赋能人们在数字时代与众不同地进行创意表达,帮助每一个新生代创作者将头脑中的灵感变为可见的现实。
万兴科技也是中国政府认定的“国家规划布局内重点软件企业”,连续跻身“德勤高科技高成长亚太区500强”、“福布斯中国最具发展潜力企业”等荣誉榜。公司正以前瞻的视野推进全球化布局,研发总部位于深圳,并在温哥华、东京、长沙等地设有运营中心,业务范围遍及全球200多个国家和地区。
【业务背景】
万兴科技持续深耕数字创意软件领域,旗下明星产品包括万兴喵影、万兴优转、亿图图示、Filmora、Filmstock、Fotophire等。以AI技术赋能数字创意为目标,让简单的创意无所不在。
5.项目说明
【问题说明】
本题着力于解决音频多人声分离问题。多人声分离指的是在同一个场景下,多个人说话存在一个声音重叠的问题,使用音频相关深度算法和模型框架,将每个人的说话段分离开来,并且去除原本音频中的环境噪声。
本项目要求能够设计一个在不使用GPU的环境下运行,在精细度、速度和模型大小上取得平衡的最佳化的算法模型。
此外,本项目要求实施者自行以收集开源数据或自主建立数据的方式收集数据、建立音频多人声分离算法模型。并完成模型训练、优化、工程化等工作,最终产出一个可执行程序,针对50个音频测试集进行多人声分离。
【用户期望】
将多人声音频的独立人声音频进行分离,具体要求如下:得到的数据单人声音频数据需要具备足够好的辨识度,音频数据中尽可能无噪声和环境背景声,即多人声分离的目的,不仅仅限于把目标人和说话片段对应,同时分离出可能对语音识别产生干扰的环境背景声。通过该算法,可以从多人声音频中得到指定人声音频数据,利用于其他途径。效果参考如下:
Looking to Listen_ Noisy cafeteria.mp4
Looking to Listen_ Sports debate.mp4
Looking to Listen_ Stand-up.mp4
Looking to Listen_ Video conferencing.mp4
6.任务要求
【开发说明】
在此项目中,按照课题要求自行进行数据采集和数据清洗,用于训练的音频数量自定,建立合适的网络模型框架进行训练,针对多人声分离效果和性能进行参数调整、模型优化;提供PC端可执行程序入口,对本次提供的50个测试集进行多人声分离的效果呈现。
【技术要求与指标】
模型大小 |
不超过20MB,越小越好,需要注明模型精度格式(FP 32,FP16,INT8) |
算法性能指标 |
在interli7CPU 处理一个时长2分钟的音频 时间不超过 10秒 |
效果指标 |
STOI(Short-Time Objective Intelligibility) |
【提交材料】
(1)项目概要介绍;
(2)项目简介 PPT;
(3)项目详细方案;
(4)项目演示视频;
(5)企业要求提交的材料:
1项目简介PPT包括:项目执行思路介绍;所使用的算法模型、优化、项目工程化过程介绍;算法及模型的优劣势、技术指标达成情况介绍;对50个测试音频数据进行多人声分离的结果展示等;
2项目详细技术方案文档:详细描述算法实现的技术方案及原理;
3本地化可执行程序:在本地运行一个无需额外部署环境的exe可执行文件,向可执行文件中输入一个待分离的音频,程序自动输出分离后的多条音频数据。
(6)团队自愿提交的其他补充材料。
【任务清单】
(1)明确业务需求定义,根据定义收集、筛选、清洗出合适的音频数据集;
(2)深度学习模型调研、设计和训练;
(3)模型优化改进(模型效果改进或模型压缩加速等);
(4)模型的效果评估以及处理效率(模型测试平台、音频前处理、音频后处理以及模型前向推理时间);
(5)模型大小、参数量(Params)和计算量(Flops);
(6)深度学习算法工程化,提交可进行验证的包含全部依赖的C++例程(提示:推理框架有openvino、ncnn、tvm、mnn、onnx等)。
【开发工具与数据接口】
开发工具:深度学习框架建议使用pytorch1.8.1及以上版本,C++程序建议使用Visual Studio 2017及以上版本。
7.其他
无
8.参考信息
参考论文:
(1)Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation[J]. ACM Transactions on Graphics, 2018, 37(4CD):112.1-112.11.
(2)Simpson A . Probabilistic Binary-Mask Cocktail-Party Source Separation in a Convolutional Deep Neural Network[J]. Computer Science, 2015.
9.评分要点
赛题评分要点见附件:A类初决赛阶段评分表。