【A05】视频人像分割算法【万兴科技】
发布时间: 2021-11-17 17:30:52

1.命题方向

智能计算

2.题目类别

计算类

3.题目名称

视频人像分割算法

4.背景说明

【整体背景】

计算机视觉因为深度学习的发展,近年来应用非常的火热。效能和速度也不断的精进, 过去从云端的服务,逐步脱离云服务发展到PC端边缘运算,到这几年再往移动端运算发展。尽管移动端运算能力越来越强大,轻量级模型的架构设计也是一个很重要的因素。

图像语义分割是计算机视觉的重要研究课题,可被广泛的应用到各个领域,比如图像的前景分割,可以快速设计创意的图片,可以针对视频换背景,将前景人物融入到不同的场景中,产生有创意的算法应应用。

图像语义分割中的视频人像分割算法,主要注重的是精细度和速度,尤其是在PC或是移动端上更有其挑战性。

【公司背景】

万兴科技(300624.SZ)成立于2003年,并于2018年登陆A股创业板,是全球领先的新生代数字创意赋能者,致力于成为全世界范围内有特色、有影响力的百年软件老店。

公司面向全球海量新生代互联网用户提供潮流前沿、简单便捷的数字创意软件产品与服务,赋能人们在数字时代与众不同地进行创意表达,帮助每一个新生代创作者将头脑中的灵感变为可见的现实。

万兴科技也是中国政府认定的“国家规划布局内重点软件企业”,连续跻身“德勤高科技高成长亚太区500强”、“福布斯中国最具发展潜力企业”等荣誉榜。

公司正以前瞻的视野推进全球化布局,研发总部位于深圳,并在温哥华、东京、长沙等地设有运营中心,业务范围遍及全球200多个国家和地区。

【业务背景】

万兴科技持续深耕数字创意软件领域,旗下明星产品包括万兴喵影、万兴优转、亿图图示、FilmoraFilmstockFotophire等。以AI技术赋能数字创意为目标,让简单的创意无所不在。

5.项目说明

【问题说明】

近年随着深度学习算法的发展,图像语义分割算法逐步成熟,计算机硬件的计算能力越来越强大,算法的落地装置从PC端转移到移动端,不管是在视频特效应用或是会议软件换背景相关应用则越来越常见。

此赛题专注在快速的人像分割算法,主要目标为设计一个抠图算法在不使用GPU的环境下运行,在精细度、速度和模型大小上取得平衡。

本项目要求实施者自行以收集开源数据或自主建立数据的方式收集数据、建立人像分割算法模型。并完成模型训练、优化、工程化等工作,最终产出一个可执行程序,针对20个视频测试集进行人像分割。

【用户期望】

将图像人像与背景分割开,追求主体边缘清晰性和精准性,具体要求如下:

边缘分割准确——边缘分割的准确度一直是业内衡量分割效果好坏的重要指标。本项目希望能够在前景和背景对比度低、背景复杂、主体形状复杂等各种复杂环境下,依然能保证主体边缘的精准分割。在边缘分割时,需注意以下几点:

1)主体部分区域被非主体遮挡时,只需精准的分割出视觉中主体与非主体的可见区域,不需要“脑补”主体被遮挡的部分;

2)对于主体上毛发或类毛发、复杂结构的边缘分割,应做到越精准越好。在无法保证绝对精准时,建议剔除少量复杂边缘部分,不要为了保留全部主体内容而使得主体部分残留过多背景;

3)对于手持物也需要抠, 手持物的大小如手机、平版电脑、杯子、笔则都要抠出。如果有遮档大部分的身体、如箱子、电脑屏幕,等大型物体,则不需要抠出。

参考效果如下:


6.任务要求

【开发说明】

在此项目中,按照课题要求自行进行数据采集和数据清洗,用于训练的图像数据数量自定,建立合适的网络模型框架进行训练,针对分割效果和性能进行参数调整、模型优化;提供PC端可执行程序入口,对本次提供的20个测试集进行人像分割的效果呈现。

【技术要求与指标】

模型大小

不超过20MB, 越小越好,需要注明模型精度格式(FP32, FP16, INT8)

算法性能指标

在intel i7 CPU处理一个1080p视频的时间不高于50ms/帧

效果指标

MIOU

【提交材料】

1)项目概要介绍;

2)项目简介 PPT;

3)项目详细方案;

4)项目演示视频;

5)企业要求提交的材料:

1项目简介PPT,包括:项目执行思路介绍;所使用的算法模型、优化、项目工程化过程介绍;算法及模型的优劣势、技术指标达成情况介绍;对20个测试视频进行图像主体语义分割的结果展示等;

2项目详细技术方案文档:详细描述算法实现的技术方案及原理;

3本地化可执行程序:在不依赖网络的情况下,向程序输入一个待分割的视频,程序自动输出分割后的人像前景结果。

6)团队自愿提交的其他补充材料。

【任务清单】

(1)明确业务需求定义,根据定义收集、筛选、清洗出合适的图像数据库;

(2)深度学习模型调研、设计和训练;

(3)模型优化改进(模型效果改进或模型压缩加速等);

(4)模型的效果评估以及图像处理效率(模型测试平台、图像前处理、图像后处理以及模型前向推理时间);

(5)模型大小、参数量(Params)和计算量(Flops);

(6)深度学习算法工程化,提交可进行验证的包含全部依赖的C++例程(提示:推理框架有openvino、ncnn、tvm、mnn、onnx等)。

【开发工具与数据接口】

开发工具:深度学习框架建议使用pytorch1.8.1及以上版本,C++程序建议使用Visual Studio 2017及以上版本。

7.其他

8.参考信息

9.评分要点

本赛题评分要点见附件:A类初决赛阶段评分表。



订阅号