搜狗手语数字人技术介绍

本文由用户“a你呢WW”分享发布 更新时间:2021-06-25 19:20:37 举报文档

以下为《搜狗手语数字人技术介绍》的无排版文字预览,完整格式请下载

下载前请仔细阅读文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。

搜狗手语数字人技术介绍

根据世界卫生组织发布的最新数据,全世界有4.66亿人有听力障碍,在我国听障人员有2700万人,手语是听障人士的第一语言,很多有听力障碍的人因为沟通障碍无法常态化、高质量地接收重要资讯信息,进而无法融入社会大家庭,以目前电视节目中手语新闻播报为例, 80%以上的聋人只能理解手语新闻中不足60%的手语,大部分人认为新闻中的手语与他们日常使用的手语差距很大。因此如何通过技术创新实现聋人真正可懂的手语播报能力,对于帮助听障人群克服语言沟通障碍,更好融入社会非常有价值。

本次发布的搜狗手语数字人以打造聋人真正可懂的通用手语播报为目标,基于搜狗领先的数字人技术体系-搜狗分身,集成了超写实3D数字人建模、机器翻译、多模态数字人生成、迁移学习、实时面部动作生成及驱动等多项领先AI技术,实现了基于超写实3D数字人的自然可懂的手语主播能力,使机器可以基于输入口语文本生成逼真度高、手语表达准确的3D数字人视频内容。

/

图1. 搜狗数字人技术原理

本次发布的手语数字人具备三大优势:

1. 超写实的逼真 内容过长,仅展示头部和尾部部分文字预览,全文请查看图片预览。 ,进而快速生成数字人手语播报视频。在组织的聋人可懂度测评中,搜狗手语数字人的播报内容可懂度已经达到85%以上的实用水平,有力帮助聋人克服语言障碍,建立与社会大家庭之间信息沟通的有效渠道。

3. 高接受度的手语展现效果:

作为视觉语言,手语由手控信息(手形、手部位置等)和非手控信息(表情、口动、体态等)联动而成,其中手控信息是构成手语语形的基本单位,相当于汉语的“拼音”,不同手形的结合变换可涵盖除语气词及外来词外的大部分手语词汇,此外非手控信息中,表情相当于汉语中的“语气”, 用来区分肯定、疑问、感叹等,对手语可懂度有较大影响,同时口动的内容多为汉语词的读法及拟声词,在手语表达中常配合某些汉语词句使用,是汉语词是否能够被准确理解的关键,也是手语表达否地道的重要表现。本次手语数字人完整实现了手控信息以及非手控信息的表达,首先通过机器翻译生成手语表征信息,覆盖了手部动作、面部表情、口动等维度,之后基于多模态端到端生成模型进行联合建模及预测,生成高准确率的动作、表情、唇动等序列,从而达到了自然地道、接受度更高的手语表达效果。

[文章尾部最后300字内容到此结束,中间部分内容请查看底下的图片预览]

以上为《搜狗手语数字人技术介绍》的无排版文字预览,完整格式请下载

下载前请仔细阅读上面文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。

图片预览