视频软件系统将嘴唇同步到其他语言

经过:帕特里克·基格(Patrick J. Kiger)|
ftf“width=
虽然当前的翻译系统只能为视频内容生成翻译的语音输出或文本字幕,但自动面对面翻译协议可以同步视觉,因此语音样式和唇部运动与目标语言匹配。Prajwal Renukanand

印度的一组研究人员已经设计了一个系统,可以将单词翻译成不同的语言,并使说话者的嘴唇与该语言同步。

自动面对面翻译,如此所述2019年10月论文,是对文本到文本或语音转换翻译的进步,因为它不仅翻译演讲,但还提供唇部同步的面部图像。

广告

要了解其工作原理,请查看研究人员创建的下面的演示视频。在6:38大关,您会在1995年对记者马丁·巴希尔(Martin Bashir)的采访中看到已故戴安娜王妃的视频片段,并解释说:“我想成为人们心中的女王,但我不喜欢“看到自己是这个国家的女王。”

片刻之后,您会看到她在印地语中说同样的话 - 嘴唇移动,好像她实际上说了

“在语言障碍之间有效沟通一直是世界各地人类的主要愿望,”Prajwal K.R.,印度海得拉巴国际信息技术学院的计算机科学研究生通过电子邮件解释。他是该报纸的主要作者,以及他的同事Rudrabha Mukhopadhyay。

“今天,互联网充满了谈话面部视频:YouTube(每天300小时上传),在线讲座,视频会议,电影,电视节目等。”“当前的翻译系统只能为此类视频内容生成翻译的语音输出或文本字幕。它们无法处理视觉组件。结果,当视频上覆盖时,翻译的语音将与唇部动作不同步声音的。

“因此,我们建立在语音到语音翻译系统的基础上,并提出了一条管道,该管道可以拍摄以源语言讲话的人的视频,并输出以目标语言说话的同一扬声器的视频,以便语音风格和语音样式和唇部运动与目标语言语言相匹配,” Prajwal说。“通过这样做,翻译系统变得整体,正如我们在本文中的人类评估所示,可以显着改善用户在创建和消费翻译的视听内容方面的体验。”

面对面的翻译需要许多复杂的壮举。他解释说:“鉴于一个人讲话的视频,我们有两个主要的信息流要翻译:视觉和语音信息。”他们通过几个主要步骤完成了这一目标。“该系统首先使用自动语音识别(ASR)转录演讲中的句子。这与移动设备中语音助手(例如Google Assistant)中使用的技术相同。”接下来,使用神经机器翻译模型将转录的句子转换为所需的语言,然后将翻译转换为使用文本到语音合成器的口语,这是数字助手使用的技术。

最后,一项名为Lipgan的技术纠正了原始视频中的唇部动作,以匹配翻译的演讲。

ftf“width=
语音如何从初始输入到同步输出。
Prajwal Renukanand

Prajwal解释说:“因此,我们也获得了带有唇部同步的完全翻译的视频。”

“ Lipgan是我们论文的关键小说贡献。这是将视觉模态带入图片的原因。它最重要,因为它可以纠正最终视频中的唇部同步,从而大大改善了用户体验。”

意图不是欺骗,而是知识共享

一个文章,于2020年1月24日在《新科学家》中出版,将突破描述为“深瓦”,这是一个视频的术语,在人工智能的帮助下,面孔已被交换或数字化,通常会产生误导性的印象,因为这样英国广播公司的故事解释了。但是Prajwal认为这是对面对面翻译的不正确刻画,这不是打算欺骗的,而是要使翻译的语音更容易遵循。

他解释说:“我们的工作主要旨在扩大现有翻译系统的范围,以处理视频内容。”“这是一种动机,可以改善用户体验并在视频内容上打破语言障碍。它打开了非常广泛的应用程序,并提高了数百万个在线视频的可访问性。”

面对面翻译工作的最大挑战是面部生成模块。Prajwal说:“创建LIP合成视频的当前方法无法用所需的姿势产生面孔,因此很难将生成的面孔粘贴到目标视频中。”“我们将“姿势先验”合并为我们的Lipgan模型的输入,因此,我们可以在所需的目标姿势中生成精确的唇部同步面,可以将其无缝混合到目标视频中。”

研究人员设想,面对面翻译被用于翻译电影和视频电话之间的两个人之间的视频电话。Prajwal指出:“在我们的视频中也证明了在动画电影中制作数字角色。”

此外,他预计该系统用于帮助全球的学生了解其他语言的在线讲座视频。他解释说:“全球数以百万计的外语学生无法理解在线上可用的优秀教育内容,因为它们是英语的。”

“此外,在像印度这样的22种官方语言的国家中,我们的系统将来可以将电视新闻内容转换为新闻主播的准确口语同步的不同本地语言。因此,应用程序列表适用于任何类型的谈话面对视频内容,需要在各种语言上更容易获得。”

尽管Prajwal和他的同事打算以积极的方式使用他们的突破,但在说话者嘴里放外词的能力却涉及一位杰出的美国网络安全专家,他们担心改变视频会变得越来越难以检测。

“如果观看视频,可以告诉您是否仔细观察,嘴巴有些模糊。”安妮·图米·麦肯纳(Anne Toomey McKenna),宾夕法尼亚州立大学的网络爪和政策的杰出学者狄金森法律,以及大学的教授计算与数据科学研究所,在电子邮件采访中。“随着算法继续改善,这将继续最小化。这将变得越来越不可吸引人的眼睛。”

例如,麦肯纳(McKenna)想象更改视频MSNBC评论员雷切尔·麦道(Rachel Maddow)可能会通过“传达不准确的信息,与她所说的相反”来影响其他国家的选举。”

Prajwal也担心可能滥用改变的视频,但认为可以采取预防措施来防止这种情况,并且增加国际理解的积极潜力超过了自动面对面翻译的风险。(在有益的一面,这个博客文章设想翻译格雷塔·敦伯格(Greta Thunberg)的演讲在2019年9月的联合国气候峰会上,印度使用了各种不同的语言。)

Prajwal指出:“每一项强大的技术都可以用于大量优质,也有不良影响。”“实际上,我们的工作是可以处理视频内容的翻译系统。算法翻译的内容绝对不是'不是真实的',但是这种翻译内容对于那些不了解特定语言的人至关重要。此外,此外,在当前阶段,这种自动翻译的内容很容易被算法和观众识别。同时,正在进行积极的研究以识别这种变化的内容。我们认为,负责任使用,严格的法规和研究进展的集体努力和检测滥用的研究进展可以确保积极的努力这项技术的未来。”

广告

特色

广告

加载...