xml地图|网站地图|网站标签 [设为首页] [加入收藏]
来自 公司简介 2020-02-23 08:29 的文章
当前位置: 阜新市调制模块有限公司 > 公司简介 > 正文

亚马逊的AI自动将视频复制为其他语言

  曾经希望您可以自动用另一种语言来复制外国电影对话吗?亚马逊就是这样。装配式模块建筑在本周于预印本服务器发表的一篇论文中,这家科技巨头的研究人员详细介绍了一种新颖的“语音到语音”管道,该管道利用AI使翻译后的语音与原始语音和微调的语音持续时间保持一致,然后添加背景噪声和混响。他们说,这样做可以改善配音的自然感觉,并突出了每个拟议步骤的相对重要性。

  正如论文的共同作者所指出的那样,装配式模块建筑自动配音包括将语音转录成文本并将该文本翻译成另一种语言,然后再从翻译后的文本生成语音。挑战不仅是传达原始音频的相同内容,而且要匹配原始音色,情感,持​​续时间,韵律(即节奏和声音的模式),背景噪声和混响。

  Amazon的方法可跨语言同步短语,并遵循“基于流利性”而非基于内容的标准。它包括几个部分,包括基于Transformer的机器翻译位,在超过1.5亿英语-意大利语对上进行了训练,以及韵律对齐模块,该模块计算语音段之间持续时间的相对匹配,同时测量暂停和中断的语言合理性。在经过47小时的语音记录训练的文本到语音阶段的模型,将从输入到预训练声码器的文本中生成上下文序列,该序列将序列转换为语音波形。

  为了使配音后的语音听起来更加“真实”且类似于原始语音,该团队采用了前景-背景分离步骤,该步骤可提取背景噪声并将其添加到语音中。单独的步骤(混响步骤)从原始音频估计环境混响并将其应用于配音音频。

  为了评估他们的系统,装配式模块建筑研究人员让志愿者(总共14名意大利人,5名意大利人和9名非意大利人)以三种不同的方式对TED演讲的24篇摘录和意大利语配音的自然程度进行评分:a)语音到语音的翻译基线,b)具有增强的机器翻译和韵律对齐的基线,以及c)b具有增强的音频渲染的系统。

  研究人员报告说,他们成功实现了短语级同步,但是韵律对齐步骤对生成的配音的流畅性和韵律产生了负面影响。该论文的合著者写道:“这些不满情绪对本地听众的影响似乎部分掩盖了背景噪音和混响对音频渲染的影响,反而导致非意大利听众的自然感大大提高。”“未来的工作肯定会通过计算更好的分割并引入更灵活的唇形同步来致力于改善韵律比对组件。”

本文由阜新市调制模块有限公司发布于公司简介,转载请注明出处:亚马逊的AI自动将视频复制为其他语言

关键词: