新智元报导
来历:Venturebeat
修改:大明
【新智元导读】怎么生成一段大头讲演视频?微软AI标明,只需求一张脸部相片和一段讲演音频就够了。音频有底噪?发音禁绝?这都不是问题,只需求这两样,剩余的交给AI就行。>>>AI生成的讲演视频作用怎么,来新智元AI朋友圈了解一下~
越来越多的研讨标明,只需语料库足够大,简直任何人的面部动作都能够与语音片段同步。
本年6月,来自三星的运用科学家详细描绘了一种能够对人的头像中的眉毛,嘴巴,睫毛和脸颊进行动画处理的端到端模型。只是几周后,AI教育组织Udacity展现了一种体系,能够主动依据旁白音频生成讲者的讲演视频。而早在两年前,卡内基梅隆大学的研讨人员就宣布了一篇论文,文中描绘了一种将面部动作从一个人移到另一个人头上的办法。
论文链接:
https://arxiv.org/pdf/1910.00726
在这篇(和其他一些)论文效果的根底上,本周,微软研讨团队提出了一项技能,研讨人员宣称,这种技能能够进步由音频生成的有声说话视频的传神程度。
曾经,相似的生成办法对音频质量的要求很高,一般需求运用中性、纯洁、底噪相对很低的音频才干完成。微软研讨人员标明,本次他们供给的办法能够将音频序列分化为语音内容和背景噪声,大大降低了对音频样本的质量要求,能够运用喧闹的,乃至是“包含爱情”的音频数据样本来生成视频。
“众所周知,言语一向充溢改变。关于相同的话,不同的人会依据不同的上下文中运用不同的发音时刻、起伏、语调等。运用言语的语音除了决议了说话的内容之外,还包含丰厚的其他信息,从这些信息中能够看出说话者的心情状况、身份(性别,年纪,种族)和性情。据咱们所知,从音频标明学习的视点来看,咱们提出的办法是首个进步语音体现的办法。”
这个办法技能根底是可学习隐性标明的可变主动编码器(VAE)。VAE能够将输入音频序列分化为不同的标明方式,用于编码内容、情感和其他变量要素。根据输入音频,从散布中采样一系列内容标明,这些内容标明与输入的面部图画一同被送到视频生成器中,对面部进行动画化处理。
输入图画和输出视频的截图比较
研讨人员运用三个数据集来对VAE进行练习和测验,分别是:
GRID,一个视听语料库,包含来自34个讲者的1000条语音记载;
CREMA-D,由来自91个不同种族人士的7442个编排组成。
LRS3,包含取自TED视频中的超越10万白话语句的数据库。
研讨人员将GRID和CREMA-D输入模型中,教模型怎么对语音片段进行分化和情感标明,然后运用一对定量目标:峰信噪比(PSNR)和结构相似性指数(SSIM)来衡量VAE的体现。
与基线办法在不同数据集上的功能比较
成果显现,文中的办法在处理纯粹、天然的语音片段时,体现出的功能不亚于与其他一切模型。并且能够在整个情感范围内保持一致的体现,并与当时一切最新的说话人生成办法完成兼容。
论文作者标明:“咱们针对变体的可学习先验办法可扩展到其他言语要素,例如身份和性别,能够作为未来作业的一部分加以讨论。” “咱们经过对喧闹的和情感的音频样本进行测验来验证模型,并标明在存在这种音频改变的情况下,咱们的办法显着优于当时的最新技能。”
参阅链接:
https://venturebeat.com/2019/10/07/microsofts-ai-generates-high-quality-talking-heads-from-audio/
论文链接:
https://arxiv.org/pdf/1910.00726