服務創新電子報

AI帮你做影片Udacity利用深度学习开发声音转译系统

随着网路科技与电脑、行动装置的普及,资讯内容以前所未见的速度大量的穿梭于云端世界中,大幅度地翻转了大众接收资讯的行为模式,因此讲求快速与便利的线上课程便成为民众接收新知的重要管道;然而一支影片的制作,需经过好几阶段的转译过程,尤其专业的影片处理需要不只是工作室和相关录影设备,更重要的是转化、编辑、上传影片素材。为简化这些繁琐历程,Udacity研究团队4日发表了一系列研究论文,提及一套自家开发的AI系统,尝试透过自动化方式将声音档直接传化为影片档,协助线上教材自动转译减少成本支出与人力耗损。

Udacity发表的LumièreNet: Lecture Video Synthesis from Audio 论文中提出一套机器学习框架LumièreNet,利用定位语音档与模拟对应视角,透过一个简易的、模块化的、完全基于神经网路的系统。通过输入演讲音档,就能得到对应的全身演讲影片,能直接将语音教学内容模拟为真人教学影片,并且不限影片长度。LumièreNet的合成原理为,利用深度学习手法针对唇部周围面部表情,采用过去影片合成符合音档之脸部表情动画,另一方面,讲者往往借由肢体动作与面部表情的搭配以传达情绪,因此研究中亦建置一套姿势判断组件,从训练集中的多个定位点提取特定身体特征影像,借由表情与肢体搭配模拟更加逼真的影像细节。

▲LumièreNet模拟出的影像相当模糊,正致力于合成更贴近真实的影像内容。(截图自/LumièreNet demo #2)

研究人员制作拍摄一部影片做为测试资料,并发现透过这套AI系统能模拟出逼真的影像片段,包含顺畅的肢体动作与飘逸的发丝,然而这些仍不足以骗过大众的眼睛,因为其释出的模拟影片中的图像仍相当模糊,且系统中的姿态评估器无法捕捉人体细致的眼球运动、肌肉细微收缩、衣服皱折等协助拼凑真实人类的相关线索,因此合成的演讲影片会显得不够自然生动,更糟的是眼球可能会望向不同的方向。

利用深度学习技术,输入声音资讯便能产出影片内容是相当崭新的研究方向,Udacity目前的产出影片仍有许多待改善处,团队预测下一步将朝个别组件独立训练及独立验证前进,透过分割再聚合的过程优化其影像合成系统,并期望未来朝商业影片生产方向发展。(陈怡姗,本文经《电子商务时报》授权刊登)

Share
标签:,

留下您的評論

Share