服務創新電子報

AI幫你做影片Udacity利用深度學習開發聲音轉譯系統

隨著網路科技與電腦、行動裝置的普及,資訊內容以前所未見的速度大量的穿梭於雲端世界中,大幅度地翻轉了大眾接收資訊的行為模式,因此講求快速與便利的線上課程便成為民眾接收新知的重要管道;然而一支影片的製作,需經過好幾階段的轉譯過程,尤其專業的影片處理需要不只是工作室和相關錄影設備,更重要的是轉化、編輯、上傳影片素材。為簡化這些繁瑣歷程,Udacity研究團隊4日發表了一系列研究論文,提及一套自家開發的AI系統,嘗試透過自動化方式將聲音檔直接傳化為影片檔,協助線上教材自動轉譯減少成本支出與人力耗損。

Udacity發表的LumièreNet: Lecture Video Synthesis from Audio 論文中提出一套機器學習框架LumièreNet,利用定位語音檔與模擬對應視角,透過一個簡易的、模塊化的、完全基於神經網路的系統。通過輸入演講音檔,就能得到對應的全身演講影片,能直接將語音教學內容模擬為真人教學影片,並且不限影片長度。LumièreNet的合成原理為,利用深度學習手法針對唇部周圍面部表情,採用過去影片合成符合音檔之臉部表情動畫,另一方面,講者往往藉由肢體動作與面部表情的搭配以傳達情緒,因此研究中亦建置一套姿勢判斷組件,從訓練集中的多個定位點提取特定身體特徵影像,藉由表情與肢體搭配模擬更加逼真的影像細節。

▲LumièreNet模擬出的影像相當模糊,正致力於合成更貼近真實的影像內容。(截圖自/LumièreNet demo #2)

研究人員製作拍攝一部影片做為測試資料,並發現透過這套AI系統能模擬出逼真的影像片段,包含順暢的肢體動作與飄逸的髮絲,然而這些仍不足以騙過大眾的眼睛,因為其釋出的模擬影片中的圖像仍相當模糊,且系統中的姿態評估器無法捕捉人體細緻的眼球運動、肌肉細微收縮、衣服皺摺等協助拼湊真實人類的相關線索,因此合成的演講影片會顯得不夠自然生動,更糟的是眼球可能會望向不同的方向。

利用深度學習技術,輸入聲音資訊便能產出影片內容是相當嶄新的研究方向,Udacity目前的產出影片仍有許多待改善處,團隊預測下一步將朝個別組件獨立訓練及獨立驗證前進,透過分割再聚合的過程優化其影像合成系統,並期望未來朝商業影片生產方向發展。(陳怡姍,本文經《電子商務時報》授權刊登)

Share
標籤: ,

留下您的評論

這個網站採用 Akismet 服務減少垃圾留言。進一步瞭解 Akismet 如何處理網站訪客的留言資料

Share