服務創新電子報

Google造福聽障人士 推出語音及時轉字幕服務

Google為聽障人士設計了一項應用程式Live Transcribe(現場轉錄),其主要功能為將語音轉化為字幕,能夠協助聽障人士與其他人溝通,您可能會有一個疑問,類似這樣的東西不是很多了嗎?但這項服務與其他不同的是,它能降低計算密集以達到即時的效果,並且能降低存取成本的障礙。

(圖片來源:IT HOME)

 這項應用程式採用了Google目前的雲端自動語音辨識技術(Automatic Speech Recognition,ASR),並且在行動裝置上機器學習,目前與聾人和弱聽人士就讀的高立德大學(也是全球唯一聽障大學)合作,進行使用者體驗研究。

自動語音辨識可以讓聾人和弱聽人士更輕易接收外界的語音訊息,Google先前已經將這項技術應用於YouTube中,自動語音辨識可以使影片提供字幕,以及簡報展示、電話撥打等。雖然這項技術在近年來進步許多,但聽障人士目前主要還是利用人工手動轉錄的服務,且因價格較高,也需要事先安排,也就使聽障人士與外界社交的機會減少。

Google說明自動轉錄的服務之前之所以沒有快速擴展,是因為使用ASR進行轉錄,除了需要計算密集的模型,還需付出昂貴的存取成本,以及使用者體驗之研究。Google這次與高立德大學合作,進行廣泛的使用者體驗研究外,也連接了可以持續提供服務的伺服器,打造Live Transcribe(現場轉錄)服務。

在打造現場轉錄時,考量到避免讓使用者消耗過多資料流量,因此,Google將類神經網路的語音偵測器置於裝置上,並使用大規模聲音的資料及AudioSet,長時間使用下能減少最大程度的資料量。

除此之外,為了讓此服務更符合聽障人士的需求,Google與高立德大學合作,進行使用者體驗的研究,更加確保此服務可以滿足目標族群的需求。起初Google針對許多裝置進行研究,像是電腦、智慧型手機、平板、微型投影機等等,也想出了一套顯示聽覺訊息和字幕的方法,但因為現今人手一機,且無所不在,最終選擇發展於智慧型手機上。

過往相關研究表示,呈現單字或短句的信心程度於字幕畫面上,可以讓使用者更容易理解轉錄的字幕,但Google卻選擇在Live Transcribe中不採用,因為Google的最新研究表示,在畫面上呈現信心程度不僅不會幫助使用者理解,還會妨礙使用者的專注度,降低他專注在文字的程度,因此Google以別的方式補足這方面的不足。

(圖片來源:IT HOME)

    發展此服務時,當然也會遇到一些問題,像是訊號問題,或是現場雜音太多,都會影響語音轉錄結果。因此Google加入當前噪音程度的圖形,顯示使用者語音相對背景聲音的音量,提供語音品質的即時狀態,讓使用者可以即時調整手機擺放位置。

(圖片來源:IT HOME)

Google說明,若依賴單一語音轉錄技術,有發生錯誤的風險,未來Google會加入音量顯示器等聽覺訊號,將兩者結合,提供使用者更完整的服務、符合需求的服務。(文/陳彥安)

延伸閱讀:

Introducing Live Transcribe
Real-time Continuous Transcription with Live Transcribe
智慧語音助理各立山頭 Apple、Google、Amazon到底哪一家最好?
Google Assistant為什麼講起話來更有生命力?
AI Χ電商 對話式商務未來趨勢

 

Share
標籤:, ,

留下您的評論

Share