不再只靠單詞判斷,Google 神經機器大大降低翻譯誤差機率

也許你常常在用,但或許你不知道,Google 翻譯已經從以往的「片語式機器」翻譯,進化為「神經機器」翻譯呢?

 

 

Google 於 10 年前推出,推出以片語式機器翻譯作為主要運算方式的 Google  翻譯服務,目前已經增加至 103 轉語言,且每天翻譯量超過 1,400 億個單詞;而在數年前開始,更進一步導入神經網絡,將句子視為一個單位進行翻譯。

 

相較於過去的片語機器學習,神經機器翻譯僅需要較少的系統架構設計;為了精進品質,研究人員提出許多技術來解決,這當中包括透過模擬調校模型處理罕見字詞、使用「注意」來對準輸入詞和輸出詞以及將詞拆解成更小的單元以應對罕見字詞等方式,讓神經機器翻譯能更準確獲得用戶想要翻譯的正確內容。

 

Google 神經機器翻譯(GNMT)將中文句子翻譯成英文句子的過程:

 

● 編碼器(Encoder):GNMT 將中文句子的每一個單詞進行向量(vector)編碼,而每個向量將顯示出目前為止單詞被讀取到的所有意義。
● 解碼器(Decoder):在讀取完整句子後,解碼器就會開始運作,一次產生一個英語句子中的一個詞。
● 注意(Attention):為了每一步都產出正確的詞,解碼器將針對編碼中文向量裡最相關的英文單詞權重分佈進行解碼。

 

在擁有雙語能力評估者的協助下,Google 翻譯在維基百科及數家新聞網站上抓取句子進行的數種主要語言的翻譯測試中,證實了導入 GNMT 系統的翻譯誤差降低了 55% 至 85% 以上。

 

目前除了 Android、iOS 應用程式外,Google 也推出雙向翻譯、觸控翻譯、鏡頭翻譯,並從以往必須持續連結網路的模式,進化為可下載語言包的離線翻譯功能。

您可能也喜歡…

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。