科幻小說《銀河系漫游指南》中的翻譯動物“巴別魚”,可能離現(xiàn)實更近了。美國互聯(lián)網(wǎng)科技公司Meta的研究人員開發(fā)了一種機器學(xué)習(xí)系統(tǒng),幾乎可以立即將101種語言的語音翻譯成36種目標(biāo)語言中的任意一種。
這種大規(guī)模多語言和多模態(tài)機器翻譯(SEAMLESSM4T)系統(tǒng)還可以將語音轉(zhuǎn)換成文本、文本轉(zhuǎn)換成語音、文本轉(zhuǎn)換成文本。相關(guān)研究成果1月15日發(fā)表于《自然》。
Meta運營著臉書、WhatsApp和Instagram等社交媒體網(wǎng)站。該公司表示,在向全球?qū)W術(shù)研究人員成功發(fā)布LLaMA大語言模型后,將把SEAMLESSM4T開源用于非商業(yè)用途。
過去幾十年里,機器翻譯取得了巨大進(jìn)步,這在很大程度上歸功于在大數(shù)據(jù)集上訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。英語等主要語言的訓(xùn)練數(shù)據(jù)比比皆是,但其他語言的訓(xùn)練數(shù)據(jù)卻少得可憐。這種不平等限制了機器可以翻譯的語言范圍。美國康奈爾大學(xué)的計算機科學(xué)家Allison Koenecke表示:“這影響了不經(jīng)常出現(xiàn)在互聯(lián)網(wǎng)上的那些語言。”
Meta團(tuán)隊在之前語音對語音翻譯工作的基礎(chǔ)上,開啟了一個名為“不讓任何語言掉隊”的項目,旨在為大約200種語言提供文本到文本的翻譯。根據(jù)經(jīng)驗,Meta和其他機構(gòu)的研究人員發(fā)現(xiàn),即使在翻譯那些訓(xùn)練數(shù)據(jù)有限的語言時,使翻譯系統(tǒng)多語言化也能提高其性能,但原因尚不清楚。
該團(tuán)隊從互聯(lián)網(wǎng)和聯(lián)合國檔案等來源收集了數(shù)百萬小時的音頻文件,以及這些語音的人工翻譯。他們還收集了其中一些演講的文字記錄。
研究人員使用可靠的數(shù)據(jù)訓(xùn)練模型識別兩份匹配的內(nèi)容。這使研究人員能夠?qū)⒋蠹s50萬小時的語音與文本配對,并自動將一種語言的每個片段與其他語言的對應(yīng)片段匹配。
SEAMLESSM4T可以將語音轉(zhuǎn)換成語音,而無須先將其轉(zhuǎn)換為文本。語音合成器用于產(chǎn)生音頻,它可以翻譯101種語言中的任何一種語音,不過到目前為止,只有36種語言可輸出。該系統(tǒng)還可以執(zhí)行其他翻譯任務(wù),比如完成不同語言的文本到語音的翻譯。
論文作者之一、Meta的計算機科學(xué)家Marta Costa-juss表示,除了增加語言數(shù)量外,他們還通過整合文本和語音的不同組合提高系統(tǒng)性能。“這些是改善的關(guān)鍵。”她補充說,該系統(tǒng)的時間延遲通常為幾秒鐘,與專業(yè)人工翻譯的表現(xiàn)相當(dāng)。
作者表示,他們對SEAMLESSM4T進(jìn)行了微調(diào),例如當(dāng)翻譯中出現(xiàn)與原文不符的攻擊性語言時,可以限制這種情況發(fā)生。他們還對系統(tǒng)進(jìn)行了控制,以防止它將一種語言中無性別的專有詞匯(如英語中的“護(hù)士”)翻譯成其他語言中有性別的對應(yīng)詞。
Koenecke在評論中寫道,為進(jìn)一步限制自動翻譯的潛在風(fēng)險,“開發(fā)人員應(yīng)該考慮如何在明確模型局限性的前提下輸出翻譯”,并考慮“在準(zhǔn)確性有爭議時完全放棄輸出”。
英國吉爾福德薩里大學(xué)的翻譯研究員Sabine Braun說,在機器翻譯被廣泛采用前,應(yīng)該進(jìn)行更多審查,并就如何使用機器翻譯進(jìn)行教育培訓(xùn),尤其是身處醫(yī)療或法律等關(guān)鍵工作崗位的人。