翻譯資源
智能語音技術(shù)如何拯救翻譯機:翻譯機的技術(shù)抉擇和優(yōu)勝略汰
來源:本站 錄入:2018-8-15
雷鋒網(wǎng)按:智能語音技術(shù)經(jīng)年之后的不斷完善,尤其是隨著語音識別準確率的不斷提高,基于智能語音技術(shù)的智能硬件紛至沓來,除了智能音箱一再受眾人追捧外,智能翻譯機也悄然逆襲,并入這條快車道。
不同于智能音箱因沒有明確的應(yīng)用場景備受詬病,智能翻譯機倒是有諸如商務(wù)會議、出國旅行等針對性較強的應(yīng)用場景,由此帶來的則是對深度學(xué)習(xí)算法更高的要求。
機器翻譯系統(tǒng):RNN、CNN、transformer
智能翻譯機的技術(shù)基礎(chǔ)說到底還是智能語音技術(shù),這一點與智能音箱極為相似,其中,神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng)尤為關(guān)鍵,各大廠商紛紛針對這一系統(tǒng)進行自研,諸如谷歌的GNMT、科大訊飛的INMT、搜狗的SNMT等。
用于機器翻譯的神經(jīng)網(wǎng)絡(luò)系統(tǒng)最為經(jīng)典的基礎(chǔ)技術(shù)可以歸為兩類——RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))和CNN(卷積神經(jīng)網(wǎng)絡(luò))。主要區(qū)別在于兩類系統(tǒng)的執(zhí)行順序不同,采用RNN神經(jīng)網(wǎng)絡(luò)的機器翻譯系統(tǒng)是順序執(zhí)行任務(wù),在進行翻譯工作時,要對整個句子從左到右或從右到左依次執(zhí)行,精準度較高,但無法充分應(yīng)用系統(tǒng)硬件GPU的并行運算能力;采用CNN神經(jīng)網(wǎng)絡(luò)的機器翻譯系統(tǒng)則是并行執(zhí)行任務(wù),計算效率更高。
CNN卷積傳輸示意圖
雖然采用CNN的系統(tǒng)的計算效率更高,但是在做機器翻譯時采用CNN的神經(jīng)網(wǎng)絡(luò)系統(tǒng)一直不如采用RNN的神經(jīng)網(wǎng)絡(luò)系統(tǒng),尤其是在翻譯精準度上差強人意。因而,長久以來,諸多做翻譯機的公司雖然對RNN和CNN都在跟進研究,但是各家產(chǎn)品中使用的翻譯系統(tǒng)仍是基于RNN架構(gòu)的較多。
2017年5月,F(xiàn)acebook的FAIR團隊提出一種使用全新CNN架構(gòu)的fairseq,官方給出的數(shù)據(jù)是比基于RNN架構(gòu)的機器翻譯系統(tǒng)的速度高出9倍,同時,準確性也是當(dāng)時最好的。這在當(dāng)時也一度被認為是機器翻譯系統(tǒng)技術(shù)的一個轉(zhuǎn)折點。據(jù)雷鋒網(wǎng)了解,就在1個月后,谷歌在發(fā)表的《Attention is all you need》論文中提出了不使用CNN及RNN的transformer架構(gòu),官方表示采用該架構(gòu)的機器翻譯模型實際效果超越了當(dāng)時所有公開的機器翻譯模型。
在技術(shù)角逐的同時,也不乏有科技公司的產(chǎn)品跟進。例如搜狗于2017年7月上線了基于transformer的機器翻譯系統(tǒng)模型,在解決了transformer機器翻譯系統(tǒng)模型原生系統(tǒng)解碼器解碼速度慢的問題后,將速度提升了8倍,并可以運用到離線翻譯功能。
另外,技術(shù)之間各有優(yōu)勢也是必然的,尤其是在還沒有一個成熟的技術(shù)時,做產(chǎn)品和技術(shù)研發(fā)適度整合多種技術(shù)也是必由之路。例如搜狗在跟進transformer機器翻譯模型的同時,仍然在用CNN做語音識別上的訓(xùn)練,搜狗語音交互技術(shù)中心研發(fā)總監(jiān)陳偉在參加對外活動時曾提到:在做語音識別時,搜狗用50層CNN結(jié)構(gòu)得到語音識別模型,基于此模型,訓(xùn)練離線語音識別模型。
產(chǎn)品形態(tài):手機、耳機和翻譯機
翻譯機的產(chǎn)品形態(tài)主要有三大類;翻譯機、翻譯手機和翻譯耳機。
現(xiàn)在主流市場還是將翻譯機做成智能硬件單品,例如科大訊飛的曉譯、有道翻譯蛋等,但是市面上較為高端的翻譯機價格都在千元左右,科大訊飛的曉譯2.0價格標定為2999元,這其實已接近市場上中高端手機的價格,因而,還是吸引了以智能翻譯機為主導(dǎo)功能的智能手機的入局。2018年6月,國內(nèi)糖果手機推出糖果S20,支持語音翻譯、拍照翻譯、104種語言、離線翻譯,提供24小時在線人工翻譯服務(wù),將翻譯機功能再度整合到手機中。
耳機類翻譯機最初在國外較為流行,如谷歌的Pixel Buds翻譯耳機、Waverley Lab的Pilot翻譯耳機,通過藍牙與手機中的翻譯APP相連,硬件思路類似藍牙耳機,這類產(chǎn)品更多地考慮到手機翻譯機帶來的便捷、禮儀、衛(wèi)生的問題,解決了場景應(yīng)用中的一些尷尬局面。
具體各類翻譯機產(chǎn)品,雷鋒網(wǎng)整理如下表:
智能翻譯機產(chǎn)品五花八門,也很難說今后是否還會出現(xiàn)其他應(yīng)用形態(tài)。不過就應(yīng)用來看,由于要實現(xiàn)語音識別、語音合成、機器翻譯等對系統(tǒng)功耗和性能要求較高的功能,同時還要考慮語種、口音、噪音干擾等復(fù)雜的應(yīng)用場景,現(xiàn)在的智能翻譯機還沒有發(fā)展到能夠作為一項功能整合到手機或其他成熟的硬件形式中。正如科大訊飛創(chuàng)始人胡郁談及訊飛翻譯機與谷歌Pixel(手機)相機圖片翻譯的不同時的解釋:谷歌更多從技術(shù)落地來考慮,這需要更強的處理器支持,并且也會增加手機的耗電量。
翻譯機的精準度
精準度是翻譯機的靈魂,也是對一個翻譯機的好壞最根本的考量。此前,就各大廠商自報成績單時,科大訊飛的曉譯2.0發(fā)布時,官方給出的準確率是98%,搜狗官方公布最新的語音識別準確率是97%。
各大廠商官方公布的準確率確實很高,不過在實際應(yīng)用中還需要考慮諸如口音、口語及環(huán)境噪聲的問題。剛好小編手上有曉譯2.0可供做翻譯測試,兩組測試結(jié)果如下:
英文原文:So really,both Linux and Git kind of arose almost as an unintended consequence of your desire not to have to work with many people.
識別/翻譯結(jié)果:So really,both limitsand get kind of rose almost as an unintended consequence of your desire not to have to work with many people.(因此,實際上兩者的限制和得到種玫瑰幾乎作為一個意外的后果,你的愿望不需要與太多的人一起工作。)
中文原文:gitHub是一個面向開源及私有軟件項目的托管平臺,因為只支持git 作為唯一的版本庫格式進行托管,故名gitHub。
識別/翻譯結(jié)果:給她是一個面向開源及自由軟件項目的托管平臺,因為只是給他作為唯一的版本庫格式進行托管,故名給他。(She is a hosting platform for open source and free software projects,because only for him as the only version of the library format for hosting,so named him.)
從結(jié)果來看,識別率還是很好的,只是在一些專業(yè)詞匯上還無法準確識別;而翻譯結(jié)果準確率夠高,口語化略顯不足。由此看來,官方給出的語音識別準確率不能完全用來衡量翻譯機產(chǎn)品的翻譯能力。
誰在攪局者
正是近年來出國旅行備受推崇,外加智能語音技術(shù)得到一定突破,使得翻譯機的研發(fā)被提上日程。但是處于風(fēng)口的翻譯機在備受追捧的同時,自然也少不了攪局者。
從產(chǎn)品形態(tài)來看,有耳機,也有手機,有基于手機APP的應(yīng)用,也有智能硬件單品。其中以智能硬件單品居多,其他產(chǎn)品形態(tài)更多則是一種嘗試,如無意外,整個產(chǎn)業(yè)現(xiàn)在的重心還是要回到智能硬件單品這一形式潛心做功能升級和技術(shù)研發(fā)。
從翻譯機的價格來看,跨度在百元到幾千元之間,一些沒有成型技術(shù)的團隊加入智能語音系統(tǒng)的翻譯機的價格甚至尚不及一支功能簡單的錄音筆,可想其產(chǎn)品架構(gòu)中軟硬件系統(tǒng)的性能會是怎樣的情形,同時也使得其很難再擁有足夠的資本繼續(xù)做技術(shù)研發(fā)和產(chǎn)品迭代。
雷鋒網(wǎng)小結(jié)
大家看到智能翻譯機的時候經(jīng)常會認為專業(yè)翻譯人員很快會面臨失業(yè)問題,其實如此說來為時尚早。現(xiàn)在的翻譯機自身還存在諸多問題有待解決,雖然解決出國旅行時的點餐、問路已不是問題,但是面對諸如商務(wù)會晤、技術(shù)論壇等更為專業(yè)的應(yīng)用場景,或是娛樂場所、賽事解說等更為復(fù)雜的周圍環(huán)境及人文環(huán)境,智能翻譯機的實際應(yīng)用還是略顯吃力。
不過就技術(shù)角度來講,雖然諸多技術(shù)和產(chǎn)品紛紛涌入,而其實,這也才剛剛開始。
產(chǎn)品是技術(shù)最好的檢驗。語音技術(shù)正在經(jīng)歷著這樣的檢驗,經(jīng)過了智能音響的檢驗,這一輪是智能翻譯機的檢驗。
智能翻譯機居當(dāng)下風(fēng)口,技術(shù)雛形雖然已有,但是機器翻譯系統(tǒng)的翻譯速度和翻譯準確度還需要在整個AI大環(huán)境下繼續(xù)打磨,在翻譯匹配度、翻譯口語化能力、環(huán)境辨別能力,甚至具體產(chǎn)品形態(tài)上還需要繼續(xù)經(jīng)受市場用戶的各類反饋和研發(fā)團隊的不斷改進。
至于當(dāng)下市場中魚龍混雜的入局者,市場自然會進行優(yōu)勝劣汰,剩下的終將會是最適合你的產(chǎn)品。返回搜狐,查看更多