盡管川普的走馬上任更多與“逆全球化”綁定在一起,但考慮到人類歷史“螺旋狀”上升的演化軌跡,在技術(shù)進(jìn)步和文化擴(kuò)散的雙重推動(dòng)下,這個(gè)世界總體趨向互通互聯(lián)的趨勢(shì)似乎不可違——尤其當(dāng)全球化與網(wǎng)絡(luò)相遇的一瞬,不同國(guó)家之間平等便捷獲取信息,低成本地有效溝通即成一種必然。從這個(gè)意義上,全球化的最大敵人之一也許是各國(guó)千百年來(lái)夯實(shí)的語(yǔ)言壁壘。
作為一門交叉學(xué)科,機(jī)器翻譯涉及到認(rèn)知科學(xué),計(jì)算機(jī),信息論,語(yǔ)言學(xué)等多學(xué)科,其理論路徑同樣經(jīng)歷了螺旋狀上升:從最久遠(yuǎn)的“翻譯備忘錄”到后期基于規(guī)則,基于實(shí)例的機(jī)器翻譯,再到被視為機(jī)器翻譯重要轉(zhuǎn)捩點(diǎn)的統(tǒng)計(jì)翻譯模型(SMT)——后者是科學(xué)家初次察覺(jué)到通過(guò)大數(shù)據(jù)消弭信息不確定性是攻克“智能”的好辦法。
而最近兩年,機(jī)器翻譯正在擁抱另一個(gè)更重要的技術(shù)轉(zhuǎn)折點(diǎn)——基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯(NMT:Neural Machine Translation)。
機(jī)器翻譯的技術(shù)路徑
感同身受的是,無(wú)論是普通用戶還是資深譯員,無(wú)論使用WEB還是APP,都明顯察覺(jué)到近些年來(lái)的翻譯質(zhì)量有著迅猛的提升。
問(wèn)題是:為何變化如此明顯?不妨從技術(shù)路徑上拆解來(lái)看。
直覺(jué)便知,當(dāng)人類試圖讓機(jī)器翻譯語(yǔ)言時(shí),自然要對(duì)文字進(jìn)行解構(gòu),就像同心圓的關(guān)系,文章由段落構(gòu)成,段落由句子構(gòu)成,句子由短語(yǔ)和字構(gòu)成,而遵循從易到難,機(jī)器翻譯的理論路徑也是從后向前:從最初的逐字翻譯到基于短語(yǔ)的翻譯——如今,依靠于神經(jīng)網(wǎng)絡(luò),基于句子的翻譯成為可能。
于是,按照翻譯單元的不同,大體而言,目前機(jī)器翻譯有兩種類型:其一是上文提及的統(tǒng)計(jì)翻譯模型(SMT),如你所知,互聯(lián)網(wǎng)的廣泛普及為統(tǒng)計(jì)翻譯提供了豐富的訓(xùn)練養(yǎng)料,而千禧年左右興起的基于短語(yǔ)的SMT更是讓機(jī)器翻譯質(zhì)量大為提高,也在很長(zhǎng)一段時(shí)間占據(jù)機(jī)器翻譯的主流,但以短語(yǔ)作為翻譯單元的弊端即是,當(dāng)面對(duì)整句層面的翻譯時(shí)顯得非常生硬。
另一種類型當(dāng)然是基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯(NMT),其翻譯路徑是所謂端到端(end-to-end),將源語(yǔ)句整體編碼為一個(gè)向量,再通過(guò)解碼器對(duì)其進(jìn)行解碼,理論上僅需給定源語(yǔ)言句子,即可通過(guò)神經(jīng)網(wǎng)絡(luò)輸出目標(biāo)語(yǔ)言譯文。這里不妨舉個(gè)例子,若你在百度翻譯中輸入“蘿卜青菜各有所愛”,它可以輕松輸出“Every man has his hobbyhorse”的正確譯文,而非諸如“Turnip greens his taste”的荒誕結(jié)果。也正因如此,短短兩年,NMT就在多個(gè)公開測(cè)試集上超越了作為前輩的SMT系統(tǒng)。
而若要比較的話,整體而言,在數(shù)據(jù)訓(xùn)練比較充分的時(shí)候,NMT無(wú)疑要優(yōu)于SMT;在短句或數(shù)據(jù)量相對(duì)較小之時(shí),SMT在處理固定搭配和習(xí)慣表達(dá)上具有優(yōu)勢(shì)。所以兩種方式談不上殊途同歸,只是在不同場(chǎng)景中分類而用——要知道,用戶的翻譯場(chǎng)景頗為多變,這要求一個(gè)優(yōu)秀的翻譯系統(tǒng)要成為集大成者。如今百度的翻譯系統(tǒng)就包含SMT,NMT,甚至更傳統(tǒng)的EBMT(基于實(shí)例的機(jī)器翻譯)。
當(dāng)然,倘若我們談?wù)摰氖俏磥?lái),幾乎可以肯定,神經(jīng)網(wǎng)絡(luò)技術(shù)本身的向前奔進(jìn),會(huì)讓NMT日趨成為主流(事實(shí)上,在百度中英日韓等多個(gè)系統(tǒng)中,它已是主流)——在今年8月的國(guó)際計(jì)算語(yǔ)言學(xué)年會(huì)上(ACL),移動(dòng)端離線NMT被列為未來(lái)重要研究方向,即是為機(jī)器翻譯的未來(lái)畫了一個(gè)幾乎確定性的腳注。
機(jī)器翻譯的跑馬圈地
自二十世紀(jì)三十年代初法國(guó)科學(xué)家阿爾楚尼提出用機(jī)器進(jìn)行翻譯的想法至今,哪怕對(duì)人工智能的定義已幾經(jīng)翻折,機(jī)器翻譯都被長(zhǎng)期視為人工智能的“終極目標(biāo)”之一。巨大的期許往往意味著目標(biāo)艱難,但這仍然無(wú)法阻擋這塊大蛋糕對(duì)全球頂尖科技大佬的吸引力。
而作為翻譯技術(shù)發(fā)展的初級(jí)階段,如果在這個(gè)時(shí)候硬要拼個(gè)排名或者高下,其實(shí)并沒(méi)有太大意義,而科技界的競(jìng)爭(zhēng)也無(wú)非就是微軟、百度、谷歌這三家而已,孰輕孰重一看便知。只不過(guò),從“百度更懂中國(guó)”的大思路能夠看出,百度在中國(guó)乃至亞洲市場(chǎng)更具侵略性,和搜索之爭(zhēng)同理,雖然誰(shuí)都打不死誰(shuí),但區(qū)域優(yōu)勢(shì)已成不爭(zhēng)事實(shí)。
12月21日,從百度機(jī)器翻譯技術(shù)開放日上百度技術(shù)委員會(huì)聯(lián)席主席、自然語(yǔ)言處理部技術(shù)負(fù)責(zé)人吳華博士的觀點(diǎn)可以看出,百度其實(shí)已經(jīng)成為了翻譯技術(shù)領(lǐng)域的破繭者,他們?cè)缬诠雀枰荒昃驼缴暇€了基于神經(jīng)網(wǎng)絡(luò)的翻譯系統(tǒng),同時(shí)也打造了全球首個(gè)互聯(lián)網(wǎng)在線NMT系統(tǒng)以及手機(jī)端離線NMT系統(tǒng)。據(jù)悉,百度翻譯每天已有上億次訪問(wèn),支持28種語(yǔ)言的互譯,開方的API接口也有超過(guò)2萬(wàn)家第三方接入。
而就在前幾天,微軟發(fā)布全球首個(gè)萬(wàn)能翻譯器,微軟官方表示它也可以實(shí)現(xiàn)多達(dá)100人間實(shí)時(shí)翻譯交談,并支持9種語(yǔ)言的語(yǔ)音輸入。而谷歌全球化帶來(lái)的影響無(wú)疑的巨大的,在收購(gòu)科技公司的同時(shí)也在大力發(fā)展區(qū)域化優(yōu)勢(shì),如谷歌2014年收購(gòu)的Word Lens也在積極開展機(jī)器翻譯的工作,這李彥宏所說(shuō)的話是一樣的道理:用人工智能打破一切邊界。
其實(shí),百度的現(xiàn)狀其實(shí)并不令人意外,考慮到中國(guó)經(jīng)濟(jì)在全球化中的地位,在將更多人卷入全球化的社會(huì)協(xié)作網(wǎng)絡(luò)過(guò)程中,中國(guó)對(duì)翻譯行為的仰仗無(wú)疑更迫切。而更為現(xiàn)實(shí)的是:在全球數(shù)萬(wàn)億網(wǎng)頁(yè)中,80%為非中文網(wǎng)頁(yè);去年中國(guó)出境游人數(shù)超過(guò)1.2億,前20個(gè)旅游目的地國(guó)家和地區(qū)中共使用了12種語(yǔ)言,尤其是中英語(yǔ)——這個(gè)世界上使用人數(shù)最多和使用最廣泛的兩種語(yǔ)言之間的翻譯,在很多人眼中是純粹的剛需。
機(jī)器翻譯的未來(lái)
很簡(jiǎn)單,翻譯技術(shù)最終是要服務(wù)大眾,否則就是鏡中月、水中花。
重要的是,技術(shù)也逐漸還原到更具體的實(shí)用場(chǎng)景,百度翻譯APP就通過(guò)結(jié)合OCR技術(shù)和語(yǔ)音技術(shù),為用戶滿足各種碎片化的翻譯需求,舉幾個(gè)例子:當(dāng)你在國(guó)外游覽時(shí),只需將手機(jī)屏幕對(duì)準(zhǔn)外文介紹,OCR翻譯即可呈現(xiàn)翻譯結(jié)果;面對(duì)天書一般的外文菜單,百度翻譯可以迅捷地將菜單翻譯結(jié)果顯示在手機(jī)上,從此不必再在點(diǎn)餐時(shí)聽天由命;在國(guó)外買買買時(shí),它也能讓你快速讀懂說(shuō)明書;另外,當(dāng)遇到不認(rèn)識(shí)的實(shí)物,實(shí)物翻譯可以用中英雙語(yǔ)告知其名,同時(shí)伴隨著準(zhǔn)確的發(fā)音;而結(jié)合語(yǔ)音技術(shù)的會(huì)話翻譯,能幫助用戶與外國(guó)人無(wú)障礙交流——我甚至還看到過(guò)這樣的新聞:靖江市民警在語(yǔ)言不通的情況下,用百度翻譯成功救助4名俄羅斯籍船員……
技術(shù)的福祉正在惠及每一位擔(dān)心語(yǔ)言關(guān)的人,而另一端,一部分人對(duì)技術(shù)的憂慮也在所難免?!拔磥?lái)若干年,我們很容易想象語(yǔ)言障礙會(huì)完全被打破,現(xiàn)在做同聲翻譯的人可能將來(lái)就沒(méi)有工作了。”上個(gè)月的烏鎮(zhèn)互聯(lián)網(wǎng)大會(huì),李彥宏為人們勾勒了未來(lái)的場(chǎng)景。
機(jī)器雖然突破了固有翻譯原則的局限,但必須承認(rèn)的是,機(jī)器翻譯和真正意義上的“語(yǔ)言學(xué)”還關(guān)系不大,距離文人向往的“信雅達(dá)”目標(biāo)還很遙遠(yuǎn),這也意味著,機(jī)器翻譯任重道遠(yuǎn),人工翻譯可稍安勿躁。
究其原因,在基于端到端的翻譯手法中,神經(jīng)網(wǎng)絡(luò)無(wú)法理解自己翻譯出的句子,無(wú)法對(duì)譯文給出一個(gè)合理解釋——這正是它與專業(yè)人工翻譯最本質(zhì)的差別。譬如,遵循上文提及的從后向前(從易到難)的理論路徑,讓機(jī)器理解基于“段落”甚至“篇章”的翻譯自然再好不過(guò),這要求機(jī)器在上下文理解和連貫性上飛躍一大步。
那么問(wèn)題是:它會(huì)實(shí)現(xiàn)么?作為技術(shù)樂(lè)觀主義者,我個(gè)人答案當(dāng)然是會(huì),一切或許只是時(shí)間問(wèn)題。
在昔日古老的歲月,人類誕生語(yǔ)言的原始目的,一方面是增進(jìn)本族人的內(nèi)部溝通,另一方面是制造與外族的天然隔閡。而若你相信技術(shù)的發(fā)展內(nèi)嵌在全球化的偉大浪潮中,通過(guò)技術(shù)終結(jié)千萬(wàn)年來(lái)人類語(yǔ)言互不相通的歷史就值得期許。畢竟,讓人們聽懂彼此,這是一個(gè)太過(guò)古老的夙愿。