隨著經濟全球化的發展,國際知識產權戰略的重要性日益突顯。我們不僅要將日本國內的專利信息傳遞給全世界,還要把握世界其他國家的專利申請情報。各類專利文獻的精確翻譯不可或缺,專利文獻的翻譯量也由此猛增。然而,傳統人力翻譯在成本和速度方面的弊端使得其難以勝任海量翻譯的重任。為解決這一難題,人們將目光移向了機器翻譯。
2019年5月,日本專利廳專利信息公開平臺開始啟用全新“機器翻譯系統”,該機器翻譯系統采用強大的機器翻譯引擎。這一引擎由日本情報通信研究機構(以下簡稱“NICT”)主導研發,東芝數字解決方案株式會社長期積累的自然語言處理技術也給予了支持。
為實現快速、準確、自然的翻譯目標――在開發過程中,只有將人工智能的快速學習與技術人員的知識經驗融合在一起,才能突破重重技術難關。
東芝數字解決方案株式會社 ICT解決方案事業部 政府部門解決方案技術第二部 三宅悠紀子
信息通信研究機構(NICT)高級語音翻譯研究開發推進中心 副主任 隅田英一郎
日本專利廳 總務部總務科專利信息室 主任助理 目黑光司
東芝數字解決方案株式會社 ICT解決方案事業部 政府部門營業第四部 西本俊之
一、混合型機器翻譯 讓專利文獻翻譯工作更簡單
在保護日本科技成果,促進科技創新方面,專利審查工作發揮著極其重要的作用。專利審查員在審查專利過程中,需要查明新技術與現有技術之間的區別,并合理設定專利權。
日本專利廳總務部信息室主任助理——目黑光司先生參與了機器翻譯項目的全過程,包括系統采購到實施監測。據他講,日本專利廳的使命是“執行全球最快、最高質量的審查工作”。
“我們專利廳的業務工作主要分兩大塊:一、調查海量增長的國外專利技術文獻;二、將審查結果發送到國外,幫助日本企業順利取得國外專利授權。”(目黑)
“為完成這些業務,我們必須將日語審查結果翻譯成英語,并將世界各國的專利文獻翻譯成日語。在此需求上,我們更新了專利信息平臺(J-PlatPat),并著手構建新型機器翻譯系統。為實現“全球最快、最高質量審查”的目標,新型機器翻譯系統中翻譯速度和翻譯品質是最重要的兩點。
全球專利申請數量變化統計
通過公開競標,東芝數字解決方案株式會社(東芝集團旗下公司,主要業務是采用系統集成、人工智能和物聯網等手段,為用戶提供服務解決方案)成功拿下這筆訂單。該公司的西本俊之和三宅悠紀子參與了從招標、提案到正式發布的全過程,西本俊之擔任營業負責人,三宅悠紀子擔任翻譯品質的技術負責人。
“東芝長期致力于機器翻譯技術開發工作。主要采用基于規則的機器翻譯引擎1(以下簡稱RBMT)。針對此次中標的機器翻譯系統項目,我們首先考慮的是,要與現有開發成果銜接起來。因此,我們采用了RBMT提案。然而,在即將采購之時,我們發現RBMT不能達到翻譯質量要求,到底是什么原因呢?……我們甚至考慮過放棄這一提案。我無意中想起曾經與NICT合作的往事,當時,NICT將翻譯引擎技術轉讓給了我們,我還特地去拜訪了隅田先生。”(西本)
1 基于規則的機器翻譯引擎:基于辭典和語法知識的機器翻譯。此外,還有基于海量對譯數據(雙語對照格式數據)的統計機器翻譯、基于深度學習技術的神經機器翻譯。
NICT在專利文件機器翻譯領域的研究成果頗豐,且與日本專利廳保持著良好的合作關系。除此以外,NICT還擁有數億條世界最大的專利文獻數據對譯,并依托海量對譯數據開發了先進的神經機器翻譯系統(以下簡稱“NMT”)。NICT科研負責人——隅田欣然接受了西本的咨詢請求,兩人開始就技術轉讓問題進行交流。
“為了普及翻譯技術,NICT一向對外提供本研究所開發的翻譯引擎和程序。雖說這是NICT的使命,但并不代表我們可以向任何企業轉讓翻譯技術。接受技術轉讓的企業必須有堅實的技術后盾作為保障,否則,我們苦心研發的翻譯技術將無法得到普及。
在這方面,東芝擁有豐富的機器翻譯開發經驗,而我們在統計機器翻譯(以下簡稱“SMT”)技術轉讓方面亦擁有眾多實際案例。關于專利領域機器翻譯技術轉讓問題的討論,我當然愿意參與。”(隅田)
東芝部分翻譯引擎介紹
2 BLEU值:將正確譯文與機器翻譯結果進行比較,根據相似度對翻譯質量進行評估的指標。得分從0%到100%。得分越高,翻譯質量越高。
首先,東芝團隊列出了翻譯引擎備選名單,其中包括RBMT、SMT、NMT等7種翻譯引擎,再征求NICT方面的意見和建議,選出最適合專利文檔的翻譯引擎。
“使用各個引擎翻譯1000多個文檔,評估每種引擎的精度以及在文章翻譯方面的優點和缺點。只有自己親眼查看和對比這些翻譯結果,才能夠選出最佳方案。”(西本)
“隨著招標提案工作的推進,為了實現精準自然的翻譯效果,我們不斷優化機器翻譯系統。
比如,RBMT適用于文檔前半部分和最尾端,NMT適用于文檔中間部分。基于這種情況,要實現高質量專利文檔翻譯,需要構建復雜的翻譯引擎。事實證明,全部使用單一翻譯引擎,是無法確保翻譯質量的。”(三宅)
每種引擎翻譯1000多個文檔,每個文檔的翻譯稿件都需要仔細檢查。通過這種笨拙的測試方法,我們最終發現:以NMT為主,合理使用RBMT和SMT的混合型翻譯引擎是最佳選擇。對于翻譯前后的處理工作,我們認為采用東芝長期積累的自然語言處理技術更合適。這樣一來,既引入了最先進的NICT引擎,又能發揮出東芝在機器翻譯領域的優勢。
二、升級機器翻譯機制 解決長篇翻譯難題
經過不懈努力,2018年4月,東芝數字解決方案株式會社在公開競標中成功拿下機器翻譯系統訂單。以實現1年1個月后——2019年5月系統啟動為目標,開始了開發工作。為了達到理想的翻譯效果,公司成立了兩個團隊,分別負責翻譯質量和翻譯速度。
“我們要求的不僅僅是翻譯的質量和速度,價格、成本等方面也必須通過評估。東芝數字解決方案株式會社不只使用最新的NMT翻譯引擎,還構建了完善的引擎支持系統,以確保翻譯引擎穩定運行。
我們對機器翻譯系統提出的要求是:不僅要保證翻譯質量,還必須適用于專利信息平臺。顯然,逐句翻譯無法滿足要求,文章以幾頁為單位傳給機器翻譯系統,由翻譯系統進行文檔分割,再并行進行翻譯。”(目黑)
“一般來說,機器翻譯不擅長翻譯長句,句子越長,需要處理的時間就越多。使用預處理進行長句分割方法,能夠提高翻譯質量。機器翻譯系統首先用RBMT對日語長句結構進行分析,在長句中的意思轉折位置做標記。再將完成分割標記的文檔傳送到NICT的NMT中。這種無縫協作確保了翻譯速度和翻譯質量。”(西本)
在專利文檔中,當一個長句被分成一行一句后,句子之間往往會夾雜一些無用的字符,比如:頁碼等。
機器翻譯長句分割示例
“人工智能目前仍無法合并或分割句子。為了從細節方面提高整體翻譯質量,必須先進行‘文章結構分析’。深入分析文章結構的語言處理工作正需要東芝來完成。”(目黑)
三宅女士回顧項目時說:“毫無疑問,文章結構分析是本項目的重點之一”。比如,在翻譯系統構建過程中,出現了一個奇怪的翻譯結果,就是“Sunrise”(日出)這個單詞,這個單詞與專利內容毫不相干。對此,我們感到非常困惑,經過調查,原因出乎所有人意料。
“專利文件經常遇到下圖這種格式。由于前后兩段緊連在一起,變成了‘日出’這個詞,翻譯引擎順勢將其翻譯成‘Sunrise’。為消除這種錯譯,結構解析時需要進行數百個處理。而且這種錯誤只能通過目視檢查的方式發現。一次分析就需要通讀200多份翻譯文檔,這依靠的是不畏艱辛的精神及巨大的體力投入。”(三宅)
機器翻譯錯誤示例
在科技方面的專利文獻中,還可能會出現化學式和DNA序列。字母和數字羅列是導致誤譯的原因之一。事實上,NMT并不擅長準確翻譯這類字符串,經常會出現“漏譯”和“冗余”(生成無關字符串)的情況。對此,三宅女士等人采用了“無需翻譯”的方式。具體機制是:從輸入的句子中識別出字符串,例如:化學公式和DNA序列等,先使用引擎翻譯字符串以外的部分,然后將翻譯結果與字符串合并,輸出最終的翻譯結果。這樣一來,就避免了NMT特有的錯譯問題。
“與RBMT相比,NMT和SMT的翻譯質量更高,計算量也更大,因此需要更多的處理時間。以往,翻譯專利等長篇文檔至少需要30分鐘。此次開發的翻譯系統是面向瀏覽網頁的用戶,需要提供實時在線翻譯,不能讓用戶在電腦前等待30分鐘。為提高翻譯速度,東芝團隊經過反復試錯、調整,終于達到了滿意的翻譯速度。”(西本)
三、持續優化機器翻譯 開發多語種翻譯系統
2019年5月,東芝推出日英翻譯功能。專利信息平臺(J-PlatPat)正式啟用文檔及日本專利公報的日英翻譯功能。國外專利審查員參考日本審查結果,日本人申請國外專利,翻譯專利參考文件時,都可以使用此項翻譯功能。
“我們進行了多種測試,比如平時不大可能有的大翻譯量的測試,不留任何小瑕疵,最終迎來了正式發布的時刻。剛剛發布后,我們就接到了用戶打來的電話,用戶反饋說:‘這么高的翻譯質量令我十分驚訝’。這種反饋是極為難得的,充分證明了翻譯準確度已得到顯著提升。目前,該項目仍將持續進行中,我們將會進一步提升翻譯質量和系統配置,以便處理更多語種,我非常有信心完成后半程的開發工作。”(目黑)
“難得有機會了解到普通用戶的反饋,我真的非常高興。尤其感謝目黑先生以及專利廳的其他員工,向我們提出了很多寶貴意見。讓我深有感觸的是,專利廳、NICT、東芝數字解決方案株式會社能作為一個團隊,攜手并肩,朝著提高翻譯質量和速度的共同目標,不斷前行。”(三宅)
“目前,我們正在開發中日和韓日翻譯功能,我們的目標是在2020年4月正式發布機器翻譯系統。在翻譯引擎技術方面,我們向NICT的隅田先生反饋各種問題,并及時進行調整,同時,我們的應用程序也在持續改善中。目前,機器翻譯的最終服務模式和理想形態還尚不明朗。我希望借助本項目獲取的知識經驗,開發出能夠滿足政府機關、研究機構、企業翻譯需求的解決方案”(西本)
“東芝開發的機器翻譯系統在對安全性有要求的操作環境下也能正常工作,未來有望向其它領域拓展,比如:政府機關、以及制藥、金融、汽車等安全性要求高行業,而且,這些行業的對譯數據已經非常豐富。NICT表示,希望在高精度引擎技術轉讓方面,繼續與東芝開展合作。”(隅田)
專利廳發布的“全球最快、最高質量”的審查支持系統是NICT和東芝的共同努力的結果,NICT的先進翻譯引擎技術與東芝的自然語言處理技術堪稱完美搭檔。不斷鞏固和發展這種合作伙伴關系,持續開發語言翻譯系統,這讓我們得以窺見機器翻譯的未來。東芝一直致力于創新研發高科技產品,希望與不同行業的尖端科技型企業共同努力,碰撞火花,點亮未來無限可能。