旅游文化法英翻譯資源庫構(gòu)建方法

時(shí)間:2022-12-27 09:17:50

導(dǎo)語:旅游文化法英翻譯資源庫構(gòu)建方法一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

旅游文化法英翻譯資源庫構(gòu)建方法

摘要:對(duì)于我國豐富的旅游資源,傳統(tǒng)的人工翻譯已經(jīng)無法滿足人們的需求,為此,基于機(jī)器學(xué)習(xí)構(gòu)建陜西旅游文化法英翻譯資源庫。確定資源庫的總體架構(gòu)和功能架構(gòu),利用樸素貝葉斯分類算法對(duì)資源訓(xùn)練,根據(jù)計(jì)算得出的文本屬性權(quán)重大小對(duì)資源文本分類劃分,通過機(jī)器學(xué)習(xí)自學(xué)習(xí)過程補(bǔ)充和完善資源庫中的資源屬性,保證資源庫中資源具有較高的準(zhǔn)確性,至此完成資源庫的構(gòu)建。通過性能測試結(jié)果可知,應(yīng)用所提方法后法英翻譯資源庫在忠實(shí)度、流暢度和可理解度方面均有了明顯提升,為旅游翻譯工作者提供了強(qiáng)有力的基礎(chǔ)保障。

關(guān)鍵詞:機(jī)器學(xué)習(xí);法英翻譯資源庫;樸素貝葉斯分類算法;陜西旅游文化;資源訓(xùn)練集

語言溝通是人類交流的主要方式,但是各個(gè)國家和地區(qū)都有其當(dāng)?shù)卣Z言風(fēng)俗,這些差異導(dǎo)致旅游文化對(duì)外輸出[1]遇到了巨大的阻礙。翻譯是打破這個(gè)阻礙最有效的途徑,但是這不僅要求翻譯人員具備專業(yè)的翻譯知識(shí),還需對(duì)當(dāng)?shù)芈糜挝幕Y源具有一定的了解,否則就會(huì)出現(xiàn)景點(diǎn)介紹不到位、文化現(xiàn)象翻譯得不夠傳神等現(xiàn)象。在當(dāng)今信息快速發(fā)展的時(shí)代,人工翻譯顯然不能滿足社會(huì)發(fā)展的需求,相關(guān)學(xué)者開始研究利用機(jī)器翻譯替代人工翻譯,于是構(gòu)建關(guān)于旅游文化的翻譯資源庫,整合經(jīng)過系統(tǒng)處理的高質(zhì)量的翻譯資源[2],如李華勇[3]重點(diǎn)研究了翻譯漢語語料庫TED-CN中構(gòu)筑的語義韻與其在原創(chuàng)漢語語料庫BJKY中構(gòu)筑的語義韻存在顯著性差異,為提高翻譯質(zhì)量提供了參考;嚴(yán)世蕓等[4]構(gòu)建中醫(yī)藥現(xiàn)代知識(shí)體系,確定中醫(yī)藥名詞術(shù)語內(nèi)涵,以推動(dòng)實(shí)現(xiàn)中醫(yī)藥的現(xiàn)代化與對(duì)外傳播。國外學(xué)者提出了一種將連續(xù)詞嵌入與深度學(xué)習(xí)相結(jié)合的并行句子生成方法[5]。引入跨語言語義誘導(dǎo)雙語信號(hào),實(shí)驗(yàn)表明,對(duì)于低資源語言,在缺乏外部資源的情況下,可以取得較好的翻譯效果。陜西西安作為六朝古都和世界四大古都之一,鐘樓、雁塔、兵馬俑、華清池等我國優(yōu)秀歷史文化,高度體現(xiàn)了我國古代勞動(dòng)人民的智慧;關(guān)中盆地地勢平坦、土質(zhì)肥沃、水源豐富,號(hào)稱“八百里秦川”。隨著我國對(duì)外開放的不斷推進(jìn),這些優(yōu)秀的旅游資源也要適應(yīng)跨地區(qū)、跨國家的需求。本研究在機(jī)器學(xué)習(xí)的基礎(chǔ)上,提出了陜西旅游文化法英翻譯資源庫構(gòu)建方法。根據(jù)對(duì)資源庫的設(shè)計(jì)要求和應(yīng)用目標(biāo)分析,明確了資源庫的總體架構(gòu)和功能架構(gòu)。通過構(gòu)建資源訓(xùn)練集,為后續(xù)進(jìn)行分類計(jì)算提供數(shù)據(jù)輸入,利用樸素貝葉斯分類算法對(duì)資源訓(xùn)練集進(jìn)行分類計(jì)算,找出概率值最大的資源文本,并根據(jù)機(jī)器學(xué)習(xí)過程,完成對(duì)資源庫中資源的補(bǔ)充和完善,由此完成資源庫的構(gòu)建。通過性能測試結(jié)果表明,本研究所設(shè)計(jì)方法可保證翻譯的準(zhǔn)確性和流暢性,對(duì)于旅游文化翻譯工作具有較高的參考依據(jù)。

1構(gòu)建陜西旅游文化法英翻譯資源庫

基于機(jī)器學(xué)習(xí)的法英翻譯資源庫,是在機(jī)器學(xué)習(xí)的基礎(chǔ)上,利用自學(xué)習(xí)特性不斷分類處理資源,確保資源庫具有極高的分類準(zhǔn)確性。完善包含法英雙語分詞系統(tǒng)、機(jī)器自學(xué)習(xí)過程、資源訓(xùn)練集和詞庫的分布式并行計(jì)算等主要部分的資源庫。

1.1旅游文化法英翻譯資源庫構(gòu)建需求分析

旅游是一種特殊的跨文化交際類型。這項(xiàng)工作的主題是譯者為了達(dá)到成功的交際而被要求進(jìn)行的干預(yù)程度。他們的任務(wù)不是展示他們?cè)谔囟ㄖ黝}上的知識(shí),而是展示他們的調(diào)節(jié)能力,從而使之適用于與原著所針對(duì)的類型必然不同的旅游者。因此,翻譯人員應(yīng)該學(xué)會(huì)為旅游者提供足夠的信息。同時(shí)譯者在語言和解釋層面的決定在一定程度上會(huì)讓讀者參與其中,從而影響旅游目的地的推廣。國際外宣翻譯工作在城市對(duì)外旅游宣傳中起著非常重要的作用。但是目前對(duì)法英翻譯資源庫中資源分類方案和資源分類訓(xùn)練集的研究較少[6],本研究基于文本分類的思想,將機(jī)器學(xué)習(xí)和樸素貝葉斯分類算法結(jié)合起來建立了資源分類系統(tǒng)。與文本分類思想不同的是,由于旅游文化的翻譯具有不確定性、復(fù)雜性和多變性,這使得本研究構(gòu)建的分類系統(tǒng)應(yīng)具備更強(qiáng)大的分類性能、自學(xué)習(xí)性能和過濾性能,以便更好地適應(yīng)復(fù)雜多變的翻譯內(nèi)容。為了資源庫的穩(wěn)定運(yùn)行,本研究設(shè)計(jì)的資源庫隸屬于分布式并行環(huán)境。該環(huán)境采用分布式并行計(jì)算框架DaSyx,該框架具備較高的計(jì)算性能,為資源庫的穩(wěn)定運(yùn)行提供了強(qiáng)有力的保障。

1.2法英資源庫架構(gòu)

從對(duì)法英資源庫的設(shè)計(jì)目標(biāo)分析,將資源庫的總體架構(gòu)分為預(yù)處理模塊、樸素貝葉斯分類模塊、機(jī)器學(xué)習(xí)模塊、資源訓(xùn)練模塊、DaSyx框架模塊和日志服務(wù)模塊??傮w架構(gòu)構(gòu)成如圖1所示。DaSyx框架在法英資源庫中的主要功能是為資源庫提供分布式并行計(jì)算服務(wù),確保資源庫可以高效、穩(wěn)定地運(yùn)行。從法英資源庫的應(yīng)用目標(biāo)分析,資源庫的功能架構(gòu)主要由機(jī)器學(xué)習(xí)系統(tǒng)、資源訓(xùn)練集、法英分詞系統(tǒng)和樸素貝葉斯分類器4個(gè)部分組成。運(yùn)作流程為法英資源庫獲取到待分類文本[7]后,首先通過法英分詞系統(tǒng)對(duì)文本信息進(jìn)行分詞操作,并將無用信息濾除掉,完成分詞后將結(jié)果傳送至樸素貝葉斯分類器中;分類器通過文本訓(xùn)練集計(jì)算出文本信息的概率值,并將結(jié)果按照從大到小的順序分類,匹配出最大概率值所屬的資源類型;完成匹配后的結(jié)果集通過機(jī)器學(xué)習(xí)系統(tǒng)與初始訓(xùn)練集結(jié)合,共同對(duì)文本的字詞結(jié)構(gòu)和特征權(quán)重不斷進(jìn)行優(yōu)化更新,以保證翻譯的準(zhǔn)確度。資源庫的功能架構(gòu)如圖2所示。將資源訓(xùn)練集分為n個(gè)初始化資源,并以文件夾的形式存儲(chǔ),每個(gè)文件夾中包含所屬該類型的資源文本。不僅如此,資源訓(xùn)練集中還包含著分類計(jì)算所匹配的文本信息和計(jì)算結(jié)果[8],當(dāng)達(dá)到觸發(fā)器設(shè)定的閾值標(biāo)準(zhǔn)后則啟動(dòng)機(jī)器學(xué)習(xí)系統(tǒng),進(jìn)入自學(xué)習(xí)過程。完成自學(xué)習(xí)后,評(píng)估系統(tǒng)自動(dòng)對(duì)自學(xué)習(xí)結(jié)果進(jìn)行測試評(píng)估,只有通過測試后才能被永久保存在初始集中。

1.3構(gòu)建法英資源訓(xùn)練集

法英資源訓(xùn)練集主要包含初始集和擴(kuò)展集[9]兩部分。初始集為初始資源類別,擴(kuò)展集為擴(kuò)展的資源類別。初始集通過機(jī)器學(xué)習(xí)不斷執(zhí)行自學(xué)習(xí)過程,進(jìn)行資源的優(yōu)化和完善,初始集主要用于資源匹配中。擴(kuò)展集是初始集的進(jìn)一步完善和補(bǔ)充,主要對(duì)未定義的資源類別[10]進(jìn)行資源擴(kuò)展。法英資源類別由多個(gè)資源文本構(gòu)成,這些資源文本又同時(shí)構(gòu)成了資源訓(xùn)練集,具體如圖3所示。資源訓(xùn)練集中資源文本均以結(jié)構(gòu)化的方式直接存儲(chǔ)在系統(tǒng)硬盤上,使用時(shí)直接調(diào)用即可。

1.4基于樸素貝葉斯算法的分類運(yùn)算

樸素貝葉斯分類器是在樸素貝葉斯公式的基礎(chǔ)上實(shí)現(xiàn)的分類運(yùn)算。假設(shè)資源庫獲取的待分類文本屬性為X,用特征向量將其表示為X(X1,X2,X3,…,Xj);假設(shè)類別集合為S,已定義的類別集合為Si,用特征向量將其表示為S(S1,S2,S3,…,Si)。把X和Si的特征向量共同輸入樸素貝葉斯分類器中,計(jì)算過程如式(1)(1)式中,P(SiX)表示X屬于Si的概率值;P(XSi)表示如果X不屬于Si,Si中包含X的概率;P(Si)表示X屬于Si的概率值;P(S)表示所有給定資源類別的聯(lián)合概率值。根據(jù)式(1)中S的定義計(jì)算,可知屬于該資源類別的P(S)值為一個(gè)固定值,求解資源類別的過程就是求解max(P1,P2,P3,…,Pt)的過程,由此可將式(1)簡化為式(2)。max[P(SiX)]=max[P(XSi)×P(Si)](2)又因樸素貝葉斯分類算法獨(dú)特的“樸素性”,其特征向量X(X1,X2,X3,…,Xj)均可為獨(dú)立存在的狀態(tài),可以將概率計(jì)算轉(zhuǎn)換為對(duì)每個(gè)文本屬性特征概率分布的乘積計(jì)算,如式(3)。式(6)給出了分類算法輸出結(jié)果為Xj屬于Si的概率值,由此可獲得樸素貝葉斯算法的函數(shù)原型,以此函數(shù)原型為基礎(chǔ)展開的分類計(jì)算可直接用于法英資源庫的構(gòu)建。由于樸素貝葉斯分類算法沒有考慮各個(gè)文本屬性之間的關(guān)系,只是為了提升計(jì)算速度,簡化復(fù)雜的計(jì)算過程。但事實(shí)上,各個(gè)文本屬性之間存在著多種關(guān)系,而且每個(gè)文本屬性對(duì)分類計(jì)算的重要程度也不相同,所以樸素貝葉斯分類算法會(huì)與實(shí)際情況產(chǎn)生一定的偏差。為了將這種誤差控制到最小,本研究采用了基于特征權(quán)重的樸素貝葉斯分類器,對(duì)資源訓(xùn)練集中的每一個(gè)文本屬性都進(jìn)行一次權(quán)重計(jì)算,以便于更好地區(qū)分不同的文本屬性對(duì)分類計(jì)算的重要程度。該方法可以在一定程度上提高算法的分類精度,構(gòu)成如圖4所示?;谔卣鳈?quán)重的樸素貝葉斯分類算法主要由待分類資源文本、樸素貝葉斯分類器、資源翻譯列表和具有TF-UIDF權(quán)重的文本訓(xùn)練集組成。計(jì)算流程如下:資源庫獲取到待分類資源文本后,樸素貝葉斯分類器根據(jù)資源訓(xùn)練集中文本屬性的權(quán)重和數(shù)量,得到資源文本屬于每個(gè)資源類別的概率,并找出概率值最大的資源類別,把待分類的資源文本劃分到該資源類別中。本研究利用增加了TF-UIDF權(quán)重的樸素貝葉斯分類算法,對(duì)文本屬性具有更高的分類準(zhǔn)確性。

1.5基于機(jī)器學(xué)習(xí)的法英翻譯算法

機(jī)器學(xué)習(xí)自學(xué)習(xí)過程主要由評(píng)估系統(tǒng)、觸發(fā)器模塊、貢獻(xiàn)度計(jì)算模塊和文本集維護(hù)模塊4部分共同完成。自學(xué)習(xí)過程如圖5所示。文本集維護(hù)模塊整合了資源訓(xùn)練集和匹配結(jié)果集的所有文本資源,并采用文件鎖的形式存儲(chǔ)資源,保證整個(gè)資源庫資源的完整性。觸發(fā)器模塊作為自學(xué)習(xí)過程的啟動(dòng)模塊,本研究對(duì)該模塊設(shè)定了2個(gè)觸發(fā)條件:匹配結(jié)果集容量觸發(fā)和循環(huán)時(shí)間觸發(fā)模式。貢獻(xiàn)度計(jì)算模塊主要為資源訓(xùn)練集和匹配結(jié)果集中的支持計(jì)算其貢獻(xiàn)度大小。在資源庫中,某個(gè)單詞的貢獻(xiàn)度可以看作為在分類計(jì)算時(shí)的重要程度。評(píng)估系統(tǒng)根據(jù)貢獻(xiàn)度計(jì)算模塊得出的結(jié)果對(duì)自學(xué)習(xí)效果進(jìn)行測試評(píng)估。該系統(tǒng)包含了預(yù)替換過程、效果評(píng)估和確認(rèn)替換3個(gè)模塊。如果測試通過,執(zhí)行預(yù)替換操作,否則不予替換。式中,vc為單詞的詞向量;uo和uw分別為在單詞作中心詞時(shí)使用的向量表征和外部詞語時(shí)使用的向量表征。根據(jù)計(jì)算結(jié)果,將概率值最高的作為翻譯結(jié)果輸出。機(jī)器學(xué)習(xí)的自學(xué)習(xí)過程,是補(bǔ)充和完善的過程,在資源庫中,只有通過不斷的自學(xué)習(xí),才能保證資源庫中的資源具有較高的準(zhǔn)確性,以應(yīng)變復(fù)雜多變的翻譯內(nèi)容。

2性能測試

為了驗(yàn)證本研究所設(shè)計(jì)方法的有效性,對(duì)本研究構(gòu)建的英法翻譯資源庫進(jìn)行性能測試,共有10名外語系專業(yè)學(xué)生參加測試。

2.1測試內(nèi)容

對(duì)采用本研究所設(shè)計(jì)方法和未采用本研究所設(shè)計(jì)方法翻譯的兩種譯文從忠實(shí)度、流暢度和可理解度3方面進(jìn)行打分。忠實(shí)度為評(píng)判譯文是否忠實(shí)地表達(dá)原文意思,分為0—5分5個(gè)等級(jí),打分結(jié)果取小數(shù)點(diǎn)后一位小數(shù)。流暢度為譯文翻譯是否流暢、正宗,分為0—5分5個(gè)等級(jí),打分結(jié)果取小數(shù)點(diǎn)后一位小數(shù)??衫斫舛葹樵u(píng)判學(xué)生(用戶)是否可以理解翻譯后的文章,分為0—5分5個(gè)等級(jí),打分結(jié)果取小數(shù)點(diǎn)后一位小數(shù)。

2.2測試步驟

(1)不采用本研究所設(shè)計(jì)方法,對(duì)陜西旅游文化資源進(jìn)行法英翻譯。(2)采用本研究所設(shè)計(jì)方法翻譯同一篇文章,并對(duì)翻譯后的文章進(jìn)行人工校對(duì),如表1、表2所示的忠實(shí)度、流暢度和可理解度標(biāo)準(zhǔn)對(duì)兩篇譯文進(jìn)行打分。(3)完成測試,統(tǒng)計(jì)打分結(jié)果。2.3測試結(jié)果測試結(jié)果如表3所示。由表3可以看出,雖然本研究構(gòu)建的法英資源庫并沒有得到滿分,存在一定的分類優(yōu)化問題,但是采用本研究所設(shè)計(jì)方法后,在忠實(shí)度、流暢度和可理解度方面均比未采用本研究所設(shè)計(jì)方法前有了明顯提升,均保持在94%以上。

3總結(jié)

旅游文化的翻譯工作和研究受到國內(nèi)外很多學(xué)者的關(guān)注,在進(jìn)行翻譯工作之前,構(gòu)建高效的翻譯資源庫是必不可少的。本研究在理論語言學(xué)的基礎(chǔ)上,結(jié)合機(jī)器學(xué)習(xí),構(gòu)建了陜西旅游文化法英翻譯資源庫,填補(bǔ)了該領(lǐng)域語言翻譯資源庫建設(shè)的空白。將需要檢索的信息輸入資源庫中,就可得到包含檢索關(guān)鍵詞的所有陜西旅游文化法英翻譯的語句和相關(guān)文章,完成對(duì)陜西旅游文化法英翻譯資源庫。翻譯資源庫不僅可以為翻譯工作者提供參考依據(jù),還可以幫助翻譯工作者在翻譯旅游文化資源時(shí)了解特殊的語句結(jié)構(gòu)和語法特征。不僅如此,還可以在本研究構(gòu)建資源庫的基礎(chǔ)上,提高機(jī)器翻譯在旅游翻譯領(lǐng)域的效率。但是,本研究在研究過程中,發(fā)現(xiàn)資源庫還有許多新的問題需要解決,如雙語文本語義和句法標(biāo)注技術(shù)的更新等,將以此為重點(diǎn)進(jìn)行下一步研究,進(jìn)行更深層次的研究工作。

作者:王玉 單位:咸陽師范學(xué)院 外國語學(xué)院