論語言科學與語言技術

時間:2022-12-18 05:07:00

導語:論語言科學與語言技術一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

論語言科學與語言技術

一、“語言科技”新思維的提出

雖然計算機設計的初衷是緣于數(shù)值計算,但是英國數(shù)學家圖靈(a.m.turing)在《機器能思維嗎?》(1950)一文中已經(jīng)預見到計算機和自然語言將結下不解之緣,并且提出檢驗計算機智能的最好方法就是對語言信息的處理能力。1977年,費根鮑姆(feigenbaum)提出知識工程,計算機信息處理出現(xiàn)了從“數(shù)據(jù)世界”向“知識世界”的轉(zhuǎn)移趨勢。知識世界的載體是語言符號系統(tǒng),語言信息處理的需求促使語言研究過程和語言研究成果的技術化趨勢日益明顯,當代語言學已凸顯出“語言科學”與“語言技術”的二分互補格局,由此我在《南京師范大學語言科技系建設發(fā)展規(guī)劃》(2001年2月)中提出“語言科技”的新思維?!罢Z言科學”主要指基礎性的描寫語言學和理論語言學?!罢Z言技術”主要指面向信息處理的應用語言學或計算語言學,其研究任務可劃分為“文本處理技術”和“語言模擬技術”。簡而言之,語言文本處理技術是通過編輯和編程,將印刷文本轉(zhuǎn)化為可供計算機使用的電子文本的技術。語言系統(tǒng)模擬(simulation)或者語言能力仿真(emulation)技術是通過算法和編程,將自然語言的理解和生成能力輸入計算機的技術。獲得語言能力的計算機可以實現(xiàn)“人—機對話”而成為名實相符的“電腦”。為研制智能機服務的“語言系統(tǒng)模擬”,可比喻為“語言基因圖譜分析工程”和“語言能力移植工程”。強調(diào)語言研究的技術化,并非忽視傳統(tǒng)語言學研究存在技術性的一面,例如實驗語音學和方言語音調(diào)查等。之所以以往未能突出語言研究的技術化,其原因在于——除語音研究可借助聲學技術設備以外——語言研究的絕大多數(shù)領域還一直沒有相應的實驗性技術設備。

雖然當代語言學家不可能也不必要都轉(zhuǎn)向計算語言學研究,但具有一定的語言信息處理意識卻非常必要。早在1964年11月,美國科學院語言自動處理咨詢委員會就在《語言與機器》的報告中明確指出:機器翻譯遇到了難以克服的semanticbarrier(義障)。然而這一警告,除了致使機器翻譯研究熱的暫時消退以外,并沒有引起語言學界的足夠重視。1982年,日本制訂了一個為期10年面向ai(人工智能)的“第五代計算機”即智能機的研制計劃,其中包括自然語言處理裝置。1992年結束時,只部分達到了預定目標。隨后又公布了另一個為期10年的“真實世界計算機(rwc)計劃”即“新信息處理技術計劃”。(許萬增1996,p.61-62)據(jù)說,90年代后期日本不得不宣布暫停研制,其根本原因就在于未能穿過語言研究的“瓶頸”。自然語言處理裝置的任務無法實現(xiàn),計算機談何“真實世界”或“人工智能”。時至今日,這一“義障”仍然沒有跨越。在《新世紀將對人類產(chǎn)生重大影響的十大科技趨勢》(新華社北京2000年12月30日電)的報道中,列出21世紀的“認知神經(jīng)科學領域”和“信息技術領域”,并分別提出來“探索意識、思維活動的本質(zhì)”和“計算機向智能化方向發(fā)展”的任務,然而沒有語言科技領域的合作——關鍵是認知語義結構網(wǎng)絡研究的根本性突破——則不可能實現(xiàn)。

無論從手段還是就目標,對準自然語言處理的當代語言學研究,其性質(zhì)都應界定為“語言科技”?!罢Z言科技”的內(nèi)涵是以理論研究為指導,以描寫研究為基礎,以應用研究為樞紐,促使語言研究向計算機應用、數(shù)學、認知科學和現(xiàn)代教育技術領域延伸,溝通文理工相關學科以實現(xiàn)語言研究過程及其成果的技術化;“語言科技”的外延表現(xiàn)為語言工程科技、語言教育科技和語言研究科技。語言學和計算機科學等學科相結合的“語言工程科技”,研究領域是“人—機對話”,其目標主要是自然語言能力的模擬。語言學與現(xiàn)代教育技術相結合的“語言教育科技”,研究領域是“人—人對話”,其主要目標是實現(xiàn)語言教育的多媒體和網(wǎng)絡化。“語言研究科技”是將語言研究活動與計算機工具相結合,其主要目標是實現(xiàn)語言學自身的計算機化,包括語料庫、詞庫和句庫的研制,語言研究的分析性、統(tǒng)計性、比較性和實驗性軟件的開發(fā)等。這一新思維既突出了當代科技發(fā)展所要求的“語言學的技術化”,又體現(xiàn)了以語言學為本而溝通文理工相關學科的研究旨趣。

二、計算語言學的界定要突出技術性

20世紀50年代以后,在理論方法交叉滲透而形成諸多邊緣語言學的同時,語言學與計算機結合的趨勢開始出現(xiàn)。1954年,在美國喬治敦大學所進行的世界上首次機器翻譯試驗,標志著計算機科學與語言學的結合已經(jīng)起步。在這一研究領域,立足于不同的學科視角或知識結構,先后出現(xiàn)了一系列名稱術語,如“語言工程”、“語言工程學”、“自然語言的計算機處理”(工科視角)、“語言信息處理”(信息學視角)、“數(shù)理語言學”(數(shù)學視角)等等。20世紀60年代以后,計算機和語言學的結合逐步深入到語言學的各個領域,形成了包括計算語音學、計算詞匯學、計算語法學、計算語義學等分支學科在內(nèi)的計算語言學(computationallinguistics)。其中“計算語音學”等名詞,雖然計算語言學界沒人提過,因為已經(jīng)存在著“言語識別”、“言語合成”等計算機應用專業(yè)術語,但是從“語言工程學”到“計算語言學”的術語演變中,透露出“語言學立場”在這門交叉學科中的日益強化。雖然目前的計算機運算速度已經(jīng)可以滿足語言信息處理的技術要求,但是之所以“人—機對話”尚未實現(xiàn),其“瓶頸”就在于現(xiàn)有的語言研究成果無法滿足計算機處理的要求。歸根結底,語言信息處理的最終目標就是“計算機模擬語言能力工程”或“語言能力移植計算機工程”。探索語言能力的性質(zhì)和描寫語言系統(tǒng)的結構,這些艱巨性工作還得由語言學家先來完成。語言信息處理或計算語言學務必以語言學為本而以計算機為用。語言學家必須具備“數(shù)字化”意識,了解計算機需要怎樣的語言描寫成果,然后才可能將研究目標對準語言工程。

迄今為止,正如許多發(fā)展中學科一樣,“計算語言學”的定義尚無一致認定,歸納起來蓋有四種觀點(侯敏1999,p.2—p.6):

第一種,計算語言學是以計算機為工具研究語言學。侯敏認為,任何一個學科在使用工具方面都是自由的,使用不同工具研究一個學科會帶來不同特點,但不因為使用了新工具就產(chǎn)生了新學科。雖然并不排除新工具的使用沒有導致新學科的產(chǎn)生,但同樣不能否認工具的變革有可能帶來學科體系的革命,以致于產(chǎn)生新的分支或交叉學科。現(xiàn)代自然科學之所以能夠建立,無疑得益于望遠鏡和顯微鏡的應用,前者打開了人類認知的宏觀世界之門,后者打開了人類認知的微觀世界之門。望遠鏡和顯微鏡帶來的不僅僅是“這一個工具”,而是人類認知方式的巨大變革,從而引起了天文學、生物學等自然科學的一系列革命,產(chǎn)生了一系列新學科。因此,問題在于如何使用新的工具或新認知方式。如果僅僅利用計算機做語言研究的統(tǒng)計工具,也許不會產(chǎn)生新的分支學科,但是利用計算機作為語音分析和合成的工具,則形成了計算語音學。

第二種,計算語言學是把語言學成果應用于計算機。侯敏認為,計算機的應用領域幾乎沒有限度,什么學科的成果都可以在計算機上應用,因此在計算機上應用語言學的研究成果不足以建立新學科。問題不在于在什么學科的成果能在計算機上應用,而在于在計算機上所應用的成果的性質(zhì)。與其他學科研究對象的性質(zhì)迥然不同,語言學科的研究對象——語言——是人類最重要的認知符號系統(tǒng)和知識載體,因此面向信息處理的語言成果應用于計算機足以建立新的學科。以往的語言學研究是面向人際交流,而計算語言學研究是面向人機交流,兩者具有截然不同的性質(zhì)。公務員之家版權所有

第三種,計算語言學是研究語言中的可計算問題。侯敏認為,雖然利用可計算理論研究語言符號是建立了一個新學科,但是這種說法偏于保守,沒有把計算語言學推進語言學發(fā)展的作用充分體現(xiàn)出來。問題在于面向信息處理的計算語言學研究,其顯著特點就是語言的可計算性?!巴七M語言學發(fā)展的作用”這不是計算語言學的定義,強調(diào)“研究語言中的可計算問題”未必保守,反而突出了計算語言學的顯著特點。

第四種,計算語言學是建立基于計算機科學理論的語言學理論。侯敏認為,把計算機科學的基本思想和方法引進語言學領域,不但可以產(chǎn)生許多應用性課題,而且能夠促使研究者從新的角度觀察語言學,建立與傳統(tǒng)語言學不同的理論。因此計算語言學是一種基于計算機科學理論所建立的語言學理論。問題在于:一方面計算語言學需要理論但本質(zhì)上不是一門理論科學,同時并非所有的計算語言學家都樂意或適合從事理論研究,另一方面計算語言學的應用性質(zhì)決定了研究成果的技術性特征,而絕大多數(shù)人可能更適合于——實際上也更需要——語言信息處理的技術性研究。

第一種和第二種是歐洲流行的廣義定義,主張計算語言學是計算機和語言學的交叉,第三種和第四種是盛行于美國的狹義定義,主張計算語言學是計算機科學和語言學的交叉。也就是說,前者僅僅把計算機當成語言學研究中的一種新工具應用,而后者強調(diào)計算機學科的要求和理論對語言學的影響。陳小荷(2001)認為,計算語言學就是以計算機為手段來研究自然語言,較嚴格的定義是“通過建立形式化的計算模型來處理自然語言的一門科學”。要建立形式化的計算模型來處理自然語言,首先要完成適合于計算機使用的自然語言系統(tǒng)的描寫。這一面向“人—機對話”的機用語言系統(tǒng),與以往面向“人—人對話”的日常語法系統(tǒng)不同。因此機用語言系統(tǒng)的描寫應當納入計算語言學的研究范圍,即完成了“機用語言系統(tǒng)”以后,才能“建立形式化的計算模型”使計算機獲得自然語言能力。綜上所論,計算語言學可以定義為——利用計算機作為工具研究語言、研究機用自然語言系統(tǒng)、研究語言系統(tǒng)或語言能力的計算性,同時建構基于計算機應用、數(shù)學模型、認知科學等相關學科基礎之上的語言理論的新學科。姑且圖示如下:

工具性:利用計算機研究語言

計算語言學描寫性:研究機用自然語言系統(tǒng)

技術性:研究語言系統(tǒng)的計算性

理論性:建構新的語言學理論

雖然計算語言學的關鍵任務是研究人機之間的語言交際問題,即“如何教計算機學會說話”。但是從本質(zhì)上來說,研究語言系統(tǒng)或語言能力的可計算性和利用計算機工具來研究語言是相通的,只是前者探索的是適合于人-機對話的語言能力,而后者討論的是適合于人-人對話的語言規(guī)則。

依據(jù)目前的語言研究成果和信息處理技術路線,計算語言學包括應用基礎研究、應用研究和理論研究三個方面。(陳小荷2001)應用基礎研究指語言處理的基本技術研究?,F(xiàn)階段的主要進展是:1.自動分詞技術:這是計算機理解自然語言的第一步。目前漢語書面語自動分詞的正確率達到95%以上。2.詞語特征標注技術:現(xiàn)階段的詞語特征包括詞性和義項,這是句法結構理解的基礎。兩種標注可采用相似的計算模型但后者要復雜得多,目前尚無大規(guī)模的實驗結果報道。3.語句分析技術:句法結構和語義結構是自然語言理解的關鍵技術,目前分析真實文本句子的正確率僅在40%左右。4.語料庫建設技術:語料庫是為特定目的而收集的言語作品集,包括語料處理和檢索。研究語句分析需要存放句法分析樹的“樹庫”,但目前的漢語語料庫加工程度較低,所建立的樹庫很少且規(guī)模不大。5.語言知識庫建設技術:語言知識包括詞匯知識、語法知識和語義知識等,事實性和規(guī)則性知識分別放在機讀詞典和規(guī)則庫中。語句分析技術之所以不能取得突破,主要原因就是目前尚無適合于中文信息處理的大規(guī)模語言知識庫。

應用研究指自然語言處理的應用工具的研制?,F(xiàn)階段的熱點主要有:1.機器翻譯工具:半個多世紀過去了,機器翻譯的質(zhì)量仍然令人失望?,F(xiàn)在通行的是有限范圍翻譯和機器輔助翻譯。2.自動文摘工具:微軟公司的詞處理器word有用于英語的文摘功能,哈工大研制的hit-863i型中文自動文摘系統(tǒng)可按用戶設定的比例壓縮原文。3.自動校對工具:現(xiàn)在存在的主要問題是誤報率過高,并且深層錯誤難以發(fā)現(xiàn)。4.信息檢索工具:有主題詞檢索、全文檢索兩種。前者需要預先有一個主題詞表;后者任意字符串都可成為檢索對象。另外從語料庫中自動獲取各種知識的“信息抽取”在線工具的研究剛剛興起。5.言語識別和言語合成工具:言語識別(或語音識別)可分為詞語識別(計算機口語命令)、有限詞匯識別(電話訂票)和無限詞匯識別(將成段說話轉(zhuǎn)為文字)。言語合成(或語音合成)指用計算機將書面語轉(zhuǎn)換為口語即“文語轉(zhuǎn)換”,存在的問題主要是斷詞不當且語調(diào)刻板,仿真度亟待提高。

然而,如果以為應用性特征明顯的計算語言學僅僅是技術,則未免失之于偏頗。計算語言學有著相應的理論研究,大致包括人工智能理論(含計算模型理論。目前的人工智能研究,主要還是集中在人工體能、人工技能。在語言能力移植電腦過程未取得實質(zhì)性進展以前,還談不上真正的人工智能)和語言學理論兩個方面。例如計算機如何或是否可以模擬人腦和語言能力,如何尋找合適的語言計算模型等,就是計算語言學家特別關心的理論問題。除此之外,還有對自然語言本質(zhì)屬性的重新認定、面向信息處理的機用語法學理論、語言系統(tǒng)與數(shù)學模型的關系、語言結構和數(shù)理邏輯的關系、語言符號的數(shù)字化可能性及其局限性、語言的異質(zhì)性和受限性或語域理論、元語言理論和研究方法等一系列問題??傮w而言,一方面,由于牽涉的學科太多,計算語言學的理論研究還相當薄弱,另一方面,與科技發(fā)展息息相關的計算語言學不容過多地沉醉于理論探索。計算語言學的強大發(fā)展動力植根于鮮明的應用性,必須通過實踐推動理論探索。

三、語言系統(tǒng)的計算機模式化要求

從語言學家的立場出發(fā),語言系統(tǒng)的計算機模式化要求,就是要了解計算機需要怎樣的語言描寫成果,傳統(tǒng)語言學(此處指非面向語言信息處理的語言學)的研究是經(jīng)驗描寫解釋型,而計算語言學的研究是實驗操作技術型,自然語言系統(tǒng)要能進行操作技術化處理,首先必須實現(xiàn)語言的計算機模式化。馮志偉(1999,p.215)認為自然語言處理一般應經(jīng)過三個過程:1.形式化,將所研究的自然語言問題以一定的數(shù)學形式表示出來;2.算法化,把自然語言的數(shù)學形式轉(zhuǎn)換為算法形式;3.程序化,根據(jù)自然語言的算法形式編寫計算機程序。侯敏(1999,p.30)認為語言系統(tǒng)的形式化或計算機模式化必須滿足三個要求:1.高度抽象化,即從語言現(xiàn)象中抽象出一般規(guī)則;2.元語言的形式化,即采取形式邏輯、數(shù)學公式、程序語言等形式語言作為元語言;3.運用過程的嚴密化,即運用過程必須具有數(shù)學與邏輯的嚴密性。

袁毓林(1993)認為形式語言至少具有三個特點:基本單元的明確性、基本運算和基本關系的明確性、運算優(yōu)先級別的明確性,但是自然語言在這三方面皆不明確。具體而言,1.語法范疇的邊界不明,例如語素、詞和詞組之間、詞類之間的界限不明;2.結構關系難以定義,通常所說的結構關系,如主謂、動賓等往往很難明確界定;3.層次關系不外顯,人們通常根據(jù)語感和語境等來識別結構層次。侯敏(1999,p.36—40)不贊同這種分析,針鋒相對地提出:1.可以根據(jù)實際需要或應用目的來確立詞項或劃分詞類;2.結構關系分析需要深入到語義平面;3.形式語法已經(jīng)給出了體現(xiàn)層次的結構樹,在分析歧義結構中可加入語義限制,至于有些連人都解決不了的層次歧義結構也不必要求計算機解決。侯敏的觀點是“理論追求的是完美,工程追求的是適用”,避開理論困難而采取工程方法,可以建立一個語言分析的近似模型。

所謂“語法范疇的邊界不明”,主要是因為這些“范疇”的設置從某種程度上肢解了語言事實;所謂“結構關系難以定義”,主要是因為這些“結構”難以反映語言的本質(zhì)結構;而所謂“層次關系不外顯”,恰恰是語言結構的特點之一。這些探索和爭論,實際上反映了三個根本性的問題:1.漢語結構語法學中長期存在的一些困擾,不僅是套用西方語法學框架框范漢語事實所產(chǎn)生的齟齬,而且也是語形語法學自身無法克服的固有問題。幾千年來的西方語形語法學研究之所以能夠存在,就是因為人腦在發(fā)育過程中逐步自建構了與認知能力協(xié)同發(fā)展的語義結構網(wǎng)絡,為語形語法規(guī)則提供了語義選擇清單與路徑。雖然這些語形語法規(guī)則在人際交流中可以使用,但是在語言能力的計算機移植中卻頓時陷入困境,因為計算機不存在語義網(wǎng)絡結構的自建構功能,缺少語義激活路徑。根據(jù)語形語法規(guī)則,計算機造出來的符合自然語句標準的概率極低,多為與對象世界不存在一致性的隨機詞語串。2.計算語言學所要求的自然語言的形式化,是基于計算機運算模式的語言研究成果。移植進計算機的“定域受限語言系統(tǒng)”和自然語言系統(tǒng)并不完全相等,嚴格說來,只是一種接近自然語言的計算機模式化符號系統(tǒng)。3.計算語言學的理論和方法,必須建立在語言的本質(zhì)共性語義性和和計算機數(shù)字化運算模式的基礎之上。如果對人類語言的認知語義性沒有足夠的認識,依然安居于語形語法窠臼而遲遲未能建構語義結構網(wǎng)絡,語言信息處理的目標則不可能實現(xiàn)。

中國信息科學界有一種看法,計算機對于形態(tài)結構的印歐語言處理具有良好的支撐能力,而對中文信息處理則不然(陳力為2000)。之所以計算機對印歐語文信息處理具有良好的支撐能力,是因為印歐語文結構類型便于建立計算機處理模型。從歷史上來看,谷登堡印刷術和打字機鍵盤都是基于字母的簡約性而發(fā)明的。一方面,字母系統(tǒng)的符號簡約性便于進行數(shù)據(jù)化處理,漢字符號的繁復性難以進行數(shù)據(jù)化處理;另一方面,印歐語的形態(tài)變化為形式化提供了識別標志,而漢語的孤立結構卻沒有明顯的標志。依據(jù)現(xiàn)在的計算機處理模型,漢字的繁復性和漢語的非形態(tài)性必然導致中文信息處理中存在一些特殊問題:1.中文信息處理的第一個“瓶頸”。漢語的常用漢字數(shù)量繁多,漢字需要解決鍵盤輸入、內(nèi)部代碼、漢字識別和顯示、程序語言的數(shù)據(jù)類型、數(shù)據(jù)庫的排序和檢索等一系列問題。2.中文信息處理的第二個“瓶頸”。印歐書面語采取詞分寫形式,而漢語書面語采取單字連寫形式。由于采用西方詞法學框架,因此必須研制自動分詞技術。假定考慮以“字”和“字義塊”等作為漢語的結構單位,自動分詞技術將相應改為“字義塊”切分技術。3.印歐語的同音詞較少,而漢語的同音字較多,同義詞和量詞也十分豐富,這些都給中文信息處理帶來必須解決的難題。4.印歐語可以借助實詞的形態(tài)變化即在詞法層面上進行處理,漢語只有在句法和語義層面上進行處理,需要把語序和虛字的語法信息歸納出來再讓計算機掌握。5.印歐語的句子結構是以動詞性詞語為核心的“主—謂”結構,而漢語的句子結構是以體詞性詞語為核心的“話題—說明”結構。印歐語的句子結構劃一而句界分明,漢語的句子結構多樣、成分缺省并且前后句義纏綿。

如果說語言系統(tǒng)是一座“冰山”,那么以上這些語言信息處理中遇到的難題還都是語言系統(tǒng)浮在海水上面的那一小部分,真正的障礙是隱沒在海水下面的那一大部分。無論哪一種結構類型的自然語言系統(tǒng)的計算機模擬,包括形態(tài)語言,遲早會無可避免地碰撞上堅硬實在而又難以捉摸的“語義結構”。語言研究需要敢于在冰海下持續(xù)探索“語義結構”的潛水員。從自然語言系統(tǒng)來說,要讓計算機理解語言通常認為必須使電腦能夠解決三個問題:1.消除自然語言的一詞多義;2.揭示自然語言的潛在意義;3.掌握自然語言的聯(lián)想推理。這些問題都離不開語義分析,而語義分析技術尚處于探索階段。(侯敏1999,p.247)對于第一個問題,一詞多義可給出不同義項的清單。對于第二個問題,給出每一義項的顯性和潛性語義特征清單。對于第三個問題,給出義項或義場之間的語義關聯(lián)模式。由此可見,必須在以往的經(jīng)驗語感法和先驗演繹法基礎上,引進實驗歸納法和結構優(yōu)化法,消除語義“泥潭”情結,潛心于冰海中的語義“冰山”,才能逐步建構造語義結構網(wǎng)絡。

就世界各種語言來說,語言的計算機理解的深層次難點可能還在于:1.至今尚未揭示出人類理解語言的機制,計算機只能局部模擬自然語言理解的某些簡單過程;2.至今尚未完成人類理解語言所憑借的知識系統(tǒng),建立人類進行語言表達的完整理論,計算機尚無從掌握人類語言的知識系統(tǒng)以及語言表達機制;3.至今尚未對人類語言所兼具的規(guī)則性和離散性、精確性和模糊性做出定量和定性的系統(tǒng)分析,計算機尚無從掌握語言系統(tǒng)的復雜性和語言使用的隨機性。(傅永和1999,p.238—239)既然語言的理解和表達是一個以知識系統(tǒng)為基礎的綜合性行為,因此語言系統(tǒng)的計算機模擬必須進行跨學科的研究,特別需要語言學、計算機科學、數(shù)學和認知科學以及百科知識學者的合作。與側重于面對自然人語言學習的語形語法學不同,如果面向語言信息處理,那么就需要以計算機智能模式來重新確定語言學的理論基礎、研究重點和研究方法。

面向自然語言處理的計算語言學理論基礎,目前主要有基于語言規(guī)則性的理性主義理論(即先驗主義)和基于語言隨機性的經(jīng)驗主義理論。依據(jù)理性主義的語言學理論主要有:短語結構語法(psg)、擴充轉(zhuǎn)移網(wǎng)絡(atn)、配價語法(vg)、格語法(cg)、范疇語法(cg)、概念從屬理論(cd)、多叉多標記樹形圖分析法(mmt)、詞匯功能語法(lfg)和蒙塔古語法(mg)等。這些理論和方法,因為從“理性”出發(fā),因此不可能反映以感受性為基礎的自然語言的真實面貌,其缺失已經(jīng)日益明顯。為了克服理性主義理論的不足,采取經(jīng)驗主義理論處理大規(guī)模真實文本的語料庫語言學應運而生。在收集語言資源或建立語料庫的基礎上,運用統(tǒng)計方法進行語言信息處理,語言交際過程的隨機性由此得到關注。面對傳統(tǒng)語形語法學對自然語言過程的不相適應和語義研究的復雜性,甚至有人嘗試撇開語言學家的語言研究,以借助語料庫逐步實現(xiàn)自然語言系統(tǒng)模擬。雖然借助語料庫可以解決語言信息處理的一些問題,但是僅僅依賴語料庫實現(xiàn)自然語言系統(tǒng)模擬注定此路不通。因為自然語言不是一個語料倉庫,而是一個語義和語形復合性結構系統(tǒng)。無論是理性主義還是經(jīng)驗主義,都必須意識到:語言信息處理中所處理的是定域受限語言。這一研究的理論基礎既不應是純粹基于語言規(guī)則性的理性主義,也不應是完全依賴語言隨機性的經(jīng)驗主義,而應是突出語言受限性的實驗主義。世界語言學的發(fā)展經(jīng)歷了從經(jīng)驗科學到先驗科學的漫長過程,計算機的發(fā)明必將促使當代語言學成為一門實驗科學。強調(diào)計算語言學的實驗主義,并非一概否定理性主義和經(jīng)驗主義,而是要在實驗主義的基礎上運用理性和經(jīng)驗的理論方法。

自然語言處理的語言理論,目前主要有基于語形的語言理解系統(tǒng)和基于語義的語言理解系統(tǒng)。前者是以語形語法研究的成果為出發(fā)點,從句法形式入手;后者是以語義研究的成果為出發(fā)點,從語義關系入手。兩種理解系統(tǒng)在文本輸入、預處理和自動分詞等早期環(huán)節(jié)上基本相同,不同的是基于語形的理解系統(tǒng)先進行詞法和句法分析,后進行語義和語用分析,基于語義的理解系統(tǒng)先進行語義分析和語義結構生成,后進行目標語的形式組合。生成語義學認為句子的句法特點取決于語義,語義部分才具有生成能力。認知語義學把意義看作一個植根于知識網(wǎng)絡和信仰系統(tǒng)中的認知結構,理解一個語言形式的意義必須激發(fā)相關認知領域中的其他認知結構。既然語形結構只是語義結構的表層投影,既然基于語義的理解系統(tǒng)才符合語言的生成機制,既然語義處理才是語言信息處理的關鍵,那么只有基于語義的理解系統(tǒng)才能滿足計算機對自然語言的理解和生成。

李葆嘉:論語言科學與語言技術(下)

四、人腦語言和電腦語言的性質(zhì)異同

根據(jù)與“人腦語言學”的對應關系,計算語言學也可以稱之為“電腦語言學”。從人腦角度出發(fā),電腦語言學的研究是將人腦語言系統(tǒng)移植電腦工具的電子工程;從電腦角度出發(fā),電腦語言學是電腦程序模擬人腦語言能力的仿生工程。

不管是系統(tǒng)移植還是能力仿生,首先必須認識到人腦和電腦的異同。1.構造機制的不同:人腦是生物神經(jīng)系統(tǒng),具有生物認知機制,而電腦是電子計算系統(tǒng),具有電子運算程序。2.伴隨情感的有無:人腦具有驅(qū)動感覺、思維和表達進行的情感性,而電腦只具有執(zhí)行程序運算的機械性。3.經(jīng)驗基礎的有無:人腦具有以感受性為特征的經(jīng)驗基礎以及知識系統(tǒng),而電腦即使配備了一定的知識背景,也不可能具有人腦一樣的認知經(jīng)驗基礎。4.認知理性的異同:人腦的感受和認知可以區(qū)別為非語言層次和語言符號層次,非語言層次包括直覺和感覺,語言符號層次包括知覺(游移性印象)、象覺(清晰性意象)和統(tǒng)覺(邏輯性抽象)。電腦的認知理性只能夠定位于語言符號的象覺和統(tǒng)覺層次,難以具備豐富的認知層級系統(tǒng)。5.交流對象的異同:人腦的交流對象分別為對象世界和人際關系之間,具有交流的二重性;而電腦的交流對象只有執(zhí)行程序的人或“人—機對話”的一重性,所謂“機—機對話”的實質(zhì)仍然是“人—機對話”的連網(wǎng),互聯(lián)網(wǎng)交流仍然是執(zhí)行者之間的交流。由于計算機永遠不可能直接認知人所面對的對象世界,必須以人類的認知為中介,因此計算機永遠不可能超越人類的智慧,計算機統(tǒng)治人類世界永遠是一種不必要的擔憂。

其次,必須認識人腦語言系統(tǒng)和電腦語言系統(tǒng)的差別。人腦語法或自然語言法則是在歷史上逐步形成的,具有隨機性、規(guī)約性、類推性和耗散性特點;而電腦語法或機用語言法則只是自然語法的再抽象化和再規(guī)范化,具有受限性、是否性、程序性和封閉性的特點。即使將來研究出適合于語言信息處理的機用語法,也不等同于自然語法。電腦所能獲得的語言能力,只是自然語言的一部分或有限語言能力。因此,移植進電腦的語言系統(tǒng)必須進行界定:1.定域化語言:因為人腦語言是一個可以分為不同語域的復合性層級系統(tǒng),所以必須首先確定電腦語言與人腦語言的對應層級,最佳選擇就是規(guī)范性的日常語域。2.受限化語言:只能采取有限網(wǎng)絡模式,才能將自然語言裁剪成適合計算機運算模式的機用語言。3.形式化語言:必須將定域受限語言的語義結構和語形規(guī)則分別形式化。4.算法化語言:借助一定的數(shù)學模型,將形式化語義和語形系統(tǒng)數(shù)字化。5.編程化語言:依據(jù)一定的程序語言,將數(shù)字化語義和語形系統(tǒng)編程化。

語言信息處理的目標,就是在受限性語言層面上逐步實現(xiàn)人—機對話。歸根結底,自然語法≠電腦語法,電腦語言系統(tǒng)是通過建立形式化的計算模型進行處理的定域自然語言系統(tǒng)。電腦的運算速度可以遠遠超過人腦的思維速度,但是電腦不可能具備人的能動性認知行為。語形語法學面對是人—人對話,人們在語言習得過程中不知不覺地形成了建立在認知能力之上的語義結構網(wǎng)絡,為語形語法規(guī)則提供了一份語義可選性清單。語言信息處理面對的是人—機對話,而語言“白板”的計算機并不具備這份語義可選性清單。語形語法規(guī)則,在教計算機如何說話的過程中頓時陷入困境。幾千年來的西方語法學之所以能夠延續(xù)下來,全賴人們具有基于認知能力的語義結構網(wǎng)絡的自建構功能。反之,正是這一語義結構網(wǎng)絡的存在,致使以往的語言學家誤以為語形語法就是語法的全部或主要,而將語義結構法則長期放逐出語法學領域。

自然語言系統(tǒng)的計算機處理對西方具有兩千多年傳統(tǒng)的語形語法學提出了根本性的挑戰(zhàn),也為東西方語言學的合流帶來了新的契機?;仡?0世紀東西方語言學合流的歷程,之所以出現(xiàn)西方語法學框架和漢語事實的錯位,是因為合流基點的選擇陷入誤區(qū)。西語具有豐富的語形結構(這里指形態(tài)變化)而漢語基本沒有(漢語主要依靠語序、虛詞、韻律和語氣,另外對語境或語用具有極大依賴性)。選擇建立在形態(tài)變化基礎上的西方語法學框架作為合流的基點,必然導致這一過程的曲折。反思的結果顯示,東西方語言學合流的基點應當是建立在人類語言所共有的語義結構基礎上的語義語法學理論。隨著對語言能力研究的進一步深入和語言信息處理對傳統(tǒng)語言學的挑戰(zhàn),傳統(tǒng)語義研究在新的形勢下得以復活。隨著世界語言學從20世紀60年代以來出現(xiàn)了從語形研究向語義研究的轉(zhuǎn)移,東西方語言學研究的合流將在新的基點上逐步實現(xiàn)。

五、面向語言系統(tǒng)模擬的語義語法學

盡管喬姆斯基理論認識到語言形式化的重要性,但生成語義學才是語言研究本體的轉(zhuǎn)向。雖然配價語法和格語法的引進和對漢語語法意合性的認定,促使語義句法研究成為當代中國語法學界的熱點,但迄今為止,中文信息處理應用系統(tǒng)自覺而全面地運用語義研究成果的鮮見。這一現(xiàn)狀的表象似乎是語義研究成果不多,其根源卻在于沒有徹底認識到——必須從人類(不限于印歐族群)普通(不限于歐洲唯理主義)語法(不限于形態(tài)語言)的高度,來解決語言理論和研究方法的創(chuàng)新。無論是語言信息處理,還是語言機制揭示,漢語研究都需要既能反映漢語個性又植根于人類語言共性的原創(chuàng)理論。

人類的認知表現(xiàn)為對象世界的符號化(認知對象的符號化形成語義單元)、范疇化(語義單元的范疇化形成語義類別)和關聯(lián)化(語義類別的關聯(lián)化形成語義結構)。西方語言中的詞法范疇原型是先民通過語音形式所表現(xiàn)出來的認知范疇或語義類別。語言的形態(tài)標記性、單位分布性和結構層次性都是語義類別關聯(lián)化在表達層面的投影或者制約。一方面,隨著人們認知的發(fā)展,反映原始認知足跡的形態(tài)范疇(如原始生物觀的“性”、原始計算法的“數(shù)”)的價值日益消解;另一方面,隨著語言系統(tǒng)的演化,表現(xiàn)原始認知足跡的語法手段又不可避免地合并、弱化和喪失。語序、功能詞等手段的補償,導致語言結構類型從綜合型向分析型方向嬗變。這一過程證明,原始詞法范疇在句法結構中并不具有充分必要性。一種語言可以沒有詞法形態(tài)變化,但不可能沒有語義結構規(guī)則。不同的自然語言之間之所以可能互譯,其基礎就是存在可互通性語義,盡管結構類型迥然不同。(李葆嘉2001)

由此可見,人類語言的本質(zhì)屬性是語義性,其他屬性都是語義性的派生。人類語言的共性可以概括為:在人類感知對象世界的過程中,神經(jīng)機制依據(jù)象似性模式促使對象世界語符化,音義一體化的語符具有實體性和范疇性,由此組成的語義結構具有語境性和關聯(lián)性,語義結構的語境性表現(xiàn)為語用、語義結構的關聯(lián)性投影為語形,而語義結構模式具有生成性。圖示如下:

神經(jīng)機制語義實體語境-語用性

象似性認知過程語符語義結構生成性

對象世界語音范疇關聯(lián)-語形性

在自然語言能力移植工程中,計算機需要的是具有語言本質(zhì)共性的語義結構網(wǎng)絡,由此有必要首先建構語義語法學。所謂“語義語法學”不是“語義+語法的學”,而是以語義為研究對象的語法學。把語義結構的表層投影——語形作為語法研究的純正對象,有悖于語言結構的真實本體。喬姆斯基試圖在語形結構進行數(shù)理化描寫的基礎上,建構反映語言能力的生成語法體系勢必捉襟見肘。這一初始思路必然導致“拋開語義——深層語義——語義解釋——邏輯表達——邏輯式”這樣的“不斷革命”。雖然喬姆斯基強調(diào)語言研究的目的在于揭示語言天賦,但依據(jù)其理論思路:普遍語法(研究對象)——語言能力(哲學基礎)——自然主義(學科性質(zhì))——數(shù)學方法(方法借鑒)——符號描寫(形式載體)——形式語法(研究成果),顯然缺少人類天賦中最關鍵的認知性語義能力這一環(huán)節(jié)。完全排斥語義的經(jīng)典理論階段,其句法結構規(guī)則必然導致生成出一批語言事實中并不存在的語符串。即使在不得不引進語義解釋的標準理論階段,也沒有放棄把形式結構作為句法生成的基礎規(guī)則。然而,任何脫離語義的語法形式化注定流產(chǎn),不可能達到揭示語言生成機制或普遍語法的目標。

如果說語義語法學的語言觀強調(diào)人類語言的本質(zhì)共性是語義性,那么語義語法學的語法觀則突出語義結構是語法的主要研究對象。在歐洲傳統(tǒng)語文學中,“語法”主要指基于形態(tài)變化的詞法和句法規(guī)則。在歷史比較語言學時代,“語法”包括語音法則,因此才有“青年語法學派”之稱。20世紀的結構主義和描寫主義促使“語法”研究的對象日益窄化。依據(jù)語言是音義符號系統(tǒng)這一論斷,所謂“語法”即語言結構之法,當包括語音結構法和語義結構法。在語言系統(tǒng)的第一次劃分中沒有通常所說的“語法”即語形結構法的位置。語形結構是語義結構的表層投射或制約,語形結構法依附于語義結構法。語言系統(tǒng)的音義二分以及相關研究學科,圖示如下:

語音分析(生理語音學、物理語音學)

自然語音解析

語言(語音學)語音結構(音位系統(tǒng)學、語流節(jié)律學)

符號語形結構(語形語法學)

系統(tǒng)語義投影聚合性義場(詞類)

(語義學)語義結構(語義語法學)

組合性義場(句模)

以往的“語音、詞匯、語法”三分法,迷糊了研究者的視線。雖然語形語法研究在語言交際和語言教學中具有一定或者相當用途,但是從研究角度而言,卻避開了關鍵的語義結構法則。

人類認知的本質(zhì)是對世界圖式的語義符號化,人所認識的世界就是存在于語言符號系統(tǒng)中的世界。語義結構網(wǎng)絡表現(xiàn)為“實體范疇化”(聚合性義場)和“關系模式化”(組合性義場)的相互交錯。廣義語義不僅包括實體范疇化的詞匯語義和關系模式化的結構語義,而且包括語境范疇化的語用語義。語法的真實本體或語法研究的切實對象應當是語義范疇及其關聯(lián)模式。結構語法和生成語言的不同之處,在于前者強調(diào)“語言系統(tǒng)”,而后者強調(diào)“語言能力”,但其共通之處卻在于皆以語義結構的虛象——語形作為研究實相,始終游離于語法真實本體之外。依據(jù)語形語法學的有限范疇和簡略框架(詞類劃分、語形成分、短語結構、句子成分等),既難以深入分析句法結構,更不可能有效駕馭語言結構的生成機制。從表達來說,語義編碼是一切語言編碼的基礎,要揭示語言的奧秘必須從語義入手。語形型語言(并非只有語形,而是語形隱含或遮蔽了語義語法)和語義型語言(并非沒有語法,而是沒有形態(tài)變化語法)的研究基礎,都應是語符的語義性。語義語法學的語法觀突出語義結構,表面上突出漢語的個性特征,實質(zhì)上受制于人類語言的本質(zhì)共性。關于語形型語言和語義型語言的大致異同,圖示如下:

語形型語言:形態(tài)手段

語義范疇——語義網(wǎng)絡(知識世界)——元語言(日常認知)

語義型語言:非形態(tài)手段公務員之家版權所有

人類的語言符號系統(tǒng),本質(zhì)上是一個意義隱喻系統(tǒng)。作為人類認知基本能力的隱喻,其更深層次是源于動物性感受的模仿(基于事物的相似性)與借代(基于事物的相關性)這兩種認知能力。關于語言符號系統(tǒng)的形成大致流程,圖示如下:

神經(jīng)機制情緒模式

認知機制具體感受元語言(日常認知)——語義網(wǎng)絡(知識世界)

對象世界經(jīng)驗框架

西方語法學源于古希臘的“語言·哲學·邏輯”混沌母體,西方哲人的邏輯研究基于思辯性語言活動。因為邏輯的基本單位是概念和命題,因此人們往往把注重語義的語法研究混同于邏輯的研究。漢語實詞的義類劃分不是根據(jù)邏輯意義,而是借助日常語義;漢語句讀之間的語法關系不是根據(jù)邏輯關系,而是遵循事理關系。雖然邏輯規(guī)則是語法規(guī)則的部分再抽象化,但泛邏輯主義卻致使人們誤以為語法規(guī)則都可以邏輯化。自然語言首先具有本能傳情性和日常認知性,語言結構法則主要依據(jù)廣泛存在于日常生活中的事理關系。這一事理關系包括:時序先后性、空間位置性、主觀因果性、主觀目的性和評估好惡性等等。不是日常語法以思辯邏輯為基礎,而是思辯邏輯以日常語法為基礎。同樣,雖然可以借用數(shù)理符號轉(zhuǎn)寫具有算法性的語言結構法則,但不可把語言法則混同于數(shù)理邏輯規(guī)則。

語義語法學的技術路線,是從建構現(xiàn)代漢語元語言系統(tǒng)到建構現(xiàn)代漢語語義網(wǎng)絡。雖然自然語言信息處理依賴于語義結構的形式化,但是一些語言學家往往視語義研究成果為“非語法”,并且對其形式化的可能性持懷疑態(tài)度。一方面語義單元不具備語形變化的顯著標記,而包含較多的意會性;另一方面語義單元并非沒有范疇標準,也具有感受或認知的一致性。所謂語義的客觀性和主觀性就是語義的集體認同性和個人聯(lián)想性,其本質(zhì)是個體使用的“素單位”和集體認同的“位單位”之間的矛盾。語義語法學的研究對象首先是具有集體認同性的“義位”(標準體),然后才有可能是僅具個人使用性的“義素”(義位變體)。盡管語義單元或語元數(shù)量眾多,語義結構關系復雜,但它們以潛在的元語言系統(tǒng)為基礎。語義結構網(wǎng)絡由語元實體和語義關系組成。同類語元之間具有聚合性語義關系,異類語元之間具有組合性語義關系。換而言之,每一語元都具有兩種互相制約著的語義關系,一是同一義場內(nèi)的各個“義位”之間的“義征”(語義特征)異同,一是不同義場的“義位”之間的“義聯(lián)”(語義關聯(lián))異同。由此,可以依據(jù)義征和義聯(lián)的異同而建立聚合性義位系統(tǒng)和組合性義聯(lián)系統(tǒng),在兩者基礎上在編織語義結構網(wǎng)絡。句法結構的形式化應當是語義結構的形式化,而語義結構的形式化就是義場關聯(lián)模式。

現(xiàn)代漢語語義語法的基礎研究是建立“現(xiàn)代漢語元語言系統(tǒng)”,這一研究可比喻為“語言基因圖譜分析工程”。其研究思路是:首先歸納出現(xiàn)代漢語詞典中用于釋義的最低限量詞匯,以建構釋義元語言系統(tǒng);其次依據(jù)日常語言交際和語言教學中的用詞,參照釋義元語言以建立詞匯元語言系統(tǒng);再次抽象出義征范疇以建立析義元語言系統(tǒng),完成語義標記集。在以上成果基礎上,一方面可以結合認知心理學和神經(jīng)語言學的成果進一步研究認知元語言系統(tǒng),另一方面可以依據(jù)語言信息處理的要求,建立機用元語言系統(tǒng)。(李葆嘉等2002)

在現(xiàn)代漢語元語言系統(tǒng)這一基礎性工作完成以后,才可以逐步建構現(xiàn)代漢語語義結構網(wǎng)絡。研究程序和主要方法大致如下:1.義征對比法。依據(jù)有限網(wǎng)絡模型,借助析義元語言系統(tǒng)對義元進行形式化描寫即標注義征。給出義元在義場內(nèi)的語義特征,其目標是建構聚合性義場。2.義聯(lián)配比法。依據(jù)有限網(wǎng)絡模式,對語義符號的配比關系進行形式化描寫即標注義聯(lián),在分析和描寫過程中歸納出關聯(lián)性元語言系統(tǒng)和語義結構關聯(lián)框架。語義句法的本質(zhì)是相關義場之間的配比,因此義聯(lián)標記體現(xiàn)著義場配比。給出義場之間的語義選擇或語義制約規(guī)則,其目標是建立組合性義場。3.語形標記法。漢語具有詞序、虛詞和韻律等形式手段。韻律手段屬于語音句法,可姑且不論。漢語的語形大致可以概括為兩種:附著在詞或詞組上的詞語級語形是完構成分;附著在句干上的句子級語形是完句成分。在進行漢語語形范疇化研究的同時,尋找語義關聯(lián)和語形成分之間的對應性,然后對語形系統(tǒng)進行層級性形式化描寫。4.合成建構法。在義征、義聯(lián)和語形研究成果的基礎上,通過相關標記的合成以建構語義結構句模系統(tǒng)。

“語言能力移植工程”的語言學部分主要是語義結構網(wǎng)絡研究。通過建立形式化的計算模型,可以將語義結構網(wǎng)絡進一步形式化、算法化和程序化。語義語法系統(tǒng)研究的每一結果,都可以也應當用計算機操作作為驗證。以往的語法學研究,除了執(zhí)著于語形研究以外,還有一個根本性的缺憾,就是不具備自然科學研究中的實驗手段,因此難免經(jīng)驗性、臆斷性和游移性等。采取計算機作為研究和驗證手段,從而使語法研究具有鮮明的技術性和可證偽性。人們常說,只有學會一門外語,人們才真正了解自己的母語。與此同理,只有計算機掌握了自然語言,人類才深入揭示出自然語言的奧秘。換而言之,根據(jù)語言學習對象的不同,可能存在三種教學語法:一種是母語教學語法(著重于語形語法,因為人類對語義結構網(wǎng)絡和語言知識庫具有自建構能力),一種是對外語言教學語法(需要在語形語法的基礎上增加與語言理解相關的社會文化知識,因為不同語言的語義結構網(wǎng)絡具有不同的文化性),一種是計算機模擬語言能力的語法(需要語義語法和語言知識庫,因為計算機不具備語義結構網(wǎng)絡自建構能力以及與語言理解相關的知識系統(tǒng)的自學習能力)。也只有揭示出語義結構網(wǎng)絡,語法學研究才能夠在語形語法研究的基礎上取得全面突破,語法形式、語形語法意義和語義語法意義,才能夠全面貫通。

盡管語義研究及其形式化相當困難,但是在語義語法學理論的指導下,根據(jù)定域(語言定域)、定量(詞語定量)、定性(義元定性)、定式(義聯(lián)定式)的“四定”原則逐層實施,自然語言的理解與生成有可能在單句模式系統(tǒng)中首先實現(xiàn)。只要對語言本質(zhì)的探索和人腦語言移植電腦的目標不變,就必須穿越語義研究的沼澤地。如果說20世紀是語形語法學的世紀,那么可以預言21世紀將是語義語法學的世紀。

六、語言科技復合型人才的培養(yǎng)

自然語言的計算機理解和生成已經(jīng)成為國際語言學研究的聚焦,語言信息處理的技術水平已經(jīng)成為當前衡量一個國家現(xiàn)代化水平的重要標志之一,盡快培養(yǎng)兼通語言學、計算機科學、數(shù)學和認知科學的復合型人才迫在眉睫。據(jù)《美國計算語言學雜志》1986年統(tǒng)計,全球設置計算語言學博士學位的大學已有105所,其中美國63所。在英國曼徹斯特大學已有計算語言學的學士和碩士專業(yè)。(侯敏1999,p.27)

中國的機器翻譯在20世紀50年代啟動,但由于反復不斷的政治動亂停滯了近20年。1981年,成立了中文信息學會。1987年,隸屬于中文信息學會的計算語言學專業(yè)委員會成立。通過計算機專家和語言學家的努力,已經(jīng)取得語言信息處理的一系列成果。但迄今為止,中國大陸計算語言學方向的研究生的培養(yǎng),或附屬在漢語言文字學、語言學及應用語言學學位點,或附屬在計算機應用等學位點,專門性的本科專業(yè)迄今尚無設置。根據(jù)目前中國高等教育學科體系,一方面,語言學和計算機科學分屬不同專業(yè),兼通語言學和計算機科學人才的培養(yǎng)如隔重山;另一方面,“中國語言文學”學科中,作為學術或準科學的“語言學”在前而作為藝術或教化工具的“文學”為重,兩者始終捏而不合。

依據(jù)南京師范大學文學院的發(fā)展規(guī)劃,2001年4月成立了語言科技研究所,6月成立了語言科學及技術系,現(xiàn)在正在建設一個包括教學功能、科研功能、開發(fā)功能和交流功能的語言科技實驗中心。在現(xiàn)有專業(yè)目錄內(nèi)增設的漢語言專業(yè),以“語言科技”為特色,課程設置以語言學、計算機科學、數(shù)學和認知科學為四大學科支柱,2002年開始招收首屆中文信息處理方向的本科生。這一舉措,為多年來倡導的文理工學科滲透,找到了一個準確的切入口。語言科技專業(yè)的培養(yǎng)目標是:立足當代語言科技領域,放眼未來相關科技前沿,以語言學與相關學科相的結合為導向,培養(yǎng)有利于促進21世紀科技進步和社會發(fā)展的復合型創(chuàng)新人才。通過堅持不懈的努力,南京師范大學語言學學科點擬在三五年內(nèi)完善“本科生——研究生——博士后”的多層次人才培養(yǎng)體系,建構“教育性——科研性——開發(fā)性”的綜合型高等教育基地。

面對信息科技對當代語言學的挑戰(zhàn),“語言科技”新思維應運而生。這是一個可以在描寫語言學、理論語言學和計算語言學之間,可以在語言學和相關學科之間,充分發(fā)揮溝通作用并引發(fā)許多思考的新概念。依據(jù)這一新思維,首先建構了面向語言工程的語義語法學理論,并進一步將這一工程具體化為“語言基因圖譜分析工程”和“語言能力移植工程”。當代信息科技的發(fā)展趨勢表明,研究對象的語義性和研究過程及其成果的技術化將成為21世紀的語言學精神。