中醫(yī)藥大數(shù)據(jù)應(yīng)用核心問(wèn)題分析

時(shí)間:2022-05-22 11:44:34

導(dǎo)語(yǔ):中醫(yī)藥大數(shù)據(jù)應(yīng)用核心問(wèn)題分析一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢(xún)客服老師,歡迎參考。

中醫(yī)藥大數(shù)據(jù)應(yīng)用核心問(wèn)題分析

中醫(yī)藥數(shù)據(jù)應(yīng)用的最終目標(biāo)是高效保存?zhèn)鞒忻现嗅t(yī)經(jīng)驗(yàn),提高中醫(yī)診療智能化水平。筆者認(rèn)為,中醫(yī)藥大數(shù)據(jù)應(yīng)用是以臨床真實(shí)世界醫(yī)療為源,收集各醫(yī)院平臺(tái)及古籍文獻(xiàn)的中醫(yī)診療數(shù)據(jù),利用適用中醫(yī)特點(diǎn)的數(shù)據(jù)挖掘方法,挖掘出能夠指導(dǎo)臨床應(yīng)用的醫(yī)療思路或方法,如保存與共享名老中醫(yī)經(jīng)驗(yàn)、中醫(yī)臨床經(jīng)驗(yàn)智能化搜索、中醫(yī)智能化診療、中醫(yī)真實(shí)世界療效評(píng)價(jià)及診療方案優(yōu)化等,最終得以提升中醫(yī)藥療效水平。本文從中醫(yī)藥診療數(shù)據(jù)的收集、數(shù)字化、數(shù)據(jù)挖掘方法及數(shù)理模型等方面論述,以期為建立相關(guān)關(guān)鍵技術(shù)提出思路和可解決方案。

1多源數(shù)據(jù)整合是中醫(yī)藥大數(shù)據(jù)利用的前提

中醫(yī)藥大數(shù)據(jù)應(yīng)包括中醫(yī)古籍專(zhuān)著、文獻(xiàn)期刊、名老中醫(yī)的醫(yī)案專(zhuān)著,醫(yī)院保存的病歷、社區(qū)健康檔案、可穿戴設(shè)備數(shù)據(jù)及天文、地理數(shù)據(jù)等等。這些數(shù)據(jù)散在于不同空間位置,收集和整合是一個(gè)艱巨而漫長(zhǎng)的過(guò)程,必須由點(diǎn)及面,從縱到橫逐漸融合積累。多種來(lái)源的資料匯總非人力所及,必須依賴(lài)電腦技術(shù)。其中文本挖掘、文本搜索及網(wǎng)絡(luò)爬蟲(chóng)技術(shù)是必備的關(guān)鍵技術(shù)。文本挖掘是指抽取有效、有用、可理解、散在于文本文件中的有價(jià)值知識(shí)并利用這些知識(shí)更好地組織信息的過(guò)程[1];文本檢索是指根據(jù)文本內(nèi)容,如關(guān)鍵字、語(yǔ)義等對(duì)文本集合進(jìn)行檢索、分類(lèi)、過(guò)濾[2];網(wǎng)絡(luò)爬蟲(chóng)是對(duì)網(wǎng)絡(luò)頁(yè)面上的資源進(jìn)行定向下載的技術(shù)[3]。通過(guò)上述技術(shù)的綜合應(yīng)用,可以達(dá)到整合資源數(shù)據(jù)的目的。

2中醫(yī)詞庫(kù)標(biāo)準(zhǔn)化是中醫(yī)藥大數(shù)據(jù)利用的基礎(chǔ)

2.1建立標(biāo)準(zhǔn)化中醫(yī)分詞詞庫(kù)。中文文本的計(jì)算機(jī)處理首先是將字讀入計(jì)算機(jī)內(nèi),計(jì)算機(jī)只認(rèn)識(shí)字不認(rèn)識(shí)詞,要想讓計(jì)算機(jī)認(rèn)識(shí)詞,必須經(jīng)過(guò)一系列的處理,這個(gè)過(guò)程叫作中文分詞。中文分詞依賴(lài)于關(guān)鍵文件———中文詞庫(kù)。中文詞庫(kù)有通用版本和專(zhuān)業(yè)版本,以常用通用版本jieba分詞(結(jié)巴分詞)為例,里邊有近35萬(wàn)個(gè)中文詞,結(jié)巴詞庫(kù)中除常用詞外,也會(huì)包括一部分專(zhuān)業(yè)詞匯,但難以滿(mǎn)足專(zhuān)業(yè)需求,各專(zhuān)業(yè)需要專(zhuān)門(mén)構(gòu)建專(zhuān)業(yè)詞庫(kù)。目前,中醫(yī)詞庫(kù)尚未發(fā)現(xiàn)有影響力的專(zhuān)業(yè)中文詞庫(kù),急需建立并完善。其實(shí),構(gòu)建專(zhuān)業(yè)詞庫(kù)并不困難,技術(shù)上已經(jīng)普及,其原理是讓計(jì)算機(jī)讀取大量中醫(yī)藥辭典及文獻(xiàn)期刊,根據(jù)詞頻來(lái)確定入庫(kù)詞匯。2.2統(tǒng)一中醫(yī)診療用語(yǔ)標(biāo)準(zhǔn)。中醫(yī)標(biāo)準(zhǔn)詞是指中醫(yī)藥大數(shù)據(jù)應(yīng)用時(shí)需要參與計(jì)算機(jī)運(yùn)算和保存的詞。中醫(yī)分詞過(guò)程得到大量的中醫(yī)詞匯,成為非標(biāo)準(zhǔn)詞,這些詞中有很多近義詞、同義詞,大量詞匯形成維度災(zāi)難[4],使計(jì)算機(jī)編程和運(yùn)算及結(jié)果解釋面臨困難。因此,將大量的非標(biāo)準(zhǔn)詞轉(zhuǎn)換為有限的標(biāo)準(zhǔn)詞是中醫(yī)藥大數(shù)據(jù)應(yīng)用急需解決的關(guān)鍵問(wèn)題之一。非標(biāo)準(zhǔn)詞轉(zhuǎn)換為標(biāo)準(zhǔn)詞,技術(shù)上較簡(jiǎn)單,既可利用查詢(xún)法,亦可利用人工智能技術(shù)中的自然語(yǔ)言處理技術(shù)。但非標(biāo)準(zhǔn)詞與標(biāo)準(zhǔn)詞“詞對(duì)”間的匹配對(duì)應(yīng),涉及古今文字差異與各地表達(dá)不同,需有人工標(biāo)注,無(wú)法使用計(jì)算機(jī)替代。由于人工標(biāo)注工作量巨大,不可能一蹴而就,應(yīng)以需求為導(dǎo)向逐步擴(kuò)大。

3中醫(yī)數(shù)字化及模型建立是中醫(yī)藥大數(shù)據(jù)應(yīng)用的核心

世界上無(wú)論宏觀與微觀、整體與局部,任何不能以數(shù)學(xué)為基礎(chǔ)來(lái)表達(dá)的領(lǐng)域都不能成為科學(xué)。中醫(yī)的科學(xué)性受到質(zhì)疑,其根本問(wèn)題就在于中醫(yī)理論無(wú)法用數(shù)字語(yǔ)言來(lái)表達(dá)。因此,盡早構(gòu)建中醫(yī)理論數(shù)字模型是中醫(yī)藥科學(xué)化、現(xiàn)代化面臨的重大問(wèn)題之一,也是中醫(yī)藥大數(shù)據(jù)應(yīng)用的關(guān)鍵核心技術(shù)。本課題組嘗試應(yīng)用范式模型解決中醫(yī)數(shù)學(xué)模型問(wèn)題:構(gòu)建中醫(yī)理論科學(xué)公式y(tǒng)i=f(xi)。中醫(yī)理論內(nèi)容豐富,但如果歸納為科學(xué)問(wèn)題,最后就會(huì)形成一個(gè)問(wèn)題,即通過(guò)什么方法根據(jù)不同的語(yǔ)言詞匯(癥狀、舌象、脈象)組合來(lái)推測(cè)出另一部分語(yǔ)言詞匯(藥物)的組合(處方)。用公式表達(dá),即為yi=f(xi),yi表示藥物組合,xi表示癥狀組合,f表示函數(shù)。根據(jù)集合理論,xi可以理解為從整個(gè)癥狀集合[A]中抽取的不同元素的組合,即為集合A的子集,yi可理解為藥物集合[B]的子集。問(wèn)題是yi和xi均是參與到函數(shù)f中計(jì)算的數(shù)值,如何來(lái)求這些值?如何來(lái)定義函數(shù)公式?3.1模糊數(shù)學(xué)方法賦值證藥信息。模糊集合論是1965年美國(guó)學(xué)者創(chuàng)立的研究有關(guān)非精確現(xiàn)象的理論,適應(yīng)中醫(yī)診療特點(diǎn)。模糊集合理論認(rèn)為,研究一門(mén)模糊領(lǐng)域的數(shù)學(xué)問(wèn)題,首先要定義一個(gè)研究的范圍,或稱(chēng)為討論的領(lǐng)域,簡(jiǎn)稱(chēng)論域[5]。論域確定后,在論域上賦值,即形成模糊集合。中醫(yī)的論域核心是藏象、陰陽(yáng)五行等理論,歸納起來(lái)可以分為3類(lèi)信息,即位置信息、性質(zhì)信息和狀態(tài)信息。位置信息包括五臟六腑、十二經(jīng)脈、奇經(jīng)八脈等;性質(zhì)信息包括氣血、陰陽(yáng)、津液、瘀血、痰飲等;狀態(tài)信息包括升、降、浮、沉、生、克、乘、侮等。中醫(yī)的辨證就是根據(jù)這類(lèi)信息來(lái)合成出很多證素,然后根據(jù)證素特征歸納為某一證候。中醫(yī)的每個(gè)癥狀都內(nèi)含著這3種信息的1種、2種或3種。如果把每一個(gè)癥狀在這3種信息上賦值(賦0、1或0、1、2、3),即可解決癥狀賦值問(wèn)題。這是構(gòu)建整個(gè)模型的第一步,也是最基礎(chǔ)的一步。通過(guò)模型可以采用很多算法來(lái)產(chǎn)生證素。3.2矩陣分析方法構(gòu)建。yi=f(xi)矩陣的概念,是基于線(xiàn)性空間發(fā)展而來(lái),矩陣分析是線(xiàn)性代數(shù)的延伸,即將實(shí)數(shù)域的分析擴(kuò)展到復(fù)數(shù)域。通俗地講,矩陣分析可以用一定的公式來(lái)表示一個(gè)矩陣的特征或兩個(gè)矩陣的相似性。矩陣也可以理解為一個(gè)空間的值。根據(jù)矩陣的維度,零維矩陣代表空間的一個(gè)點(diǎn);一維矩陣代表空間中的一條線(xiàn);二維矩陣代表空間中的一個(gè)面;三維矩陣代表空間中的立體形狀。在一維矩陣(向量)中,矩陣中不同的值代表位于空間中不同方向和長(zhǎng)度的線(xiàn),通過(guò)計(jì)算這條線(xiàn)在空間中的位置和長(zhǎng)度,可以比較兩個(gè)向量的相似程度。假如yi和xi均能轉(zhuǎn)化為矩陣,f是計(jì)算矩陣相似度的公式,yi=f(xi)即可建立起函數(shù)關(guān)系。3.3證素賦值法構(gòu)建。yi、xi中醫(yī)辨證論治的核心是根據(jù)癥狀找出證候,再用處方治療證候。眾多研究表明,證候是由證素所構(gòu)成,中藥處方也是對(duì)證素來(lái)設(shè)計(jì)的[6-10]。所以,構(gòu)建一個(gè)全證素論域,如[證素1、證素2、證素3、證素4……證素11],然后癥狀在每一個(gè)證素上賦值,即可得到單個(gè)癥狀的矩陣。下一步把癥狀在位置信息、性質(zhì)信息、狀態(tài)信息上所賦值轉(zhuǎn)化為在證素論域上賦值。這個(gè)可通過(guò)多種辦法解決,比如邏輯推理法、隨機(jī)森林計(jì)算法等。有單個(gè)癥狀的證素矩陣,通過(guò)一定的規(guī)則加權(quán)平均,將各個(gè)癥狀的證素矩陣合并成一個(gè)證素矩陣,即可得到y(tǒng)i轉(zhuǎn)化來(lái)的矩陣。通過(guò)以上方法,就可成功構(gòu)建中醫(yī)數(shù)字化模型。3.4人工智能構(gòu)建函數(shù)f建立函數(shù)f既可采用數(shù)字化模型,也可采用人工智能模型。前者屬于“白箱模型”,后者屬于“黑箱模型”。目前,公認(rèn)的效率及準(zhǔn)確性較高的人工智能模型主要是深度人工神經(jīng)網(wǎng)絡(luò)模型,如AM(attentionmodel)模型,這種模型主要用于語(yǔ)言轉(zhuǎn)換,即輸入若干個(gè)詞匯,轉(zhuǎn)換為同種文字或不同種文字的另外一些詞匯,并支持輸入與輸出字?jǐn)?shù)量的不等長(zhǎng)度,非常適合于把癥狀組合轉(zhuǎn)換為藥物組合,從而完成yi=f(xi)的構(gòu)建,這里函數(shù)f就是AM模型。

4討論

中醫(yī)智能化診療是未來(lái)醫(yī)療發(fā)展的趨勢(shì)。目前,中醫(yī)智能化診療關(guān)鍵在于中醫(yī)診療的經(jīng)驗(yàn)性、不確定性、模糊性難以轉(zhuǎn)化為線(xiàn)性邏輯。隨著人工智能的發(fā)展日漸成熟,多種模型可模擬人腦進(jìn)行黑箱操作,處理非線(xiàn)性信息并可自適應(yīng)學(xué)習(xí)。白箱模型與黑箱模型各有優(yōu)劣,白箱模型的優(yōu)勢(shì)是不需要大量訓(xùn)練樣本,可根據(jù)已有知識(shí)賦值構(gòu)建模型,劣勢(shì)是模型預(yù)測(cè)結(jié)果準(zhǔn)確性需要通過(guò)多次調(diào)整賦值進(jìn)行調(diào)試,一開(kāi)始很難做成大而全的模型,只能從小模型逐漸擴(kuò)展,比如先做某個(gè)病的模型;黑箱模型的優(yōu)勢(shì)是可做成大而全的模型,只要訓(xùn)練樣本支持,做成后可直接應(yīng)用,不足之處是需要有大量的真實(shí)有效的臨床病例作為訓(xùn)練樣本進(jìn)行反復(fù)訓(xùn)練,并且最終的模型需要反復(fù)超參調(diào)優(yōu)。另外,白箱模型可以產(chǎn)生大量的模擬病例,供黑箱模型超參調(diào)優(yōu)使用。本文所述的關(guān)鍵技術(shù)均是經(jīng)過(guò)實(shí)踐探索過(guò)的。本研究在tensorflow系統(tǒng)環(huán)境下利用以上理論開(kāi)發(fā)的算法成功建立了中醫(yī)數(shù)字化模型,可達(dá)到輸入癥狀產(chǎn)生處方的效果。利用該模型保存和共享名老中醫(yī)經(jīng)驗(yàn)則非常理想,已在互聯(lián)網(wǎng)實(shí)現(xiàn)應(yīng)用?,F(xiàn)在國(guó)內(nèi)中醫(yī)藥大數(shù)據(jù)應(yīng)用僅停留在各平臺(tái)醫(yī)療數(shù)據(jù)的收集和名老中醫(yī)藥物應(yīng)用分析,不同數(shù)據(jù)庫(kù)無(wú)法銜接,形成大量數(shù)據(jù)孤島。本研究認(rèn)為,實(shí)現(xiàn)中醫(yī)藥大數(shù)據(jù)應(yīng)用的核心是中醫(yī)數(shù)字化模型。構(gòu)建理想的中醫(yī)數(shù)字化模型需要專(zhuān)業(yè)的計(jì)算機(jī)技術(shù)和扎實(shí)的中醫(yī)理論、豐富的中醫(yī)經(jīng)驗(yàn)相結(jié)合,涉及中醫(yī)學(xué)、互聯(lián)網(wǎng)技術(shù)、人工智能等相關(guān)專(zhuān)業(yè)知識(shí)。要想盡快在中醫(yī)藥大數(shù)據(jù)應(yīng)用上產(chǎn)生明顯成果,僅靠互聯(lián)網(wǎng)技術(shù)和人工智能方面的人才是難以完成的,急需除中醫(yī)知識(shí)以外的,同時(shí)具備數(shù)學(xué)、統(tǒng)計(jì)學(xué)、人工智能及計(jì)算機(jī)知識(shí)的綜合型人才。中醫(yī)以其天人合一的思想傳承守護(hù)中華民族千年,也必將通過(guò)現(xiàn)代化智能化的手段將其應(yīng)用于全人類(lèi)。

作者:潘玉穎 崔偉鋒 范軍銘 單位:河南省中醫(yī)藥研究院