卷積神經(jīng)網(wǎng)絡的意義范文

時間:2024-04-02 11:39:26

導語:如何才能寫好一篇卷積神經(jīng)網(wǎng)絡的意義,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。

卷積神經(jīng)網(wǎng)絡的意義

篇1

關(guān)鍵詞關(guān)鍵詞:人臉識別;卷積神經(jīng)網(wǎng)絡;圖像識別;深度學習;模式識別

DOIDOI:10.11907/rjdk.171043

中圖分類號:TP317.4

文獻標識碼:A文章編號文章編號:16727800(2017)005018603

0引言

人臉識別是近年來模式識別、圖像處理、機器視覺、神經(jīng)網(wǎng)絡及認知科學領域的研究熱點[12]。所謂人臉識別,是指給定一個靜態(tài)人臉圖像或動態(tài)視頻,利用存儲有若干已知身份的人臉數(shù)據(jù)庫驗證單個或多個人的身份[1]。作為生物特征識別的一個重要方面,人臉識別有著廣泛的應用場景,如:檔案管理系統(tǒng)、公安系統(tǒng)的犯罪身份識別、銀行和海關(guān)的監(jiān)控、安全驗證系統(tǒng)、信用卡驗證等領域。在人臉識別巨大魅力的影響下,國內(nèi)互聯(lián)網(wǎng)公司也開始了人臉識別應用的探索,如百度推出的人臉考勤系統(tǒng)、阿里支付寶的刷臉登錄等功能都是人臉識別的具體應用。目前,人臉識別的代表性方法主要有以下幾種:Turk和Pentland[3]提出的特征臉(Eigenface)方法;基于線性區(qū)別分析,Belhumeur 等[4]提出了Fisherface方法;基于統(tǒng)計理論,劍橋大學的 Samaria和Fallside[5]提出了隱馬爾科夫模型[5](HMM),Lawrence 等[6]提出的通過多級自組織映射神經(jīng)網(wǎng)絡(SOM)[6]與卷積神經(jīng)網(wǎng)絡相結(jié)合進行人臉識別。上述方法雖然獲得了良好的識別正確率,但需要人工參與特征提取,然后將提取的特征送入分類器進行識別,過程較為復雜。

卷積神經(jīng)網(wǎng)絡[79]是近年發(fā)展起來,并引起廣泛重視的一種高效深度學習識別算法,其已成為當前語音分析和圖像處理領域的研究熱點。相比傳統(tǒng)的神經(jīng)網(wǎng)絡而言,卷積神經(jīng)網(wǎng)絡具有權(quán)值共享、局部感知的優(yōu)點。局部感知的網(wǎng)絡結(jié)構(gòu)使其更接近于生物神經(jīng)網(wǎng)絡,權(quán)值共享大大減少了模型學習參數(shù)的個數(shù),同時降低了神經(jīng)網(wǎng)絡結(jié)構(gòu)的復雜性。在圖像處理領域,卷積神經(jīng)網(wǎng)絡的優(yōu)點體現(xiàn)得更為突出,多維的圖像數(shù)據(jù)可以直接作為網(wǎng)絡的輸入,特征提取和分類均集成在網(wǎng)絡中,避免了傳統(tǒng)識別算法中復雜的特征提取和訓練分類器過程。除此之外,卷積神經(jīng)網(wǎng)絡對圖像中的位移、比例縮放、旋轉(zhuǎn)、傾斜或其它形式的變形具有很好的魯棒性。為了解決傳統(tǒng)人臉識別算法特征提取和訓練分類器困難的問題,本文借鑒Lenet-5[10]的結(jié)構(gòu),設計一個適合ORL數(shù)據(jù)集人臉識別任務的卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)。

1卷積神經(jīng)網(wǎng)絡

1.1用于ORL人臉識別的CNN

本文提出的7層卷積神經(jīng)網(wǎng)絡模型由輸入層、2個卷積層、2個降采樣層、一個全連接層和一個Sigmoid輸出層組成。卷積核的大小均為5×5,降采樣層Pooling區(qū)域的大小為2×2,采用Average Pooling(相鄰小區(qū)域之間無重疊),激活函數(shù)均采用Sigmoid函數(shù)。每一個卷積層或降采樣層由多個特征圖組成,每個特征圖有多個神經(jīng)元,上層的輸出作為下一層的輸入。此外,本文實驗學習率的取值為常數(shù)1.5,該卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)如圖1所示。

1.2卷積層

卷積神經(jīng)網(wǎng)絡中的卷積層一般稱C層[11](特征提取層)。卷積層的輸入來源于輸入層或者采樣層。卷積層中的每一個特征圖都對應一個大小相同的卷積核,卷積層的每一個特征圖是不同的卷積核在前一層輸入的特征圖上作卷積,然后將對應元素累加后加一個偏置,最后通過激活函數(shù)得到。假設第l層榫砘層,則該層中第j個特征圖的計算表達式如式(1)。

xlj=f(∑i∈Mjxl-1iklij+blj)(1)

這里的Mj表示選擇的上一層輸出特征圖的集合。

1.3降采樣層

降采樣層是對上一層的特征圖進行下采樣處理,處理方式是在每一個特征圖內(nèi)部的相鄰小區(qū)域進行聚合統(tǒng)計。常見的下采樣方式有兩種:Average Pooling和Max Pooling。其中,Average Pooling是取小區(qū)域內(nèi)像素的平均值,而Max Pooling是取小區(qū)域內(nèi)像素的最大值。降采樣層只是對輸入的特征圖進行降維處理,不改變特征圖的個數(shù)。假設down表示下采樣操作,βlj表示乘性偏置,blj表示加性偏置,則降采樣層中某個特征圖的計算表達式如下:

xlj=f(βljdown(xl-1j)+blj)(2)

1.4輸出層

卷積神經(jīng)網(wǎng)絡的輸出層一般為分類器層,常用的有徑向基(RBF)函數(shù)輸出單元、Sigmoid輸出單元和Softmax回歸分類器。在ORL人臉識別任務中,采用Sigmoid函數(shù)輸出單元,輸出層的編碼采用非分布編碼“one-of-c”的方式。由于采用Sigmoid函數(shù),每一個單元輸出值是0-1范圍內(nèi)的一個正數(shù),代表該樣本屬于該單元對應類別的概率。數(shù)值最大的那個單元即為樣本的預測類別。假設x為全連接層的輸出,則輸出層輸出結(jié)果的計算表達式如下:

y=f(wTx+b)(3)

其中,f表示激活函數(shù),這里采用Sigmoid函數(shù),Sigmoid函數(shù)表達式如下:

f(x)=11+e-x(4)

2實驗結(jié)果與分析

實驗在Windows7 64位下的Matlab 2014a中進行,采用Matlab深度學習工具箱DeepLearnToolbox。PC的內(nèi)存8G,CPU主頻為3.2GHZ。

ORL人臉數(shù)據(jù)集是在1992年至1994年之間由AT &T Cambridge實驗室拍攝的人臉圖像所構(gòu)成。數(shù)據(jù)集中包含40個不同人物的臉部圖像,每個人物包含10張圖像,總共400張。每個類別中的臉部圖像在不同的時間拍攝得到,存在如下差異:①光線;②面部表情,如眼睛的閉合和睜開狀態(tài),面部是否帶有微笑的表情等;③一些面部細節(jié)上的差異,如是否佩戴眼鏡等。該數(shù)據(jù)集中所有人臉圖像均為灰度圖像,且圖像中人物面部朝向基本一致,都朝向正前方。

圖2為ORL數(shù)據(jù)集中部分人臉圖像。數(shù)據(jù)集中每個原始圖像大小為92*112像素,本文實驗中對這些圖像進行預處理,使每一幅圖像的尺寸調(diào)整為28*28,并對每一副圖像進行歸一化處理,這里采用簡單的除255的方式。隨機選取每一個類別的8張圖像作為訓練樣本,剩下的2張作為測試樣本。因此,訓練集有320個樣本,測試集有80個樣本。

2.1改變C3層卷積核個數(shù)對網(wǎng)絡的影響

卷積神經(jīng)網(wǎng)絡性能的好壞與卷積層卷積核的個數(shù)密切相關(guān),但每一個卷積層應該設置多少個卷積濾波器,目前并沒有數(shù)學理論指導。為了研究卷積核個數(shù)對網(wǎng)絡最終識別準確率的影響,本文保持C1層卷積核個數(shù)不變,通過改變C3層卷積核的個數(shù),形成新的網(wǎng)絡結(jié)構(gòu),用訓練集訓練網(wǎng)絡,訓練迭代次數(shù)均為60次,然后用測試集對每一種網(wǎng)絡結(jié)構(gòu)的性能進行測試。實驗結(jié)果如表1所示。

從表1可以看出,當C3層有10個卷積核時,網(wǎng)絡模型對測試集的識別正確率最高。卷積核的個數(shù)與識別準確率并不成正比關(guān)系,當卷積核個數(shù)過多時,網(wǎng)絡的識別準確率會下降,這是因為在卷積核個數(shù)增加的同時,需要學習的參數(shù)也隨之增加,而數(shù)據(jù)集中訓練樣本的規(guī)模較小,已不能滿足學習的要求。

2.2改變C1層卷積核個數(shù)對網(wǎng)絡的影響

由上述實驗結(jié)果可知,C3層卷積核個數(shù)為10時,網(wǎng)絡識別效果最好。因此,為了研究卷積層C1層卷積核個數(shù)對識別準確率的影響, C3層保留10個卷積核,改變C1層卷積核的個數(shù)構(gòu)造新的網(wǎng)絡結(jié)構(gòu),用測試集針對不同網(wǎng)絡結(jié)構(gòu)就測試集和訓練集的識別準確率進行測試。實驗結(jié)果如表2所示。

從表2的實驗結(jié)果可以得到相同結(jié)論:卷積層卷積核的個數(shù)并非越多越好,卷積核個數(shù)過多,網(wǎng)絡需要學習的參數(shù)也隨之增加,當訓練集中樣本個數(shù)無法滿足學習需要時,網(wǎng)絡識別準確率就會下降。

2.3與其它算法比較

為進一步說明本文所提卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)的有效性和優(yōu)越性,將該結(jié)構(gòu)(C1層6個卷積核,C3層10個卷積核,學習率1.5)的實驗結(jié)果與其它識別方法在ORL數(shù)據(jù)集上的實驗結(jié)果進行對比,結(jié)果如表3所示??梢钥闯?,本文所提方法比Eigface、ICA的識別效果好,與2DPCA方法的識別準確率一樣,比FisherFace方法的識別準確率只低了0.20%,這進一步證實了本文所提網(wǎng)絡結(jié)構(gòu)的有效性。

3結(jié)語

本文在理解Lenet-5結(jié)構(gòu)的基礎上,提出一種適用于ORL人臉數(shù)據(jù)集的卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)。實驗結(jié)果表明,本文提出的卷積神經(jīng)網(wǎng)絡結(jié)構(gòu),不僅避免了復雜的顯式特征提取過程,在ORL數(shù)據(jù)集上獲得98.30%的識別正確率,而且比大多數(shù)傳統(tǒng)人臉識別算法的效果都好。此外,本文還通過大量驗就每個卷積層卷積核個數(shù)對網(wǎng)絡識別準確率的影響進行了詳細研究與分析,這對設計CNN網(wǎng)絡結(jié)構(gòu)具有一定的參考意義。

參考文獻參考文獻:

[1]李武軍,王崇駿,張煒,等.人臉識別研究綜述[J].模式識別與人工智能,2006,19(1):5866.

[2]張翠平,蘇光大.人臉識別技術(shù)綜述[J].中國圖象圖形學報,2000,5(11):885894.

[3]YANG M H.Face recognition using kernel methods[J].Nips,2002(2):14571464.

[4]祝秀萍,吳學毅,劉文峰.人臉識別綜述與展望[J].計算機與信息技術(shù),2008(4):5356.

[5]SAMARIA F,YOUNG S.HMMbased architecture for face identification[J].Image and Vision Computing,1994,12(8):537543.

[6]LAWRENCE S,GILES C L,TSOI A C.Convolutional neural networks for face recognition[C].Proceedings CVPR'96,1996 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,1996:217222.

[7]陳耀丹,王連明.基于卷積神經(jīng)網(wǎng)絡的人臉識別方法[J].東北師范大學學報:自然科學版,2016,48(2):7076.

[8]盧官明,何嘉利,閆靜杰,等.一種用于人臉表情識別的卷積神經(jīng)網(wǎng)絡[J].南京郵電大學學報:自然科學版,2016,36(1):1622.

[9]李彥冬,郝宗波,雷航.卷積神經(jīng)網(wǎng)絡研究綜述[J].計算機應用,2016,36(9):25082515.

[10]LCUN Y,BOTTOU L,BENGIO Y,et al.Gradientbased learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):22782324.

篇2

當今的社會是信息的社會。要使信息得到及時利用,為國民經(jīng)濟和科學技術(shù)以及國防工業(yè)的發(fā)展服務,必須對信息數(shù)據(jù)的采集、加工處理、傳輸、存儲、決策和執(zhí)行等進行全面的技術(shù)革新,以適應社會發(fā)展形式的需求。因此,信息科學技術(shù)有著極其廣泛的重要應用領域,如通信、雷達、聲納、電子測量儀器、生物醫(yī)學工程、振動工程、地震勘探、圖像處理、計算機科學等。各領域的電子信息系統(tǒng)往往具有不同的性能和特征,但是電子信息系統(tǒng)設備的設計都涉及到信息表征和信息處理技術(shù),如果這種信息科技能獲得新的突破,電子信息系統(tǒng)產(chǎn)品將走上新的臺階。

當前信息系統(tǒng)智能化和具有高的魯棒性及容錯性是值得研究的重大問題,雖然人工智能和專家系統(tǒng)已取得好的成績,但還不適應信息社會發(fā)展的需求,需尋求新的發(fā)展途徑。21世紀被稱為“智能化世紀和人工神經(jīng)網(wǎng)絡世紀”,信息科學與腦科學、認知科學、神經(jīng)生物學、計算機科學、非線性科學、數(shù)學、物理學諸學科相結(jié)合所產(chǎn)生的神經(jīng)計算科學,為實現(xiàn)新的信息表征和信息處理提供了新的手段,將使信息技術(shù)和信息系統(tǒng)智能化得到飛躍的發(fā)展。

21世紀是信息社會的智能化時代,信息高速公路的發(fā)展加速了通信技術(shù)和多媒體通信系統(tǒng)進入網(wǎng)絡化、智能化進程;開拓國際互聯(lián)網(wǎng),使千家萬戶能在因特網(wǎng)和大型計算機網(wǎng)絡上搜索和瀏覽各種信息,這都涉及到通信系統(tǒng)和信息處理系統(tǒng)的高度智能化問題。

現(xiàn)代信息處理要解決的問題往往是很復雜的,它要完成由輸入空間到輸出空間的映射,這個映射可以是線性的,也可以是非線性的,所以信息處理系統(tǒng)是有序結(jié)構(gòu)的物理系統(tǒng)中的映射,恰好是與神經(jīng)網(wǎng)絡信息處理同構(gòu)。

2 人工神經(jīng)網(wǎng)絡信息處理

一般來說,智能信息處理可以劃分為兩大類,一類為基于傳統(tǒng)計算機的智能信息處理,另一類為基于神經(jīng)計算的智能信息處理。前者信息系統(tǒng)包括智能儀器、自動跟蹤監(jiān)測儀器系統(tǒng)、自動控制制導系統(tǒng)、自動故障診斷和報警系統(tǒng)等。在人工智能系統(tǒng)中,它們具有模仿或代替與人的思維有關(guān)的功能,通過邏輯符號處理系統(tǒng)的推理規(guī)則來實現(xiàn)自動診斷、問題求解以及專家系統(tǒng)的智能。這種智能實際上體現(xiàn)了人類的邏輯思維方式,主要應用串行工作程序按照一些推理規(guī)則一步一步進行計算和操作,應用領域很廣。后者是用人工神經(jīng)網(wǎng)絡來模仿延伸人腦認知功能的新型智能信息處理系統(tǒng),即仿造人腦的思維、聯(lián)想記憶、推理及意識等高級精神活動的智能,這類神經(jīng)智能系統(tǒng)可以解決傳統(tǒng)方法所不能或難以解決的問題。例如美國研制出的一種電子“偵探”(蘇聯(lián)《科學與生活》,1990年),就是用神經(jīng)網(wǎng)絡做的能辨識人面孔的智能系統(tǒng),只要讓它看一下某人或他的照片就能記住描述此人面貌的256個數(shù)字參數(shù),同時能記住達500人,思考辨認時間總共為1s。人工神經(jīng)網(wǎng)絡系統(tǒng)具有很高的容錯性和魯棒性及自組織性,即使連接線被破壞了50%,它仍能處在優(yōu)化工作狀態(tài),這在軍事系統(tǒng)電子設備中有著特別重要的意義,故美國無人偵察飛機已用上這種神經(jīng)信息系統(tǒng)。美國許多公司生產(chǎn)的神經(jīng)網(wǎng)絡芯片及神經(jīng)智能系統(tǒng)已商品化。今年最新報導:美Attrasoft公司做出世界上最大的百萬個神經(jīng)元的神經(jīng)網(wǎng)絡(軟件)。

3 盲信號處理技術(shù)

盲信號處理包括多個信源混合的盲源分離、多通道傳輸信道的參數(shù)估計和系統(tǒng)辨識、盲解卷積和盲均衡技術(shù)、盲陣列信號處理和盲波束形成技術(shù)等,在通信、雷達、聲納、控制工程、地震勘探、生物醫(yī)學工程等領域有著極其重要的應用價值,是國際上非常重視的熱門研究課題。從數(shù)學上講,盲信號處理問題可以用X(t)=AS(t)來描述,這里X(t)是已知觀測數(shù)據(jù)矢量,而信號矢量S(t)和系統(tǒng)參數(shù)矩陣A都是未知的,如何只由觀測矢量X(t)來推求S(t)或A,其解將存在不定因素,可能有許多不同的兩個量相乘而得到同一個觀測數(shù)據(jù)X(t)。求解這類問題是一個國際性的盲處理難題,但該問題有很高的實用價值。圖像、語聲、中文詩詞及英文文字等多媒體信息混合后的盲分離問題,最高信號干擾之比高于70dB。

篇3

關(guān)鍵詞:蛋白質(zhì)二級結(jié)構(gòu)預測;基團編碼;正交編碼;SVM

0引言

氨基酸序列的研究是生物信息學中對生物序列展開探討設計的主要工作,氨基酸序列決定了蛋白質(zhì)的空間結(jié)構(gòu),而蛋白質(zhì)的空間結(jié)構(gòu)決定了蛋白質(zhì)生理功能的多樣性。在利用x射線結(jié)晶學及核磁共振等技術(shù)對蛋白質(zhì)結(jié)構(gòu)進行探測時發(fā)現(xiàn),蛋白質(zhì)結(jié)構(gòu)有4個層次,蛋白質(zhì)的二級結(jié)構(gòu)是認識了解蛋白質(zhì)的折疊模式和三級結(jié)構(gòu)的基礎,進一步為研究蛋白質(zhì)的功能以及彼此之間的相互作用模式提供結(jié)構(gòu)基礎,同時還可以為新藥研發(fā)提供幫助。故研究蛋白質(zhì)的二級結(jié)構(gòu)具有重要的意義。

篇4

關(guān)鍵詞:AlphaGo;人工智能;圍棋;未來展望

中圖分類號:TP18 文獻標識碼:A 文章編號:1671-2064(2017)07-0193-02

1 圍棋與人工智能

圍棋作為中國傳統(tǒng)四大藝術(shù)之一,擁有著幾千年的悠久歷史。圍棋棋盤由19條橫線和19條豎線組成,共有19*19=361個交叉點,圍棋子分為黑白兩種顏色,對弈雙方各執(zhí)一色,輪流將一枚棋子下在縱橫交叉點上,終局時,棋子圍上交叉點數(shù)目最多的一方獲勝。圍棋棋盤上每一個縱橫交叉點都有三種可能性:落黑子、落白子、留空,所以圍棋擁有高達3^361種局面;圍棋的每個回合有250種可能,一盤棋可長達150回合,所以圍棋的計算復雜度為250^150,約為10^170,然而全宇宙可觀測的原子數(shù)量只有10^80,這足以體現(xiàn)圍棋博弈的復雜性和多變性。

人工智能(Artificial Intelligence,AI)主要研究人類思維、行動中那些尚未算法化的功能行為,使機器像人的大腦一樣思考、行動。長期以來,圍棋作為一種智力博弈游戲,以其變化莫測的博弈局面,高度體現(xiàn)了人類的智慧,為人工智能研究提供了一個很好的測試平臺,圍棋人工智能也是人工智能領域的一個重要挑戰(zhàn)。

傳統(tǒng)的計算機下棋程序的基本原理,是通過有限步數(shù)的搜索樹,即采用數(shù)學和邏輯推理方法,把每一種可能的路徑都走一遍,從中選舉出最優(yōu)路徑,使得棋局勝算最大。這種下棋思路是充分發(fā)揮計算機運算速度快、運算量大等優(yōu)勢的“暴力搜索法”,是人類在對弈規(guī)定的時間限制內(nèi)無法做到的。但是由于圍棋局面數(shù)量太大,這樣的運算量對于計算機來講也是相當之大,目前的計算機硬件無法在對弈規(guī)定的時間內(nèi),使用計算機占絕對優(yōu)勢的“暴力搜索法”完成圍棋所有局面的擇優(yōu),所以這樣的下棋思路不適用于圍棋對弈。

搜索量巨大的問題一直困擾著圍棋人工智能,使其發(fā)展停滯不前,直到2006年, 蒙特卡羅樹搜索的應用出現(xiàn),才使得圍棋人工智能進入了嶄新的階段,現(xiàn)代圍棋人工智能的主要算法是基于蒙特卡洛樹的優(yōu)化搜索。

2 圍棋人工智能基本原理

目前圍棋人工智能最杰出的代表,是由谷歌旗下人工智能公司DeepMind創(chuàng)造的AlphaGo圍棋人工智能系統(tǒng)。它在與人類頂級圍棋棋手的對弈中充分發(fā)揮了其搜索和計算的優(yōu)勢,幾乎在圍棋界立于不敗之地。

AlphaGo系統(tǒng)的基本原理是將深度強化學習方法與蒙特卡洛樹搜索結(jié)合,使用有監(jiān)督學習策略網(wǎng)絡和價值網(wǎng)絡,極大減少了搜索空間,即在搜索過程中的計算量,提高了對棋局估計的準確度。

2.1 深度強化學習方法

深度學習源于人工神經(jīng)網(wǎng)絡的研究,人類大量的視覺聽覺信號的感知處理都是下意識的,是基于大腦皮層神經(jīng)網(wǎng)絡的學習方法,通過模擬大腦皮層推斷分析數(shù)據(jù)的復雜層狀網(wǎng)絡結(jié)構(gòu),使用包含復雜結(jié)構(gòu)或由多重非線性變換構(gòu)成的多個處理層對數(shù)據(jù)進行高層抽象,其過程類似于人們識別物體標注圖片。現(xiàn)如今,應用最廣泛的深度學習模型包括:卷積神經(jīng)網(wǎng)絡、深度置信網(wǎng)絡、堆棧自編碼網(wǎng)絡和遞歸神經(jīng)網(wǎng)絡等。

強化學習源于動物學習、參數(shù)擾動自適應控制等理論,通過模擬生物對環(huán)境以試錯的方式進行交互達到對環(huán)境的最優(yōu)適應的方式,通過不斷地反復試驗,將變化無常的動態(tài)情況與對應動作相匹配。強化學習系統(tǒng)設置狀態(tài)、動作、狀態(tài)轉(zhuǎn)移概率和獎賞四個部分,在當前狀態(tài)下根據(jù)策略選擇動作,執(zhí)行該過程并以當前轉(zhuǎn)移概率轉(zhuǎn)移到下一狀態(tài),同時接收環(huán)境反饋回來的獎賞,最終通過調(diào)整策略來最大化累積獎賞。

深度學習具有較強的感知能力,但缺乏一定的決策能力;強化學習具有決策能力,同樣對感知問題無能為力。深度強化學習方法是將具有感知能力的深度學習和具有決策能力的強化學習結(jié)合起來,優(yōu)勢互補,用深度學習進行感知,從環(huán)境中獲取目標觀測信息,提供當前環(huán)境下的狀態(tài)信息;然后用強化學習進行決策,將當前狀態(tài)映射到相應動作,基于初期匯報評判動作價值。

深度強化學習為復雜系統(tǒng)的感知決策問題提供了一種全新的解決思路。

2.2 蒙特卡洛樹搜索

蒙特卡洛樹搜索是將蒙特卡洛方法與樹搜索相結(jié)合形成的一種搜索方法。所謂蒙特卡洛方法是一種以概率統(tǒng)計理論為指導的強化學習方法,它通常解決某些隨機事件出現(xiàn)的概率問題,或者是某隨機變量的期望值等數(shù)字特征問題。通過與環(huán)境的交互,從所采集的樣本中學習,獲得關(guān)于決策過程的狀態(tài)、動作和獎賞的大量數(shù)據(jù),最后計算出累積獎賞的平均值。

蒙特卡洛樹搜索算法是一種用于解決完美信息博弈(perfect information games,沒有任何信息被隱藏的游戲)的方法,主要包含選擇(Selection)、擴展(Expansion)、模擬(Simulation)和反向傳播(Backpropagation)四個步驟。

2.3 策略網(wǎng)絡與價值網(wǎng)絡

AlphaGo系統(tǒng)擁有基于蒙特卡洛樹搜索方法的策略網(wǎng)絡(Policy Network)和價值網(wǎng)絡(Value Network)兩個不同的神經(jīng)網(wǎng)絡大腦,充分借鑒人類棋手的下棋模式,用策略網(wǎng)絡來模擬人類的“棋感”,用價值網(wǎng)絡來模擬人類對棋盤盤面的綜合評估。

AlphaGo系統(tǒng)主要采用有監(jiān)督學習策略網(wǎng)絡,通過觀察棋盤布局,進行棋路搜索,得到下一步合法落子行動的概率分布,從中找到最優(yōu)的一步落子位置,做落子選擇。DeepMind團隊使用棋圣堂圍棋服務器上3000萬個專業(yè)棋手對弈棋譜的落子數(shù)據(jù),來預測棋手的落子情況。期間,系統(tǒng)進行上百萬次的對弈嘗試,進行強化學習,將每一個棋局進行到底,不斷積累“經(jīng)驗”,學會贏面最大的棋路走法,最終達到頂級圍棋棋手的落子分析能力。而AlphaGo的價值網(wǎng)絡使用百萬次對弈中產(chǎn)生的棋譜,根據(jù)最終的勝負結(jié)果來進行價值網(wǎng)絡訓練,預測每一次落子選擇后贏棋的可能性,通過整體局面的判斷來幫助策略網(wǎng)絡完成落子選擇。

3 圍棋人工智能意義

經(jīng)過比賽測試證明,AlphaGo系統(tǒng)的圍棋對弈能力已經(jīng)達到世界頂級棋手水平。一直以來,圍棋因為復雜的落子選擇和巨大的搜索空間使得圍棋人工智能在人工智能領域成為一個具有代表性的難度挑戰(zhàn)。目前的硬件水平面對如此巨大的搜索空間顯得束手無策,AlphaGo系統(tǒng)基于有監(jiān)督學習的策略網(wǎng)絡和價值網(wǎng)絡大大減少搜索空間,在訓練中開創(chuàng)性地使用深度強化學習,然后結(jié)合蒙特卡洛樹搜索方法,使得系統(tǒng)自學習能力大大提高,并且AlphaGo系統(tǒng)在與人類頂級棋手對弈中取得的連勝卓越成績,櫧湓諶斯ぶ悄芰煊虻於了堅實的里程碑地位。

雖然圍棋人工智能取得了如此優(yōu)秀的成績,但是也僅僅是它在既定規(guī)則內(nèi)的計算處理能力遠遠超過了人類的現(xiàn)有水平,并且還有有待提高和完善的地方。在人類的其他能力中,例如情感、思維、溝通等等領域,目前的人工智能水平是遠遠達不到的。但是隨著科技的進步和人類在人工智能領域的研究深入,人工智能與人類的差距會逐漸減小,像圍棋人機大戰(zhàn)人工智能連勝人類這樣的例子也可能在其他領域發(fā)生,這就意味著人工智能的發(fā)展前景十分可觀。

4 結(jié)語

人類和人工智能共同探索圍棋世界的大幕即將拉開,讓人類棋手結(jié)合人工智能,邁進全新人機共同學習交流的領域,進行一次新的圍棋革命,探索圍棋真理更高的境界。

參考文獻

篇5

Master的“過人之處”

2016年年末,圍棋界對阿爾法狗留下的心理陰影正在消散,這不單是因為在線圍棋網(wǎng)站上冒出了更多AI棋手―如日本的DEEPZEN、中國的“絕藝”――更重要的是,人類棋手在與之較量時互有勝負。特別是當中國第一高手柯潔曾完勝“絕藝”的升級版“刑天”(被認為棋力相當于阿爾法狗)一局并宣稱可以找到AI漏洞后,人類棋手歡欣鼓舞。

可是,Master就是在這樣的背景下登場并毫無懸念地收割勝利的。賽后,棋圣聶衛(wèi)平感喟“我們無法像電腦那樣從不犯錯”,而柯潔則連連慨嘆,“人類數(shù)千年的實戰(zhàn)演練進化,計算機卻告訴我們?nèi)际清e的……”那么,Master究竟強在哪里呢?阿爾法狗研發(fā)團隊的黃士杰博士表示,其“過人之處”即在于背靠多組超級計算機組成的卷積神經(jīng)網(wǎng)絡,這使得Master不僅具備類似人腦的“策略網(wǎng)絡”(選擇某一手棋的最優(yōu)下法),更擁有人類難以企及的“價值網(wǎng)絡”(判斷每一步靜態(tài)棋局的精準勝率)。與此同時,Master還可以通過每天自我對弈數(shù)十萬局來增長棋力――人類棋手一年最多下1000局。由此,Master得以拋開事倍功半的窮舉分析,并以閃電般的高效應對使人類棋手難以招架。

電腦將“學會”文化創(chuàng)意

對計算機而言,一切任務都是邏輯運算,而算法和算力是提升效率的主要指標。優(yōu)化算法可以更輕易地解決問題,提升算力則能在單位時間內(nèi)獲得更多成果。當一項活動具備邏輯運行特征時,即可交由計算機執(zhí)行;其中的變化規(guī)則越多地被掌握,計算機越是容易立于不敗之地。國際象棋就是一個例子,由于棋路變化相對簡單,今天安裝在手機上的對弈程序都已經(jīng)有了國際特級大師的棋力。專業(yè)級弈棋程序(如Rybka)幾乎已經(jīng)算盡棋路,在與人類棋手對決時穩(wěn)居上風。

常人的直覺是,計算方面輸給電腦是正常的,文化創(chuàng)意方面人類則是永遠的贏家。而事實上,文藝創(chuàng)作活動也可以通過算法轉(zhuǎn)化為邏輯運算。著名科幻作家劉慈欣就曾開發(fā)過一款寫詩軟件,設定創(chuàng)作一首三行詩,韻腳為a,按下“生成”就跳出結(jié)果:“伏特加,請霧化吧!懸崖,請磁化吧!我們都是嘩嘩啦啦的籌碼,我們要掙扎!”而如果在這一領域樹立一尊“圣杯”,那無疑是嘗試創(chuàng)造博爾赫斯筆下的“通天塔圖書館”。這座由小說家臆想出來的圖書館中,收藏著以不同字符、數(shù)字、標點符號組合而成的所有文本――既包括我們讀過的書,也包括消逝在歷史塵埃中的書,更包括尚未被寫出的書……計算機通過羅列全部組合的方式來締造這個圖書館,不斷優(yōu)化的算法會通過剔除大量無意義結(jié)果來為算力減壓。

當代的計算機尚無法構(gòu)建這個圖書館,正如它們還無法窮盡圍棋套路的變化那樣。但處理器性能是以指數(shù)級速度發(fā)展的,1946年人類第一臺電子計算機“埃尼阿克”的算力在今天連手持計算器都不如,我們又怎能設想一個世紀后的電腦將強大到何種程度呢?可以確定的是,一旦計算機可以“創(chuàng)作”,那么它也必然會攻克音樂、繪畫等人文藝術(shù)領域,人類靈感創(chuàng)意的專屬領地將遭遇機器邏輯的入侵。

與AI共生的未來

AI(人工智能)有強、弱之分。弱人工智能只擅長某個特定領域,比如駕駛、裝配或掃地吸塵。阿爾法狗亦屬于此,但它的本質(zhì)是一種深度學習引擎,而不是只會下圍棋。按照谷歌公司的藍圖,它將被運用在協(xié)助判斷早期病癥等領域。強人工智能將擁有類似人類的語言、情感以及思維能力,它們在很多方面會超越人類本身,因此研發(fā)的意義不是為解決某種具體問題,而是用它們來開創(chuàng)出更多視界。

篇6

關(guān)鍵詞:圖像識別;OCR;題庫采集;移動終端;特征建模

中圖分類號:G434 文獻標識碼:A 論文編號:1674-2117(2016)12-0075-04

采集題庫的現(xiàn)狀

隨著經(jīng)濟和社會的發(fā)展、“互聯(lián)網(wǎng)+”的廣泛應用及教育觀念的更新,我們迫切需要科學、方便、完善的網(wǎng)絡型題庫管理系統(tǒng)。試題庫建設是教育現(xiàn)代化的需要,是考教分離、最大限度提高辦學效益的需要,因此,進行區(qū)域網(wǎng)絡試題庫系統(tǒng)的建設和研究具有十分重要的意義。

受限于教材版本和區(qū)域應用層面的需求,采購商業(yè)化的題庫并不能完全滿足教育教學的實際要求。手握大量紙質(zhì)試卷的老師們,迫切需要一個錄入神器,方便快捷地將其錄入到題庫系統(tǒng)里。

利用基于移動終端的圖像文字識別技術(shù)將文字和圖片迅速錄入題庫是我們在移動端系統(tǒng)開發(fā)的應用亮點。它能夠大幅提高對質(zhì)量不高圖像的識別率,其關(guān)鍵算法對圖像的噪聲、亮度明暗不一致和規(guī)格凌亂的問題進行了很好的處理。它能夠?qū)D像上傳到服務器進行在線識別,在識別過程中先對圖像進行消噪,然后對亮度進行均衡處理及對圖像閾值分割,提高了圖像識別的成功率。

題庫采集系統(tǒng)工作流程

題庫采集主要分為圖像采集、圖像識別和標注三個過程。整體的工作流程包括:①系統(tǒng)啟動,進入主界面,可選擇開始拍攝閱卷或讀取設備中已有的圖像,如選擇拍攝題目,進入圖像采集模塊,調(diào)用移動設備的攝像頭進行拍攝,拍攝成功后,跳轉(zhuǎn)至識別界面,如選擇讀取相冊已有圖像也跳轉(zhuǎn)至識別界面。②在識別界面上顯示出拍攝或者讀取的相冊圖像,首先調(diào)用圖像預處理模塊對圖像進行預處理,輸出預處理后的圖像,然后調(diào)用圖像校正模塊對預處理圖像進行校正,輸出校正圖像,最后調(diào)用圖像識別模塊對校正圖像進行識別,輸出識別結(jié)果。③調(diào)用標注模塊對識別結(jié)果進行分類管理,為題目添加系統(tǒng)屬性,如學科、章節(jié)、知識點類目、題型、難度系數(shù)等標簽。圖1為題庫采集系統(tǒng)工作流程示意圖。

OCR智能模型設計思路

在人工智能領域,模擬人類圖像識別活動的計算機程序,人們提出了不同的圖像識別模型――模板匹配模型。這種模型認為,識別某個圖像,必須在過去的經(jīng)驗中有這個圖像的記憶模式,又叫特征模型。當前的刺激如果能與大腦中的模型相匹配,這個圖像也就被識別了。例如,有一個字母A,如果在腦中有個A模板,字母A的大小、方位、形狀都與這個A模板完全一致,字母A就被識別了。圖像識別中的模型識別(Pattern Recognition)利用計算機和數(shù)學推理的方法對形狀、模式、曲線、數(shù)字、字符格式和圖形自動完成識別、評價的過程。

那么如何通過模型的學習提高OCR的智能判斷水平呢?我們主要從以下三個方面做了實踐研究。

1.采集識別優(yōu)化

(1)二值化處理

二值圖像在數(shù)字圖像處理中占重要地位,其在處理實際圖像過程中地位更加突出。要應用二值圖像,掃描文檔之后的第一步就是對灰度圖像根據(jù)所選閾值進行二值化處理。二值圖像是像素值為0或255的像素點集合,如此一來,圖像的數(shù)據(jù)量大大減少,但圖像的基本輪廓信息得以保留。此項的關(guān)鍵是所選取的閾值是否得當,不當則會減弱二值圖像的處理效果。常用的閾值選取方法有固定閾值法、平均閾值法、直方圖法、Means法四種。

谷歌公司在HP公司Tesseract光學字符識別引擎的基礎上做了深度加工,其中對閾值的自適應分類器和兩步矯正法的應用大大提高了文本的識別效率。近幾年來,百度針對商業(yè)運用開發(fā)了自然場景OCR API服務,依托百度的OCR算法,提供了整圖文字檢測、識別、整圖文字識別、整圖文字行定位和單字圖像識別等功能。目前火熱的作業(yè)幫APP就是基于百度識別API做的延伸產(chǎn)品(如圖2)。

(2)圖像去噪與矯正

任何一幅原始圖像,在其獲取和傳輸?shù)倪^程中,都會受到各種噪聲的干擾,使圖像質(zhì)量下降,淹沒其特征,對圖像分析非常不利。為抑制噪聲、改善圖像質(zhì)量所進行的處理被稱為圖像平滑或去噪。

圖像平滑是用于突出圖像的寬大區(qū)域和主干部分(低頻部分)或抑制圖像噪聲和干擾(高頻部分),使圖像平緩漸變,減小突變梯度,改善圖像質(zhì)量的圖像處理方法。它屬于圖像增強的一部分,主要的圖像平滑方法有均值濾波、中值濾波、灰度形態(tài)學濾波、小波濾波、高斯低通濾波以及統(tǒng)計方法濾波。

已獲得的文本圖像有些不可避免地會發(fā)生傾斜,這樣會給后面文字的行切分和列切分以及文字的識別帶來困難,所以需要對獲取的圖像進行傾斜校正。圖像的傾斜校正最關(guān)鍵的是傾斜角的檢測,我們主要采用平行四邊形法進行文本圖像的校正(如圖3)。根據(jù)拍攝者給出的一系列文件位置點,用位置點的坐標結(jié)合模型擬合出文本線,根據(jù)文本線與水平線之間的差距進行精確恢復,以得到水平分布的文本行。

2.特征提取與建模

特征提取是圖像識別的重要步驟,為了保證后續(xù)處理的質(zhì)量,生成的特征要具備描述物體的典型特性,如獨特性、完整性、幾何變換下的不變性、靈敏性以及抽象性。我們設計的系統(tǒng)的特征模型包括文字特征、圖片特征、公式特征等。

提取圖像特征關(guān)系可以有兩種方法:一是對圖像進行合理地分割,劃分出圖像中所包含的對象或區(qū)域,然后根據(jù)這些區(qū)域提取圖像特征,并建立索引;二是簡單地將圖像均勻地劃分為若干規(guī)則子塊,然后對每個圖像子塊提取特征,并建立索引。

圖像特征建模的基本原則是根據(jù)圖像的視覺內(nèi)容和可獲得的指導信息來確定對應的文本語義描述。在圖像標注任務中會涉及兩種不同的媒體:一是圖像,二是文本。這兩種媒體具有良好的互補性,可以協(xié)作傳遞信息,正所謂“圖文并茂”。由這兩種媒體可以產(chǎn)生4種關(guān)系,即圖像間關(guān)系(IIR)、詞間關(guān)系(WWR)、由圖像到詞的關(guān)系(IWR)和由詞到圖像的關(guān)系(IR)。

3.基于標注模型的學習與訓練

我們通常采用兩兩圖像之間的視覺相似性(pairwise similarity)來建立以圖像為節(jié)點的相似圖,但這種方式由于沒有考慮到數(shù)據(jù)集或某個數(shù)據(jù)子集內(nèi)的結(jié)構(gòu)分布信息,效果不能令人滿意。因此我們引入了第二個以詞為節(jié)點的圖學習過程,用來實現(xiàn)對圖像標注的改善。

最常見的是屬性相關(guān)性,如“李白”是“古詩文”的關(guān)系。除此之外,詞匯之間還存在多種相關(guān)性,如“凸透鏡”與“光”之間有著很強的聯(lián)系,這種相關(guān)性不依賴于特定數(shù)據(jù)集,它是人們在生活中大量知識的積累和反映。當一幅圖像已被標為“凸透鏡”“光”等詞匯后,初中物理作為該圖像標注詞匯的概率就會相應提升。為了獲取這種相關(guān)信息,一種方法是從訓練數(shù)據(jù)集中利用已標注詞匯間的共生概率來計算詞匯間的關(guān)系。該方法基于已標注信息,相對準確,但它不能反映更廣義的人的知識。于是,我們可以采用另一種方法,利用具有大量詞匯的、包含了人的知識的結(jié)構(gòu)化電子詞典來計算詞匯間的關(guān)系。與統(tǒng)計方法相比,詞典包括了更加完整的大數(shù)據(jù)關(guān)聯(lián)信息。由此我們設計了基于標注的模型學習體系(如下頁圖4),通過提取題目圖像的特征點綁定其隱形屬性,再與拍攝者提供的顯性屬性做比對,進行數(shù)據(jù)建模,并引導系統(tǒng)修正其三大特征庫(文字、圖片、公式),實現(xiàn)自我學習。

需要注意的是,基于標注信息描述由圖到標簽的關(guān)系,更適合按照多標記分類(multilabel classification)問題來解決。具體而言,假設標注詞匯服從多項式分布,由此將圖像標注歸為多類別分類問題,而題庫的分類方式恰恰符合這樣的多標記模型(相對固定是顯性標簽:學科、學段、知識點、章節(jié)、難度等)。

注意事項

1.基于API方式的接入能使產(chǎn)品得到快速開發(fā)

例如,當前百度通過專業(yè)服務分發(fā)平臺APIStore開放百度文字識別技術(shù),讓開發(fā)者可以零成本使用基于移動應用的OCR技術(shù),為開發(fā)者創(chuàng)新應用提供了更多的選擇。

2.題庫特征建模要考慮學科特征

實踐證明,文科和理科的題目有著截然不同的特征屬性,如語文更注重詞匯與語法方面的訓練,而數(shù)學包含了大量的公式和二維化的圖像。往往數(shù)學在小學和中學階段的題目也會表現(xiàn)出不同的特征屬性,在建模的同時要注意抽取。

3.未來的方向是要構(gòu)建基于題庫圖像模型的題庫推送規(guī)則

當題庫的建構(gòu)達到一定數(shù)量之后,我們要將圖像和翻譯成的題目都保存下來,再根據(jù)拍攝者的需求做相關(guān)的推送,根據(jù)其使用的情況(如點擊率、評價等)再對模型進行修正。

從目前的技術(shù)發(fā)展角度看,突破性來自于機器語言翻譯方面的研究成果:通過一種遞歸神經(jīng)網(wǎng)絡(RNN)將一種語言的語句轉(zhuǎn)換成向量表達,并采用第二個RNN將向量表達轉(zhuǎn)換成目標語言的語句。而谷歌將以上過程中的第一種RNN用深度卷積神經(jīng)網(wǎng)絡CNN取代,這種網(wǎng)絡可以用來識別圖像中的物體。此種方法可以實現(xiàn)將圖像中的對象轉(zhuǎn)換成語句,對圖像場景進行描述。概念雖然簡單,但實現(xiàn)起來十分復雜,科學家表示,目前實驗產(chǎn)生的語句合理性不錯,但還遠談不上“完美”,這項研究目前還處于起步階段。相信在不久的將來此項發(fā)明將應用于教學領域,那么基于云模式下的圖像識別系統(tǒng)將得到一個質(zhì)的飛躍,它也將使圖像識別與深度學習更加緊密地聯(lián)系在一起,最終實現(xiàn)系統(tǒng)對互聯(lián)網(wǎng)上教育資源摘取和自學習的強大功能。

參考文獻:

[1]黃明明.圖像局部特征提取及應用研究[D].北京:北京科技大學,2016.

[2]劉淼,楊鎮(zhèn)豪,謝韻玲,謝冬青,唐春明.Android圖文同步識別系統(tǒng)的設計和實現(xiàn)[J].計算機工程與設計,2014(06).

[3]李龍卓.基于形狀特征的圖像檢索技術(shù)研究[D].青島:青島科技大學,2015.

[4]付蘆靜,錢軍浩,鐘云飛.基于漢字連通分量的印刷圖像版面分割方法[J].計算機工程與應用,2015(05).

篇7

論文摘要:當點擴展函數(shù)未知或不確知的情況下,從觀察到的退化圖像中恢復原始圖像的過程稱為圖像盲復原。近年來,圖像盲復原算法得到了廣泛的研究。本文在介紹了盲圖像恢復算法的現(xiàn)狀的基礎上進一步研究其的發(fā)展方向。

一、引言

圖像恢復是圖像處理中的一大領域,有著廣泛的應用,正成為當前研究的熱點。圖像恢復的主要目的是使退化圖像經(jīng)過一定的加工處理,去掉退化因素,以最大的保真度恢復成原來的圖像。傳統(tǒng)的圖像恢復假設圖像的降質(zhì)模型是己知的。而許多情況下,圖像的降質(zhì)模型未知或具有較少的先驗知識,必須進行所謂的盲恢復。其重要性和艱巨性而成為一個研究熱點。目前所能獲取的觀測圖像是真實圖像經(jīng)過觀測系統(tǒng)成像的結(jié)果。由于觀測系統(tǒng)本身物理特性的限制,同時受觀測環(huán)境的影響,觀測圖像和真實圖像之間不可避免地存在著偏差和失真,稱觀測系統(tǒng)對真實圖像產(chǎn)生了降質(zhì)。圖像恢復的目的就是根據(jù)降質(zhì)的觀測圖像分析和計算得出真實圖像。

二、圖像盲恢復算法的現(xiàn)狀

總體來說,圖像盲復原方法主要分為以下兩類:一是首先利用真實圖像的特別特征估計PSF,然后借助估計得到的PSF,采用經(jīng)典的圖像復原方法進行圖像的復原。這類方法將PSF的估計與圖像的復原過程分為2個不同的過程,因而具有較少計算量的特點;二是PSF辨識和真實圖像估計相結(jié)合,同時辨識PSF和真實圖像。這類算法較為復雜,計算量較大。另外,對于點擴展函數(shù)也考慮了空間變化的復雜情況。針對目前的盲復原算法的現(xiàn)狀,根據(jù)退化模型的特點,重新將算法分為空間不變的單通道盲復原算法、空間不變多通道盲復原算法和空間變化圖像盲復原算法3類。

(一)單通道空間不變圖像盲復原算法

在這類算法中,最為常用的是參數(shù)法和迭代法。

1)參數(shù)法。所謂參數(shù)法,即模型參數(shù)法,就是將PSF和真實圖像用某一類模型加以描述,但模型的參數(shù)需要進行辨識。在參數(shù)法中,典型的有先驗模糊辨識法和ARMA參數(shù)估計法,前者先辨識PSF的模型參數(shù),后辨識真實圖像,屬于第1種類型的圖像盲復原算法,因而計算量較小;后者同時辨識PSF和真實圖像模型參數(shù),屬于第2種類型圖像盲復原算法。

2)迭代法。所謂的迭代法,不是通過建立模型而是通過算法的迭代過程,加上有關(guān)真實圖像和PSF的約束來同時辨識PSF和真實圖像的方法。迭代法是單通道

圖像盲復原算法中應用最廣泛的一類算法,它不需建立模型,也不要求PSF為最小相位系統(tǒng),因而跟實際更為接近。在這類算法中,迭代盲復原算法(IBD),基于非負性和決策域的遞歸逆濾波器算法(NAR2RIF),基于高階統(tǒng)計特性的最小

熵算法等最為典型。

(二)多通道二維圖像盲復原

多通道二維圖像盲復原,這類方法將數(shù)字通訊領域應用的一維多通道盲原分離算法擴展到二維情況并用于圖像的盲恢復。這類算法中有兩種代數(shù)方法,一種是先辨識模糊函數(shù),再采用常規(guī)的恢復算法進行復原;另一種是直接對逆濾波器進行估計。此類算法的優(yōu)點在于不需對初始圖像進行估計,也不存在穩(wěn)定性和收斂性問題,對圖像以及模糊函數(shù)的約束是松弛的,算法具有一般性。但是第1種算法要求采用復原算法具有收斂性;第2種算法對噪聲敏感。

(三)空間改變的圖像盲復原方法

在許多實際的應用中,模糊往往是空間變化的,但由于處理工作的難度,目前的研究較少,基本有相關(guān)轉(zhuǎn)換恢復和直接法兩類。

相關(guān)轉(zhuǎn)換恢復的基本思想是區(qū)域分割,即將整幅圖像分為若干局部區(qū)域,然后假設在各個局部區(qū)域模糊是空間不變的,利用空間不變的圖像復原有關(guān)算法進行復原。這類方法都是基于窗口的模糊辨識技術(shù),圖像的估計取決于窗口的大小,由于模糊參數(shù)是連續(xù)變化的,在范圍較大時空間不變的假設是不成立的,因而模糊的估計精度較差,而且這種方法只能針對部分空間變化的模糊進行處理,缺乏通用性;其次在區(qū)域的邊上存在振鈴現(xiàn)象。

直接法的基本思想是直接對圖像進行處理。如采用簡化的二維遞推卡爾曼濾波器進行圖像模型和模糊模型的直接轉(zhuǎn)換方法,其缺點是只能針對有限的模型,而且模型數(shù)增加,計算量會顯著增大;采用共軛梯度迭代算法,但只見到一個31×31的文本圖像處理的結(jié)果報道,對于大圖像處理效果尚需進一步的研究;將空間變化圖像系統(tǒng)建立成馬爾苛夫隨機模型,對復原過程,采用模擬退火算法進行最大后驗估計的方法,這種方法避免了圖像的窗口化,并能克服模糊參數(shù)不連續(xù)性造成的影響,但這種方法只能局限于將模糊過程建立成單參數(shù)的馬爾苛夫隨機模型的情況,而且計算量也較大。

三、圖像盲恢復的應用前景

(1)現(xiàn)有算法的改進以及新的算法研究?,F(xiàn)有各種算法還存在許多不足,有必要對算法進一步改進。如IBD算法中,如何選擇初始條件才能保證算法的收斂;如何選擇算法終止條件才能保證恢復的質(zhì)量;如何選擇濾波器中的噪聲參數(shù)才能減少噪聲的影響。又如NAR2RIF算法中,如何進一步解決噪聲敏感問題,支持域的確定以及如何將算法擴展到非均勻背景的情況等。提出新的算法更好地解決圖像盲復原問題,也是今后研究的熱點。

(2)基于非線性退化模型的圖像盲復原算法。在實際應用中,嚴格來講,所有的退化模型都是非線性的。對模型采用線性化的方法進行近似處理,雖然算法簡單,但對非線性嚴重的情況處理效果并不理想?;诙囗検揭约吧窠?jīng)網(wǎng)絡兩種參數(shù)模型處理非線性信號盲分離算法,算法擴展到二維圖像情況需要進一步研究。研究基于非線性退化模型的圖像盲復原算法也是下一步研究方向之一。

(3)去噪處理算法研究。加性噪聲的存在,使圖像的復原問題變成了一個病態(tài)問題,而且由于一般假設只知道噪聲的統(tǒng)計特性,因此要從退化圖像中完全去除噪聲是不可能的。另外,由于噪聲的存在,恢復的效果并不理想,結(jié)合降噪的圖像盲恢復的算法研究有很現(xiàn)實的意義,這方面也進行了部分工作。為克服噪聲的影響,一般采用先進行降噪,后進行復原;二是將降噪和復原同時進行這兩類方法。目前,大多數(shù)算法中將噪聲描述成高斯噪聲進行研究,在實際應用時有較大局限性。對于非高斯情況的研究采用基于噪聲的高階統(tǒng)計特性的去噪算法研究也是很重要的研究方向,也可采用其他類型的方法進行降噪,利用自組織映射的非線性獨立組件分析方法進行圖像降噪處理算法。

(4)實時處理算法。算法的的復雜性是制約算法應用的一個重要方面??刹捎谜齽t化的離散周期Radon變換的方法將二維的卷積轉(zhuǎn)化為一維進行處理,以提高算法的速度;也可采用神經(jīng)網(wǎng)絡的實時處理算法。算法的實時性是算法實際應用的先決條件。

(5)應用研究。算法的應用是推動算法研究的動力。雖然圖像盲復原算法在天文學、醫(yī)學、遙感等方面獲得了較大的應用,但將算法應用到一般的工業(yè)圖像實時檢測、機器視覺、網(wǎng)絡環(huán)境下的圖像傳輸恢復、刑事偵破等方面還有大量的工作要做。

參考文獻:

[1]薛梅,楊綠溪.用于含噪二值圖像的改進NAS-RIF圖像盲復原算[J].數(shù)據(jù)處理.2006.17.(2).

篇8

2.有扭仿射李代數(shù)(g)[σ]-模范疇C的分類高永存,田亞男,GAOYong-cun,TIANYan-an

3.信息粗交流在價格形成機制中的作用研究昝廷全,趙永剛,ZANTing-quan,ZHAOYong-gang

4.基于截斷模型的收獲度的實證分析張輝,龍學鋒,ZHANGHui,LONGXue-feng

5.序列圖像的高精度面繪制方法劉宏,閔曙輝,LIUHong,MINShu-hui

6.一種改進的后散射型光電煤塵傳感器梁紅,王鳳簫,LIANGHong,WANGFeng-xiao

7.基于固定效應模型研究我國居民教育投資的差異性孫靖,張輝,SUNJing,ZHANGHui

8.NGB主要接入技術(shù)方案分析胡睿,彭濤,楊易,HURui,PENGTao,YANGYi

9.基于灰色相對關(guān)聯(lián)度的圖像邊緣檢測算法齊英劍,李青,吳正朋,QIYing-jian,LIQing,WUZheng-peng

10.MPEG幀轉(zhuǎn)換為DAB幀的研究與實現(xiàn)沈向輝,劉月萍,SHENXiang-hui,LIUYue-ping

11.基于用戶總體滿意度的遺傳任務調(diào)度算法王曉光,王永濱,楊曉剛,WANGXiao-guang,WANGYong-bing,YANGXiao-gang

12.多媒體語言實驗室的構(gòu)建與應用詹群,朱兵,ZHANQun,ZHUBing

13.漏泄式音頻發(fā)射系統(tǒng)在聽力教學中的應用吳和敏,WUHe-min

14.高清攝像機技術(shù)參數(shù)規(guī)范研究王鴻濤,史萍,王世平,WANGHong-tao,SHIPing,WANGShi-ping

15.一族具有四階收斂的迭代算法姜亞健,劉停戰(zhàn),劉偉,JIANGYa-jian,LIUTing-zhan,LIUWei

16.多聲道環(huán)繞聲傳聲器技術(shù)原理與應用俞锫,YUPei

1.質(zhì)量概念的意義黃志洵,HUANGZhi-Xun

2.博弈論的粗集模型昝廷全,朱天博,ZANTing-quan,ZHUTian-bo

3.一種改進的基于支持向量機與波導理論的電磁參數(shù)提取方法研究肖懷寶,周建威,逯貴禎,夏禹,XIAOHuai-bao,ZHOUJian-wei,LUGui-zhen,XIAYu

4.預失真系統(tǒng)的采樣率和濾波器帶寬的設計張鵬,楊剛,楊霏,劉昌銀,ZHANGPeng,YANGGang,YANGFei,LIUChang-yin

5.MIMO-OFDM系統(tǒng)的一種新的半盲估計胡峰,李建平,劉瑞奇,HUFeng,LIJian-ping,LiuRui-qi

6.基于ARMLinux舞臺調(diào)光臺的研究與實現(xiàn)中國傳媒大學學報自然科學版 任慧,郭振華,董保華,林倩,RENHui,GUOZhen-Hua,DONGBao-Hua,LINQian

7.基于Matlab的OFDM仿真實現(xiàn)及性能分析王玲,逯貴禎,肖懷寶,WANGLing,LUGui-zhen,XIAOHuai-bao

8.BICM-ID系統(tǒng)的四維16QAM星座映射設計張華清,ZHANGHua-qing

9.CMTS雙下行信道的研究朱紅旭,劉劍波,ZHUHong-Xu,LIUJian-bo

10.環(huán)形地共面波導饋電的超寬帶天線設計郭慶新,李增瑞,居繼龍,GUQing-xin,LIZeng-rui,JUJi-long

11.時間頻率基準源的原理和設計楊剛,劉晉,YANGGang,LIUJin

12.新型斬控式正弦波舞臺調(diào)光器的研究與實現(xiàn)李真,董保華,任慧,郭振華,LIZhen,DONGBao-hua,RENHui,GUOZhen-hua

13.超窄帶調(diào)制技術(shù)與FM結(jié)合的雙模式傳輸付志躍,張華清,F(xiàn)UZhi-yue,ZHANGHua-qing

14.一種基于ARM-Linux的調(diào)頻廣播監(jiān)測接收機的設計徐博堯,楊剛,XUBo-yao,YANGGang

15.研究生科技論文規(guī)范化的兩個問題王謙,WANGQian

16.證券印花稅調(diào)整對股市流動性及波動性影響的實證分析李文磊,楊茜,黃媛,張婭,LIWen-lei,YANGXi,HUANGYuan,ZHANGYa

1.微波衰減測量技術(shù)的進展黃志洵,曲敏,HUANGZhi-Xun,QUMin

2.制度邊界的粗集模型研究昝廷全,楊婧婧,ZANTing-quan,YANGJing-jing

3.EPON寬帶接入網(wǎng)DBA技術(shù)的研究帥千鈞,李鑒增,SHUAIQian-jun,LIJian-zeng

4.劇院HVAC系統(tǒng)噪聲評價方法研究蔣昭旭,任慧,蔣偉,張晶晶,JIANGZhao-xu,RENHui,JIANGWei,ZHANGJing-jing

5.BICM-ID系統(tǒng)的多維星座映射設計張華清,ZHANGHua-qing

6.DRM系統(tǒng)中電子節(jié)目指南信息編碼傳輸?shù)难芯颗c實現(xiàn)沈向輝,SHENXiang-hui

7.基于支持向量機與開口波導法的電磁參數(shù)提取方法研究肖懷寶,逯貴禎,李曉茹,XIAOHuai-bao,LUGui-zhen,LIXiao-ru

8.基于DAB的一種刪除卷積碼的編碼算法的仿真與驗證李鑫,鄧綸暉,LIXin,DENGLun-hui

9.TinyOS下的串口通信研究與實現(xiàn)劉宣旺,陳遠知,章必成,楊仕勇,LIUXuan-wang,CHENYuan-zhi,ZHANGBi-cheng,YANGShi-yong

10.適用于電場探頭的垂直腔面發(fā)射激光器的PSpice模型朱廣超,林金才,逯貴禎,王超,ZHUGuang-chao,LINJin-cai,LUGui-zhen,WANGChao

11.DRM開源軟件接收系統(tǒng)石東新,李朝暉,SHIDong-xin,LIZhao-hui

12.環(huán)境稅征收的博弈分析龍學鋒,黃媛,馬麗麗,李文磊,LONGXue-feng,HUANGYuan,MALi-li,LIWen-lei

13.運動模糊圖像復原技術(shù)的改進算法高文碩,鄭偉偉,楊磊,GAOWen-shuo,ZHENGWei-wei,YANGlei

14.LDPC碼在AWGN信道中的性能研究邵麗娜,史萍,駱超,SHAOLi-na,SHIPing,LUOChao

15.高標清信號上下變換的實現(xiàn)方法李鍵,LIJian

1.現(xiàn)代物理學中的負參數(shù)研究黃志洵,HUANGZhi-xun

2.國際貿(mào)易系統(tǒng)化水平研究昝廷全,陳國珍,應思思,ZANTing-quan,CHENGuo-zhen,YINGSi-si

3.K(m,n,1)方程的緊支集精確解朱永貴,吳聯(lián)仁,周瑩,王敏,ZHUYong-gui,WULian-ren,ZHOUYing,WANGMin

4.廣義Toroidal李超代數(shù)的不可約可積表示付佳媛,F(xiàn)UJia-yuan

5.PIN二極管在可重構(gòu)天線中的作用的研究周彬,逯貴幀,ZHOUBin,LUGui-zhen

6.基于馬爾科夫隨機場的合成孔徑雷達圖像分割方法王玲,逯貴禎,肖懷寶,WANGLing,LUGui-zheng,XIAOHuai-bao

7.路由器緩存容量的分析研究張博,顏金堯,ZHANGBo,YANJin-yao

8.基于PeerCast的P2P流媒體系統(tǒng)鄭春浩,顏金堯,ZHENChun-hao,YANJin-yao

9.快速黑白圖像自動上色技術(shù)研究曾靚,楊盈昀,ZENGLiang,YANGYing-yun

10.基于DVB-T的OFDM系統(tǒng)的信道估計研究張華清,吳娛,ZHANGHua-qing,WUYu

11.網(wǎng)絡不良視頻信息過濾系統(tǒng)的研究與實現(xiàn)謝志揚,史萍,XIEZhi-yang,SHIPing

12.基于FPGA的PCI接口中的DMA傳輸模塊設計胡南,鄧綸暉,HUNan,DENGLun-hui

13.基于五株全相位采樣提升小波的圖像融合孫壽燕,張彬,SUNShou-yan,ZHANGBin

14.中國傳媒大學學報自然科學版 移動多媒體廣播系統(tǒng)中LDPC編碼器的設計與實現(xiàn)尹航,胡志強,肖如吾,YINHang,HUZhi-qiang,XIARu-wu

1.消失態(tài)與Goos-H(a)inchen位移研究黃志洵,HUANGZhi-Xun

2.雙重分解法及其與Adomian分解法的比較潘平,朱永貴,PANPing,ZHUYong-gui

3.一種實現(xiàn)IBOC數(shù)字音頻廣播系統(tǒng)中復用技術(shù)的方法周敏,李建平,宋金寶,ZHOUMin,LIJian-ping,SONGJin-bao

4.關(guān)于相對論中的質(zhì)量和動量張操,TSAOChang

5.DVB.S信號干擾Matlab仿真研究劉凱,陳遠知,LIUKai,CHENYuan-zhi

6.OFDM系統(tǒng)峰均比壓縮技術(shù)的研究智慧川,曾志斌,ZHIHuic-huan,ZENGZhi-bin

7.基于WSN與RFID的智能倉庫管理系統(tǒng)設計章必成,劉宣旺,陳遠知,楊仕勇,ZHANGBi-cheng,LIUXuan-wang,CHENYuan-zhi,YANGShi-yong

8.一種基于H.264的快速運動估計算法吳小敏,徐偉掌,WUXiao-min,XUWei-zhang

9.模擬退火算法研究混合結(jié)構(gòu)吸波材料特性肖懷寶,逯貴禎,關(guān)亞林,XIAOHuai-bao,LUGui-zhen,GUANYa-lin

10.證券交易印花稅對股市波動性影響的實證研究肖延慶,龍學鋒,李文磊,XIAOYan-qing,LONGXue-feng,LIWen-lei

11.基于DRO耦合技術(shù)的S頻段低噪聲振蕩源的設計研究王三川,WANGSan-chuan

12.MPEG-4實時編碼的Cache算法優(yōu)化胡志強,HUZhi-qiang

13.基于DMB-TH的LDPC碼性能分析張華清,ZHANGHua-qing

14.基于PML和有限元法求解二維時諧散射問題康彤,陳濤,涂中華,趙孟洲,KANGTong,CHENTao,TUZhong-hua,ZHAOMeng-zhou

1.論單光子研究黃志洵,HUANGZhi-Xun

2.手機輻射生物效應的量子理論研究李旸,逯貴禎,LiYang,LuGui-zhen

3.數(shù)目可變多目標的實時跟蹤馬艷,王京玲,劉劍波,MaYan,WangJing-Ling,LiuJian-bo

4.基于EM算法的MIMOOFDM系統(tǒng)信道估計胡高平,程艷,HuGao-ping,ChengYan

5.二進制與非二進制Turbo碼性能研究駱超,史萍,LUOChao,SHIPing

6.DAB復用系統(tǒng)中數(shù)據(jù)服務器的設計與實現(xiàn)孟祁,沈向輝,MENGqi,SHENXiang-hui

7.基于嵌入式Linux的Web遠程繼電器控制系統(tǒng)的設計實現(xiàn)丁天然,王樂,DINGTian-ran,WANGLe

8.SlaveFIFO模式下CY7C68013和FPGA的數(shù)據(jù)通信馬俊濤,李振宇,MAJun-tao,LIZhen-yu

9.基于均值漂移的SAR圖像分割方法研究逯貴禎,王玲,肖懷寶,LUGui-zhen,WANGLing,XIAOHuai-bao

10.廣播電視輿情分析研究宋金寶,柴劍平,闞锎,SONGJin-bao,CHAIJian-ping,KANKai

11.室內(nèi)電波傳播預測與實驗研究王宜穎,林金才,逯貴禎,曾冬冬,劉子菡,WANGYi-ying,LINJin-cai,LUGui-zhen,ZENGDong-dong,LIUZi-han

12.基于PSO-BP算法的微帶天線諧振頻率神經(jīng)網(wǎng)絡建模董躍,田雨波,DONGYue,TIANYu-bo

13.演藝燈光網(wǎng)絡控制系統(tǒng)設備識別機制的研究白石磊,任慧,蔣偉,劉榮,蔣玉暕,BAIShi-lei,RENHui,JIANGWei,LIURong,JIANGYu-jian

14.中國傳媒大學學報自然科學版 數(shù)學離散選擇模型實證研究雙語課程教學模式張輝,謝秋霞,ZHANGHui,XIEQiu-xia

篇9

1影像組學的定義及方法概述

隨著醫(yī)學影像技術(shù)及成像手段的快速發(fā)展,所產(chǎn)生的醫(yī)學圖像數(shù)據(jù)量也越來越大,對圖像獲取和存儲方面的質(zhì)量控制,使得規(guī)范化、多模態(tài)的影像大數(shù)據(jù)集的建立成為可能。過去處理及使用小樣本量圖像數(shù)據(jù)的方法和模式,顯然不能對圖像的大數(shù)據(jù)信息進行充分的挖掘和利用。荷蘭學者Lambin于2012年首次提出了影像組學(Radiomics)的概念[9],作為一種新興的利用醫(yī)學影像大數(shù)據(jù)對疾病進行定量分析預測的方法,可以從醫(yī)學圖像中獲得更多客觀定量、肉眼難以鑒別的影像學特征,再將其轉(zhuǎn)換為可挖掘的高維數(shù)據(jù)信息,從而實現(xiàn)圖像到數(shù)據(jù)的轉(zhuǎn)換[10,11]。通過大量的自動化數(shù)據(jù)特征化算法的使用,影像組學能有效實現(xiàn)圖像的采集與重組、病灶的分割及勾畫,并通過對病灶影像組學特征的提取與篩選,最終完成影像組學模型的建立[11,12]。近些年來,影像組學已廣泛應用于不同疾病的研究之中,在疾病檢測、診斷、鑒別診斷及預后評估方面發(fā)揮著越來越重要的作用。此外,深度學習(Deeplearning)等人工智能技術(shù)的突破性發(fā)展,減少了傳統(tǒng)影像組學人工提取數(shù)據(jù)特征的步驟,極大地縮短了從病灶影像組學特征提取到最終影像組學模型建立的時間,進一步促進了影像組學技術(shù)在醫(yī)學圖像處理等諸多領域的應用研究。

2影像組學在肝臟非腫瘤性病變中的研究進展

2.1肝纖維化及肝硬化的診斷評估

肝纖維化是各種慢性肝病發(fā)展為肝硬化或肝癌的過渡階段,主要是由含大量膠原蛋白的細胞外基質(zhì)(extracellularmatrix,ECM)過度沉積于肝小葉周圍所引起,這些過度沉積的ECM阻礙正常肝細胞與血液間的物質(zhì)交換,并最終引起肝細胞的的壞死、變性,從而誘發(fā)了肝纖維化等一系列的慢性肝損傷的過程。組織學上肝纖維化及部分肝硬化經(jīng)治療后可逆[14],因此早期精準地評估肝纖維化程度對于患者的治療及預后十分重要。作為診斷是否存在肝纖維化和評估肝纖維化分期的“金標準”的肝活組織穿刺檢查有創(chuàng)、可重復性差,并且肝纖維化的不均質(zhì)性、穿刺活檢樣本量較少等因素,均會影響肝纖維化分期的準確性[13,14]。影像組學作為一種無創(chuàng)性的方法,可以對肝纖維化及肝硬化程度進行更加準確的評估。Park等[7]回顧性搜集436例不同肝纖維化患者的釓塞酸二鈉增強MRI圖像并構(gòu)建影像組學肝纖維化指數(shù)模型,通過與肝活檢結(jié)果對比并內(nèi)部驗證剔除相關(guān)性較低的特征,最終建立與肝纖維化分期相關(guān)性較高的模型,進行前瞻性驗證后發(fā)現(xiàn)其診斷F2~F4、F3~F4級肝纖維化及F4級肝硬化的敏感度和特異度分別為71%、78%,79%、82%,92%、75%;表明基于釓塞酸二鈉增強掃描肝膽期圖像的影像組學分析能較為準確地進行肝纖維化的診斷及分期。Wang等[15]搜集12個臨床醫(yī)學中心,398例患者共1990幅超聲二維剪切波彈性成像圖像,采用深度學習算法之一的卷積神經(jīng)網(wǎng)絡(convolutionneuralnetwork,CNN)建立了超聲彈性成像深度學習影像組學模型,并以肝活檢作為金標準進行模型診斷效能的評估,結(jié)果顯示該模型可顯著提高對肝纖維化分期的準確性,其對肝硬化(F4)、晚期纖維化(≥F3)和顯著性纖維化(≥F2)診斷的曲線下面積(AUC)值分別高達0.97、0.98和0.85,表現(xiàn)出極佳的診斷效能。有研究[16]采用紋理分析的方法對212例不同病理分期肝纖維化患者和77名志愿者肝臟多層螺旋CT圖像進行分析后發(fā)現(xiàn),隨著肝纖維程度的逐步加重,由紋理分析所獲得的峰度和偏斜度是逐步減低的,而平均灰度強度、熵則表現(xiàn)為依次增高,在區(qū)分不同分期肝纖維化和肝硬化時均顯示出較高的診斷效能,特別是在診斷肝硬化(≥F4)時,峰度和偏斜度的診斷的AUC值分別為0.86、0.87,表明紋理分析不僅有助于檢測肝纖維化的存在,還可用于肝纖維化的分期。綜上所述,基于多種成像手段所構(gòu)建的影像組學模型對肝纖維化及肝硬化均表現(xiàn)出較高的評估診斷效能,故影像組學的發(fā)展,可能為臨床上早期發(fā)現(xiàn)、及時準確評估肝纖維化及肝硬化程度提供幫助,但基于不同成像手段所建立的影像組學模型間性能差異的研究,有待進一步的探索。

2.2門靜脈高壓及GOV破裂出血風險的評估

肝硬化失代償期常伴隨門靜脈高壓癥的出現(xiàn),其嚴重程度與肝硬化所導致的相關(guān)并發(fā)癥如GOV、肝性腦病、腹腔積液等密切相關(guān),因此,準確地評估門靜脈高壓程度十分重要。但是,目前評估門靜脈壓力變化的金標準肝靜脈壓力梯度(hepaticvenouspressuregradient,HVPG)為有創(chuàng)檢查、且費用較高,不利于臨床常規(guī)開展[17,18]。GOV破裂出血是晚期肝硬化最常見、最嚴重的并發(fā)癥,也是患者死亡的主要原因,相關(guān)研究顯示近50%門靜脈高壓癥患者可出現(xiàn)GOV,在肝功能C級的患者中,GOV出現(xiàn)概率高達85%,食管胃十二指腸內(nèi)鏡是診斷GOV的“金標準”[19],主要通過觀察內(nèi)鏡下GOV的范圍、程度及“紅色征”等進行出血風險的評估,但內(nèi)鏡檢查對于GOV程度嚴重的患者可重復性差。影像組學的出現(xiàn),為門靜脈高壓及GOV破裂出血風險的無創(chuàng)性評估提供了新的選擇。Liu等[20]基于222例不同程度門靜脈高壓患者的增強CT圖像構(gòu)建了臨床顯著性門靜脈高壓(clinical-lysignificantportalhypertension,CSPH)的非侵入性影像組學模型,并通過4個外部驗證隊列中163例患者,對該模型的診斷性能進行了前瞻性檢驗,結(jié)果顯示該模型不僅在內(nèi)部驗證集中診斷CSPH的AUC值高達0.849,在4個外部前瞻性驗證隊列中,該模型診斷CSPH的AUC值也分別高達0.889、0.800、0.917、0.827,提示該影像組學模型可作為無創(chuàng)檢測肝硬化CSPH的一種準確方法。Yang等[21]通過分析兩個臨床醫(yī)學中心共295例乙肝肝硬化患者的肝臟三期增強CT圖像,從門靜脈期CT圖像提取出21個與GOV出血關(guān)系密切的影像組學特征,并結(jié)合了3個臨床特征(性別、門靜脈高壓、門靜脈栓子有無),建立了用于預測乙肝肝硬化患者繼發(fā)GOV出血的CT影像組學模型,結(jié)果表明該影像組學模型的預測效能明顯優(yōu)于臨床模型(AUC0.83vs0.64),對于GOV破裂出血的預測,在訓練隊列與驗證隊列中,該模型預測的準確率分別為76%、73%,是一種有效預測GOV破裂出血的無創(chuàng)性方法。此外,還有研究[22]基于169個門靜脈高壓患者的CT圖像,建立了一個肝、脾特征聯(lián)合的影像組學模型,并對62例接受GOV治療的患者進行了驗證隊列研究,結(jié)果表明該模型不僅可以用于門靜脈高壓的診斷,還可用于GOV出血復發(fā)風險的預測,以29.102mmHg為最佳截斷值時,相應的AUC可高達0.866,提示該影像組學模型可作為無創(chuàng)、精準預測繼發(fā)于門靜脈高壓癥的GOV治療效果的有效的參考指標。影像組學無創(chuàng)、可重復性強,在門靜脈壓力及GOV出血風險的評估中潛力巨大,但模型預測效能的穩(wěn)定性及泛化能力,仍需進一步的臨床研究進行證明。

2.3肝臟儲備功能的評估

肝臟儲備功能狀態(tài)的準確評估,關(guān)乎肝病患者,尤其是肝癌患者治療方式的選擇及預后[23]。Child-Pugh分級評分系統(tǒng)是臨床應用最廣泛的肝臟儲備功能評分標準,但Child-Pugh分級具有高度的變異性,易受患者膽汁排泄、門靜脈栓子形成等因素的影響,從而影響臨床工作中對患者肝臟儲備功能評估的準確性[24,25]。影像組學通過高通量的提取和處理圖像信息,可以對疾病進行更準確、更全面的評估。Simp-son等[26]對12例接受大范圍肝切除術(shù)后并發(fā)肝功能不全和24例未出現(xiàn)肝功能不全患者的術(shù)前CT圖像進行紋理分析,發(fā)現(xiàn)術(shù)后并發(fā)肝功能不全患者術(shù)前CT上肝實質(zhì)的質(zhì)地明顯不同,術(shù)后并發(fā)肝功能不全者不僅對稱性較差,均勻性也較差,并且兩組患者紋理特征之一的熵值間也存在顯著的差異,故從術(shù)前CT圖像中提取的紋理特征,可用于預測患者術(shù)后肝功能衰竭發(fā)生概率,可作為提供術(shù)前風險分層的另一種手段。Zhu等[27]基于101例患者的術(shù)前釓塞酸二鈉增強MRI圖像,使用影像組學的方法從肝膽相圖像中提取了61個影像組學特征,并最終篩選出5個影像組學特征用于建立術(shù)前預測肝癌患者術(shù)后肝功能的影像組學模型,其結(jié)果表明該模型對于預測術(shù)后肝功能衰竭發(fā)生概率具有良好的預測效能,模型預測的AUC值高達0.894,可用于預測肝硬化患者肝大部切除術(shù)后的肝功能衰竭。Zhou等[25]通過100例不同肝臟儲備功能肝硬化患者釓塞酸二鈉增強MRI肝膽期圖像所建立的評估肝臟儲備功能的列線圖預測模型,在預測肝臟儲備功能方面,也顯示出良好的效能,在訓練集及驗證集中,其預測肝臟儲備功能Child-PughB+C級患者的AUC值分別為0.88和0.86。影像組學在肝臟儲備功能評估中具有一定的價值,但不同病因患者間肝臟儲備功能影像組學特征間是否存在差異,以及所建立評估肝臟儲備功能模型的泛化能力,還有待進一步的研究。

2.4與肝臟腫瘤性病變的鑒別診斷

肝臟局灶性病變良惡性的準確判斷,對于臨床治療方式的選擇及患者的預后來說十分重要。但部分非腫瘤性病變和腫瘤性病變、良性腫瘤性病變和惡性腫瘤性病變之間影像學表現(xiàn)存在交叉,易出現(xiàn)誤診。影像組學能深度挖掘醫(yī)學影像圖像的影像特征信息,從而降低對肝臟局灶性病變的誤診率。Suo等[28]通過紋理分析的方法對20例肝膿腫患者及26例肝臟惡性腫瘤患者的增強CT圖像分析后發(fā)現(xiàn),紋理特征之一的熵值能較為準確區(qū)分肝膿腫與肝臟惡性腫瘤,其診斷的靈敏度與特異度分別為81.8%、88.0%,AUC值高達0.888。Nie等[29]基于55例非肝硬化肝局灶性結(jié)節(jié)增生患者和101例肝癌患者的CT影像資料,從增強CT圖像中進行病灶勾畫后提取了4227個影像組學特征,通過降維方法將其縮減為10個影像組學特征,并聯(lián)合性別、年齡,病灶大小、形狀、中央瘢痕征有無等主觀評價條件構(gòu)建了一個用于鑒別診斷肝臟局灶性結(jié)節(jié)增生與肝癌的影像組學模型,結(jié)果顯示該模型在訓練集及驗證集區(qū)分兩者的AUC分別高達0.979和0.917,具有良好的預測效能。而鐘熹等[30]對31例患者肝硬化結(jié)節(jié)常規(guī)T2WI序列進行紋理分析的結(jié)果之中,紋理參數(shù)如對比度、逆差距,能量、相關(guān)性、熵值均具有統(tǒng)計學意義,能有效進行小肝癌及局灶性增生的鑒別診斷。有研究[31]運用機器學習算法之一的隨機森林算法,通過獲取動脈期CT圖像紋理特征及性別、年齡等臨床特征,建立了肝臟富血供病變類別的預測模型,結(jié)果顯示其診斷肝腺瘤、局灶性結(jié)節(jié)增生及肝細胞癌的準確率分別為91.2%、94.4%、98.6%。以上結(jié)果提示:影像組學對肝臟非腫瘤性病變及腫瘤性病變有較強的鑒別診斷效能,能顯著提高肝臟局灶性病灶的影像診斷準確率。

3肝臟非腫瘤性病變影像組學的挑戰(zhàn)與展望