卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)過(guò)程范文
時(shí)間:2024-04-02 18:05:00
導(dǎo)語(yǔ):如何才能寫(xiě)好一篇卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)過(guò)程,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。
篇1
關(guān)鍵詞:圖像分類;深度學(xué)習(xí);Caffe框架;卷積神經(jīng)網(wǎng)絡(luò)
中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)35-0209-03
Research and Implementation of Image Classification Based on Convolution Neural Network
WANG Chao
(Information Engineering Institute,East China University of Technology, Nanchang 330013, China)
Abstract: The problem of image classification has been the core problem in computer vision. A good solution is developed by further study which can solve the problem of extracting image features in image classification. In order to learn image features efficiently, constructing the machine learning model with hidden layer as well as training a large number of image data will eventually promote the accuracy of image classification or prediction. This paper is intended as an in-depth Caffe learning framework to construct a small image data-base. The convolutional neural network provided by Caffe framework will make a training analysis of the data set and then extract the information of target image features. These can be used for the final prediction of the target image. Compared with the traditional image classification algorithm, the accuracy of the prediction will be greatly improved.
Key words: image classification; deep learning; Caffe framework; Convolutional Neural Network
S著計(jì)算機(jī)與互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,我們已經(jīng)進(jìn)入了一個(gè)以圖像構(gòu)建的世界。但是面臨有海量圖像信息卻找不到所需要的數(shù)據(jù)的困境,因而圖像分類技術(shù)應(yīng)運(yùn)而生。通過(guò)各種機(jī)器學(xué)習(xí)算法使計(jì)算機(jī)自動(dòng)將各類圖像進(jìn)行有效管理和分類,但是由于圖像內(nèi)容包含著大量復(fù)雜且難以描述的信息,圖像特征提取和相識(shí)度匹配技術(shù)也存在一定的難題,要使得計(jì)算機(jī)能夠像人類一樣進(jìn)行分類還是有很大的困難。
深度學(xué)習(xí)是近十年來(lái)人工智能領(lǐng)域取得的重要突破,在圖像識(shí)別中的應(yīng)用取得了巨大的進(jìn)步,傳統(tǒng)的機(jī)器學(xué)習(xí)模型屬于神經(jīng)網(wǎng)絡(luò)模型,神經(jīng)網(wǎng)絡(luò)有大量的參數(shù),經(jīng)常會(huì)出現(xiàn)過(guò)擬合問(wèn)題,因而對(duì)目標(biāo)檢測(cè)準(zhǔn)確率上比較低。本文采用卷積神經(jīng)網(wǎng)絡(luò)框架,圖像特征是從大數(shù)據(jù)中自動(dòng)學(xué)習(xí)得到,而且神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)深由很多層組成,通過(guò)重復(fù)利用中間層的計(jì)算單元來(lái)減少參數(shù),在特征匯聚階段引入圖像中目標(biāo)的顯著信信息,增強(qiáng)了圖像的特征表達(dá)能力。通過(guò)在圖像層次稀疏表示中引入圖像顯著信息,加強(qiáng)了圖像特征的語(yǔ)義信息,得到圖像顯著特征表示,通過(guò)實(shí)驗(yàn)測(cè)試,效果比傳統(tǒng)的圖像分類算法預(yù)測(cè)的準(zhǔn)確度有明顯的提升。
1 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類方法
1.1 人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)是描述生物神經(jīng)網(wǎng)絡(luò)運(yùn)行機(jī)理和工作過(guò)程的抽象和簡(jiǎn)化了的數(shù)學(xué)物理模型,使用路徑權(quán)值的有向圖來(lái)表示模型中的人工神經(jīng)元節(jié)點(diǎn)和神經(jīng)元之間的連接關(guān)系,之后通過(guò)硬件或軟件程序實(shí)現(xiàn)上述有向圖的運(yùn)行[1]。目前最典型的人工神經(jīng)網(wǎng)絡(luò)算法包括:目前最典型的人工神經(jīng)網(wǎng)絡(luò)有BP網(wǎng)絡(luò) [2]Hopfield網(wǎng)絡(luò)[3]Boltzmann機(jī)[4]SOFM網(wǎng)絡(luò)[5]以及ART網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)[6],算法流程圖如圖1所示[7]。
1.2 卷積神經(jīng)網(wǎng)絡(luò)框架的架構(gòu)
Caffe是Convolutional Architecture for Fast Feature Embedding的縮寫(xiě)[8],意為快速特征嵌入的卷積結(jié)構(gòu),包含最先進(jìn)的深度學(xué)習(xí)算法以及一系列的參考模型,圖2表示的是卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖。Caffe深度學(xué)習(xí)框架主要依賴CUDA,IntelMKL,OpenCV,glog軟件以及caffe文件。本文使用的各個(gè)軟件版本說(shuō)明,如表1所示。
Caffe深度學(xué)習(xí)框架提供了多個(gè)經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)模型,卷積神經(jīng)網(wǎng)絡(luò)是一種多層的監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),利用隱含層的卷積層和池采樣層是實(shí)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)特征提取功能,卷積神經(jīng)網(wǎng)絡(luò)模型通過(guò)采取梯度下降法最小化損失函數(shù)對(duì)網(wǎng)絡(luò)中的權(quán)重參數(shù)逐層反向調(diào)節(jié),通過(guò)頻繁的迭代訓(xùn)練來(lái)提高網(wǎng)絡(luò)的精度。卷積神經(jīng)網(wǎng)絡(luò)使用權(quán)值共享,這一結(jié)構(gòu)類似于生物神經(jīng)網(wǎng)絡(luò),從而使網(wǎng)絡(luò)的復(fù)雜程度明顯降低,并且權(quán)值的數(shù)量也有大幅度的減少,本文使用這些模型直接進(jìn)行訓(xùn)練,和傳統(tǒng)的圖像分類算法對(duì)比,性能有很大的提升,框架系統(tǒng)訓(xùn)練識(shí)別基本流程如圖3表示。
1.3 圖像分類特征提取
卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)層次相比傳統(tǒng)的淺層的神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),要復(fù)雜得多,每?jī)蓪拥纳窠?jīng)元使用了局部連接的方式進(jìn)行連接、神經(jīng)元共享連接權(quán)重以及時(shí)間或空間上使用降采樣充分利用數(shù)據(jù)本身的特征,因此決定了卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)相比維度大幅度降低,從而降低計(jì)算時(shí)間的復(fù)雜度。卷積神經(jīng)網(wǎng)絡(luò)主要分為兩個(gè)過(guò)程,分為卷積和采樣,分別的對(duì)上層數(shù)據(jù)進(jìn)行提取抽象和對(duì)數(shù)據(jù)進(jìn)行降維的作用。
本文以Caffe深度學(xué)習(xí)框架中的 CIFAR-10數(shù)據(jù)集的貓的網(wǎng)絡(luò)模型為例,如圖4所示,對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。CIFAR-10是一個(gè)標(biāo)準(zhǔn)圖像圖像訓(xùn)練集,由六萬(wàn)張圖像組成,共有10類(分為飛機(jī),小汽車,鳥(niǎo),貓,鹿,狗,青蛙,馬,船,卡車),每個(gè)圖片都是32×32像素的RGB彩色圖像。通過(guò)對(duì)數(shù)據(jù)進(jìn)行提取和降維的方法來(lái)提取圖像數(shù)據(jù)的特征。
2 實(shí)驗(yàn)分析
將貓的圖像訓(xùn)練集放在train的文件夾下,并統(tǒng)一修改成256×256像素大小,并對(duì)貓的圖像訓(xùn)練集進(jìn)行標(biāo)記,標(biāo)簽為1,運(yùn)行選擇cpu進(jìn)行訓(xùn)練,每進(jìn)行10次迭代進(jìn)行一次測(cè)試,測(cè)試間隔為10次,初始化學(xué)習(xí)率為0.001,每20次迭代顯示一次信息,最大迭代次數(shù)為200次,網(wǎng)絡(luò)訓(xùn)練的動(dòng)量為0.9,權(quán)重衰退為0.0005,5000次進(jìn)行一次當(dāng)前狀態(tài)的記錄,記錄顯示如下圖5所示,預(yù)測(cè)的準(zhǔn)度在98%以上。而相比傳統(tǒng)的圖像分類算法BP神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)的收斂性慢,訓(xùn)練時(shí)間長(zhǎng)的,網(wǎng)絡(luò)的學(xué)習(xí)和記憶具有不穩(wěn)定性,因而卷e神經(jīng)網(wǎng)絡(luò)框架在訓(xùn)練時(shí)間和預(yù)測(cè)準(zhǔn)度上具有非常大的優(yōu)勢(shì)。
3 結(jié)束語(yǔ)
本文使用Caffe深度學(xué)習(xí)框架,以CIFAR-10數(shù)據(jù)集中貓的網(wǎng)絡(luò)模型為例,構(gòu)建小型貓的數(shù)據(jù)集,提取貓的圖象特征信息,最后和目標(biāo)貓圖像進(jìn)行預(yù)測(cè),并和傳統(tǒng)的圖像分類算法進(jìn)行對(duì)比,預(yù)測(cè)的準(zhǔn)確率有很大的提升。
參考文獻(xiàn):
[1] 楊錚, 吳陳沭, 劉云浩. 位置計(jì)算: 無(wú)線網(wǎng)絡(luò)定位與可定位性[M]. 北京: 清華大學(xué)出版社, 2014.
[2] 丁士折. 人工神經(jīng)網(wǎng)絡(luò)基礎(chǔ)[M]. 哈爾濱: 哈爾濱工程大學(xué)出版社, 2008.
[3] McClelland J L, Rumelhart D E, PDP Research Group. Parallel distributedprocessing[J]. Explorations in the microstructure of cognition, 1986, 2.
[4] Hopfield J J. Neural networks and physical systems with emergent collectivecomputational abilities[J]. Proceedings of the national academy of sciences, 1982, 79(8): 2554-2558.
[5] Ackley D H, Hinton G E, Sejnowski T J. A learning algorithm for boltzmannmachines[J]. Cognitive science, 1985, 9(1): 147-169.
[6] Kohonenmaps T. Self-Organized Formation of Topologically Correct Feature Maps[J]. Biological Cybernetics,1982, 43(1): 59-69.
篇2
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);圖像分類;空間變換;可變形卷積
DOIDOI:10.11907/rjdk.171863
中圖分類號(hào):TP317.4
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2017)006-0198-04
0 引言
圖像分類一直是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)基礎(chǔ)而重要的核心問(wèn)題,具有大量的實(shí)際應(yīng)用場(chǎng)景和案例。很多典型的計(jì)算機(jī)視覺(jué)問(wèn)題(如物體檢測(cè)、圖像分割)都可以演化為圖像分類問(wèn)題。圖像分類問(wèn)題有很多難點(diǎn)需要解決,觀測(cè)角度、光照條件的變化、物體自身形變、部分遮擋、背景雜波影響、類內(nèi)差異等問(wèn)題都會(huì)導(dǎo)致被觀測(cè)物體的計(jì)算機(jī)表示(二維或三維數(shù)值數(shù)組)發(fā)生劇烈變化。一個(gè)良好的圖像分類模型應(yīng)當(dāng)對(duì)上述情況(以及不同情況的組合)不敏感。使用深度學(xué)習(xí)尤其是深度卷積神經(jīng)網(wǎng)絡(luò),用大量圖像數(shù)據(jù)進(jìn)行訓(xùn)練后可以處理十分復(fù)雜的分類問(wèn)題。
卷積神經(jīng)網(wǎng)絡(luò)是為識(shí)別二維形狀而專門(mén)設(shè)計(jì)的一個(gè)多層感知器,這種網(wǎng)絡(luò)結(jié)構(gòu)對(duì)平移、縮放、傾斜等擾動(dòng)具有高度不變性,并且具有強(qiáng)大的特征學(xué)習(xí)與抽象表達(dá)能力,可以通過(guò)網(wǎng)絡(luò)訓(xùn)練獲得圖像特征,避免了復(fù)雜的特征提取與數(shù)據(jù)重建過(guò)程。通過(guò)網(wǎng)絡(luò)層的堆疊,集成了低、中、高層特征表示。AlexNet等網(wǎng)絡(luò)模型的出F,也推動(dòng)了卷積網(wǎng)絡(luò)在海量圖像分類領(lǐng)域的蓬勃發(fā)展。
1 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)是人工神經(jīng)網(wǎng)絡(luò)的一種,其“局部感知”“權(quán)值共享”[1]等特性使之更類似于生物神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)模型復(fù)雜度大大降低,網(wǎng)絡(luò)訓(xùn)練更容易,多層的網(wǎng)絡(luò)結(jié)構(gòu)有更好的抽象表達(dá)能力,可以直接將圖像作為網(wǎng)絡(luò)輸入,通過(guò)網(wǎng)絡(luò)訓(xùn)練自動(dòng)學(xué)習(xí)圖像特征,從而避免了復(fù)雜的特征提取過(guò)程。
Yann LeCun等[2]設(shè)計(jì)的LeNet-5是當(dāng)前廣泛使用的卷積網(wǎng)絡(luò)結(jié)構(gòu)原型,它包含了卷積層、下采樣層(池化層)、全連接層以及輸出層,構(gòu)成了現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)的基本組件,后續(xù)復(fù)雜的模型都離不開(kāi)這些基本組件。LeNet-5對(duì)手寫(xiě)數(shù)字識(shí)別率較高,但在大數(shù)據(jù)量、復(fù)雜的物體圖片分類方面不足,過(guò)擬合也導(dǎo)致其泛化能力較弱。網(wǎng)絡(luò)訓(xùn)練開(kāi)銷大且受制于計(jì)算機(jī)性能。
2012年,在ILSVRC競(jìng)賽中AlexNet模型[3]贏得冠軍,將錯(cuò)誤率降低了10個(gè)百分點(diǎn)。擁有5層卷積結(jié)構(gòu)的AlexNet模型證明了卷積神經(jīng)網(wǎng)絡(luò)在復(fù)雜模型下的有效性,并將GPU訓(xùn)練引入研究領(lǐng)域,使得大數(shù)據(jù)訓(xùn)練時(shí)間縮短,具有里程碑意義。AlexNet還有如下創(chuàng)新點(diǎn):①采用局部響應(yīng)歸一化算法(Local Response Normalization,LRN),增強(qiáng)了模型的泛化能力,有效降低了分類錯(cuò)誤率;②使用Dropout技術(shù),降低了神經(jīng)元復(fù)雜的互適應(yīng)關(guān)系,有效避免了過(guò)擬合;③為了獲得更快的收斂速度,AlexNet使用非線性激活函數(shù)ReLU(Rectified Linear Units)來(lái)代替?zhèn)鹘y(tǒng)的Sigmoid激活函數(shù)。
Karen等[4]在AlexNet的基礎(chǔ)上使用更小尺寸的卷積核級(jí)聯(lián)替代大卷積核,提出了VGG網(wǎng)絡(luò)。雖然VGG網(wǎng)絡(luò)層數(shù)和參數(shù)都比AlexNet多,但得益于更深的網(wǎng)絡(luò)和較小的卷積核尺寸,使之具有隱式規(guī)則作用,只需很少的迭代次數(shù)就能達(dá)到收斂目的。
復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)能表達(dá)更高維的抽象特征。然而,隨著網(wǎng)絡(luò)層數(shù)增加,參數(shù)量也急劇增加,導(dǎo)致過(guò)擬合及計(jì)算量大增,解決這兩個(gè)缺陷的根本辦法是將全連接甚至一般的卷積轉(zhuǎn)化為稀疏連接。為此,Google團(tuán)隊(duì)提出了Inception結(jié)構(gòu)[5],以將稀疏矩陣聚類為較為密集的子矩陣來(lái)提高計(jì)算性能。以Inception結(jié)構(gòu)構(gòu)造的22層網(wǎng)絡(luò)GoogLeNet,用均值池化代替后端的全連接層,使得參數(shù)量只有7M,極大增強(qiáng)了泛化能力,并增加了兩個(gè)輔助的Softmax用于向前傳導(dǎo)梯度,避免梯度消失。GoogLeNet在2014年的ILSVRC競(jìng)賽中以Top-5錯(cuò)誤率僅6.66%的成績(jī)摘得桂冠。
網(wǎng)絡(luò)層數(shù)的增加并非永無(wú)止境。隨著網(wǎng)絡(luò)層數(shù)的增加,將導(dǎo)致訓(xùn)練誤差增大等所謂退化問(wèn)題。為此,微軟提出了一種深度殘差學(xué)習(xí)框架[6],利用多層網(wǎng)絡(luò)擬合一個(gè)殘差映射,成功構(gòu)造出152層的ResNet-152,并在2015年的ILSVRC分類問(wèn)題競(jìng)賽中取得Top-5錯(cuò)誤率僅5.71%的成績(jī)。隨后,對(duì)現(xiàn)有的瓶頸式殘差結(jié)構(gòu)進(jìn)行改進(jìn),提出了一種直通結(jié)構(gòu)[7],并基于此搭建出驚人的1001層網(wǎng)絡(luò),在CIFAR-10分類錯(cuò)誤率僅4.92%。至此,卷積神經(jīng)網(wǎng)絡(luò)在越來(lái)越“深”的道路上一往直前。
2 可變形的卷積神經(jīng)網(wǎng)絡(luò)
2.1 空間變換網(wǎng)絡(luò)
空間變換網(wǎng)絡(luò)(Spatial Transformer Network,STN)[8]主要由定位網(wǎng)絡(luò)(Localisation net)、網(wǎng)格生成器(Grid generator)和可微圖像采樣(Differentiable Image Sampling)3部分構(gòu)成,如圖1所示。
定位網(wǎng)絡(luò)將輸入的特征圖U放入一個(gè)子網(wǎng)絡(luò)(由卷積、全連接等構(gòu)成的若干層子網(wǎng)絡(luò)),生成空間變換參數(shù)θ。θ的形式可以多樣,如需要實(shí)現(xiàn)2D仿射變換,那么θ就是一個(gè)2×3的向量。
2.3 本文模型
本文以自建的3層卷積網(wǎng)絡(luò)C3K5(如圖6所示)和VGG-16作為基準(zhǔn)網(wǎng)絡(luò),分別引入空間變換網(wǎng)絡(luò)、可變形卷積和可變形池化,構(gòu)造出8個(gè)卷積神經(jīng)網(wǎng)絡(luò),用以驗(yàn)證可變形模塊對(duì)淺層網(wǎng)絡(luò)和深層網(wǎng)絡(luò)的影響,如表1所示。
圖6中C3K5網(wǎng)絡(luò)模型包含3個(gè)帶有ReLU層、LRN層和池化層的卷積模塊,卷積層采用步長(zhǎng)為1的5×5卷積核,輸出保持原大小,池化層采用步長(zhǎng)為2核為2×2的最大值池化,即每經(jīng)過(guò)一個(gè)卷積模塊,特征圖縮小為原來(lái)的一半。
3 實(shí)驗(yàn)與分析
3.1 實(shí)驗(yàn)設(shè)置
本文實(shí)驗(yàn)環(huán)境:CPU為Intel i5-7400,8G內(nèi)存,顯卡為GTX1060,采用Cuda8+CuDNN6.0加速。
實(shí)驗(yàn)數(shù)據(jù)集包括公共圖像數(shù)據(jù)集mnist、cifar-10、cifar-100和自建圖像數(shù)據(jù)集pen-7。公共數(shù)據(jù)集分別有50 000張訓(xùn)練樣本圖像和10 000張測(cè)試樣本圖像。自建數(shù)據(jù)集pen-7為京東商城的七類筆圖像庫(kù),每類有600張圖片,圖像分辨率為200×200,總計(jì)訓(xùn)練樣本數(shù)3 360,測(cè)試樣本數(shù)840, 圖7為其中的14個(gè)樣本。
3.2 結(jié)果與分析
分別將表1中的10個(gè)卷積網(wǎng)絡(luò)應(yīng)用到mnist、cifar-10、cifar-100和pen-7四個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練,batch-size設(shè)置100,即每次傳入100張圖片進(jìn)行訓(xùn)練,每訓(xùn)練100次測(cè)試一次(記為一次迭代),總共迭代100次,取最后10次迭代的準(zhǔn)確率計(jì)算平均值,得各網(wǎng)絡(luò)應(yīng)用在不同數(shù)據(jù)集的分類結(jié)果,如表2所示。
實(shí)驗(yàn)結(jié)果表明,在卷積網(wǎng)絡(luò)中引入空間變換網(wǎng)絡(luò)、用可變形的卷積層和可變形的池化層替換傳統(tǒng)的卷積層和池化層,不管是在淺層網(wǎng)絡(luò)還是在深層網(wǎng)絡(luò),都能獲得更高的分類準(zhǔn)確率,這驗(yàn)證了空間變換網(wǎng)絡(luò)和可變形卷積(池化)結(jié)構(gòu),豐富了卷積神經(jīng)網(wǎng)絡(luò)的空間特征表達(dá)能力,提升了卷積網(wǎng)絡(luò)對(duì)樣本的空間多樣性變化的魯棒性。包含3種模塊的網(wǎng)絡(luò)獲得了最高的分類精度,使空間變換網(wǎng)絡(luò)、可變形卷積層和可變形池化層在更多應(yīng)用場(chǎng)景中并駕齊驅(qū)成為可能。
4 結(jié)語(yǔ)
通過(guò)在現(xiàn)有卷積神經(jīng)網(wǎng)絡(luò)中引入空間變換網(wǎng)絡(luò)、可變形的卷積層和可變形的池化層,使得卷積網(wǎng)絡(luò)在mnist、cifar-10、cifar-100及自建的pen-7數(shù)據(jù)集中獲得了更高的分類精度,包含3種模塊的網(wǎng)絡(luò)獲得了最高分類精度,證明了空間變換網(wǎng)絡(luò)、可變形的卷積層和可變形池化層都能豐富網(wǎng)絡(luò)的空間特征表達(dá)能力,協(xié)同應(yīng)用于圖像分類工作,這為后續(xù)研究打下了堅(jiān)實(shí)的基礎(chǔ)。
參考文獻(xiàn):
[1]BOUVRIE J. Notes on convolutional neural networks[J].Neural Nets,2006(1):159-164.
[2]Y LECUN,L BOTTOU,Y BENGIO,et al.Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[3]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]. International Conference on Neural Information Processing Systems. Curran Associates Inc,2012:1097-1105.
[4]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. Computer Science, 2014(6):1211-1220.
[5]SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[J]. CVPR, 2015(3):1-9.
[6]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]. Computer Vision and Pattern Recognition. IEEE, 2015:770-778.
[7]HE K, ZHANG X, REN S, et al. Identity mappings in deep residual networks[J]. arXiv,2016(1603):5-27.
[8]JADERBERG M, SIMONYAN K, ZISSERMAN A, et al. Spatial transformer networks[J].Computer Science, 2015(5):1041-1050.
[9]DAI J, QI H, XIONG Y, et al. Deformable convolutional networks[J]. arXiv: 2017(1703):62-111.
篇3
關(guān)鍵詞:深度學(xué)習(xí);行為識(shí)別;神經(jīng)網(wǎng)絡(luò)
1 概述
動(dòng)作行為識(shí)別是計(jì)算機(jī)視覺(jué)領(lǐng)域中的一個(gè)研究熱點(diǎn),已經(jīng)廣泛應(yīng)用于智能監(jiān)控、人機(jī)交互、視頻檢索等領(lǐng)域中[1]。動(dòng)作行為識(shí)別技術(shù)是通過(guò)對(duì)視頻或者圖像中人體動(dòng)作行為做出有意義的判斷。有效表達(dá)圖像(視頻)中的實(shí)際目標(biāo)和場(chǎng)景內(nèi)容是最基本,最核心的問(wèn)題。因此,對(duì)于特征的構(gòu)建和選擇得到廣泛關(guān)注,例如STIP、SIFT、MSER等。但是,能通過(guò)無(wú)監(jiān)督方式讓機(jī)器自動(dòng)從樣本中學(xué)習(xí)到表征樣本的特征,會(huì)讓人們更好地利用計(jì)算機(jī)來(lái)實(shí)現(xiàn)人的視覺(jué)功能。而深度學(xué)習(xí)作為神經(jīng)網(wǎng)絡(luò)的延伸和發(fā)展,是通過(guò)逐層構(gòu)建一個(gè)多層網(wǎng)絡(luò)來(lái)使得機(jī)器自動(dòng)學(xué)習(xí)到隱含在數(shù)據(jù)內(nèi)部的關(guān)系,從而讓學(xué)習(xí)到的特征更加準(zhǔn)確性。
文章旨在探討深度學(xué)習(xí)與機(jī)器學(xué)習(xí)(神經(jīng)網(wǎng)絡(luò))之間的關(guān)系,并且介紹深度學(xué)習(xí)的由來(lái)、概念和原理;同時(shí)介紹目前深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)中的應(yīng)用。最后提出深度學(xué)習(xí)目前發(fā)展所面臨的問(wèn)題,以及對(duì)未來(lái)的展望。
2 深度學(xué)習(xí)
2.1 深度學(xué)習(xí)概述
深度學(xué)習(xí)源于人工神經(jīng)網(wǎng)絡(luò)的研究,是機(jī)器學(xué)習(xí)的拓展。深度學(xué)習(xí)是經(jīng)過(guò)組合低層特征來(lái)形成更加抽象的屬性類別和特征,從中發(fā)現(xiàn)原始數(shù)據(jù)的特征表征[2]?,F(xiàn)在用于動(dòng)作行為識(shí)別的技術(shù)是通過(guò)“動(dòng)作表征”+“動(dòng)作分類器”的框架來(lái)進(jìn)行行為識(shí)別的。其中“動(dòng)作表征”是人們手動(dòng)設(shè)計(jì)特征獲取到的,也就是在目前識(shí)別框架內(nèi)存在一個(gè)對(duì)動(dòng)作圖像(視頻)的預(yù)處理過(guò)程。
深度學(xué)習(xí)和淺層學(xué)習(xí)相對(duì)。目前許多學(xué)習(xí)算法是淺層網(wǎng)絡(luò)學(xué)習(xí)方法,具有一定的局限性,例如在樣本有限的狀況下,表示復(fù)雜函數(shù)的能力有限制,且對(duì)復(fù)雜分類問(wèn)題的泛化能力也會(huì)受到一定約束[3]。而深度學(xué)習(xí)通過(guò)學(xué)習(xí)深層非線性網(wǎng)絡(luò)結(jié)構(gòu),達(dá)到復(fù)雜函數(shù)逼近,又能在樣本少的情況下學(xué)習(xí)原始數(shù)據(jù)的特征。BP算法作為傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的典型算法,雖然訓(xùn)練多層網(wǎng)絡(luò),但僅含幾層網(wǎng)絡(luò),訓(xùn)練方法很不理想[3]。因?yàn)槠漭斎牒洼敵鲩g非線性映射讓網(wǎng)絡(luò)誤差函數(shù)形成含多個(gè)極小點(diǎn)的非線性空間,因而經(jīng)常收斂到局部最小,且隨著網(wǎng)絡(luò)層數(shù)的增加,容易過(guò)擬合。而深度學(xué)習(xí)可以獲得分布式表示,通過(guò)逐層學(xué)習(xí)算法來(lái)得到原始輸入數(shù)據(jù)的主要變量。通過(guò)深度學(xué)習(xí)的非監(jiān)督訓(xùn)練完成,同時(shí)利用生成性訓(xùn)練避免因函數(shù)表達(dá)能力過(guò)強(qiáng)而出現(xiàn)過(guò)擬合情況。
2.2 深度學(xué)習(xí)原理
傳統(tǒng)機(jī)器學(xué)習(xí)僅含單層非線性變換的淺層網(wǎng)絡(luò)結(jié)構(gòu),而且淺層模型單一。這對(duì)于深度網(wǎng)絡(luò)來(lái)說(shuō)易造成陷入最優(yōu)或產(chǎn)生梯度分散等問(wèn)題。因此,Hinton等人在基于深度置信網(wǎng)(DBNs)的情況下提出非監(jiān)督貪婪逐層訓(xùn)練算法,隨后提出了多層次自動(dòng)編碼器深層結(jié)構(gòu),這給解決深層網(wǎng)絡(luò)結(jié)構(gòu)相關(guān)的優(yōu)化難題帶來(lái)了希望。此外Lecun等人提出的卷積神經(jīng)網(wǎng)絡(luò)是第一個(gè)多層次結(jié)構(gòu)的學(xué)習(xí)算法。同時(shí)深度學(xué)習(xí)還出現(xiàn)了許多結(jié)構(gòu):多層感知機(jī)、去噪自動(dòng)編碼器、稀疏編碼等。
卷積神經(jīng)網(wǎng)絡(luò)是第一個(gè)真正采用多層次網(wǎng)絡(luò)結(jié)構(gòu),具有魯棒性的深度學(xué)習(xí)算法,通過(guò)探究數(shù)據(jù)在空間上的相關(guān)性,減少訓(xùn)練參數(shù)的數(shù)量。而且卷積神經(jīng)網(wǎng)絡(luò)(CNN)適應(yīng)性強(qiáng),善于發(fā)現(xiàn)數(shù)據(jù)的局部特征。它的權(quán)重共享結(jié)構(gòu)降低了網(wǎng)絡(luò)模型的復(fù)雜度,減少了權(quán)值的數(shù)量,使得卷積神經(jīng)網(wǎng)絡(luò)在模式識(shí)別中取得了很好的結(jié)果。
自動(dòng)編碼器的核心關(guān)鍵是將原始圖像(視頻)輸入信號(hào)進(jìn)行編碼,使用編碼后的信號(hào)來(lái)重建原始信號(hào),使得兩者之間的重建誤差最小。通過(guò)將原始信號(hào)編碼成另一形式,能夠有效地提取信號(hào)中的主要信息,能夠簡(jiǎn)潔地表達(dá)原始圖像(視頻)的特征。
3 深度學(xué)習(xí)的應(yīng)用
3.1 語(yǔ)音識(shí)別
從2009年開(kāi)始,微軟研究院語(yǔ)音識(shí)別專家通過(guò)與Hinton合作,首先將RBM和DBN引入到語(yǔ)音識(shí)別聲學(xué)模型訓(xùn)練中,使得語(yǔ)音識(shí)別的錯(cuò)誤率相對(duì)減低30%,這徹底改變了語(yǔ)音識(shí)別原有的技術(shù)框架。在國(guó)際上,IBM、google等公司都快速進(jìn)行了DNN語(yǔ)音識(shí)別的研究,并且速度飛快。國(guó)內(nèi)方面,阿里巴巴,科大訊飛、百度、中科院自動(dòng)化所等公司或研究單位,也在進(jìn)行深度學(xué)習(xí)在語(yǔ)音識(shí)別上的研究。
3.2 視頻中的動(dòng)作行為識(shí)別
準(zhǔn)確迅速識(shí)別視頻中人的動(dòng)作行為對(duì)于視頻搜索和視頻監(jiān)控具有劃時(shí)代的意義。最近幾年,深度學(xué)習(xí)技術(shù)被應(yīng)用于視頻動(dòng)作行為識(shí)別中。如Ji等人[4]提出多層網(wǎng)絡(luò)的3D卷積神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)視頻中的時(shí)空特征,并通過(guò)卷積來(lái)實(shí)現(xiàn)對(duì)整個(gè)視頻特征的學(xué)習(xí),從而代替之前的時(shí)空興趣點(diǎn)檢測(cè)和特征描述提取。在TRECVID數(shù)據(jù)庫(kù)上進(jìn)行的實(shí)驗(yàn)取得了不錯(cuò)效果。
4 結(jié)束語(yǔ)
文章對(duì)深度學(xué)習(xí)的主要概念進(jìn)行了全面闡述,包括其由來(lái)、原理、研究進(jìn)展和相應(yīng)的應(yīng)用等。在很多領(lǐng)域中,深度學(xué)習(xí)都表現(xiàn)了潛在的巨大價(jià)值,但深度學(xué)習(xí)作為淺層學(xué)習(xí)的延伸,仍處于發(fā)展階段,還有很多問(wèn)題值得我們深入探討:
(1)我們需要了解深度學(xué)習(xí)的樣本復(fù)雜度,需要多少訓(xùn)練樣本才能學(xué)習(xí)到足夠的深度模型。
(2)在推進(jìn)深度學(xué)習(xí)的學(xué)習(xí)理論和計(jì)算理論的同時(shí),我們是否可以建立一個(gè)通用的深度學(xué)習(xí)網(wǎng)絡(luò)模型,作為統(tǒng)一的框架來(lái)處理語(yǔ)音、圖像和語(yǔ)言。
(3)神經(jīng)網(wǎng)絡(luò)具有前饋性連接和反饋性連接,可是我們研究的深度網(wǎng)絡(luò)中還沒(méi)有加入反饋連接,這些都給深度學(xué)習(xí)的研究帶來(lái)了嚴(yán)峻的挑戰(zhàn)。
參考文獻(xiàn)
[1]王亮,胡衛(wèi)明,譚鐵牛.人運(yùn)動(dòng)的視覺(jué)分析綜述[J].計(jì)算機(jī)學(xué)報(bào),2002,25(3):225-237.
[2]余凱,賈磊,陳雨強(qiáng).深度學(xué)習(xí)的昨天、今天和明天[J].計(jì)算機(jī)研究與發(fā)展,2013,50(9):1799-1804.
篇4
摘要:
針對(duì)帶鋼表面缺陷檢測(cè)系統(tǒng)的速度滯后,精度偏低等問(wèn)題,在分析成像理論和圖像檢測(cè)理論的基礎(chǔ)上,設(shè)計(jì)并實(shí)現(xiàn)了一種帶鋼表面缺陷高速高精度在線檢測(cè)系統(tǒng).該系統(tǒng)首先采用大功率半導(dǎo)體均勻發(fā)光激光器技術(shù)、高速線掃描成像技術(shù)和基于圖形處理器的Gabor紋理濾波技術(shù)實(shí)現(xiàn)了高速高分辨率的圖像采集和處理,然后采用基于嵌套循環(huán)的K-折交叉驗(yàn)證、信息增益率和BP神經(jīng)網(wǎng)絡(luò)方法構(gòu)建了高準(zhǔn)確率的分類器,以達(dá)到對(duì)帶鋼表面缺陷高速高精度在線檢測(cè).實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)滿足了現(xiàn)有帶鋼生產(chǎn)速度的要求,具有較高的精度和準(zhǔn)確率.
關(guān)鍵詞:
圖像采集和處理;圖像檢測(cè);Gabor紋理濾波;神經(jīng)網(wǎng)絡(luò)
0引言
鋼鐵企業(yè)為了提高競(jìng)爭(zhēng)力,對(duì)帶鋼的生產(chǎn)提出了新的要求,也對(duì)帶鋼表面檢測(cè)系統(tǒng)提出了更高的要求,既要有更高的檢測(cè)速度還要有更加準(zhǔn)確的檢測(cè)精度[1].而與此同時(shí),跟隨機(jī)器視覺(jué)技術(shù)的發(fā)展,帶鋼表面檢測(cè)系統(tǒng)也得到了廣泛的研究與應(yīng)用[2].主要研究包括:①光源技術(shù).由于帶鋼檢測(cè)對(duì)光源要求頻度高、體積小,這限制了傳統(tǒng)光源在其應(yīng)用[3],激光具有方向性好、亮度高、體積小等優(yōu)點(diǎn),被廣泛應(yīng)用于帶鋼檢測(cè)應(yīng)用中,國(guó)內(nèi)的徐科等[4]提出熱軋鋼檢測(cè)中用綠光作為激光光源,但激光照明需解決均勻性問(wèn)題.②掃描技術(shù).由于電荷耦合元件能夠?qū)崿F(xiàn)實(shí)時(shí)檢測(cè),成為目前研究和應(yīng)用的主流技術(shù)[5].但是,CCD電荷耦合器需在同步時(shí)鐘的控制下,以行為單位一位一位地輸出信息,速度較慢,而互補(bǔ)金屬氧化物半導(dǎo)體光電傳感器采集光信號(hào)的同時(shí)就可以取出電信號(hào),還能同時(shí)處理各單元的圖像信息,速度比CCD電荷耦合器快很多[6].③圖像處理算法.受限于帶鋼加工過(guò)程的特性,帶鋼表面呈現(xiàn)出隨機(jī)紋理的特點(diǎn),對(duì)于隨機(jī)紋理圖像的處理分析,目前常用的方法有共生矩陣法、頻域?yàn)V波法、分形法等.作為頻域?yàn)V波法的代表,二維Gabor濾波器有著與生物視覺(jué)系統(tǒng)相近的特點(diǎn)[7],廣泛應(yīng)用于紋理圖像的處理分析.但是,CPU很難滿足現(xiàn)在的帶鋼檢測(cè)的實(shí)時(shí)要求[8].④分類算法.特征選擇的主流算法是主成分分析和信息增益.主成分分析存在特征向量方向不一致的問(wèn)題,而且如何確定主成分存在主觀性[9].信息增益可以衡量特征的優(yōu)劣,利用它可對(duì)特征進(jìn)行排序,方便后面的特征選擇,但信息增益適用于離散特征,信息增益率既適用于離散特征也適用于連續(xù)特征[10],被廣泛應(yīng)用于特征選擇的過(guò)程中.圖像分類算法主流算法包括支持向量機(jī)和BP神經(jīng)網(wǎng)絡(luò).支持向量機(jī)不適用于大樣本的分類問(wèn)題[11].BP神經(jīng)網(wǎng)絡(luò)方法具有能夠解決非線性分類問(wèn)題,對(duì)噪聲不敏感等優(yōu)點(diǎn),被廣泛應(yīng)用于帶鋼檢測(cè)中,如王成明等[12]提出的基于BP神經(jīng)網(wǎng)絡(luò)的帶鋼表面質(zhì)量檢測(cè)方法等,但是BP神經(jīng)網(wǎng)絡(luò)的超參的設(shè)定往往具有隨機(jī)性,這嚴(yán)重影響了分類效果[13].本文首先介紹了帶鋼表面缺陷高速高分辨率成像系統(tǒng)的設(shè)計(jì),針對(duì)光源的不均勻性、圖像處理速度慢等問(wèn)題,提出改進(jìn)方法,然后介紹了分類器的構(gòu)建,針對(duì)樣本劃分的隨機(jī)性、特征選擇的隨機(jī)性以及BP神經(jīng)網(wǎng)絡(luò)超參設(shè)定的隨機(jī)性問(wèn)題,做出改進(jìn),最后介紹試驗(yàn)結(jié)果.
1帶鋼表面缺陷高速高分辨率的成像系統(tǒng)的設(shè)計(jì)
1)大功率半導(dǎo)體均勻發(fā)光激光器技術(shù).激光能夠保證帶鋼表面缺陷的檢出率[14],本系統(tǒng)選用808nm半導(dǎo)體激光器作為照明源,出光功率可達(dá)30W,亮度可達(dá)1500流明.激光照明需解決均勻性的問(wèn)題,本文采用了基于鮑威爾棱鏡的激光線發(fā)生辦法,解決了激光照明的均勻性問(wèn)題,其光路如圖1所示.該方法首先在激光聚焦位置放置圓形球面透鏡,負(fù)責(zé)將發(fā)散的激光束匯聚成準(zhǔn)平行光,同時(shí)控制光柱的粗細(xì),然后,利用鮑威爾棱鏡的擴(kuò)散效果對(duì)圓柱的一個(gè)方向進(jìn)行擴(kuò)束,最終形成激光線.為保證亮度及寬度的適應(yīng)性,激光器出光口距離圓透鏡、鮑威爾棱鏡的距離可以精密調(diào)整.為了降低反射亮度損失,在透鏡表面鍍上808±5nm的T≥99%的增透膜.
2)基于GPU的Gabor紋理濾波技術(shù).二維Ga-bor濾波器具有易于調(diào)諧方向、徑向頻率帶寬及中心頻率等特征,本文采用該方法來(lái)進(jìn)行圖像處理,二維Gabor函數(shù)為guv(x,y)=k2σ2exp-N2(x2+y2)2σ[]2×expi(k•()xy[])-exp-σ2{()}2(1)其中:k=kxk()y=kvcosψμkvsinψ()μ;kv=2-v+22π;ψμ=μπN;v的取值決定了Gabor濾波的波長(zhǎng);μ的取值表示Gabor核函數(shù)的方向;N為總的方向數(shù).設(shè)f(x,y)為圖像函數(shù),guv(x,y)為卷積函數(shù),則卷積輸出N(u,v)可表示為N(u,v)=f(x,y)*guv(x,y)(2)二維Gabor濾波算法計(jì)算量較大,為了保證了帶鋼表面缺陷檢測(cè)的實(shí)時(shí)性,采用基于GPU的并行處理架構(gòu),其計(jì)算流程如圖2所示.GPU的算法分為兩個(gè)流程:訓(xùn)練過(guò)程主要針對(duì)無(wú)缺陷圖像進(jìn)行,通過(guò)訓(xùn)練完成紋理圖像的背景建模,一方面消除背景變化帶來(lái)的干擾,另一方面形成有效的Gabor卷積參數(shù),以便在檢測(cè)過(guò)程中得到最優(yōu)的檢出效果.檢測(cè)過(guò)程對(duì)實(shí)際拍攝的缺陷圖像進(jìn)行分析,首先按照GPU的核心數(shù)和緩存大小對(duì)圖像進(jìn)行分解,本文所有GPU的核心數(shù)為1024,顯存2G,因此將原始圖像分解為1000塊,分別加載到1000個(gè)核心中,同時(shí)并發(fā)運(yùn)行卷積運(yùn)算.最后將各個(gè)窗口的卷積結(jié)果合并到一起,得到完成的濾波結(jié)果,最后借助于背景模式,將背景的干擾消除,得到干凈的缺陷區(qū)域.
3)成像系統(tǒng).根據(jù)缺陷檢測(cè)的精度要求(1800m/min的檢測(cè)速度,0.25mm的精度),帶鋼的規(guī)格要求(1900mm規(guī)格),對(duì)帶鋼進(jìn)行成像系統(tǒng)設(shè)計(jì).基于互補(bǔ)金屬氧化物半導(dǎo)體(CMOS)的成像芯片具有速度快,用電低等優(yōu)勢(shì).選用兩個(gè)4K線掃描CMOS相機(jī)作為成像核心器件,選用CameraLinkFull接口作為數(shù)據(jù)輸出.兩個(gè)4K掃描中間重疊100mm作為圖像拼接區(qū).兩組線激光光源與線掃描組成系統(tǒng)的主要成像模塊.成像系統(tǒng)結(jié)構(gòu)如圖3所示.
2構(gòu)建分類器
檢測(cè)缺陷類別及其特征描述如表1所示.
1)訓(xùn)練集和樣本集劃分.主要缺陷類別有5個(gè),每個(gè)類別收集樣本7000,共計(jì)35000個(gè)樣本.為了避免訓(xùn)練集和樣本集劃分的盲目性,采用10-折交叉驗(yàn)證的方式劃分訓(xùn)練集和測(cè)試集,即將樣本集分成10份,從中選1份為測(cè)試集,剩下的為訓(xùn)練集,如圖4所示,究竟選擇哪一份作為測(cè)試集,需在后面的嵌套循環(huán)中實(shí)現(xiàn).
2)特征選擇.缺陷區(qū)域的長(zhǎng)度、寬度、面積、區(qū)域?qū)Ρ榷鹊裙灿?jì)138個(gè)特征形成初始特征集合,利用信息增益率來(lái)對(duì)各個(gè)特征排序.設(shè)樣本集T的某個(gè)特征子集S中,相異值構(gòu)成集合A,集合A把特征子集S劃分為多個(gè)子集{S1,S2,Sv,…},|Sv|、|S|為集和大小,信息增益率的公式為Gainration(S,A)=Gain(S,A)Intrinsiclnfo(S,A)(3)式中Gain(S,A)為信息增益,是分裂前的信息減去分裂后的信息,公式為Gain(S,A)=InfoBefore(S)-InfoAfter(S)=Entropy(S)-∑v∈Values(A)|Sv||S|Entropy(Sv)(4)式中Entropy(S)為集合S的熵,公式為Entropy(S)=Entropy(p1,p2,…,pm)=-∑mi=1pilogpi(5)式中pi為第i個(gè)類別的概率.式(3)中,Intrinsiclnfo(S,A)為內(nèi)在信息,公式為Intrinsiclnfo(S,A)=∑v∈Values(A)|Sv||S|log(|Sv||S|)(6)利用信息增益率對(duì)特征進(jìn)行排序,再利用循環(huán)(從1到138循環(huán))實(shí)現(xiàn)最優(yōu)的特征個(gè)數(shù)的確定.
3)BP神經(jīng)網(wǎng)絡(luò)隱含層節(jié)點(diǎn)數(shù)的確定.BP神經(jīng)網(wǎng)絡(luò)應(yīng)用到帶鋼表面質(zhì)量檢測(cè)上具有很多優(yōu)勢(shì),但也存在一些問(wèn)題,主要體現(xiàn)在隱含層節(jié)點(diǎn)數(shù)選取的盲目性和初始權(quán)值選取的隨機(jī)性.對(duì)于隱含層節(jié)點(diǎn)數(shù)確定問(wèn)題,利用隱含層節(jié)點(diǎn)數(shù)常用計(jì)算公式[15](2(m+n)+1,n+槡m+a,log2n,n為輸入層節(jié)點(diǎn)數(shù),m為輸出層節(jié)點(diǎn)數(shù),a為的[1,10]常數(shù))求得節(jié)點(diǎn)數(shù)的可能取值集合n1,求得該集合最大值n1-max和最小值n1-min,從n1-min開(kāi)始到n1-max,利用循環(huán),節(jié)點(diǎn)數(shù)逐個(gè)增加,確定最優(yōu)的隱含層節(jié)點(diǎn)數(shù)[16];
4)BP神經(jīng)網(wǎng)絡(luò)初始權(quán)值的選?。?dāng)隱含層節(jié)點(diǎn)數(shù)確定后,需要確定輸入層和隱含層之間、隱含層和輸出層之間的初始權(quán)值.首先生成10組隨機(jī)數(shù)數(shù)組,利用循環(huán)確定最優(yōu)的隨機(jī)數(shù)數(shù)組.
5)判別標(biāo)準(zhǔn)和嵌套循環(huán).上述各循環(huán)中,分類效果好與壞的判別標(biāo)準(zhǔn)是分類的總體精度,公式為OA=∑niin(7)式中:nii為樣本被預(yù)測(cè)為類別i,n為樣本個(gè)數(shù).上述各循環(huán)組合在一起就是一個(gè)嵌套循環(huán),其N-S盒圖如圖5所示,最外層是測(cè)試集和訓(xùn)練集的10折交叉驗(yàn)證,第1層是確定最優(yōu)的特征數(shù),第3層是確定最優(yōu)的隱含層節(jié)點(diǎn)數(shù),第4、5層是確定最優(yōu)的輸入層和隱含層、隱含層和輸出層的初始權(quán)值[17-20].經(jīng)以上循環(huán),確定D3作為測(cè)試集,最優(yōu)特征數(shù)為23個(gè),最優(yōu)的隱含層節(jié)點(diǎn)數(shù)是46個(gè),同時(shí)也確定了最優(yōu)的初始權(quán)值,對(duì)應(yīng)的3層BP神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)模型如圖6所示.
3實(shí)驗(yàn)結(jié)果
1)鮑威爾棱鏡與柱透鏡進(jìn)行對(duì)比在實(shí)際工作距離1.5m處,采用0.1m為間隔使用光功率計(jì)測(cè)試光源功率,如圖7所示,橫軸為測(cè)試點(diǎn),縱軸為測(cè)試點(diǎn)的光功率.實(shí)驗(yàn)表明,鮑威爾棱鏡均勻性優(yōu)于柱透鏡.
2)Gabor濾波方法與其他方法比較將動(dòng)態(tài)閾值法+Blob分析法(方法A)和灰度共生矩陣紋理背景消除法(方法B)兩種方法與Gabor濾波方法進(jìn)行比較,如圖8所示.由于缺陷與背景灰度相近(圖(a)),致使方法A缺陷丟失(圖(b)),由于缺陷與背景紋理相近(圖(d)),致使方法B產(chǎn)生噪聲(圖(e)),Gabor方法取得了不錯(cuò)的效果(圖(e)、(圖(f))).
3)GPU與CPU比較以4096×4096的圖像為例,選10幅有代表性圖像,利用CPU(最新的inteli7-2600處理器,4核8線程,2.6GHz,內(nèi)存8G)和GPU(nVidiaGTX970,4G緩存顯卡)進(jìn)行Ga-bor運(yùn)算,計(jì)算時(shí)間如表2所示,GPU計(jì)算效率明顯優(yōu)于CPU,其中CPU的平均耗時(shí)為290.4ms,而GPU的平均耗時(shí)為31.7ms.
4)檢測(cè)效果在產(chǎn)線速度為1775m/min,最小檢測(cè)缺陷的尺寸為0.25mm的檢測(cè)系統(tǒng)中,對(duì)帶鋼的主要4種類型缺陷進(jìn)行檢測(cè)統(tǒng)計(jì),檢測(cè)結(jié)果如表3所示.可計(jì)算出整體檢出率99.9%,檢測(cè)準(zhǔn)確率99.4%.
4結(jié)論
本文提出將基于鮑威爾棱鏡的大功率激光器應(yīng)用到光源的設(shè)計(jì)中,保證光源光照的均勻性;提出了新的帶鋼表面缺陷檢測(cè)系統(tǒng)的成像系統(tǒng)結(jié)構(gòu)設(shè)計(jì),保證了快速、高精度的生成圖像;提出了基于GPU的二維Gabor濾波圖像處理的算法,滿足了實(shí)時(shí)處理的要求;提出了基于嵌套循環(huán)的分類器擇優(yōu)算法,避免了樣本集選擇、特征選擇和BP神經(jīng)網(wǎng)絡(luò)參數(shù)設(shè)定的盲目性.借助上述技術(shù),系統(tǒng)實(shí)現(xiàn)了較好的效果,滿足當(dāng)前帶鋼生產(chǎn)的檢測(cè)需求.
參考文獻(xiàn):
[1]張長(zhǎng)富.中國(guó)鋼鐵工業(yè)運(yùn)行情況和發(fā)展展望[J].中國(guó)鋼鐵業(yè),2013(4):5-8.
[2]劉彩章.基于機(jī)器視覺(jué)的帶鋼表面缺陷成像系統(tǒng)理論與實(shí)驗(yàn)研究[D].武漢:武漢科技大學(xué),2012:2-4.
[3]高瑀含,安志勇,李娜娜等.高斯光束整形系統(tǒng)的光學(xué)設(shè)計(jì)[J].光學(xué)精密工程,2011,19(7):1464-1471.
[4]徐科,楊朝霖,周鵬.熱軋帶鋼表面缺陷在線檢測(cè)的方法與工業(yè)應(yīng)用[J].機(jī)械工程學(xué)報(bào),2009,45(4):111-114.
[5]李霞.基于CCD的鋼板測(cè)寬儀系統(tǒng)設(shè)計(jì)[D].秦皇島:燕山大學(xué),2014:5-10.
[6]石東新,傅新宇,張遠(yuǎn).CMOS與CCD性能及高清應(yīng)用比較[J].通訊技術(shù),2010,43(12):174-179.
[7]高梓瑞.Gabor濾波器在紋理分析中的應(yīng)用研究[D].武漢:武漢理工大學(xué),2012:6-10.
[8]王成順.表面缺陷檢測(cè)GPU并行圖像處理技術(shù)[D].合肥:合肥工業(yè)大學(xué),2012:3-6.
[9]徐永智,華慧川.對(duì)主成分分析三點(diǎn)不足的改進(jìn)[J].科技管理研究,2009(6):128-130.
[10]李佳龍,閻威武,白曉慧,等.基于數(shù)據(jù)驅(qū)動(dòng)與信息增益率多指標(biāo)決策模型的生活飲用水水質(zhì)評(píng)估[J].大連理工大學(xué)學(xué)報(bào),2016,56(1):92-96.
[11]張曉雷.支持向量機(jī)若干問(wèn)題的研究[D].北京:清華大學(xué),2012:1-20.
[12]王成明,顏云輝,李駿,等.基于BP神經(jīng)網(wǎng)絡(luò)的冷軋帶鋼表面質(zhì)量檢測(cè)研究[J].機(jī)械設(shè)計(jì)與制造,2007(6):106-108.
[13]高正中,張曉燕,龔群英.基于BP神經(jīng)網(wǎng)絡(luò)的超聲波流量計(jì)的設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2016,39(16):6-9.
[14]周洋,何平安,蔣千年等.激光束整形光學(xué)系統(tǒng)的設(shè)計(jì)與研究[J].光學(xué)與光電技術(shù),2006,4(2):26-28.
[15]飛思科技產(chǎn)品研發(fā)中心.神經(jīng)網(wǎng)絡(luò)理論與Matlab7實(shí)現(xiàn)[M].北京:電子工業(yè)出版社,2005.
[16]沈花玉,王兆霞,高成耀等.BP神經(jīng)網(wǎng)絡(luò)隱含層單元數(shù)的確定[J].天津理工大學(xué)學(xué)報(bào),2008,24(5):13-15.
[17]文冬林.BP神經(jīng)網(wǎng)絡(luò)中一種逃離局部極小點(diǎn)的方法研究[D].貴陽(yáng):貴州大學(xué),2008.
[18]甘勝豐.帶鋼表面缺陷圖像檢測(cè)與分類方法研究[D].北京:中國(guó)地質(zhì)大學(xué),2013:3-20.
[19]吳彬彬.機(jī)器視覺(jué)方法在帶鋼表面缺陷檢測(cè)中的應(yīng)用研究[D].武漢:武漢科技大學(xué),2015:4-50.
篇5
關(guān)鍵詞:BP神經(jīng)網(wǎng)絡(luò);Morlet小波;決策理論;Hilbert變換
中圖分類號(hào):TP18文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2009)32-9050-02
Wireless Signal Simulation Algorithm for Automatic Identification
ZHANG Meng
(Purchasing, China Railway Communication Co., Ltd., Beijing 100140, China)
Abstract: We have firstly discussed the modulation distinguishing method based on rational budgeting theory through the method of comparing Tine-Frequency analysis of the analysis signals formed by Hibert Transform . And on the basic of analyzing the fault of this method ,we put forward the distinguishing method based on NN. When NN is distinguishing signals, it mainly depends on the different positions of peak. Wavelet Transform here equals a mathematic microscope .it reflects the inexorable links between the signal categories and the positions of peak. Taking advantage Wavelet Transform and the simple three-layer BP NN, the more accurate Time-Frequency characteristics of signals to be distinguishing can be drawn.
Keywords: BP ANN; Morlet Wavelet; BudgetingTheory; Hibert Transform
在軍事電子對(duì)抗等多方面的重要應(yīng)用,通信信號(hào)調(diào)制的自動(dòng)識(shí)別分類問(wèn)題也相繼發(fā)展起來(lái)。無(wú)線電信號(hào)調(diào)制實(shí)識(shí)別就是要判斷截獲信號(hào)的調(diào)制種類。為此,需要事先對(duì)其特征進(jìn)行選定,并確定它們與相應(yīng)調(diào)制種類相聯(lián)系的取值范圍,然后再對(duì)信號(hào)進(jìn)行特征測(cè)量,并根據(jù)測(cè)量結(jié)果對(duì)信號(hào)的調(diào)制進(jìn)行分類判決。
如果把無(wú)線電信號(hào)的調(diào)制識(shí)別與分類視為一種模式識(shí)別問(wèn)題,那末,從模式識(shí)別理論來(lái)看,模式分類是模式識(shí)別的一個(gè)子系統(tǒng)。因此,在模式識(shí)別理論框架下,無(wú)線電信號(hào)的調(diào)制識(shí)別是一個(gè)總體概念。而調(diào)制分類則只是調(diào)制識(shí)別的一個(gè)分支[1]。
1 基于決策理論的模擬調(diào)制方式識(shí)別方法
此算法主要實(shí)現(xiàn)區(qū)分AM、FM、DSB、LSB、USB、VSB、AM-FM等七種調(diào)制樣式,所分析的對(duì)象序列s(n)是由接收機(jī)中頻輸出并經(jīng)過(guò)采樣得到的,這樣s(n)的采樣頻率和載頻都已知,分別記做Fs和Fc。算法分兩個(gè)步驟:
第一步,根據(jù)信號(hào)的包絡(luò)特征將AM、USB、LSB與FM區(qū)分開(kāi),因?yàn)榍叭N信號(hào)的包絡(luò)不為恒定值,而FM的包絡(luò)理論上是恒定值(實(shí)際中接近恒定)。因而可以從中提取一個(gè)特征參數(shù)R。參數(shù)R反映了零中心歸一化包絡(luò)的功率譜特征,FM的零中心歸一化包絡(luò)接近零,因其參數(shù)R應(yīng)遠(yuǎn)遠(yuǎn)小于前三種信號(hào)。實(shí)際中若R
第二步,根據(jù)信號(hào)頻譜的對(duì)稱性,將AM與USB與LSB區(qū)分開(kāi),因?yàn)锳M的單邊頻譜關(guān)于載頻是近似對(duì)稱的,USB和LSB的單邊頻譜對(duì)于載頻來(lái)說(shuō)分別只有上邊頻和下邊頻。因而可以從中提取另一個(gè)特征參數(shù) 。理論上,由于AM的上下邊頻對(duì)稱,所以AM的P接近零,而LSB和USB的P分別接近1和-1。實(shí)際中若|P|< 0.5,判為AM信號(hào),若P>0.5,判為L(zhǎng)SB,P
第三步,零中心非弱信號(hào)段瞬時(shí)相位非線性分量絕對(duì)值的標(biāo)準(zhǔn)偏差:σap 。
σap由下式定義:
(1)
式中,at是判斷弱信號(hào)段的一個(gè)幅度判決門(mén)限電平,c是在全部取樣數(shù)據(jù)Ns中屬于非弱信號(hào)值的個(gè)數(shù),?準(zhǔn)NL(i)是經(jīng)零中心化處理后瞬時(shí)相位的非線性分量,在載波完全同步時(shí),有:?準(zhǔn)NL(i)= φ(i)-φ0
式中:,φ(i)為瞬時(shí)相位。用σap來(lái)區(qū)分是DSB信號(hào)還是AM-FM信號(hào)。
第四步,零中心非弱信號(hào)段瞬時(shí)相位非線性分量的標(biāo)準(zhǔn)偏差:σdp。
σdp由下式定義:
(2)
σdp主要用來(lái)區(qū)別不含直接相位信息的AM、VSB信號(hào)類和含直接相位信息的DSB、LSB、USB、AM-FM信號(hào)類,其判決門(mén)限設(shè)為t(σdp) 。
2 決策論方法的改進(jìn)
前面介紹的基于決策理論的模擬調(diào)制方式識(shí)別方法存在缺陷針對(duì)上述問(wèn)題,人們又提出了基于神經(jīng)網(wǎng)絡(luò)(NN)的識(shí)別方法。
2.1 BP網(wǎng)絡(luò)作為分類器的模擬調(diào)制方式識(shí)別方法
該算法用基于有監(jiān)督訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型BP網(wǎng)絡(luò)作為分類器,用BP模型多層感知網(wǎng)絡(luò)與反向傳播學(xué)習(xí)算法相結(jié)合,通過(guò)不斷比較網(wǎng)絡(luò)的實(shí)際輸出與指定期望輸出間的差異來(lái)不斷的調(diào)整權(quán)值,直到全局(或局部)輸出差異極小值,不難想象該神經(jīng)網(wǎng)絡(luò)對(duì)模型細(xì)節(jié)中的諸多問(wèn)題均有良好效果。
基于NN的模擬信號(hào)調(diào)制識(shí)別框圖[2]如圖1所示,該NN采用三層結(jié)構(gòu)即,1個(gè)輸入層,1個(gè)輸出層,1個(gè)中間層。中間層可采用多層。但由于受到計(jì)算復(fù)雜性的限制,目前采用單層或雙層中間層的NN比較多見(jiàn)。本圖中間層采用單層25個(gè)節(jié)點(diǎn),輸入層和輸出層的節(jié)點(diǎn)數(shù)取決于信號(hào)特征參數(shù)的個(gè)數(shù)和信號(hào)的分類數(shù),因而分別為4和7。
神經(jīng)網(wǎng)絡(luò)具有信息分布式存儲(chǔ)、大規(guī)模自適應(yīng)并行處理和高度容錯(cuò)特性,適用于模式識(shí)別的基礎(chǔ)。其學(xué)習(xí)能力和容錯(cuò)特性對(duì)不確定性模式識(shí)別具有獨(dú)到之處[3]。通信信號(hào)在傳播過(guò)程中受到信道噪聲的污染,接受到的信號(hào)是時(shí)變的、非穩(wěn)定的,而小波變換特別適用于非穩(wěn)定信號(hào)的分析,其作為一種信息提取的工具已得到較廣泛的應(yīng)用。小波變換具有時(shí)頻局部性和變焦特性,而神經(jīng)網(wǎng)絡(luò)具有自學(xué)習(xí)、自適應(yīng)、魯棒性、容錯(cuò)性和推廣能力,兩者優(yōu)勢(shì)的結(jié)合可以得到良好的信號(hào)模式自動(dòng)識(shí)別特性,從而形成各種處理方法。
2.2 基于小波的特征提取和識(shí)別方法
小波特別適用于非穩(wěn)定信號(hào)的分析,作為一種特征提取的工具已得到較為廣泛的應(yīng)用。小波的重要特點(diǎn)是它能夠提供一個(gè)信號(hào)局部化的頻域信息。小波變換能夠?qū)⒏鞣N交織在一起的不同頻率組成的混合信號(hào)分解成不同頻率的塊信號(hào),它對(duì)不同的時(shí)間和頻率有不同的解釋,因此,對(duì)調(diào)制信號(hào)進(jìn)行小波分解,得到不同水平下的細(xì)節(jié)信息,這些信息對(duì)于不同類別的調(diào)制信號(hào)來(lái)說(shuō)是有差別的[4]。
在實(shí)際應(yīng)用中,小波變換常用的定義有下列兩種:
(3)
(4)
式中,星號(hào)*表示共軛。式(3)表示小波變換是輸入信號(hào)想x(t)和小波函數(shù)φα, τ(t)的相關(guān)積分;式(4)用卷積代替了相關(guān)積分。兩種定義在本質(zhì)上是一致的。本為采用后者。
將式(4)中的τ和t離散化,即令τ=kTs,及t=iTs,得連續(xù)小波變換公式(4)的離散形式,又稱小波系數(shù):
(5)
Morlet小波是一種單頻復(fù)正弦調(diào)制高斯波,也是最常用的復(fù)值小波。其實(shí)、頻兩域都具有很好的局部性,它的時(shí)域形式如下:
(6)
雖然信號(hào)特征有很多種,神經(jīng)網(wǎng)絡(luò)在進(jìn)行信號(hào)識(shí)別時(shí),主要是依據(jù)譜峰位置的不同,因此提取信號(hào)特征主要任務(wù)就是尋找信號(hào)類別與譜峰位置間的必然聯(lián)系。而小波變換在這里則相當(dāng)于一個(gè)數(shù)學(xué)顯微鏡,通過(guò)它,可以詳細(xì)了解各類信號(hào)在不同低頻段上的頻譜構(gòu)成。
整個(gè)系統(tǒng)在PC機(jī)上進(jìn)行仿真,采用Windows2000操作系統(tǒng)和Matlab6.1和Cool Edit2.0進(jìn)行聲音錄制。
在仿真中,采用44K的采樣率,錄制了一段歌聲和一段笑聲,用Matlab生成22K的正弦載波,并根據(jù)第二章的各調(diào)制樣式的定義,生成了各個(gè)仿真的調(diào)制波形。并轉(zhuǎn)化成.wav文件錄在電腦中。
3 結(jié)束語(yǔ)
本文僅限于理論理論研究,用MatLab仿真實(shí)現(xiàn),沒(méi)有用DSP芯片等物理電路實(shí)現(xiàn),僅為實(shí)際實(shí)現(xiàn)提供理論指導(dǎo)。
參考文獻(xiàn):
[1] 羅利春.無(wú)線電偵察信號(hào)分析與處理[M].北京:國(guó)防工業(yè)出版社,2003.
[2] 楊小牛,樓才義,徐建良.軟件無(wú)線電原理與應(yīng)用[M].北京:電子工業(yè)出版社,2001.
篇6
關(guān)鍵詞:智能科學(xué)與技術(shù);興趣導(dǎo)向;逆向教學(xué)
0引言
智能科學(xué)與技術(shù)是信息科學(xué)與技術(shù)的核心、前沿與制高點(diǎn),也是整個(gè)現(xiàn)代科學(xué)技術(shù)體系的頭腦中樞,是現(xiàn)代科學(xué)技術(shù)創(chuàng)新的引領(lǐng)和示范,是現(xiàn)代社會(huì)(包括經(jīng)濟(jì)、社會(huì)、文化、民生、國(guó)防等)走向智能化的主導(dǎo)技術(shù)支柱。在越來(lái)越激烈尖銳的國(guó)際競(jìng)爭(zhēng)環(huán)境中,智能科學(xué)與技術(shù)水平已經(jīng)成為一個(gè)國(guó)家綜合國(guó)力與科技實(shí)力的標(biāo)志。智能科學(xué)與技術(shù)的發(fā)展和智能科學(xué)與技術(shù)學(xué)科的人才培養(yǎng),不僅僅是智能科學(xué)與技術(shù)研究與教育本身的事情,更是關(guān)系到整個(gè)社會(huì)智能化發(fā)展優(yōu)劣的大事情,也是關(guān)系到整個(gè)國(guó)家強(qiáng)弱興衰的大事情。
科技發(fā)展,關(guān)鍵在于人才。在新的發(fā)展機(jī)遇下,國(guó)家對(duì)智能科學(xué)與技術(shù)專門(mén)人才的需求更加旺盛。因此,如何促進(jìn)智能科學(xué)與技術(shù)教學(xué)方式的改革是培養(yǎng)厚基礎(chǔ)、高層次的智能科學(xué)與技術(shù)人才的基本途徑。智能科學(xué)與技術(shù)教學(xué)方式的改革,不僅發(fā)展智能科學(xué)與技術(shù)本身,而且對(duì)受教育者創(chuàng)新能力的提高也至關(guān)重要。
目前,網(wǎng)絡(luò)的普及與全社會(huì)信息化程度的提高,對(duì)我國(guó)人才培養(yǎng)提出了更高的要求,特別是高校在課堂教學(xué)方面,部分原有教材及培養(yǎng)模式亟待調(diào)整。以智能科學(xué)與技術(shù)為代表的前沿新興學(xué)科,在學(xué)科發(fā)展途徑、應(yīng)用技術(shù)轉(zhuǎn)化及從業(yè)人員年齡、成長(zhǎng)環(huán)境等方面,均與很多傳統(tǒng)學(xué)科存在較大的差異,而使用傳統(tǒng)教學(xué)方式進(jìn)行人才培養(yǎng),也出現(xiàn)了一些水土不服的現(xiàn)象。
1教學(xué)理念的改變
相對(duì)于傳統(tǒng)學(xué)科,智能科學(xué)與技術(shù)從業(yè)人員平均年齡顯現(xiàn)出年輕化的特點(diǎn),且由于從業(yè)人員及學(xué)生普遍年齡較輕,在他們的成長(zhǎng)過(guò)程中,外在環(huán)境相對(duì)寬松,自由、平等的理念在他們的成長(zhǎng)過(guò)程中不斷被提及和強(qiáng)化。傳統(tǒng)“教師講、學(xué)生聽(tīng)”的演講式講授方式雖然能夠在一定時(shí)間內(nèi)讓學(xué)生了解大量信息,但學(xué)生接收到的大部分信息只停留在記憶層面,很難上升到理解層面,導(dǎo)致學(xué)生只是被動(dòng)的“填鴨式”接受。
在科技發(fā)達(dá)、網(wǎng)絡(luò)互聯(lián)的今天,人們不是自投羅網(wǎng)就是被網(wǎng)羅其中,知識(shí)獲取的渠道不再局限于紙質(zhì)媒介和言傳身教,更多來(lái)自于電子資源及網(wǎng)絡(luò)媒介,教師和學(xué)生獲取知識(shí)的途徑及資源差異越來(lái)越小,在知識(shí)量、閱歷等方面縮小了師生間的差距,師生之間傳統(tǒng)的信息不對(duì)稱差距逐步縮小,導(dǎo)致教師在知識(shí)積淀上沒(méi)有了絕對(duì)優(yōu)勢(shì)。
與此同時(shí),逐步深入青年學(xué)生內(nèi)心的自由、平等觀念對(duì)中國(guó)傳統(tǒng)的尊師重道思想帶來(lái)了不小的沖擊。在當(dāng)今開(kāi)放的網(wǎng)絡(luò)環(huán)境下,針對(duì)新興時(shí)代的學(xué)生,傳統(tǒng)習(xí)俗中的師長(zhǎng)觀念由于知識(shí)獲取渠道的平等化而缺乏強(qiáng)有力的現(xiàn)實(shí)支撐,教師的身份權(quán)威性和知識(shí)權(quán)威性都受到了不同程度的質(zhì)疑,繼續(xù)使用“填鴨式”“訓(xùn)導(dǎo)式”教學(xué)方式,將會(huì)事倍功半。
因此,針對(duì)新興學(xué)科,一線教師需要進(jìn)行教學(xué)理念上的修正,特別是教師應(yīng)順應(yīng)培養(yǎng)對(duì)象的整體特點(diǎn),基于自由和平等的觀念進(jìn)行自我定位,以交流討論式代替居高臨下布施式的教學(xué)觀念,充分與學(xué)生打成一片,以便更好地調(diào)動(dòng)學(xué)生的思維,引導(dǎo)學(xué)生進(jìn)行主動(dòng)思考和主動(dòng)學(xué)習(xí)。
2教學(xué)素材的改進(jìn)與提高
當(dāng)今時(shí)代是知識(shí)爆炸的時(shí)代,科學(xué)技術(shù)日新月異,新知識(shí)、新成果層出不窮,特別是智能科學(xué)與技術(shù)這一前沿學(xué)科,正在向理論創(chuàng)新和大規(guī)模實(shí)際應(yīng)用發(fā)展,新理論、新方法不斷被提出并驗(yàn)證,新模型、新實(shí)例、新應(yīng)用不斷產(chǎn)出。
“教學(xué)素材對(duì)教育理念的滲透發(fā)揮著重要作用,它已經(jīng)成為促進(jìn)或阻礙教學(xué)模式轉(zhuǎn)變的活躍而關(guān)鍵的要素。隨著新時(shí)代知識(shí)的快速更新?lián)Q代和知識(shí)面的不斷拓寬,教學(xué)素材是否優(yōu)秀的標(biāo)準(zhǔn)不僅僅是包含多少知識(shí),更重要的是包含多少最新的知識(shí);不僅僅是傳遞解決問(wèn)題的方法,更重要的是傳遞超前、新穎的解決問(wèn)題的方法。
當(dāng)今學(xué)生知識(shí)涉獵面廣,現(xiàn)有的網(wǎng)絡(luò)環(huán)境也為他們提供了很好的平臺(tái),如果他們已經(jīng)獲取的知識(shí)及應(yīng)用的先進(jìn)程度遠(yuǎn)遠(yuǎn)超過(guò)課本素材羅列的知識(shí),將會(huì)極大地削弱他們對(duì)本學(xué)科的興趣,進(jìn)而影響課堂教學(xué)效果。
此外,作為智能科學(xué)與技術(shù)這一前沿學(xué)科的教學(xué)素材,必須體現(xiàn)出時(shí)代性、開(kāi)放性、多元性與全面性。因此,教學(xué)過(guò)程中所采用素材的改進(jìn)和提高,應(yīng)該向著不斷更新、與時(shí)俱進(jìn)的方向靠攏,教師應(yīng)該不斷將最新理論、最新方法、最新應(yīng)用融合于一線基礎(chǔ)教學(xué)過(guò)程中,使學(xué)生在學(xué)習(xí)過(guò)程中始終緊跟前沿技術(shù)的發(fā)展,在未來(lái)工作中能更快、更好地融入行業(yè)中。
3教學(xué)方式的轉(zhuǎn)變
目前,學(xué)生群體主要為90后,高校即將迎來(lái)00后,他們成長(zhǎng)過(guò)程中的家庭環(huán)境和社會(huì)環(huán)境與早期學(xué)生相比更為平等和寬松,他們的學(xué)習(xí)需求也由目標(biāo)導(dǎo)向型逐步演化為興趣導(dǎo)向型。因此,如何激發(fā)學(xué)生的興趣,進(jìn)而以興趣為基礎(chǔ)激發(fā)學(xué)生自主學(xué)習(xí)的動(dòng)力,將是教學(xué)效果事半功倍的途徑。
青年學(xué)生正處于思維高度活躍的階段,他們往往對(duì)新興成果和前沿?zé)狳c(diǎn)有著超過(guò)常人的關(guān)注,如何巧妙而有效地將這種關(guān)注轉(zhuǎn)化為針對(duì)本學(xué)科的興趣,進(jìn)而反向推導(dǎo)出基礎(chǔ)理論并讓學(xué)生消化、吸收,就成為一線教師面臨的重要問(wèn)題。
從1997年國(guó)際象棋大師卡斯帕羅夫和電腦“深藍(lán)”第一次人機(jī)大戰(zhàn)開(kāi)始,智能科學(xué)與技術(shù)迅速躋身科技前沿?zé)狳c(diǎn),且經(jīng)久不衰。2016年3月,Alpha Go再次燃起人工智能之火,經(jīng)過(guò)媒體的推波助瀾,成為社會(huì)關(guān)注的焦點(diǎn),大大增強(qiáng)了智能科學(xué)與技術(shù)的關(guān)注度。而青年學(xué)生作為最容易追趕潮流的群體,自然對(duì)此類熱點(diǎn)趨之若鶩。
作為智能科學(xué)與技術(shù)學(xué)科的一線教師,應(yīng)把握和利用社會(huì)輿論的潮流以及學(xué)生心理的律動(dòng),及時(shí)以此熱點(diǎn)為突破口,吸引學(xué)生的興趣,引起共鳴,進(jìn)而進(jìn)行反向推導(dǎo)相關(guān)基礎(chǔ)理論并加以詳解。
例如,教師以Alpha Go為課堂開(kāi)篇討論,引導(dǎo)學(xué)生思考,并說(shuō)明Alpha Go的核心原理是深度學(xué)習(xí)。在這個(gè)實(shí)例中,Alpha Go模擬人類下棋的推理與思考過(guò)程,其中推理過(guò)程通過(guò)搜索樹(shù)來(lái)搜索可能的棋局,思考過(guò)程通過(guò)兩個(gè)深度神經(jīng)網(wǎng)絡(luò)確定可能的搜索方向和評(píng)估棋局,這兩個(gè)神經(jīng)網(wǎng)絡(luò)包括:
(1)落子選擇器(policy network),這是一種深度卷積神經(jīng)網(wǎng)絡(luò),主要通過(guò)當(dāng)前棋盤(pán)布局預(yù)測(cè)下一步走棋位置的概率。
(2)棋局評(píng)估器(value network),與落子選擇器具有相似的結(jié)構(gòu),主要在給定棋子位置的情況下,輸出雙方棋手獲勝的可能性,從而對(duì)棋局進(jìn)行評(píng)估。
如此,教師可以帶領(lǐng)學(xué)生了解搜索樹(shù)及搜索算法,也可以從深度卷積神經(jīng)網(wǎng)絡(luò)到普通神經(jīng)網(wǎng)絡(luò),講解神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)知識(shí),分析神經(jīng)網(wǎng)絡(luò)到深度學(xué)習(xí)的發(fā)展過(guò)程。這樣就可以將學(xué)生對(duì)Alpha Go本身的興趣,巧妙地引導(dǎo)到對(duì)神經(jīng)網(wǎng)絡(luò)等基礎(chǔ)概念和原理方面,以此強(qiáng)化學(xué)生對(duì)基礎(chǔ)知識(shí)的掌握。
同時(shí),開(kāi)放式的考核方式也是促進(jìn)學(xué)生創(chuàng)新、使教學(xué)方法適應(yīng)新時(shí)代的一種有效途徑。對(duì)于本學(xué)科感興趣的話題,教師應(yīng)鼓勵(lì)學(xué)生多談自己的思路和想法;對(duì)于開(kāi)放式課題,應(yīng)給學(xué)生提供展示的舞臺(tái),鼓勵(lì)學(xué)生分享自己在查找資料、解決難點(diǎn)、編程過(guò)程中的心得體會(huì),充分調(diào)動(dòng)學(xué)生的積極性和主動(dòng)性;將這些考核成績(jī)按比例計(jì)入學(xué)生課業(yè)總成績(jī)中,充分肯定學(xué)生的創(chuàng)新能力。
4結(jié)語(yǔ)
教學(xué)成效是設(shè)計(jì)和構(gòu)建教學(xué)方式的基本出發(fā)點(diǎn),教師應(yīng)該結(jié)合學(xué)生需求從學(xué)習(xí)成效、教學(xué)技巧、教學(xué)內(nèi)容上總體把握教學(xué)方式閣,采用不同于傳統(tǒng)講授方式的逆向教學(xué)(如圖1所示),使其滿足和順應(yīng)新一代青年學(xué)生的心理認(rèn)同需求和學(xué)習(xí)需求,將新理論、新應(yīng)用不斷融入基礎(chǔ)教學(xué)中,達(dá)到更好的教學(xué)效果。
篇7
關(guān)鍵詞:車牌識(shí)別系統(tǒng); 智能交通; 技術(shù)
中圖分類號(hào): TP391.4文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2008)18-20ppp-0c
Research on Licence Plate Recognition System
YI Lian-jie
(Loudi Vocational and Technical College Loudi Huanan417000)
Abstract: The licence plate recognition system has an importantrole of morden intelligent traffic system. This paper narrated the key technology ofthe licence plate recognition system and discussed the existing problems and development of the licence plate recognition system.
Keywords: the licence plate recognition system; intelligent traffic system; technology
車牌識(shí)別系統(tǒng)是智能交通系統(tǒng)的關(guān)鍵部分,可廣泛應(yīng)用于交通管理、監(jiān)控和電子收費(fèi)等場(chǎng)合。車牌識(shí)別系統(tǒng)就是以車牌作為車輛的唯一標(biāo)識(shí),采用計(jì)算機(jī)視覺(jué)和模式識(shí)別技術(shù)對(duì)汽車車牌的自動(dòng)識(shí)別。
1 車牌識(shí)別系統(tǒng)的組成
典型的車牌識(shí)別系統(tǒng)由車輛檢測(cè)、圖像采集、車牌識(shí)別等部分組成(圖1)。車輛檢測(cè)就是使用車輛傳感器或紅外線檢測(cè)等來(lái)判斷車輛是否通過(guò)某一位置。當(dāng)車輛駛過(guò)探測(cè)部位時(shí),CCD攝像機(jī)拍攝車輛圖像,由圖像采集卡采集圖像并輸入計(jì)算機(jī)。車牌識(shí)別部分由計(jì)算機(jī)和識(shí)別軟件組成,從由CCD攝像機(jī)采集的圖像中自動(dòng)尋找車牌,然后對(duì)找到的車牌進(jìn)行字符切分和識(shí)別,最后獲得車牌號(hào)碼,并將識(shí)別結(jié)果送至監(jiān)控中心等場(chǎng)合。
圖1車牌識(shí)別系統(tǒng)的組成
在整個(gè)識(shí)別系統(tǒng)中,以車牌識(shí)別最為關(guān)鍵。識(shí)別過(guò)程有兩個(gè)步驟,首先從圖像中找出確切的車牌位置,即車牌定位,然后對(duì)找出的車牌進(jìn)行字符切分和識(shí)別。車牌識(shí)別過(guò)程包含兩大關(guān)鍵技術(shù):1.車牌區(qū)域定位技術(shù);2.車牌字符切分和識(shí)別技術(shù)。
2 車牌定位技術(shù)
圖像輸入計(jì)算機(jī)后,系統(tǒng)要自動(dòng)找出車牌的準(zhǔn)確位置。車牌區(qū)域定位是車牌字符切分和識(shí)別的基礎(chǔ),是提高系統(tǒng)識(shí)別率的關(guān)鍵。車牌定位過(guò)程包括三個(gè)步驟:圖像預(yù)處理、車牌搜索和車牌糾偏。
2.1 圖像預(yù)處理
圖像預(yù)處理的作用:平滑去噪和車牌特征增強(qiáng)。
平滑去噪就是消除圖像上由于光照、車牌污損等產(chǎn)生的噪聲干擾。平滑方法主要有平均濾波、中值濾波和指數(shù)函數(shù)濾波等方法。中值濾波和指數(shù)濾波平滑效果好且能較好保持牌照和字符邊緣,但在平滑效果和處理速度方面不如平均濾波。
通常的車牌定位算法是依據(jù)車牌特征從圖像中找出車牌,因此必須使車牌區(qū)域顯示出與非車牌區(qū)域不同的獨(dú)有的特征,車牌特征增強(qiáng)使圖像中車牌區(qū)域明顯突出。通常有下述增強(qiáng)方法:邊緣檢測(cè)法、二值化法、量化法、數(shù)學(xué)形態(tài)學(xué)法。
具有不同灰度的相鄰區(qū)域之間存在邊緣,在車牌區(qū)域存在車牌邊框邊緣和車牌字符邊緣。邊緣檢測(cè)法就是要檢測(cè)出這些邊緣。有關(guān)邊緣檢測(cè)的算法很多,考慮實(shí)時(shí)性要求,采用簡(jiǎn)單的微分算子,如一階微分算等。這些算子采用小區(qū)域模板與圖像卷積實(shí)現(xiàn)邊緣檢測(cè)。文獻(xiàn)[1]提出一種牌照字符邊緣特征增強(qiáng)的方法,該方法使用線性濾波器函數(shù)將每一行中多個(gè)連續(xù)的水平方向梯度值相加,使得字符的垂直邊緣增強(qiáng)。微分算子對(duì)噪聲較為敏感,因此在使用之前需要平滑去噪。LOG算子是高斯指數(shù)平滑法與Laplacian算子相結(jié)合的邊緣檢測(cè)方法,既能消除噪聲又能很好的突出車牌字符的邊緣。
二值化增強(qiáng)法先確定一個(gè)閾值,然后將圖像中各個(gè)像素的灰度值都與這個(gè)閾值比較,根據(jù)比較結(jié)果將整個(gè)圖像的像素點(diǎn)分為兩類,車牌區(qū)域歸為一類,便于車牌搜索。為了滿足實(shí)時(shí)性要求,采用簡(jiǎn)單、快速的二值化法,如平均閾值法,反積分自適應(yīng)閾值法等。
文獻(xiàn)[3]使用神經(jīng)網(wǎng)絡(luò)來(lái)對(duì)彩色圖像量化,使得車牌區(qū)域的字符為一種特定的顏色,然后進(jìn)行顏色過(guò)濾或線掃描,借此提取車牌。該方法首先必須選取車牌樣本圖像,并且要把RGB顏色模式轉(zhuǎn)換為HSI模式,以HSI各分量值作為輸入對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,再以訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)對(duì)圖像的各像素點(diǎn)量化分類,該方法抗干擾能力強(qiáng),量化前可不要求平滑,
數(shù)學(xué)形態(tài)學(xué)表示以形態(tài)為基礎(chǔ)對(duì)圖像進(jìn)行分析的數(shù)學(xué)工具,它的基本思想使用具有一定形態(tài)的結(jié)構(gòu)元素去量度和提取圖像中的對(duì)應(yīng)形狀以達(dá)到對(duì)圖像分析和識(shí)別的目的。數(shù)學(xué)形態(tài)學(xué)有四種基本的運(yùn)算:膨脹,腐蝕,開(kāi)啟和閉合。出于以下兩個(gè)意圖而使用形態(tài)學(xué)方法:1.將開(kāi)啟和閉合結(jié)合起來(lái),消除二值化后的車牌區(qū)域中存在的細(xì)小空洞;2.采用水平線段的結(jié)構(gòu)元素膨脹,使二值化后的車牌區(qū)域成為一連通區(qū)域。
需要說(shuō)明的是,上述方法往往不是單獨(dú)使用,如二值化法是對(duì)邊緣檢測(cè)后的圖像進(jìn)行,而形態(tài)學(xué)方法是在二值化圖上實(shí)現(xiàn)。不能簡(jiǎn)單的評(píng)價(jià)圖像預(yù)處理方法的優(yōu)劣,因?yàn)檫@與所對(duì)應(yīng)的車牌搜索方法緊密相關(guān)。
2.2 車牌搜索
車牌搜索就是根據(jù)車牌區(qū)域特征在圖像中尋找車牌的過(guò)程。根據(jù)搜索的方式可把車牌搜索方法分為以下幾種:投影統(tǒng)計(jì)法、線掃描法、模板匹配法和反Hough變換法等。車牌搜索法要與相應(yīng)的車牌增強(qiáng)法配合使用(見(jiàn)表2)。
表2車牌增強(qiáng)法用于不同搜索法的情況
投影統(tǒng)計(jì)法對(duì)邊緣化或二值化圖像進(jìn)行水平和垂直累加投影,根據(jù)投影直方圖呈現(xiàn)的連續(xù)峰、谷、峰的分布的特征來(lái)提取車牌,或?qū)τ尚螒B(tài)學(xué)膨脹運(yùn)算后的圖像水平和垂直投影,在投影圖上尋找波峰和波谷而確定車牌位置。文獻(xiàn)[24]提出的采用高斯指數(shù)函數(shù)對(duì)投影圖平滑,能有效消除投影圖的毛刺,使車牌位置為明顯的波峰,提高車牌定位的精度。
線掃描搜索法則是對(duì)邊緣化或二值化后的圖像逐行水平掃描,穿過(guò)車牌區(qū)域的掃描線因?yàn)樽址吘壍拇嬖冢叶瘸尸F(xiàn)起伏的峰、谷、峰的變化,或頻繁交替出現(xiàn)亮基元、暗基元的特征,以提取車牌。文獻(xiàn)[3]用神經(jīng)網(wǎng)絡(luò)對(duì)彩色圖像量化之后,再逐行水平掃描,分別獲取顏色向量和長(zhǎng)度向量,能與標(biāo)準(zhǔn)車牌區(qū)域的顏色向量和長(zhǎng)度向量匹配的為車牌區(qū)域。
模板匹配搜索法是以特定的模板在圖像區(qū)域滑動(dòng),以與模板匹配的局部區(qū)域?yàn)檐嚺?。使用的模板有線模板、倒”L”角模板、矩形框模板。線模板以水平線段或垂直線段為模板,來(lái)檢測(cè)車牌的邊框角點(diǎn);倒“L”模板以倒“L”結(jié)構(gòu)為模板來(lái)尋找車牌邊框的左上角;矩形框模板以一個(gè)與車牌長(zhǎng)寬比例相當(dāng)?shù)木匦慰蜃鳛槟0澹谡麄€(gè)圖像區(qū)域滑動(dòng),以符合某一判別函數(shù)值的區(qū)域作為車牌區(qū)域。
反Hough變換搜索法是基于車牌形狀特征的方法,先對(duì)圖像進(jìn)行Hough變換,然后在Hough參數(shù)空間尋找車牌的四個(gè)端點(diǎn)。
上述搜索法可以結(jié)合使用,如文獻(xiàn)[25]提出的自適應(yīng)邊界搜索法,先用倒”L”模板尋找車牌邊框的左上角,然后用水平線掃描和垂直線掃描找出下邊框和右邊框。投影統(tǒng)計(jì)搜索法和線掃描搜索法處理速度快,能對(duì)大小不同的車牌識(shí)別,但定位精度不高和出現(xiàn)虛假車牌的情況,需要提高定位精度和去除虛假車牌的后續(xù)工作。模板匹配搜索法能比較準(zhǔn)確的找到車牌位置,但難以滿足實(shí)時(shí)性要求,可以采用神經(jīng)網(wǎng)絡(luò)或遺傳算法來(lái)加快搜索進(jìn)程。反Hough變換搜索法除了能準(zhǔn)確找到車牌位置,還能確定車牌的傾斜角度,對(duì)噪聲、輪廓線中斷不敏感,但在有直線干擾下可能實(shí)效,文獻(xiàn)[28]提出的快速Hough變換的策略能滿足實(shí)時(shí)性要求。
2.3 車牌糾偏
由于車輛運(yùn)行軌跡不定、攝像機(jī)位置偏斜等原因,使得圖像中車牌扭曲,為了后續(xù)正確的車牌字符切分和識(shí)別,就須對(duì)車牌糾偏,使車牌達(dá)到規(guī)范的位置和大小。采用的糾偏方法通常先是用Hough變換確定水平邊框傾斜角度和垂直邊框傾斜角度,然后糾偏。文獻(xiàn)[22]提出使用Rodan 變換可用來(lái)確定傾斜角度。
3 車牌字符識(shí)別技術(shù)
車牌定位之后就要對(duì)車牌字符識(shí)別。這一過(guò)程包含下列幾個(gè)步驟(見(jiàn)圖2):車牌二值化,字符切分,字符特征提取和字符識(shí)別。這里只討論后三個(gè)步驟。
圖2 車牌字符識(shí)別步驟
3.1 字符切分
字符切分把車牌上的字符分開(kāi),得到一個(gè)個(gè)的字符圖像。常用的字符切分方法有投影法、模板匹配法、區(qū)域生長(zhǎng)法、聚類分析法等。
投影法把車牌圖像垂直累加投影,形成峰谷交替的投影直方圖,找到投影圖的各個(gè)谷就能把字符分開(kāi)。模板匹配法以字符大小的矩形作為模板,根據(jù)字符的寬度初步確定每個(gè)字符的起始位置,然后以此模板在初定位置附近滑動(dòng),找到最佳匹配位置而切分字符。區(qū)域生長(zhǎng)法對(duì)每個(gè)需要分割的字符找一個(gè)像素作為生長(zhǎng)起點(diǎn)的種子,將種子像素周圍鄰域中與之相同或相近性質(zhì)的像素合并到種子像素所在的區(qū)域,然后將這些新像素當(dāng)作新的種子繼續(xù)進(jìn)行上述過(guò)程,直到再?zèng)]有滿足條件的像素可被包含進(jìn)來(lái)。基于聚類分析的方法對(duì)車牌圖像從上到下逐行掃描,如屬于字符類的兩像素間距離小于閾值,可認(rèn)為兩像素為同一字符,由此而得字符像素的聚類。
3.2 字符特征提取和車牌字符識(shí)別
目前使用的車牌字符特征提取的方法可歸納為下述三種:1.基于字符統(tǒng)計(jì)特征。計(jì)算字符圖像的多階原點(diǎn)矩,多階中心矩以及中心慣性矩,以中心矩與中心慣性矩的比值作為字符特征向量,這樣提取的特征量具有平移,旋轉(zhuǎn)和尺度不變性,但運(yùn)算量大;也有把字符在多個(gè)方向上的投影(如水平方向,垂直方向,右斜方向,左斜方向)和二階中心矩的比值作為特征向量。2.基于結(jié)構(gòu)特征。輪廓特征,粗網(wǎng)格特征,層次輪廓特征以及字符特征點(diǎn).這類特征提取計(jì)算量較少,但對(duì)噪聲和位置變化比較敏感,需要去噪和對(duì)字符歸一化。3.基于變換。對(duì)原始特征(像素點(diǎn)矩陣)進(jìn)行傅里葉變換、K-L變換或小波變換等,提取的特征向量反映字符的結(jié)構(gòu)特征和統(tǒng)計(jì)特征,相似字符的特征矢量距離較大,效果較好。實(shí)際應(yīng)用中往往是多種特征的提取,多種特征提取方法的使用。
對(duì)車牌字符特征提取之后,就把相應(yīng)的特征值輸入分類器識(shí)別,目前對(duì)于車牌字符的分類識(shí)別方法歸納為下列幾種。(1)模板匹配。該方法首先對(duì)待識(shí)字符進(jìn)行二值化并將其縮放為字符數(shù)據(jù)庫(kù)中模板大小,然后與所有的字符模板比較匹配,計(jì)算相似度,以最大相似度者為識(shí)別結(jié)果。(2)PCA子空間分類器。子空間分類器由訓(xùn)練樣本相關(guān)矩陣的特征向量構(gòu)成,單個(gè)模式的子空間建立彼此獨(dú)立,相互之間沒(méi)有聯(lián)系,以待識(shí)別字符的特征向量與所對(duì)應(yīng)的子空間距離最小作為結(jié)果。(3)基于人工神經(jīng)網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)有抗噪聲、容錯(cuò)、自適應(yīng)、自學(xué)習(xí)能力強(qiáng)的特點(diǎn)。多隱含層的BP神經(jīng)網(wǎng)絡(luò),BAM(Bidirectional association memories)神經(jīng)網(wǎng)絡(luò)方法,自諧振ART神經(jīng)網(wǎng)絡(luò)識(shí)別等是此方法的典范。(4)基于邏輯規(guī)則推理的識(shí)別方法。文獻(xiàn)[18]提出基于歸納推理的字符識(shí)別,該方法在訓(xùn)練時(shí)自動(dòng)生成識(shí)別規(guī)則。(5)基于隨機(jī)場(chǎng)圖像模擬的識(shí)別方法。該方法識(shí)別率高,并且可對(duì)灰度圖像直接提取字符特征,抗干擾性強(qiáng)。另外使用感知器的識(shí)別,通常感知器只用于相似字符對(duì)的識(shí)別,作為其他識(shí)別方法的補(bǔ)充。
4 總結(jié)與展望
從已有車牌識(shí)別系統(tǒng)的性能分析來(lái)看,正確識(shí)別率和識(shí)別速度兩者難以同時(shí)兼顧。其中原因包括目前的車牌識(shí)別技術(shù)還不夠成熟,又受到攝像設(shè)備、計(jì)算機(jī)性能的影響。
現(xiàn)代交通飛速發(fā)展,LPR系統(tǒng)的應(yīng)用范圍不斷擴(kuò)寬,對(duì)車牌識(shí)別系統(tǒng)的性能要求將更高。對(duì)現(xiàn)有的算法優(yōu)化或?qū)ふ易R(shí)別精度高、處理速度快、應(yīng)用于多種場(chǎng)合的算法將是研究的主要任務(wù)。
參考文獻(xiàn):
[1] 廖金周,宣國(guó)榮.車輛牌照的自動(dòng)分割[J].微型電腦應(yīng)用,1999(7):32-34.
[2] 劉智勇.車牌識(shí)別中的圖像提取及分割[J].中文信息文報(bào),2000(3):29-34.
[3] Wu Wei,Mingjun Wang.An Automatic Method of Location for Number_Plate Using Color Features IEEE 2001.
[4] 郭捷,施鵬飛.基于顏色和紋理分析的車牌定位方法[J].中國(guó)圖像圖形學(xué)報(bào),2002,7(5):473-476.
[5] 章毓晉.圖像工程(上)――圖像處理與分析[M].清華大學(xué)出版社.
篇8
關(guān)鍵詞:視覺(jué)注意;自頂向下;顯著性;對(duì)象信息;卷積神經(jīng)網(wǎng)
中圖分類號(hào):TP391.41
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-9081(2016)11-3217-05
0 引言
視覺(jué)注意機(jī)制的研究是探索人眼視覺(jué)感知的重要一環(huán)。在過(guò)去幾十年中,如何用計(jì)算模型模擬人眼視覺(jué)注意過(guò)程一直是核心問(wèn)題。盡管取得了很大的進(jìn)步,但是快速準(zhǔn)確地在自然場(chǎng)景中預(yù)測(cè)人眼視覺(jué)注意區(qū)域仍然具有很高的挑戰(zhàn)性。顯著性是視覺(jué)注意的一項(xiàng)重要研究?jī)?nèi)容,它反映了區(qū)域受關(guān)注的程度。本文的研究著眼于顯著性計(jì)算模型,更多模型對(duì)比和模型分類可以參考Borji等[1]的文章。視覺(jué)注意存在兩種機(jī)制:自底向上(Bottom-up)和自頂向下(Top-down)。過(guò)去的研究中,大多數(shù)的計(jì)算模型是基于自底向上的信息,即直接從圖像像素獲取特征。
自底向上顯著性計(jì)算模型開(kāi)創(chuàng)性工作源自于文獻(xiàn)[2]的Itti模型,該模型是很多其他模型的基礎(chǔ)和對(duì)照基準(zhǔn),它通過(guò)整合多種低層次特征,如顏色、亮度、方向等,給出一個(gè)顯著度的概率分布圖。Harel等[3]在Itti模型的基礎(chǔ)上引入圖算法,通過(guò)計(jì)算節(jié)點(diǎn)間特征值相似性和空間位置距離進(jìn)行差異性度量獲取顯著圖。近年來(lái)隨著深度學(xué)習(xí)技術(shù)在目標(biāo)識(shí)別領(lǐng)域的成功應(yīng)用[4],研究者們對(duì)特征學(xué)習(xí)產(chǎn)生了更多的興趣。Borji等[5]通過(guò)稀疏編碼方法獲取特征,使用圖像塊的稀疏表示結(jié)合局部和全局統(tǒng)計(jì)特性計(jì)算圖像塊的稀有性(rarity),稀有性反映了當(dāng)前圖像塊中心位置的顯著性。Vig等[6]通過(guò)訓(xùn)練多個(gè)神經(jīng)網(wǎng)絡(luò)獲取層次特征,然后自動(dòng)優(yōu)化特征組合。特征提取的過(guò)程可以看作是一種隱式空間映射,在映射空間中使用簡(jiǎn)單的線性模型進(jìn)行顯著或非顯著的分類。以上學(xué)習(xí)方法獲得的特征都是一些低層次特征,對(duì)圖像中的邊緣和特定紋理結(jié)構(gòu)敏感。此外,部分研究人員希望從數(shù)學(xué)統(tǒng)計(jì)和信號(hào)處理的角度來(lái)度量顯著性。Bruce等[7]根據(jù)最大化信息采樣的原則構(gòu)建顯著性模型。Li等[8]總結(jié)了多種基于頻域的視覺(jué)注意研究工作,提出了一種基于超復(fù)數(shù)傅里葉變換(Hypercomplex Fourier Transform)的視覺(jué)注意模型,并展示了其他多種基于頻域的模型在某種程度上都是此模型的特例。
以上模型均為數(shù)據(jù)驅(qū)動(dòng)的顯著性模型,模擬人眼視覺(jué)注意過(guò)程中自底向上的機(jī)制。由于人眼視覺(jué)注意過(guò)程中不可避免地受到知識(shí)、任務(wù)、經(jīng)驗(yàn)、情感等因素的影響,因而整合自底向上和自頂向下信息的視覺(jué)注意研究受到更多的關(guān)注?,F(xiàn)有模型整合的自頂向下信息可以分為三類:任務(wù)需求、場(chǎng)景上下文和對(duì)象特征。
Borji等[9]提出了一種構(gòu)建任務(wù)驅(qū)動(dòng)的視覺(jué)注意模型的聯(lián)合貝葉斯方法。Zhang等[10]提出了一種使用貝葉斯框架整合自底向上和自頂向下顯著性信息的方法。Siagian等[11]利用多種低層次特征對(duì)場(chǎng)景主旨進(jìn)行建模,使用場(chǎng)景主旨引導(dǎo)視覺(jué)注意的轉(zhuǎn)移??紤]到任務(wù)需求和場(chǎng)景上下文建模的復(fù)雜性,研究人員將對(duì)象特征視為一種高層次的知識(shí)表示形式引入視覺(jué)注意模型中。Judd等[12]和Zhao等[13]通過(guò)將低層次特征和對(duì)象特征整合在一個(gè)學(xué)習(xí)框架下來(lái)獲得特征整合過(guò)程中每張?zhí)卣鲌D的疊加權(quán)重,但是模型使用的對(duì)象特征只有人臉、行人、車輛等有限的幾種。Borji等[14]遵循了同樣的方法,但是在整合過(guò)程中添加了更多特征并且結(jié)合了其他顯著性模型的結(jié)果,最后用回歸、支撐向量機(jī)(Support Vector Machine, SVM)、 AdaBoost等多種機(jī)器學(xué)習(xí)算法結(jié)合眼動(dòng)跟蹤數(shù)據(jù)進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果表明對(duì)象特征引入較大地提高了模型性能。Xu等[15]將特征劃分為像素級(jí)、對(duì)象級(jí)和語(yǔ)義級(jí)三個(gè)層次,并重點(diǎn)探索對(duì)象信息和語(yǔ)義屬性對(duì)視覺(jué)注意的作用;然而,模型中的對(duì)象級(jí)和語(yǔ)義級(jí)特征是手工標(biāo)定的,因而不是一種完全意義上的計(jì)算模型。
總的來(lái)看,雖然部分模型已經(jīng)使用對(duì)象特征作為自頂向下的引導(dǎo)信息,但是在對(duì)象特征的獲取和整合上仍有很大的局限性。首先,對(duì)不包含特定對(duì)象的場(chǎng)景適應(yīng)性較差;其次,對(duì)象特征描述困難,通常是通過(guò)特定目標(biāo)檢測(cè)方法獲取對(duì)象特征,計(jì)算效率低下;此外,對(duì)象特征的簡(jiǎn)單整合方式不符合人眼的視覺(jué)感知機(jī)制。本文提出了一種結(jié)合深度學(xué)習(xí)獲取對(duì)象特征的視覺(jué)注意計(jì)算模型,重點(diǎn)研究了對(duì)象級(jí)特征的獲取和整合方法。算法結(jié)構(gòu)如1所示,其中像素級(jí)突出圖獲取采用現(xiàn)有視覺(jué)注意模型的方法,對(duì)象級(jí)突出圖獲取采用本文提出的基于卷積神經(jīng)網(wǎng)(Convolutional Neural Network, CNN)的特征學(xué)習(xí)和基于線性回歸的特征整合方法。實(shí)驗(yàn)結(jié)果表明,對(duì)象級(jí)特征的引入可以明顯提高顯著性預(yù)測(cè)精度,預(yù)測(cè)結(jié)果更符合人類視覺(jué)注意效果。
1 對(duì)象信息獲取
1.1 對(duì)象特征
大量實(shí)驗(yàn)證據(jù)表明對(duì)象特征引導(dǎo)視覺(jué)注意的轉(zhuǎn)移。視覺(jué)注意中引入對(duì)象特征是為了獲得圖像中對(duì)象位置等信息,目的與計(jì)算機(jī)視覺(jué)中的目標(biāo)檢測(cè)類似。因而,已有的視覺(jué)注意計(jì)算模型的對(duì)象特征通常是通過(guò)特定目標(biāo)檢測(cè)方法獲得。其中,Viola&Jones人臉檢測(cè)和Felzenszwalb車輛行人檢測(cè)是最常用的方法。文獻(xiàn)[12-14]均使用此類方法引入對(duì)象特征。由于這一類特征針對(duì)特定對(duì)象樣本進(jìn)行設(shè)計(jì)和訓(xùn)練,因而推廣能力不強(qiáng)。
li=fixations(obji)area(obji)(3)
其中: fixations()表示落入當(dāng)前對(duì)象區(qū)域的正樣本的數(shù)目;area()表示對(duì)象區(qū)域面積。li衡量當(dāng)前對(duì)象單位面積受關(guān)注的程度,對(duì)象單位面積受關(guān)注程度越高,其在對(duì)象整合過(guò)程中的權(quán)重應(yīng)越高,因而li與疊加權(quán)重成正比。
式(4)通過(guò)一個(gè)線性回歸模型對(duì)已有樣本數(shù)據(jù)進(jìn)行訓(xùn)練,獲得對(duì)象整合疊加權(quán)重W:
L=WF(4)
其中:F={F1,F(xiàn)2,…,F(xiàn)N}為訓(xùn)練樣本數(shù)據(jù)集合;L={l1,l2,…,lN}為訓(xùn)練樣本標(biāo)簽集合。
測(cè)試時(shí)根據(jù)式(5)~(6)獲得對(duì)象級(jí)突出圖:
3 顯著圖生成
視覺(jué)注意是自底向上和自頂向下兩種機(jī)制作用的結(jié)果。完全使用自頂向下的對(duì)象特征進(jìn)行顯著區(qū)域預(yù)測(cè)有一定缺陷,主要表現(xiàn)在以下幾個(gè)方面:首先,知識(shí)是對(duì)訓(xùn)練樣本數(shù)據(jù)的抽象表示,由于神經(jīng)網(wǎng)絡(luò)的規(guī)模和訓(xùn)練樣本中對(duì)象種類的限制,場(chǎng)景中部分對(duì)象對(duì)應(yīng)的特征沒(méi)有被抽象在網(wǎng)絡(luò)結(jié)構(gòu)中;其次,部分不具有明確語(yǔ)義的區(qū)域被錯(cuò)誤地認(rèn)為是對(duì)象,對(duì)視覺(jué)注意形成錯(cuò)誤的引導(dǎo);另外,人眼視覺(jué)注意轉(zhuǎn)移的生理學(xué)機(jī)制并不清楚,興趣區(qū)可能落在不具有對(duì)象特征區(qū)域中。因此,使用像素級(jí)特征給出低層次顯著性信息是必要的。
視覺(jué)注意模型中常用的像素級(jí)特征有顏色、亮度、方向等[2-3,12]。本文直接使用GBVS(Graph-Based Visual Saliency)算法[4]整合多種像素級(jí)特征獲取像素級(jí)突出圖Spixel。式(7)給出了整合的方法:
其中:S(i, j)為最終給出的視覺(jué)注意顯著圖;N()為歸一化操作;λ控制對(duì)象級(jí)突出圖與像素級(jí)突出圖的相對(duì)權(quán)重,通過(guò)實(shí)驗(yàn)分析可知λ=0.4時(shí)效果較好。當(dāng)圖像中不存在顯著物體或無(wú)法獲得高置信度的對(duì)象信息時(shí),圖像任意位置Sobj(i, j)=0,此時(shí)完全由像素級(jí)特征驅(qū)動(dòng)的視覺(jué)注意引導(dǎo)。
4 實(shí)驗(yàn)結(jié)果及分析
本次實(shí)驗(yàn)是以Visual Studio 2012為實(shí)驗(yàn)平臺(tái),選取OSIE和MIT數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)。OSIE數(shù)據(jù)集包含700張含有一個(gè)或多個(gè)明顯語(yǔ)義對(duì)象的圖片以及15名受試者的眼動(dòng)跟蹤數(shù)據(jù),此外該數(shù)據(jù)集還提供了語(yǔ)義對(duì)象統(tǒng)計(jì)及人工標(biāo)注的精確對(duì)象區(qū)域。MIT數(shù)據(jù)集包含1003張自然場(chǎng)景圖片以及15名受試者的眼動(dòng)跟蹤數(shù)據(jù)。這兩個(gè)數(shù)據(jù)集是當(dāng)前視覺(jué)注意研究領(lǐng)域中較大的數(shù)據(jù)集。為了驗(yàn)證本文方法的準(zhǔn)確率,將本文算法與GBVS[4]、 Itti[2]、 Judd[3]、 AIM[10]、LG[8]等視覺(jué)注意方法進(jìn)行對(duì)比。
對(duì)比實(shí)驗(yàn)中使用的評(píng)價(jià)指標(biāo)為ROC(Receiver Operating Characteristic)曲線,實(shí)現(xiàn)方法與文獻(xiàn)[12,15]相同。圖6~8為實(shí)驗(yàn)對(duì)比結(jié)果,顯著區(qū)域百分比是通過(guò)對(duì)歸一化顯著圖作閾值處理獲得,真正率(True Positive Rate)反映當(dāng)前落入顯著區(qū)域的樣本占所有樣本的比例。通過(guò)變化顯著區(qū)域百分比獲得ROC曲線。為了更直觀比較算法效果,實(shí)驗(yàn)結(jié)果圖中標(biāo)注了每種算法的AUC(Area Under Curve)值,AUC值通過(guò)計(jì)算ROC曲線下的面積獲得。AUC值越大表示該方法給出的顯著性預(yù)測(cè)結(jié)果越準(zhǔn)確。
圖6為利用對(duì)象級(jí)突出圖作為顯著圖在OSIE數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。相對(duì)于RCNN算法, fasterRCNN算法使用了更深層次的網(wǎng)絡(luò)結(jié)構(gòu)和更多對(duì)象類別的訓(xùn)練樣本,具有較高的對(duì)象位置預(yù)測(cè)準(zhǔn)確率和對(duì)象檢出率。實(shí)驗(yàn)分析可以看出,使用fasterRCNN算法生成對(duì)象級(jí)突出圖可以更好進(jìn)行顯著性預(yù)測(cè)。同時(shí),人臉特征(FACE)的引入進(jìn)一步提升了預(yù)測(cè)準(zhǔn)確性,從一個(gè)側(cè)面說(shuō)明了對(duì)象性信息對(duì)視覺(jué)注意的轉(zhuǎn)移具有引導(dǎo)作用。
圖7是多種視覺(jué)注意算法在OSIE數(shù)據(jù)集上的ROC曲線,可以看出本文方法實(shí)驗(yàn)效果明顯好于其他算法。僅次于本文算法的是GBVS和Judd,Itti的準(zhǔn)確率較差。圖中對(duì)象級(jí)特征曲線為使用fasterRCNN結(jié)合人臉特征生成對(duì)象級(jí)突出圖獲得,由于該方法完全使用自頂向下的對(duì)象特征,顯著性預(yù)測(cè)準(zhǔn)確率明顯弱于其他方法,因而證明了引入像素級(jí)特征必要性。圖8為MIT數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,本文方法和Judd算法為最好的兩種方法,實(shí)驗(yàn)結(jié)果相差不大。AIM和LG方法效果較差。本文方法和Judd方法均使用了對(duì)象特征,可以看出整合了對(duì)象特征的方法相對(duì)于完全自底向上模型有明顯優(yōu)勢(shì)。
圖9中給出了多種算法顯著圖的直觀對(duì)比。與其他方法強(qiáng)調(diào)對(duì)象邊緣不同,本文結(jié)合了對(duì)象信息的方法可以有效突出圖像中的完整對(duì)象區(qū)域。
5 結(jié)語(yǔ)
本文提出一種結(jié)合對(duì)象信息的視覺(jué)注意方法。與傳統(tǒng)的視覺(jué)注意整合對(duì)象方法相比,該方法利用卷積神經(jīng)網(wǎng)學(xué)到的對(duì)象特征,獲取圖像中對(duì)象位置等信息;然后通過(guò)一個(gè)線性回歸模型將同一幅圖像的多個(gè)對(duì)象加權(quán)整合,獲得對(duì)象級(jí)突出圖;最后,根據(jù)視覺(jué)注意的層次整合機(jī)制,將低層次特征和對(duì)象特征進(jìn)行融合形成最終的顯著圖。本文方法在不同數(shù)據(jù)集上的準(zhǔn)確率要高于現(xiàn)有模型。針對(duì)包含明顯對(duì)象的圖像,本文方法克服了部分現(xiàn)有模型由于邊緣強(qiáng)化效果導(dǎo)致的顯著區(qū)域預(yù)測(cè)不準(zhǔn)的問(wèn)題。本文方法仍然存在一定局限性,未來(lái)的工作將嘗試非線性對(duì)象整合以及增大訓(xùn)練樣本數(shù)量和網(wǎng)絡(luò)規(guī)模以獲取更多種對(duì)象特征。
參考文獻(xiàn):
篇9
2.輸流管道參數(shù)共振的試驗(yàn)研究梁峰,金基鐸,楊曉東,聞邦椿,LiangFeng,JinJiduo,YangXiaodong,WenBangchun
3.非接觸式超聲馬達(dá)的聲流及聲壓分析鄒楠,魏守水,姜春香,ZouNan,WeiShoushui,JiangChunxiang
4.基于核函數(shù)Fisher鑒別分析的特征提取方法胡金海,謝壽生,駱廣琦,李應(yīng)紅,楊帆,HuJinhai,XieShousheng,LuoGuangqi,LiYinghong,YangFan
5.光纖機(jī)敏結(jié)構(gòu)振動(dòng)形態(tài)感知及其SMA致動(dòng)控制朱曉錦,陸美玉,趙曉瑜,張合生,ZhuXiaojin,LuMeiyu,ZhaoXiaoyu,ZhangHesheng
6.虛擬式零件尺寸檢測(cè)儀的研制郭明青,秦樹(shù)人,王見(jiàn),GuoMingqing,QinShuren,WangJian
7.一種基于支持向量機(jī)的齒輪箱故障診斷方法會(huì),WuDehui
8.超聲電機(jī)多定子同步驅(qū)動(dòng)技術(shù)的研究李亭,張鐵民,劉瀟建,LiTing,ZhangTiemin,LiuXiaojian
9.阻尼材料動(dòng)態(tài)力學(xué)參數(shù)自動(dòng)測(cè)試系統(tǒng)的設(shè)計(jì)胡衛(wèi)強(qiáng),王敏慶,劉志宏,馬少璞,周赤奇,HuWeiqiang,WangMinqing,LiuZhihong,MaShaopu,ZhouChiqi
10.減振裝置過(guò)油孔對(duì)阻尼閥水擊的影響研究陳軼杰,顧亮,黃華,張中生,王亞軍,ChenYijie,GuLiang,HuangHua,ZhangZhongsheng,WangYajun
11.點(diǎn)蝕與剝落對(duì)齒輪扭轉(zhuǎn)嚙合剛度影響的分析安春雷,韓振南,AnChunlei,HanZhennan
12.基于EKF訓(xùn)練的RBF神經(jīng)網(wǎng)絡(luò)及其故障診斷應(yīng)用王璐,潘紫微,葉金杰,WangLu,PanZiwei,YeJinjie
13.液壓脈振注射機(jī)塑化過(guò)程螺桿動(dòng)態(tài)特性分析王權(quán),瞿金平,WangQuan,QuJinping
14.最佳小波包基改進(jìn)軟閾值的消噪方法及應(yīng)用侯新國(guó),劉開(kāi)培,魏建華,HouXinguo,LiuKaipei,WeiJianhua
15.新型多軸旋轉(zhuǎn)超聲電機(jī)原理金家楣,張建輝,趙淳生,JinJiamei,ZhangJianhui,ZhaoChunsheng
16.百萬(wàn)等級(jí)汽輪發(fā)電機(jī)基礎(chǔ)動(dòng)力特性優(yōu)化研究代澤兵,劉寶泉,吉曄,王樹(shù)嶺,朱祝兵,DaiZebing,LiuBaoquan,JiYe,WangShuling,ZhuZhubing
17.CSP軋機(jī)扭振與垂振耦合研究閆曉強(qiáng),史燦,曹曦,劉麗娜,YanXiaoqiang,ShiCan,CaoXi,LiuLina
18.抖晃對(duì)振動(dòng)脈沖頻響特性估計(jì)的影響黃迪山,HuangDishan
19.剛架拱橋病害與損傷識(shí)別的動(dòng)力學(xué)研究李枝軍,李愛(ài)群,繆長(zhǎng)青,LiZhijun,LiAiqun,MiaoChangqing
20.大型船閘人字閘門(mén)工作模態(tài)試驗(yàn)分析蔣建國(guó),李勤,JiangJianguo,LiQin
21.CSP軋機(jī)振動(dòng)的振源研究王永濤,臧勇,吳迪平,范小彬,WangYongtao,ZangYong,WuDiping,F(xiàn)anXiaobin
22.基于遺傳編程的發(fā)動(dòng)機(jī)滑油系統(tǒng)故障診斷侯勝利,王威,胡金海,周根娜,HouShengli,WangWei,HuJinhai,ZhouGenna
23.低功耗頂板離層儀研究閻學(xué)文,吳波,廉自生
1.航空發(fā)動(dòng)機(jī)轉(zhuǎn)子振動(dòng)信號(hào)的分離測(cè)試技術(shù)馬建倉(cāng),石慶斌,程存虎,趙述元,MaJiancang,ShiQingbin,ChengCunhu,ZhaoShuyuan
2.刀具磨損監(jiān)測(cè)及破損模式的識(shí)別康晶,馮長(zhǎng)建,胡紅英,KangJing,F(xiàn)engChangjian,HuHongying
3.用最大重疊離散小波包變換的Hilbert譜時(shí)頻分析楊宇,何怡剛,程軍圣,于德介,YangYu,HeYigang,ChenJunsheng,YuDejie
4.柴油發(fā)動(dòng)機(jī)曲軸軸承振動(dòng)信號(hào)的雙譜分析趙慧敏,夏超英,肖云魁,李會(huì)梁,夏天,ZhaoHuimin,XiaChaoying,XiaoYunkui,LiHuiliang,XiaTian
5.動(dòng)態(tài)·信息
6.基于能量的振動(dòng)信號(hào)經(jīng)驗(yàn)?zāi)B(tài)分解終止條件胡勁松,楊世錫,HuJingsong,YangShixi
7.金屬橡膠材料阻尼性能的影響參數(shù)李宇燕,黃協(xié)清,LiYuyan,HuangXieqing
8.應(yīng)用變精度粗糙集獲取柴油機(jī)故障有效監(jiān)測(cè)點(diǎn)劉軍,LiuJun
9.反饋回路系統(tǒng)診斷策略優(yōu)化技術(shù)研究楊鵬,邱靜,劉冠軍,YangPeng,QiuJing,LiuGuanjun
10.獨(dú)立分量分析在機(jī)械振動(dòng)信號(hào)分離中的應(yīng)用劉婷婷,任興民,LiuTingting,RenXingmin
11.基于KPCA-SVM的柴油機(jī)狀態(tài)識(shí)別方法的研究振動(dòng)、測(cè)試與診斷 李宏坤,馬孝江,LiHongkun,MaXiaojiang
12.運(yùn)用希爾伯特黃變換的橋梁顫振導(dǎo)數(shù)識(shí)別宋斌華,黃方林,王學(xué)敏,SongBinhua,HuangFanglin,WangXuemin
13.小波包時(shí)頻分析及其特性鐘佑明,ZhongYouming
14.基于EI及MAC混合算法的斜拉橋傳感器優(yōu)化布置袁愛(ài)民,戴航,孫大松,YuanAimin,DaiHang,SunDasong
15.利用倒階次譜和經(jīng)驗(yàn)?zāi)B(tài)分解的軸承故障診斷康海英,祁彥潔,王虹,欒軍英,鄭海起,KangHaiying,QiYanjie,WangHong,LuanJunying,ZhengHaiqi
16.鋼混簡(jiǎn)支梁加載損傷后耗能特征試驗(yàn)研究王卓,閆維明,秦棟濤,劉昌鵬,WangZhuo,YanWeiming,QinDongtao,LiuChangpeng
17.三級(jí)同心液壓溢流閥噪聲特性的CFD分析陳青,許惠,權(quán)龍,ChenQing,XuHui,QuanLong
18.基于故障原因-征兆矩陣的故障診斷專家系統(tǒng)姚劍飛,江志農(nóng),趙慶亮,張雪,YaoJianfei,JiangZhinong,ZhaoQingliang,ZhangXue
19.往復(fù)式壓縮機(jī)氣缸壓力模擬曲線提取趙俊龍,,郭正剛,李宏坤,王奉濤,ZhaoJunlong,ZhangZhixin,GuoZhenggang,LiHongkun,WangFengtao
20.基于類間可分性度量和SVM的多故障分類算法李敏,楊潔明,張曉平,LiMin,YangJieming,ZhangXiaoping
21.磁通量法在預(yù)應(yīng)力懸掛結(jié)構(gòu)拉索施工中的應(yīng)用宋杰,陳魯,張其林,陳國(guó)棟,SongJie,ChenLu,ZhangQilin,ChenGuodong
22.框架在脈沖位移作用下的回傳波射矩陣法解范志華,孫國(guó)鈞,繆馥星,F(xiàn)anZhihua,SunGuojun,MiuFuxing
23.改進(jìn)的主成分分析方法在磁浮系統(tǒng)中的應(yīng)用鄒東升,佘龍華,ZouDongsheng,YuLonghua
24.高速列車垂向振動(dòng)的模擬器再現(xiàn)方法研究王小亮,李立,張衛(wèi)華,WangXiaoliang,LiLi,ZhangWeihua
25.裝甲車輛動(dòng)力傳動(dòng)系統(tǒng)載荷譜測(cè)試方法研究潘宏俠,黃晉英,郭彥青,孫黎明,PanHongxia,HuangJinying,GuoYanqing,SunLiming
26.撓性接頭剛度測(cè)量中傳感器的研究王廣林,王慧峰,詹捷,陶崇德,孫國(guó)光,盧澤生,WangGuanglin,WangHuifeng,ZhanJie,TaoChongde,SunGuoguang,LuZesheng
1.橡膠V帶式無(wú)級(jí)變速器性能的測(cè)試與試驗(yàn)研究上官文斌,王江濤,王小莉,ShangguanWenbin,WangJiangtao,WangXiaoli
2.一種新型孔式模態(tài)轉(zhuǎn)換型超聲電機(jī)楊淋,金家楣,趙淳生,YangLin,JinJiamei,ZhaoChunsheng
3.基于瞬態(tài)聲與階次倒譜的齒輪箱故障診斷田昊,唐力偉,陳紅,楊通強(qiáng),張磊,TianHao,TangLiwei,ChenHong,YangTongqiang,ZhangLei
4.軸心軌跡自動(dòng)識(shí)別及其在旋機(jī)診斷中的應(yīng)用許飛云,鐘秉林,黃仁,XuFeiyun,ZhongBinglin,HuangRen
5.多傳感器主元方向和神經(jīng)網(wǎng)絡(luò)的狀態(tài)識(shí)別方法張金萍,李允公,劉杰,ZhangJinping,LiYungong,LiuJie
6.多分支扭轉(zhuǎn)振動(dòng)建模方法與分析軟件的研究袁清珂,曹廣忠,YuanQingke,CaoGuangzhong
7.基于EMD和球結(jié)構(gòu)SVM的滾動(dòng)軸承故障診斷楊潔明,田英,YangJieming,TianYing
8.新型氣浮聯(lián)合軸承轉(zhuǎn)子系統(tǒng)啟動(dòng)過(guò)程振動(dòng)特性張占一,應(yīng)懷樵,劉杰,楊金福,李磊,ZhangZhanyi,YingHuaiqiao,LiuJie,YangJinfu,LiLei
9.基于粒子群優(yōu)化的核主元分析特征的提取技術(shù)魏秀業(yè),潘宏俠,王福杰,WeiXiuye,PanHongxia,WangFujie
10.齒輪箱起動(dòng)過(guò)程故障診斷李輝,鄭海起,楊紹普,LiHui,ZhengHaiqi,YangShaopu
11.采用像素編碼技術(shù)的感應(yīng)電機(jī)定子故障診斷侯新國(guó),劉開(kāi)培,夏立,胡煊,HouXinguo,LiuKaipei,XiaLi,HuXuanHtTp://
12.高架路交通誘發(fā)的地面振動(dòng)測(cè)試與分析常樂(lè),閆維明,任珉,周福霖,ChangLe,YanWeiming,RenMin,ZhouFulin
13.基于相關(guān)函數(shù)的多振動(dòng)信號(hào)數(shù)據(jù)融合方法李學(xué)軍,李萍,褚福磊,LiXuejun,LiPing,ChuFulei
14.軸承-轉(zhuǎn)子系統(tǒng)在弱控制作用下的動(dòng)力學(xué)行為孫保蒼,鐘曉波,陳威,駱英,馮耀嶺,SunBaocang,ZhongXiaobo,ChenWei,LuoYing,F(xiàn)engYaoling
15.振動(dòng)、測(cè)試與診斷 海邊山坡場(chǎng)地爆破地震波的衰減測(cè)試與分析吳小波,WuXiaobo
16.雙圖同軸光纖束位移傳感器研究楊亮,張小棟,YangLiang,ZhangXiaodong
17.利用小波去噪和HHT的模態(tài)參數(shù)識(shí)別湯寶平,何啟源,蔣恒恒,陸冬,TangBaoping,HeQiyuan,JiangHengheng,LuDong
18.應(yīng)用小波包和包絡(luò)分析的滾動(dòng)軸承故障診斷唐貴基,蔡偉,TangGuiji,CaiWei
19.小波變換的流體壓力信號(hào)自適應(yīng)濾波方法研究谷立臣,閆小樂(lè),劉澤華,GuLichen,YanXiaole,LiuZehua
20.CSP軋機(jī)扭振中"偽拍振"的研究王永濤,臧勇,吳迪平,秦勤,范小彬,WangYongtao,ZangYong,WuDiping,QinQin,F(xiàn)anXiaobin
21.動(dòng)態(tài)·信息
22.直升機(jī)旋翼不平衡故障診斷試驗(yàn)研究高亞?wèn)|,張?jiān)?,GaoYadong,ZhangZengchang
23.梁橋上移動(dòng)荷載識(shí)別中的測(cè)點(diǎn)優(yōu)化陳鋒,李忠獻(xiàn),ChenFeng,LiZhongXian
24.基于遺傳小波神經(jīng)網(wǎng)絡(luò)的雙余度電機(jī)故障診斷李世超,石秀華,崔海英,許暉,LiShichao,ShiXiuhua,CuiHaiying,XuHui
25.某型工業(yè)叉車護(hù)頂架的振動(dòng)診斷楊義,李志遠(yuǎn),馬慶豐,YangYi,LiZhiyuan,MaQingfeng
26.銀基合金摩擦振動(dòng)與噪聲特性的分析與控制陳傳海,楊世錫,鄭傳榮,ChenChuanhai,YangShixi,ZhengChuanrong
27.橢圓振動(dòng)修整超聲磨削ZrO2溫度試驗(yàn)研究陳東海,劉春孝,ChenDonghai,LiuChunxiao
1.超聲電機(jī)接觸界面的兩種簡(jiǎn)化有限元模型周盛強(qiáng),趙淳生
2.基于特征參數(shù)的旋轉(zhuǎn)機(jī)械智能故障診斷方法張征凱,薛松,張優(yōu)云
3.《振動(dòng)、測(cè)試與診斷》編委會(huì)會(huì)議紀(jì)要
4.燃料電池車氫氣輔助系統(tǒng)結(jié)構(gòu)動(dòng)態(tài)特性分析申秀敏,左曙光,蔡建江,張靜芬,李林,張世煒
5.鐵路貨車側(cè)墻制造過(guò)程建模與變形規(guī)律預(yù)測(cè)盧碧紅,李亞娜,聶春戈,兆文忠
6.改進(jìn)支持向量機(jī)模型的旋轉(zhuǎn)機(jī)械故障診斷方法曹沖鋒,楊世錫,周曉峰,楊將新
7.基于小波神經(jīng)網(wǎng)絡(luò)的木質(zhì)材料缺陷模式識(shí)別孫建平,王逢瑚,曹軍,胡英成
8.旋轉(zhuǎn)機(jī)械故障診斷中的振動(dòng)信號(hào)自適應(yīng)分形壓縮算法唐貴基,張杏娟,杜必強(qiáng)
9.距離函數(shù)分類法在制粉系統(tǒng)故障診斷中的應(yīng)用陳蔚,賈民平
10.基于模態(tài)綜合技術(shù)的結(jié)構(gòu)有限元模型修正劉洋,段忠東,周道成
11.循環(huán)平穩(wěn)度在發(fā)電機(jī)組故障趨勢(shì)分析中的應(yīng)用左云波,王西彬,徐小力
12.900t級(jí)架橋機(jī)多軟件協(xié)同仿真平臺(tái)試驗(yàn)研究凌正陽(yáng),曹恒,王瑜,張振雄,商偉軍
13.岸橋前大梁鉸支座支承對(duì)其橫向振動(dòng)的影響邱惠清,盧凱良,李雪,歸正,曾怡
14.車輛發(fā)動(dòng)機(jī)懸置處的動(dòng)態(tài)剛度仿真研究蘭鳳崇,謝然,陳吉清
15.拉索平面內(nèi)自由振動(dòng)影響因素分析姜健,李國(guó)強(qiáng),郝坤超
16.基于小波和自組織網(wǎng)絡(luò)的電纜故障識(shí)別汪梅,曲立娜
17.非庫(kù)侖摩擦轉(zhuǎn)子試驗(yàn)臺(tái)碰摩分叉行為振動(dòng)、測(cè)試與診斷 王正浩,王景愚
18.小波包與改進(jìn)BP神經(jīng)網(wǎng)絡(luò)相結(jié)合的齒輪箱故障識(shí)別時(shí)建峰,程珩,許征程,史少輝,時(shí)偉,鈕效鹍
19.基于奇異值分解的頻響函數(shù)降噪方法孫鑫暉,張令彌,王彤
20.球磨機(jī)料位電聲檢測(cè)系統(tǒng)的研制楊數(shù)強(qiáng),余成波,全曉莉,崔焱喆
21.上臥式閘門(mén)水彈性振動(dòng)試驗(yàn)研究顧云,嚴(yán)根華,趙建平
22.抖晃初相在振動(dòng)頻響估計(jì)誤差中的作用黃迪山
23.大型鋁電解槽針振信號(hào)深層特征提取方法研究周孑民,單峰,唐騫,李賀松,蔣科進(jìn),郭潔
24.非穩(wěn)態(tài)信號(hào)計(jì)算階次分析中的重采樣率研究汪偉,楊通強(qiáng),王紅,王平,鄧士杰
25.基于無(wú)傳感器檢測(cè)方法的機(jī)械系統(tǒng)扭振試驗(yàn)研究時(shí)獻(xiàn)江,郭華,邵俊鵬
26.運(yùn)用小波變換檢測(cè)汽車后橋總成故障余德平,王寶強(qiáng),史延楓,任德均,姚進(jìn)
27.基于AR模型和神經(jīng)網(wǎng)絡(luò)的柴油機(jī)故障診斷黃泉水,江國(guó)和,肖建昆
1.運(yùn)用改進(jìn)殘余力向量法的結(jié)構(gòu)損傷識(shí)別研究何偉,陳淮,王博,李靜斌,HeWei,ChenHuai,WangBo,LiJingbin
2.交通荷載作用下橋梁結(jié)構(gòu)參數(shù)識(shí)別方法吳子燕,易文迪,趙宇,WuZiyan,YiWendi,ZhaoYu
3.行波超聲電機(jī)定、轉(zhuǎn)子接觸狀態(tài)試驗(yàn)分析姚志遠(yuǎn),吳辛,趙淳生,YaoZhiyuan,WuXin,ZhaoChunsheng
4.伺服閥滑閥疊合量測(cè)量方法潘旭東,王廣林,邵東向,韓俊偉,PanXudong,WangGuanglin,ShaoDongxiang,HanJunwei
5.基于CAN總線遠(yuǎn)程振動(dòng)監(jiān)測(cè)系統(tǒng)研究何青,李紅,何子睿,HeQing,LiHong,HeZirui
6.縱向脈沖作用下壓電層合桿的動(dòng)力分析彭亮,羅松南,鄧慶田,PengLiang,LuoSongnan,DengQingtian
7.超臨界600MW機(jī)組檢修后振動(dòng)分析及處理劉石,劉興久,馮永新,劉永生,朱軍,肖小清,王棟,LiuShi,LiuXinjiu,F(xiàn)engYongxin,LiuYongsheng,ZhuJun,XiaoXiaoqing,WangDong
8.虛擬式流體參量集成測(cè)試系統(tǒng)及其實(shí)現(xiàn)季忠,陳青,秦樹(shù)人,溫海松,JiZhong,ChenQing,QinShuren,WenHaisong
9.彈性支承雙跨碰摩故障轉(zhuǎn)子系統(tǒng)非線性特性李東,袁惠群,吳立明,LiDong,YuanHuiqun,WuLiming
10.盲解卷積的機(jī)械振動(dòng)信號(hào)分離技術(shù)劉婷婷,任興民,楊永鋒,郭峰,LiuTingting,RenXingmin,YangYongfeng,GuoFeng
11.基于壓電元件的懸臂梁半主動(dòng)振動(dòng)控制研究趙永春,季宏麗,裘進(jìn)浩,朱孔軍,ZhaoYongchun,JiHongli,QiuJinhao,ZhuKongjun
12.凸輪軸加工的誤差在線測(cè)量方法研究周傳德,賀澤龍,吳宏剛,張彩芳,ZhouChuande,HeZelong,WuHonggang,ZhangCaifang
13.振動(dòng)、測(cè)試與診斷 一種仿真數(shù)字人步態(tài)規(guī)劃優(yōu)化算法曹恒,凌正陽(yáng),王瑜,龍勇波,朱鈞,CaoHeng,LingZhengyang,WangYu,longYongbo,ZhuJun
篇10
技術(shù)快速進(jìn)步確保安全
人臉識(shí)別是基于人的臉部特征信息,應(yīng)用人工智能模式識(shí)別和計(jì)算機(jī)視覺(jué)技術(shù)鑒別個(gè)體身份的一種生物識(shí)別技術(shù)。從人工智能的角度來(lái)看,人臉識(shí)別其實(shí)是機(jī)器視覺(jué)的一個(gè)分支。曠視科技智能商業(yè)產(chǎn)品線資深總監(jiān)宋晨表示,人臉識(shí)別實(shí)際上就是給機(jī)器賦能,讓它具備一雙眼睛的能力,讓它像人一樣去想、去看,從而“學(xué)會(huì)”各種檢測(cè)、判斷、識(shí)別和測(cè)量。
人們看好人臉識(shí)別,因?yàn)樽鳛樯锟勺R(shí)別技術(shù),人臉識(shí)別有其獨(dú)特的優(yōu)勢(shì)。一方面,人臉識(shí)別具有非接觸性和非侵?jǐn)_性,不接觸人體就可以直接通過(guò)攝像頭在一定距離內(nèi)進(jìn)行識(shí)別,從而實(shí)現(xiàn)更大范圍、更多方位的信息采集,不需要被采集者配合,更易被大眾接受。另一方面,人臉識(shí)別的硬件門(mén)檻更低,指紋識(shí)別需要特定采集芯片,但人臉識(shí)別只需要攝像頭,智能手機(jī)上的相機(jī)和城市視頻監(jiān)控體系中的高清攝像頭已足夠滿足需要。
但人臉識(shí)別應(yīng)用的快速推進(jìn),仍來(lái)自于技術(shù)的快速提升。“我們最早在深圳的超級(jí)計(jì)算機(jī)上做人臉識(shí)別,要花28天進(jìn)行迭代,但現(xiàn)在同樣的工作在6塊GPU芯片上只需要6個(gè)小時(shí),這就是硬件提升帶來(lái)的瓶頸突破?!鄙虦萍糃EO徐立告訴記者。宋晨則對(duì)此解釋說(shuō),人臉識(shí)別所需要的圖像處理和深度學(xué)習(xí)能力,是基于GPU的訓(xùn)練來(lái)產(chǎn)生的,它代表著高速和價(jià)廉的計(jì)算能力。
而在硬件之外,卷積神經(jīng)網(wǎng)絡(luò)則在算法上大幅提升了人臉識(shí)別的精度。2014年前,在人臉檢測(cè)評(píng)測(cè)平臺(tái)FDDB上,學(xué)術(shù)界獲得的最好檢測(cè)精度是84%,但在2015年以后,通過(guò)使用卷積神經(jīng)網(wǎng)絡(luò)算法,眾多人臉檢測(cè)應(yīng)用的準(zhǔn)確率提升到90%以上,現(xiàn)在最高正確率已經(jīng)超過(guò)99%。北京大學(xué)信息科學(xué)技術(shù)學(xué)院智能科學(xué)系教授徐超表示,考慮到人眼識(shí)別的正確率僅有97%多,人臉識(shí)別技術(shù)已經(jīng)超過(guò)了人的識(shí)別能力,在識(shí)別效率上更是遠(yuǎn)超人類。
但對(duì)于人臉識(shí)別技術(shù)來(lái)說(shuō),“認(rèn)得準(zhǔn)”只是第一步,還需要足夠安全,能夠抵抗各種攻擊,比如偽造面具、使用照片或者3D軟件“換臉”等方式。螞蟻金服生物識(shí)別負(fù)責(zé)人陳繼東告訴記者,活體檢測(cè)是其中最核心的技術(shù),“我們通過(guò)一系列軟件算法來(lái)判斷攝像頭前的是不是‘活人’,一是基于動(dòng)作交互的識(shí)別模型,所以用戶會(huì)被要求做出眨眼、搖頭、張嘴等動(dòng)作,通過(guò)檢測(cè)過(guò)程中動(dòng)作的連續(xù)性,以此讓照片難以通過(guò)。但對(duì)于會(huì)模擬動(dòng)作的視頻,或者預(yù)先制作好的動(dòng)作視頻,我們還需要圖像的分析,比如說(shuō)區(qū)分正常的圖像和通過(guò)軟件模擬、視頻剪輯的圖像之間有多大的差異”。曠視科技公司則表示,合成臉在圖形特征上會(huì)與真人有很大的差異,并不容易通過(guò)框體檢測(cè)和對(duì)翻拍的圖形特征分析檢測(cè)。
判斷“你是你”和“你是誰(shuí)”
“臨川區(qū)榮耀網(wǎng)吧43號(hào)機(jī)器,一位17歲男性未成年人正在上網(wǎng)!”江西省撫州市文化綜合執(zhí)法支隊(duì)的工作人員手機(jī)上接到這樣一條彈窗報(bào)警信息?!斑@正是應(yīng)用了人臉識(shí)別技術(shù),用戶在網(wǎng)吧上網(wǎng)時(shí)要拍照,這張照片會(huì)與上網(wǎng)者的身份證照片比對(duì),一旦發(fā)現(xiàn)是未成年人,我們的技術(shù)監(jiān)管平臺(tái)就會(huì)報(bào)警。”撫州市文化綜合執(zhí)法支隊(duì)支隊(duì)長(zhǎng)胡光斌表示。
在沈陽(yáng)地鐵,人臉識(shí)別系統(tǒng)同樣成為話題。在短短11天內(nèi),這套系統(tǒng)連續(xù)抓獲了3名網(wǎng)上逃犯。這是沈陽(yáng)警方首次應(yīng)用智能人臉識(shí)別系統(tǒng)追逃,在包括沈陽(yáng)站等3個(gè)地鐵站,有人從高清攝像頭前經(jīng)過(guò),就會(huì)被連續(xù)拍攝20到30張角度不同的照片并與警方數(shù)據(jù)庫(kù)比對(duì),一旦相似度評(píng)分超過(guò)83分,系統(tǒng)就會(huì)自動(dòng)報(bào)警,并對(duì)目標(biāo)拍攝一條10秒鐘的即時(shí)視頻。
在中科院自動(dòng)化研究所雷震博士看來(lái),這兩個(gè)應(yīng)用場(chǎng)景正對(duì)應(yīng)了人臉識(shí)別應(yīng)用的兩個(gè)方向:用來(lái)確定“你是你”的1:1確認(rèn)和用來(lái)判斷“你是誰(shuí)”的1:N辨認(rèn)。“1比1確認(rèn)是將人臉圖像與圖片庫(kù)中的圖像進(jìn)行比對(duì),是目前比較成功的應(yīng)用,精準(zhǔn)度已經(jīng)很高;1比N人臉?biāo)阉?,先要在視頻中確認(rèn)人臉的位置,然后抽取一適合進(jìn)行人臉識(shí)別的圖片,最后則將這張圖片與N張照片比對(duì),看是否有相符的一張,技術(shù)上講要難得多?!崩渍鹫f(shuō)。
“在身份確認(rèn)上,以前是人來(lái)做,現(xiàn)在交給機(jī)器,流程沒(méi)有變,只是效率大大提升,因此在各個(gè)傳統(tǒng)行業(yè)中滲透得最為迅速?!毙炝⒈硎尽?/p>
的確,如果說(shuō)“1比N人臉?biāo)阉鳌蹦壳盎具€集中于安防領(lǐng)域“試水”,那么在“1:1確認(rèn)”方向,人臉識(shí)別應(yīng)用則成熟得多。拿金融領(lǐng)域來(lái)說(shuō),陳繼東介紹,目前支付寶在高風(fēng)險(xiǎn)支付、修改密碼、實(shí)名認(rèn)證等48個(gè)場(chǎng)景使用刷臉驗(yàn)證,在支付寶的4.5億實(shí)名用戶中,有三分之一“刷過(guò)臉”。今年2月,螞蟻金服的“刷臉支付”還被知名科技雜志《麻省理工科技評(píng)論》評(píng)為全球十大突破性技術(shù)之一。
“做到從實(shí)名到實(shí)人,人臉識(shí)別起了非常重要的作用。在金融領(lǐng)域的人臉識(shí)別技術(shù)應(yīng)用,除了準(zhǔn)確度和安全級(jí)別之外,還需要極高的穩(wěn)定性、可靠性和極低的實(shí)時(shí)響應(yīng)?!标惱^東說(shuō)。而在金融領(lǐng)域之外,證明“你是你”還在智能門(mén)禁、智能考勤、刷臉安檢、個(gè)稅申報(bào)、養(yǎng)老金領(lǐng)取資格認(rèn)證等場(chǎng)景被廣泛使用。
防攻擊能力需不斷提升
如果說(shuō)在確認(rèn)“你是你”和搜索“你是誰(shuí)”兩個(gè)方向上,人臉識(shí)別技術(shù)還都是“把人能做的事做得更好”,那么人臉識(shí)別技術(shù)還能完成“人無(wú)法完成的事情”。
今年年初,廈門(mén)的一些珠寶店在貨架上裝上了人臉識(shí)別系統(tǒng),能夠分析每個(gè)用戶在柜臺(tái)前停留的時(shí)間?!癡IP客戶一到店,人臉識(shí)別系統(tǒng)就能將消息推送到店員手機(jī)上,同時(shí)還能顯示出這些客戶以往的購(gòu)買記錄。如果記錄到一個(gè)客戶上次在哪個(gè)貨架停留的時(shí)間久,下次這一信息也會(huì)推送給店員?!睆B門(mén)瑞為信息技術(shù)有限公司負(fù)責(zé)人詹東暉說(shuō)。人臉識(shí)別技術(shù)與線下商業(yè)的“親密接觸”,被視為是“互聯(lián)網(wǎng)+線下零售”的一個(gè)全新方向。
- 上一篇:企業(yè)信息化管理概述
- 下一篇:觸電應(yīng)急演練培訓(xùn)方案