卷積神經(jīng)網(wǎng)絡(luò)基本概念范文
時間:2024-03-28 11:15:22
導(dǎo)語:如何才能寫好一篇卷積神經(jīng)網(wǎng)絡(luò)基本概念,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。
篇1
關(guān)鍵詞:AlphaGo;人工智能;圍棋;未來展望
中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A 文章編號:1671-2064(2017)07-0193-02
1 圍棋與人工智能
圍棋作為中國傳統(tǒng)四大藝術(shù)之一,擁有著幾千年的悠久歷史。圍棋棋盤由19條橫線和19條豎線組成,共有19*19=361個交叉點(diǎn),圍棋子分為黑白兩種顏色,對弈雙方各執(zhí)一色,輪流將一枚棋子下在縱橫交叉點(diǎn)上,終局時,棋子圍上交叉點(diǎn)數(shù)目最多的一方獲勝。圍棋棋盤上每一個縱橫交叉點(diǎn)都有三種可能性:落黑子、落白子、留空,所以圍棋擁有高達(dá)3^361種局面;圍棋的每個回合有250種可能,一盤棋可長達(dá)150回合,所以圍棋的計(jì)算復(fù)雜度為250^150,約為10^170,然而全宇宙可觀測的原子數(shù)量只有10^80,這足以體現(xiàn)圍棋博弈的復(fù)雜性和多變性。
人工智能(Artificial Intelligence,AI)主要研究人類思維、行動中那些尚未算法化的功能行為,使機(jī)器像人的大腦一樣思考、行動。長期以來,圍棋作為一種智力博弈游戲,以其變化莫測的博弈局面,高度體現(xiàn)了人類的智慧,為人工智能研究提供了一個很好的測試平臺,圍棋人工智能也是人工智能領(lǐng)域的一個重要挑戰(zhàn)。
傳統(tǒng)的計(jì)算機(jī)下棋程序的基本原理,是通過有限步數(shù)的搜索樹,即采用數(shù)學(xué)和邏輯推理方法,把每一種可能的路徑都走一遍,從中選舉出最優(yōu)路徑,使得棋局勝算最大。這種下棋思路是充分發(fā)揮計(jì)算機(jī)運(yùn)算速度快、運(yùn)算量大等優(yōu)勢的“暴力搜索法”,是人類在對弈規(guī)定的時間限制內(nèi)無法做到的。但是由于圍棋局面數(shù)量太大,這樣的運(yùn)算量對于計(jì)算機(jī)來講也是相當(dāng)之大,目前的計(jì)算機(jī)硬件無法在對弈規(guī)定的時間內(nèi),使用計(jì)算機(jī)占絕對優(yōu)勢的“暴力搜索法”完成圍棋所有局面的擇優(yōu),所以這樣的下棋思路不適用于圍棋對弈。
搜索量巨大的問題一直困擾著圍棋人工智能,使其發(fā)展停滯不前,直到2006年, 蒙特卡羅樹搜索的應(yīng)用出現(xiàn),才使得圍棋人工智能進(jìn)入了嶄新的階段,現(xiàn)代圍棋人工智能的主要算法是基于蒙特卡洛樹的優(yōu)化搜索。
2 圍棋人工智能基本原理
目前圍棋人工智能最杰出的代表,是由谷歌旗下人工智能公司DeepMind創(chuàng)造的AlphaGo圍棋人工智能系統(tǒng)。它在與人類頂級圍棋棋手的對弈中充分發(fā)揮了其搜索和計(jì)算的優(yōu)勢,幾乎在圍棋界立于不敗之地。
AlphaGo系統(tǒng)的基本原理是將深度強(qiáng)化學(xué)習(xí)方法與蒙特卡洛樹搜索結(jié)合,使用有監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò),極大減少了搜索空間,即在搜索過程中的計(jì)算量,提高了對棋局估計(jì)的準(zhǔn)確度。
2.1 深度強(qiáng)化學(xué)習(xí)方法
深度學(xué)習(xí)源于人工神經(jīng)網(wǎng)絡(luò)的研究,人類大量的視覺聽覺信號的感知處理都是下意識的,是基于大腦皮層神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法,通過模擬大腦皮層推斷分析數(shù)據(jù)的復(fù)雜層狀網(wǎng)絡(luò)結(jié)構(gòu),使用包含復(fù)雜結(jié)構(gòu)或由多重非線性變換構(gòu)成的多個處理層對數(shù)據(jù)進(jìn)行高層抽象,其過程類似于人們識別物體標(biāo)注圖片?,F(xiàn)如今,應(yīng)用最廣泛的深度學(xué)習(xí)模型包括:卷積神經(jīng)網(wǎng)絡(luò)、深度置信網(wǎng)絡(luò)、堆棧自編碼網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)等。
強(qiáng)化學(xué)習(xí)源于動物學(xué)習(xí)、參數(shù)擾動自適應(yīng)控制等理論,通過模擬生物對環(huán)境以試錯的方式進(jìn)行交互達(dá)到對環(huán)境的最優(yōu)適應(yīng)的方式,通過不斷地反復(fù)試驗(yàn),將變化無常的動態(tài)情況與對應(yīng)動作相匹配。強(qiáng)化學(xué)習(xí)系統(tǒng)設(shè)置狀態(tài)、動作、狀態(tài)轉(zhuǎn)移概率和獎賞四個部分,在當(dāng)前狀態(tài)下根據(jù)策略選擇動作,執(zhí)行該過程并以當(dāng)前轉(zhuǎn)移概率轉(zhuǎn)移到下一狀態(tài),同時接收環(huán)境反饋回來的獎賞,最終通過調(diào)整策略來最大化累積獎賞。
深度學(xué)習(xí)具有較強(qiáng)的感知能力,但缺乏一定的決策能力;強(qiáng)化學(xué)習(xí)具有決策能力,同樣對感知問題無能為力。深度強(qiáng)化學(xué)習(xí)方法是將具有感知能力的深度學(xué)習(xí)和具有決策能力的強(qiáng)化學(xué)習(xí)結(jié)合起來,優(yōu)勢互補(bǔ),用深度學(xué)習(xí)進(jìn)行感知,從環(huán)境中獲取目標(biāo)觀測信息,提供當(dāng)前環(huán)境下的狀態(tài)信息;然后用強(qiáng)化學(xué)習(xí)進(jìn)行決策,將當(dāng)前狀態(tài)映射到相應(yīng)動作,基于初期匯報評判動作價值。
深度強(qiáng)化學(xué)習(xí)為復(fù)雜系統(tǒng)的感知決策問題提供了一種全新的解決思路。
2.2 蒙特卡洛樹搜索
蒙特卡洛樹搜索是將蒙特卡洛方法與樹搜索相結(jié)合形成的一種搜索方法。所謂蒙特卡洛方法是一種以概率統(tǒng)計(jì)理論為指導(dǎo)的強(qiáng)化學(xué)習(xí)方法,它通常解決某些隨機(jī)事件出現(xiàn)的概率問題,或者是某隨機(jī)變量的期望值等數(shù)字特征問題。通過與環(huán)境的交互,從所采集的樣本中學(xué)習(xí),獲得關(guān)于決策過程的狀態(tài)、動作和獎賞的大量數(shù)據(jù),最后計(jì)算出累積獎賞的平均值。
蒙特卡洛樹搜索算法是一種用于解決完美信息博弈(perfect information games,沒有任何信息被隱藏的游戲)的方法,主要包含選擇(Selection)、擴(kuò)展(Expansion)、模擬(Simulation)和反向傳播(Backpropagation)四個步驟。
2.3 策略網(wǎng)絡(luò)與價值網(wǎng)絡(luò)
AlphaGo系統(tǒng)擁有基于蒙特卡洛樹搜索方法的策略網(wǎng)絡(luò)(Policy Network)和價值網(wǎng)絡(luò)(Value Network)兩個不同的神經(jīng)網(wǎng)絡(luò)大腦,充分借鑒人類棋手的下棋模式,用策略網(wǎng)絡(luò)來模擬人類的“棋感”,用價值網(wǎng)絡(luò)來模擬人類對棋盤盤面的綜合評估。
AlphaGo系統(tǒng)主要采用有監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò),通過觀察棋盤布局,進(jìn)行棋路搜索,得到下一步合法落子行動的概率分布,從中找到最優(yōu)的一步落子位置,做落子選擇。DeepMind團(tuán)隊(duì)使用棋圣堂圍棋服務(wù)器上3000萬個專業(yè)棋手對弈棋譜的落子數(shù)據(jù),來預(yù)測棋手的落子情況。期間,系統(tǒng)進(jìn)行上百萬次的對弈嘗試,進(jìn)行強(qiáng)化學(xué)習(xí),將每一個棋局進(jìn)行到底,不斷積累“經(jīng)驗(yàn)”,學(xué)會贏面最大的棋路走法,最終達(dá)到頂級圍棋棋手的落子分析能力。而AlphaGo的價值網(wǎng)絡(luò)使用百萬次對弈中產(chǎn)生的棋譜,根據(jù)最終的勝負(fù)結(jié)果來進(jìn)行價值網(wǎng)絡(luò)訓(xùn)練,預(yù)測每一次落子選擇后贏棋的可能性,通過整體局面的判斷來幫助策略網(wǎng)絡(luò)完成落子選擇。
3 圍棋人工智能意義
經(jīng)過比賽測試證明,AlphaGo系統(tǒng)的圍棋對弈能力已經(jīng)達(dá)到世界頂級棋手水平。一直以來,圍棋因?yàn)閺?fù)雜的落子選擇和巨大的搜索空間使得圍棋人工智能在人工智能領(lǐng)域成為一個具有代表性的難度挑戰(zhàn)。目前的硬件水平面對如此巨大的搜索空間顯得束手無策,AlphaGo系統(tǒng)基于有監(jiān)督學(xué)習(xí)的策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)大大減少搜索空間,在訓(xùn)練中開創(chuàng)性地使用深度強(qiáng)化學(xué)習(xí),然后結(jié)合蒙特卡洛樹搜索方法,使得系統(tǒng)自學(xué)習(xí)能力大大提高,并且AlphaGo系統(tǒng)在與人類頂級棋手對弈中取得的連勝卓越成績,櫧湓諶斯ぶ悄芰煊虻於了堅(jiān)實(shí)的里程碑地位。
雖然圍棋人工智能取得了如此優(yōu)秀的成績,但是也僅僅是它在既定規(guī)則內(nèi)的計(jì)算處理能力遠(yuǎn)遠(yuǎn)超過了人類的現(xiàn)有水平,并且還有有待提高和完善的地方。在人類的其他能力中,例如情感、思維、溝通等等領(lǐng)域,目前的人工智能水平是遠(yuǎn)遠(yuǎn)達(dá)不到的。但是隨著科技的進(jìn)步和人類在人工智能領(lǐng)域的研究深入,人工智能與人類的差距會逐漸減小,像圍棋人機(jī)大戰(zhàn)人工智能連勝人類這樣的例子也可能在其他領(lǐng)域發(fā)生,這就意味著人工智能的發(fā)展前景十分可觀。
4 結(jié)語
人類和人工智能共同探索圍棋世界的大幕即將拉開,讓人類棋手結(jié)合人工智能,邁進(jìn)全新人機(jī)共同學(xué)習(xí)交流的領(lǐng)域,進(jìn)行一次新的圍棋革命,探索圍棋真理更高的境界。
參考文獻(xiàn)