進(jìn)化對(duì)策論研究論文
時(shí)間:2022-11-13 10:03:00
導(dǎo)語:進(jìn)化對(duì)策論研究論文一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
對(duì)于經(jīng)濟(jì)學(xué)家而言,非合作對(duì)策論又稱非合作博弈論,是用來分析和研究經(jīng)濟(jì)問題的極有價(jià)值的工具,因?yàn)樗峁┝私⒔?jīng)濟(jì)行為人策略相互作用的分析語言,而且它還能導(dǎo)致人們直觀的洞察力由簡(jiǎn)單內(nèi)容轉(zhuǎn)向更復(fù)雜的內(nèi)容上來。當(dāng)然,相當(dāng)多的觀點(diǎn)是憑借納什均衡概念的運(yùn)用而得到的。這種深受人們喜歡的博弈理論思想日益增長(zhǎng)促使人們對(duì)另一種事實(shí)不斷增長(zhǎng)的認(rèn)識(shí)和思索,均衡分析在什么時(shí)候以及為什么是合適的?對(duì)這個(gè)問題的解答不是一個(gè)簡(jiǎn)單而容易回答的。可惜的是,博弈論的理論和分析方法還沒有提出對(duì)納什均衡概念之外的可供選擇的內(nèi)容。
然而,直到最近10多年來,在均衡選擇方面才取得進(jìn)展,這些進(jìn)展提出當(dāng)存在多個(gè)均衡時(shí),應(yīng)該怎樣去做。
一、納什均衡
納什,在1950年就已經(jīng)對(duì)納什均衡給出兩種解釋。第一種是群體作用的解釋。此種解釋假設(shè),在博弈中存在對(duì)每個(gè)參與者又稱局中人(player)起作用的參與者群體。參與者不斷地積累各種純策略中的令人注意的經(jīng)驗(yàn)信息,如果此博弈穩(wěn)定下來,那么這種均衡必是納什均衡。然而。Shapley在1964年證明,如果博弈沒有穩(wěn)定下來,那么必然存在一種策略選擇的有限循環(huán)。第二種解釋的觀點(diǎn)是把均衡看成一個(gè)“自動(dòng)實(shí)施協(xié)議”或者是理性的預(yù)測(cè)。如果基于理性的預(yù)測(cè)是唯一的,那么博弈均衡確實(shí)得以存在,這時(shí)倘若均衡是眾所周知的,它必是納什均衡。納什本人對(duì)此做了闡述,這是“一種十分強(qiáng)的理性化和理想化的解釋”。這對(duì)闡述均衡而言是有效的,解決均衡選擇問題是一個(gè)基本的問題。因此,對(duì)于經(jīng)濟(jì)學(xué)家的研究目的而言,與均衡選擇相關(guān)的問題是必須加以分析和深入探討。
對(duì)納什均衡的第三種解釋,是由MaynardSmith和Price在1973年首次提出的,它源于生物學(xué)領(lǐng)域的研究。在這種解釋中完全不存在有意識(shí)的選擇:參與者預(yù)先選取某一種策略,而且更為成功的策略生存下來;如果種群(population在生物學(xué)上稱為種群,在經(jīng)濟(jì)學(xué)中我們將其稱為群體更好)達(dá)到一種穩(wěn)定狀態(tài),那么所有策略必是等價(jià)的,因此,這種狀態(tài)必是納什均衡。這種生物學(xué)上的方法,其優(yōu)點(diǎn)是它不僅具體指出穩(wěn)定的結(jié)果,而且它還靠可能達(dá)成的一些結(jié)果來給出一種顯示性的過程。
當(dāng)然,經(jīng)濟(jì)學(xué)家清楚地意識(shí)到將涉及到的生物學(xué)領(lǐng)域中的思想和方法應(yīng)用到經(jīng)濟(jì)學(xué)領(lǐng)域中的疑問和困難,比如,像生物學(xué)中的“復(fù)制方程”擴(kuò)展到經(jīng)濟(jì)學(xué)領(lǐng)域中的內(nèi)容和意義是什么,至今還在探索中。
二、進(jìn)化思想在經(jīng)濟(jì)學(xué)中應(yīng)用的回顧
對(duì)經(jīng)濟(jì)學(xué)給出進(jìn)化的解釋不是一種新的手法。實(shí)際上,進(jìn)化解釋在社會(huì)科學(xué)中是先于達(dá)爾文(Darwin)而出現(xiàn)。例如,亞當(dāng)·斯密(AdamSmith)曾說:“帶來許多利益的勞動(dòng)分工,原本不是人類智能的結(jié)果,雖然人類智能預(yù)見到勞動(dòng)分工產(chǎn)生普遍富裕,并想利用它來實(shí)現(xiàn)普遍富裕。盡管在人類本能里沒有意識(shí)到這樣廣泛效用中的一種互通有無、物物交換,以及相互之間交易的傾向,此傾向很緩慢并且漸進(jìn)產(chǎn)生結(jié)果,但是勞動(dòng)分工是必須的?!?/p>
進(jìn)化思想也能夠在馬爾薩斯(Malthus)、馬歇爾(Marshall),熊彼特(Schumpeter)和哈耶克(Hayek)所寫的著作中找到。關(guān)于進(jìn)化經(jīng)濟(jì)學(xué),這是一個(gè)單獨(dú)的學(xué)科領(lǐng)域,經(jīng)常與熊彼特的工作相聯(lián)系。Robson在2001年系統(tǒng)地給出了經(jīng)濟(jì)行為的生物學(xué)方面的基本解釋。
進(jìn)化經(jīng)濟(jì)學(xué)與進(jìn)化對(duì)策論至今是完全相互獨(dú)立地發(fā)展起來的。在經(jīng)濟(jì)學(xué)的理論研究中,理性人的偏好通常是固定的。然而,對(duì)于理性人的偏好變化或者進(jìn)化選擇,經(jīng)濟(jì)學(xué)家對(duì)此也進(jìn)行了研究,特別是利他主義的生存價(jià)值以及風(fēng)險(xiǎn)態(tài)度等。然而,我們這里的進(jìn)化對(duì)策論是將偏好作為固定的和已知的。
關(guān)于市場(chǎng)生存進(jìn)化方面的研究和探討,開始于Winter在1964年的文章“經(jīng)濟(jì)的‘自然選擇’與廠商理論”,接下來Winter在1971年發(fā)表了“滿足、選擇與改革殘余物”,Nelson和Winter在1982年出版的著作《經(jīng)濟(jì)變遷的演化理論》(有中文版),是這一領(lǐng)域中出現(xiàn)的最為重要的文獻(xiàn)。最近由Blume和Easley(1992,1995,1996),Dutta(1992)Dutt和Radner(1993),Radner(1995),Bega—redondo以及Boldeke和Samuelson(1997)等學(xué)者在此領(lǐng)域進(jìn)行探索和研究。雖然這個(gè)論題與進(jìn)化對(duì)策論緊密相聯(lián)系,但是,目前這兩種文獻(xiàn)在方法論上相距甚遠(yuǎn)。
三、進(jìn)化對(duì)策論的基本原理與結(jié)論
最近10多年里,不像對(duì)策論的傳統(tǒng)分析方法那樣——考慮有限理性的經(jīng)濟(jì)行為人以及在嚴(yán)格的認(rèn)知局限之下必須學(xué)習(xí)執(zhí)行策略,這樣的對(duì)策論理論及其應(yīng)用有了迅速的發(fā)展。這方面的大量研究工作是在稱為進(jìn)化對(duì)策論所提供的框架下進(jìn)行的。正如此學(xué)科標(biāo)題所表示的,這一新學(xué)科的原理借用生物學(xué)中的進(jìn)化模型所具有的與眾不同的一些特征。然而,此學(xué)科本身也發(fā)展了一些新的方法和技術(shù),特別地適合于有限理性基本假設(shè)下對(duì)社會(huì)和經(jīng)濟(jì)體制方面的分析。進(jìn)化對(duì)策論在10多年里以快速的步伐取得長(zhǎng)足的發(fā)展。
進(jìn)化對(duì)策淪為人們提供一種具有廣泛適用性的工具。其潛在的應(yīng)用領(lǐng)域從進(jìn)化生物學(xué)延伸到一般的社會(huì)科學(xué),特別是經(jīng)濟(jì)學(xué)中。進(jìn)化理論在經(jīng)濟(jì)學(xué)中有著悠久的歷史傳統(tǒng)。直到最近,這種方法在非合作對(duì)策論框架中才得到應(yīng)用。
進(jìn)化對(duì)策論是研究策略行為的穩(wěn)健性,它是針對(duì)有限理性行為人所組成的大群體中多次博弈背景下的進(jìn)化力量而言的。這種新的組成部分在經(jīng)濟(jì)理論里導(dǎo)致一種新的預(yù)測(cè)方法,并且為其他社會(huì)科學(xué)開辟一條嶄新的研究途徑。
進(jìn)化對(duì)策論的基本內(nèi)容:
(一)進(jìn)化穩(wěn)定策略概念。進(jìn)化對(duì)策論理論中,一個(gè)關(guān)鍵概念是進(jìn)化穩(wěn)定策略(ESS),這一概念的提出歸功于MaynardSmith和Price在1973年的“動(dòng)物沖突的邏輯”一文。此種策略在特定的意義上對(duì)進(jìn)化壓力而言是穩(wěn)健的:群體執(zhí)行該種策略對(duì)執(zhí)行任何其他策略而言是非入侵的。假定一對(duì)個(gè)體是重復(fù)隨機(jī)地來自于大的群體,去參與一個(gè)對(duì)稱并有限的兩人博弈,還假定所有的個(gè)體在博弈中起初都執(zhí)行某一個(gè)純的或混合的策略x是進(jìn)化穩(wěn)定的,那么對(duì)于每一個(gè)變異策略y,都存在一個(gè)正的“入侵障礙”,使得執(zhí)行變異策略y的個(gè)體群體所獲得的支付低于此障礙,從而x贏得的預(yù)期支付比執(zhí)行的y所得要高。下面的不等式對(duì)于充分小的ε>0成立,即:
u[x,(1-ε)x+εy]>u[y,(1-ε)x+εy]…………(1)
其中左邊的表達(dá)式記為對(duì)于策略x而言,當(dāng)執(zhí)行相對(duì)應(yīng)策略的個(gè)體進(jìn)入之后,混合群體情況的混合策略(1-ε)x+εy時(shí)的預(yù)期支付,而右邊的表達(dá)式記為對(duì)于策略y而言,其所對(duì)應(yīng)的情況的預(yù)期支付。
實(shí)際上,由上述定義知道,進(jìn)化穩(wěn)定性十分有用的特性是一個(gè)策略x是進(jìn)化穩(wěn)定的當(dāng)且僅當(dāng)(1)它是對(duì)自身的最佳反應(yīng);(2)它是對(duì)所有其他最佳反應(yīng)的反應(yīng),當(dāng)這些策略對(duì)其自身的反應(yīng)比較時(shí)。為了弄清楚(1)是必要的,只需充分觀察即知,否則會(huì)存在一個(gè)對(duì)x而言的最佳反應(yīng)y。在一個(gè)充分小的種群中,表現(xiàn)出的這個(gè)“變異”策略幾乎總會(huì)遇到策略x,從而會(huì)贏得比x水平高的收益。同樣,(2)是必需的,因?yàn)榉駝t的話一定會(huì)存在一個(gè)對(duì)x而言的可供選擇的最佳反應(yīng)y,它會(huì)贏得與x遇到x的時(shí)候或者至少x遇到y(tǒng)時(shí)候的收益相同,從而y的平均水平會(huì)贏得比混合種群要高一些的收益。注意到,進(jìn)化穩(wěn)定性準(zhǔn)則沒有解釋種群是如何達(dá)到這種策略的。然而,一旦達(dá)到這種策略,則這樣的策略對(duì)進(jìn)化壓力來說是穩(wěn)健的。同時(shí),人們發(fā)現(xiàn),進(jìn)化穩(wěn)定性沒有處理種群中具有兩個(gè)或更多“變異”同時(shí)出現(xiàn)的情況。因而,它隱含地把變異當(dāng)成稀少事件,以致于種群有時(shí)間在另一個(gè)變異出現(xiàn)之前響應(yīng)這種狀況。
雖然,進(jìn)化穩(wěn)定性準(zhǔn)則是一個(gè)生物學(xué)上的概念,但是它為各種各樣的人類行為提供一種有關(guān)的穩(wěn)健性準(zhǔn)則。這樣,進(jìn)化穩(wěn)定性要求人類群體中企圖采用可選擇的策略的任何一個(gè)小團(tuán)體不比已經(jīng)采用“固有”策略的那些個(gè)體所構(gòu)成的團(tuán)體收益好。相反,采用固有策略的那些個(gè)體所構(gòu)成的團(tuán)體缺乏激勵(lì)來改變他們的策略。但是,那些采用可選策略的小團(tuán)體卻受激勵(lì)而具有轉(zhuǎn)變固有策略的行為。在這種社會(huì)背景下,進(jìn)化穩(wěn)定策略被人們看成是傳統(tǒng)習(xí)慣或者已經(jīng)確立起來的行為規(guī)則。比如,社會(huì)風(fēng)氣、企業(yè)管理模式等都可以看為是某種人類群體的規(guī)則,而極個(gè)別的人群社會(huì)行為、習(xí)氣的變化就會(huì)被認(rèn)為是“變異”。當(dāng)然,在這種背景下,如果那些極少數(shù)的人群或企業(yè)的收益比不變異的人群或企業(yè)高時(shí),那么這些變異分子會(huì)生存得更好!反之,則被淘汰掉。
可惜的是,許多博弈沒有進(jìn)化穩(wěn)定策略。于是,研究人員探討各種比進(jìn)化穩(wěn)定性稍弱一些的形式,以及集值形式的進(jìn)化穩(wěn)定性概念等。此外,ESS概念不能推廣到n人對(duì)策的情況上。在本質(zhì)上,ESS要求強(qiáng)的納什均衡來實(shí)施,也就是每一個(gè)策略對(duì)于策略組而言應(yīng)是唯一的最佳反應(yīng)。
(二)復(fù)制動(dòng)力學(xué)。復(fù)制動(dòng)力學(xué)是選擇過程的顯性模型,它說明種群是如何分配博弈中有聯(lián)系的不同純策略隨時(shí)間而演化的。復(fù)制動(dòng)力學(xué)的數(shù)學(xué)公式是由Taylor和Jonker于1978年在“進(jìn)化穩(wěn)定策略和對(duì)策動(dòng)力學(xué)”一文中提出的。他們認(rèn)為由隨機(jī)配對(duì)的個(gè)體所構(gòu)成的一個(gè)大種群執(zhí)行有限對(duì)策的兩人博弈,猶如進(jìn)化穩(wěn)定性的設(shè)置一樣。然而,此處的個(gè)體僅僅采用純策略。種群狀態(tài)是指在純策略上的一個(gè)分布x。這種狀態(tài)在數(shù)學(xué)上與博弈中的混合策略是等價(jià)的。
如果博弈中的收益表示成生物學(xué)上的適合性,也就是后代的數(shù)目,同時(shí)每一個(gè)后代繼續(xù)其父母的策略,因此,采用純策略i的個(gè)體數(shù)目(在大的種群中)將以某一比率指數(shù)增長(zhǎng),而此等于對(duì)純策略i的預(yù)期收益u(ei,x),當(dāng)執(zhí)行著表示種群中當(dāng)前策略分布的混合策略x時(shí),采用任何純策略i的種群分布的增長(zhǎng)率等于此策略的收益與種群中平均收益的差。后者,等同于混合策略x當(dāng)與其自身博弈時(shí)的預(yù)期收益u(x,x)。這是一個(gè)單種群的對(duì)稱兩人博弈的復(fù)制動(dòng)力學(xué)。
Xi=[u(ei,x)-u(x,x)]xi………………(2)
注意到,對(duì)當(dāng)前種群狀態(tài)x的最佳反應(yīng)具有最高的增長(zhǎng)率。第二最佳反應(yīng)具有第二高的增長(zhǎng)率,如此等等。然而,雖然更成功的純策略比欠成功的純策略增長(zhǎng)得快,但是種群中的平均收益不必隨時(shí)間而增長(zhǎng)。產(chǎn)生這一原因的可能性是,如果一個(gè)個(gè)體由采用最佳策略的個(gè)體所代替,那么遇見這個(gè)新個(gè)體的成員會(huì)得到比較低的收益。例如,這正是囚徒困境博弈的情況。如果最初幾乎所有個(gè)體采用“合作”,那么個(gè)體中將逐漸地轉(zhuǎn)向“抵賴”,從而平均收益將下降。然而,如果博弈在兩個(gè)人總是獲得相等的收益意義上是一個(gè)雙對(duì)稱的,那么自然選擇的基本規(guī)律將成立:種群中收益隨時(shí)間而增長(zhǎng),即使沒有必要成為全局最大的。例如,這就是合作博弈的情況,其中所有個(gè)體逐漸地轉(zhuǎn)向到執(zhí)行同一個(gè)純策略上。復(fù)制動(dòng)力學(xué)能夠推廣到n人博弈的情況上,這可以看成是來自于n種群、中的個(gè)體隨機(jī)地以n類型配對(duì),其中每一個(gè)參與者的地位狀況正如納什所給出的群體行為解釋的那樣。目前,存在兩種形式的n種群復(fù)制動(dòng)力學(xué),其中一個(gè)是由Taylor在1979年提出的,另一個(gè)是由MaynardSmith在1982年給出的。
(三)學(xué)習(xí)模型與選擇動(dòng)力學(xué)
人們把學(xué)習(xí)模型分成三種類型,即基于信念的學(xué)習(xí)、強(qiáng)化學(xué)習(xí)以及模仿學(xué)習(xí)。最近的一些研究表明,復(fù)制動(dòng)力學(xué)是由后面兩類的某種模型所促成的。
1.強(qiáng)化學(xué)習(xí)模型
心理學(xué)上的有關(guān)個(gè)體學(xué)習(xí)文獻(xiàn)的中心模型是所謂的強(qiáng)化模型,這是由Bush和Mosteller在1951年提出的。然而,它的思想可以追溯到Thorndikede的“導(dǎo)致過去好的選擇在將來最有可能重復(fù)”。當(dāng)然,人們注意到這里的選擇隱含地作為概率上的一種說法。
Bush和Mosteller的強(qiáng)化學(xué)習(xí)模型及其他的推廣形式,已經(jīng)在一系列的人類主觀執(zhí)行博弈中得到運(yùn)用??上?,這些模型的通常數(shù)學(xué)性質(zhì),人們還知道得很少。然而,Borgers和Sarin在1997年發(fā)表的“通過強(qiáng)化和復(fù)制動(dòng)力學(xué)的學(xué)習(xí)”文章把Cross的Bush—Mosteller學(xué)習(xí)模型的形式與Taylor的兩種群復(fù)制動(dòng)力學(xué)進(jìn)行了理論上的對(duì)比研究。雖然這種學(xué)習(xí)過程在離散時(shí)間背景中是隨機(jī)的、演化的,而復(fù)制動(dòng)力學(xué)在連續(xù)時(shí)間背景中是確定的、演化的。他們證明,在適當(dāng)?shù)貥?gòu)造連續(xù)時(shí)間的界限下,他們的學(xué)習(xí)過程在有限時(shí)間區(qū)間內(nèi)可通過復(fù)制動(dòng)力學(xué)來*近。
更確切地講,他們研究在多次博弈回合中(n=l,2,…),在一個(gè)固定的兩人參與者采用混合策略對(duì)中有限兩人博弈的情況。每一個(gè)參與者憑借由其所運(yùn)用的純策略來記錄概率如下。如果參與者1(同樣的考察參與者2)在博弈的n次回合中運(yùn)用純策略k,并且獲得一個(gè)正的收益Vk(n),這里Vk(n)作為隨機(jī)變量,它依賴于參與者2所做出的隨機(jī)選擇,那么參與者1對(duì)于運(yùn)用這個(gè)策略的未來概率將越增加,其收益也就越高。參與者2以同樣的方法記錄其選擇概率向量Y。所有收益均假設(shè)處于單位開區(qū)間上,不過,這里的收益不能解釋成N—M(馮·諾依曼和摩根斯藤)效用。因此,一旦所用策略的概率是遞增的,那么所有選擇均是強(qiáng)化的。
從任何一個(gè)初始概率向量X(0)=x0和Y(0)=Y(jié)0開始,方程(3)定義出博弈的混合策略空間中的一個(gè)馬爾可夫鏈{X(n),Y(n)}∞n=1。其中參數(shù)δ>0表示博弈的兩次回合之間的時(shí)間:t=nδ是n次博弈回合中的“真實(shí)”時(shí)間。Borgers和Sarin得到這一過程的連續(xù)時(shí)間界限,通過設(shè)n→∞和δ→0以便有δn=t,在任何有限的“真實(shí)”時(shí)間上來估計(jì)價(jià)值。因此,博弈在越來越短的時(shí)間區(qū)間上執(zhí)行,同時(shí)概率以相稱的較小數(shù)值得以適應(yīng)。他們證明,在這個(gè)界限內(nèi),此過程以狀態(tài)(x(t),y(t))的形式出現(xiàn)在單位區(qū)間概率上,其中如果復(fù)制動(dòng)力學(xué)的初始狀態(tài)在時(shí)間0處以(x0,y0)開始,那么復(fù)制動(dòng)力學(xué)會(huì)在時(shí)間t達(dá)到。在這個(gè)意義上,復(fù)制動(dòng)力學(xué)在有限時(shí)間區(qū)間上近似于強(qiáng)化動(dòng)力學(xué)(3)。
然而,這兩類模型的漸進(jìn)性質(zhì)卻十分不同。例如,為了在直觀上理解這點(diǎn),假設(shè)參與者1的收益既是恒定獨(dú)立于他的策略選擇又獨(dú)立于參與者2的策略選擇。設(shè)參與者1在強(qiáng)化動(dòng)力學(xué)中的初始狀態(tài)指派概率等于參與者1的所有可獲得純策略的概率。同樣的,設(shè)復(fù)制動(dòng)力學(xué)的初始狀態(tài)指派種群的各部分采用策略的概率等于所有可獲得純策略的概率。顯然,復(fù)制動(dòng)力學(xué)的解是一個(gè)常量:所有種群的各部分分得的收益永遠(yuǎn)相等。然而,強(qiáng)化動(dòng)力學(xué)的實(shí)現(xiàn)會(huì)容易隨時(shí)間而收斂到參與者1可獲得的任何一個(gè)純策略上。由于在博弈的第一個(gè)回合中選用策略的概率將高于在下一次博弈回合中所選用的策略概率,所以強(qiáng)化動(dòng)力學(xué)的性質(zhì)更有可能把參與者1“鎖定”到他的任何一個(gè)純策略上。Borgers和Sarin證明,任何有限兩人博弈的強(qiáng)化動(dòng)力學(xué)以概率1收斂到一個(gè)純策略組合上,而不像復(fù)制動(dòng)力學(xué)那樣。
2.模仿學(xué)習(xí)模型
博弈論學(xué)者Gale,Binmore和Samuelon在1995年提出一個(gè)所有個(gè)體參與者都采用純策略的大群體,但是有限博弈的社會(huì)學(xué)習(xí)的簡(jiǎn)單模型。每一個(gè)參與者在博弈中都贏得一個(gè)渴望水平的收益。在離散時(shí)間0,δ,2δ,…上,任意從群體中抽取個(gè)體δ部分,把其當(dāng)前收益與他們的渴望水平收益相比較,其中δ>0是很小的數(shù)。如果個(gè)體實(shí)現(xiàn)的收益低于其生存水平收益,那么該個(gè)體就會(huì)隨機(jī)地模仿已抽取的個(gè)體,在相同的參與者群體中,所有其他個(gè)體都具有相同的概率被抽取。由此可見,如果渴望水平收益具有均勻分布(某一個(gè)區(qū)間上包含所有可能的收益值),那么模仿的概率對(duì)于個(gè)體的當(dāng)前策略而言,在預(yù)期收益上是線性遞減的。對(duì)于很小的δ,他們證明這個(gè)過程可以由有限時(shí)間區(qū)間上的復(fù)制動(dòng)力學(xué)來*近。
人們把個(gè)體策略的適應(yīng)過程作為連續(xù)時(shí)間中的一個(gè)隨機(jī)過程。假設(shè)在有限群體中每一個(gè)個(gè)體時(shí)常得到一個(gè)沖動(dòng),使其改變純策略。如果這些沖動(dòng)是依照i.i.d.的Poisson分布,那么同時(shí)發(fā)生的概率是零,而且總的過程也是一個(gè)Poisson過程。此外,總過程的密度剛好是各個(gè)過程密度的和。如果群體是很大的,那么人們利用預(yù)期值給出的確定流來近似這個(gè)總過程。
Bjornestedt和Weibull在1996年研究了一系列這種模型,其中改變的個(gè)體在其博弈的群體中模仿其他的個(gè)體,并證明許多正收益的選擇動(dòng)力學(xué)可以被人們推導(dǎo)出來,包括復(fù)制動(dòng)力學(xué)的三種形式。特別,如果個(gè)體改變比率對(duì)其策略而言預(yù)期收益是線性遞減的,那么每一個(gè)純策略Poisson過程的密度是與其個(gè)體總數(shù)大小成比例,同時(shí)比例因素將是其預(yù)期收益遞減的。如果每一個(gè)改變的個(gè)體選擇其未來的策略是通過在其博弈中隨機(jī)地模仿抽取的個(gè)體,那么其作為結(jié)果的流*近也是一個(gè)復(fù)制動(dòng)力學(xué)。
Schlag在1997年分析當(dāng)個(gè)體經(jīng)常以參與者的同樣地位去模仿其他參與者個(gè)體時(shí),個(gè)體應(yīng)該選擇什么樣的模仿規(guī)則的問題,然而參與者的同樣地位卻受制于信息和記憶的約束。他發(fā)現(xiàn),如果個(gè)體想要學(xué)習(xí)規(guī)則是在所有平穩(wěn)環(huán)境中收益遞增,那么此個(gè)體應(yīng)該滿足:(1)當(dāng)改變策略時(shí),總是通過模仿來進(jìn)行;(2)永遠(yuǎn)不向收益實(shí)現(xiàn)比其所擁有收益低的那些個(gè)體模仿;(3)向收益實(shí)現(xiàn)比其擁有收益高的那些個(gè)體模仿。
這種模型被各種各樣不同的環(huán)境所發(fā)展。在有限兩人博弈中,Schlag假設(shè)在隨機(jī)地來自于兩個(gè)相等大小的有限群體的個(gè)體之間兩兩配對(duì),每一個(gè)有其自己的地位。個(gè)體總是執(zhí)行純策略。在每一個(gè)收益實(shí)現(xiàn)之后,每一個(gè)個(gè)體都要隨機(jī)地與其他個(gè)體所處的群體進(jìn)行抽樣調(diào)查,并且比較兩種收益的實(shí)現(xiàn)。行為規(guī)則是一種函數(shù)關(guān)系,即把收益實(shí)現(xiàn)和所用策略對(duì)應(yīng)到博弈中個(gè)體地位上可獲得的純策略集合上的分布,為的是采用新的策略。換句話說,允許使用個(gè)體的唯一資料是這種收益實(shí)現(xiàn)和純策略對(duì)。特別,從較早的博弈回合中實(shí)現(xiàn)收益被忽略。此外,假設(shè)個(gè)體在所有博弈中運(yùn)用相同的行為規(guī)則,具有相同數(shù)目的純策略可選擇;也就是,個(gè)體不需要知曉他們執(zhí)行什么樣的博弈,他們知道所使用的純策略數(shù)目就足夠了。
在任何這樣的博弈中,導(dǎo)致預(yù)期收益弱遞增的以及在對(duì)手種群中對(duì)于任何固定策略分布的行為規(guī)則,稱為改進(jìn)。本文中的重要結(jié)果是對(duì)于所有這樣規(guī)則的刻畫。改進(jìn)規(guī)則的一個(gè)特征是他們是模仿的:個(gè)體堅(jiān)持其初始的策略或者采用抽樣的個(gè)體策略;但是不會(huì)轉(zhuǎn)向第三個(gè)的策略。
行為規(guī)則稱為是占優(yōu)的改進(jìn)規(guī)則,如果在某一個(gè)博弈中不存在改進(jìn)規(guī)則產(chǎn)生比較高的預(yù)期收益改進(jìn)比例,而且在對(duì)手種群中的某一個(gè)策略分布上。Schlag證明,某一個(gè)行為規(guī)則為占優(yōu)的改進(jìn)規(guī)則,其具有上面給出的性質(zhì)(1)(2)(3)。這個(gè)比例模仿規(guī)則是其自己的一個(gè)改進(jìn)規(guī)則,而且可以證明它確有一些其他吸引人的性質(zhì)。Schlag證明,Taylor兩種群復(fù)制動(dòng)力學(xué)的離散時(shí)間形式可以*近在任何給定有限時(shí)間范圍內(nèi)導(dǎo)出的一個(gè)隨機(jī)過程,只要種群充分的大就行。
(四)進(jìn)化對(duì)策論中的一些結(jié)論
本文集中探討關(guān)于有限n人博弈的顯性動(dòng)力學(xué)種群模型方向的介紹,其中個(gè)體執(zhí)行純策略。首先探討確定性選擇動(dòng)力學(xué),然后介紹隨機(jī)進(jìn)化模型,其中把隨機(jī)變異過程與確定性選擇過程或者隨機(jī)選擇過程結(jié)合起來。
研究確定性動(dòng)力學(xué)項(xiàng)目性質(zhì)的一種直接方法是選取一個(gè)初始的種群狀態(tài),并且稍后可以計(jì)算。然后,人們應(yīng)該記住讓初始的所有純策略在種群中出現(xiàn),由于初始的已亡策略將在選擇過程中仍保持已亡的狀態(tài)。這種解的軌跡稱為內(nèi)部的。解的軌跡隨時(shí)間流逝而安定下來,就稱為收斂的。反之,則稱為發(fā)散的。
如果種群狀態(tài)是收斂的,那么什么是長(zhǎng)時(shí)期限制狀態(tài)的本質(zhì)呢?可以證明,在任何一種弱的正收益選擇動(dòng)力學(xué)中,沿著任何收斂的內(nèi)部軌跡,限制狀態(tài)必將構(gòu)建納什均衡,研究人員發(fā)現(xiàn),種群執(zhí)行某種納什均衡或者在漸進(jìn)意義上的納什均衡。Nachbar在1990年第一個(gè)證明出單種群復(fù)制動(dòng)力學(xué)的這個(gè)結(jié)果。事實(shí)上,如果選擇過程遇見弱的正收益的相對(duì)溫和的條件,且如果匯總的行為隨時(shí)間而安定下來,那么在長(zhǎng)時(shí)期種群狀態(tài)中的個(gè)體就好像他們預(yù)期一個(gè)特殊的納什均衡對(duì)此執(zhí)行著一個(gè)最佳反應(yīng),這點(diǎn)頗像是納什所聲稱的“群體解釋”。
如果對(duì)于弱的正收益選擇動(dòng)力學(xué)的內(nèi)部解隨時(shí)間而收斂,那么我們看到幸存下來的策略在作為結(jié)果的混合策略組合的最佳反應(yīng)的意義上是理性的。此處的問題是,如果解的軌跡不收斂,那么會(huì)發(fā)生什么情況嗎?當(dāng)長(zhǎng)時(shí)期中沒有均衡達(dá)成時(shí),我們產(chǎn)生的問題是,執(zhí)行是否為理性的。
非合作博弈論中基本的理性假設(shè)是參與者不采用作為嚴(yán)格的劣(strictlydominated)純策略。這個(gè)假設(shè)要求不知道其他參與者的偏好或者行為。一個(gè)更嚴(yán)格的理性一--附有知識(shí)的---假設(shè)是參與者不采用作為迭代的嚴(yán)格的劣策略。除了回避嚴(yán)格的劣的策略之外,這個(gè)假定要求所有參與者相互知道彼此的收益,而這些就是他們知道等等,一直到共同知識(shí)的某一個(gè)有限水平上使得迭代剔除嚴(yán)格劣的純策略的過程停止。
因此,進(jìn)化對(duì)策論中的基本問題是進(jìn)化選擇過程是否剔除掉所有的嚴(yán)格劣策略或者所有的迭代的嚴(yán)格劣純策略。如果所有迭代的嚴(yán)格劣策略消失,那么這提供了在策略上相互作用的參與者行為假設(shè)的一種進(jìn)化證明,就好像此假設(shè)是參與者他們作為理性人的共同知識(shí)。
Akin在1980年證明,在任何有限對(duì)稱兩人博弈中所有嚴(yán)格劣的純策略沿著關(guān)于單種群復(fù)制動(dòng)力學(xué)的任何一個(gè)內(nèi)部解的軌跡都能消失。Samuelson和Zhang在1992年把這一結(jié)論推廣到某一個(gè)兩種群選擇動(dòng)力學(xué)的正收益子集合中的迭代的嚴(yán)格劣純策略上。他們將這種情況稱為聚集單調(diào)的(aggregatemonotonic)。
對(duì)長(zhǎng)時(shí)期進(jìn)化狀態(tài)分析的輔助方法是研究種群狀態(tài)的穩(wěn)定性,也就是考察種群對(duì)于很小的擾動(dòng)是如何反應(yīng)的。Bomze教授在1986年曾證明,如果種群狀態(tài)在單種群復(fù)制動(dòng)力學(xué)中是弱的動(dòng)態(tài)穩(wěn)定的,那么此狀態(tài)就是對(duì)自己的最佳反應(yīng),這里的狀態(tài)被認(rèn)為是采用混合策略的。經(jīng)常運(yùn)用的穩(wěn)定性準(zhǔn)則是李雅普諾夫穩(wěn)定性,即狀態(tài)x是李雅普諾夫穩(wěn)定的,如果x的鄰域B包含x的鄰域A,使得在A中開始的解將永遠(yuǎn)保留在B中。不是李雅普諾夫穩(wěn)定的狀態(tài)稱為不穩(wěn)定的。因此,不僅進(jìn)化穩(wěn)定性的靜態(tài)穩(wěn)定性準(zhǔn)則,而且復(fù)制動(dòng)力學(xué)中的動(dòng)態(tài)穩(wěn)定性都蘊(yùn)涵著納什均衡的實(shí)施。這個(gè)結(jié)果能夠推廣到任何有限n人博弈中的任何弱的正收益選擇動(dòng)力學(xué)上??傊?,對(duì)進(jìn)化壓力而言,以各種不同方式系統(tǒng)闡述的穩(wěn)定性都需要納什均衡來實(shí)施。然而,不是所有的納什均衡在這個(gè)方面都是穩(wěn)定的,因此,這些進(jìn)化穩(wěn)定性準(zhǔn)則是納什均衡概念的精煉。
另外,研究者在考察動(dòng)力學(xué)進(jìn)化穩(wěn)定性時(shí),把隨機(jī)因素并入到進(jìn)化過程的建模當(dāng)中。特別,變異過程被認(rèn)為是內(nèi)在隨機(jī)的一種情況。隨機(jī)振動(dòng)可以憑借穩(wěn)定性分析方法來解釋確定性選擇動(dòng)力學(xué);一個(gè)穩(wěn)定的種群狀態(tài)對(duì)于種群的孤立的很小擾動(dòng)而言是穩(wěn)健的。然而,這種穩(wěn)定分析幾乎說不出一系列的小振動(dòng)或者同時(shí)發(fā)生的小振動(dòng)累計(jì)之后促成的大振動(dòng)的穩(wěn)健性。這樣的一系列或者同時(shí)發(fā)生的連續(xù)不斷的振動(dòng)會(huì)使種群狀態(tài)離開選擇過程的吸引域。雖然這種大量涌現(xiàn)的小振動(dòng)不可能是統(tǒng)計(jì)意義上的獨(dú)立而稀少變異的事件,但這一可能性在基本方法上卻改變了動(dòng)力學(xué)進(jìn)化過程的性質(zhì)。代替歷史依賴性(依賴于初始種群狀態(tài)),此過程會(huì)成為遍歷的(ergodic),也就是具有一種漸進(jìn)分布,其中漸進(jìn)分布是歷史獨(dú)立的(對(duì)于所有的初始種群狀態(tài)都是相同的)。從而,導(dǎo)致人們現(xiàn)今研究的一個(gè)專題——隨機(jī)動(dòng)力學(xué)穩(wěn)定性。這種研究路線的先驅(qū)者是Foster和Young(1990),隨后是Fudenberg和Harris(1992),Young(1993)等等。注意到,進(jìn)化穩(wěn)定性準(zhǔn)則沒有解釋種群是如何達(dá)到這種策略的。然而,一旦達(dá)到這種策略,則這樣的策略對(duì)進(jìn)化壓力來說是穩(wěn)健的。同時(shí),人們發(fā)現(xiàn),進(jìn)化穩(wěn)定性沒有處理種群中具有兩個(gè)或更多“變異”同時(shí)出現(xiàn)的情況。因而,它隱含地把變異當(dāng)成稀少事件,以致于種群有時(shí)間在另一個(gè)變異出現(xiàn)之前響應(yīng)這種狀況。
雖然,進(jìn)化穩(wěn)定性準(zhǔn)則是一個(gè)生物學(xué)上的概念,但是它為各種各樣的人類行為提供一種有關(guān)的穩(wěn)健性準(zhǔn)則。這樣,進(jìn)化穩(wěn)定性要求人類群體中企圖采用可選擇的策略的任何一個(gè)小團(tuán)體不比已經(jīng)采用“固有”策略的那些個(gè)體所構(gòu)成的團(tuán)體收益好。相反,采用固有策略的那些個(gè)體所構(gòu)成的團(tuán)體缺乏激勵(lì)來改變他們的策略。但是,那些采用可選策略的小團(tuán)體卻受激勵(lì)而具有轉(zhuǎn)變固有策略的行為。在這種社會(huì)背景下,進(jìn)化穩(wěn)定策略被人們看成是傳統(tǒng)習(xí)慣或者已經(jīng)確立起來的行為規(guī)則。比如,社會(huì)風(fēng)氣、企業(yè)管理模式等都可以看為是某種人類群體的規(guī)則,而極個(gè)別的人群社會(huì)行為、習(xí)氣的變化就會(huì)被認(rèn)為是“變異”。當(dāng)然,在這種背景下,如果那些極少數(shù)的人群或企業(yè)的收益比不變異的人群或企業(yè)高時(shí),那么這些變異分子會(huì)生存得更好!反之,則被淘汰掉。
可惜的是,許多博弈沒有進(jìn)化穩(wěn)定策略。于是,研究人員探討各種比進(jìn)化穩(wěn)定性稍弱一些的形式,以及集值形式的進(jìn)化穩(wěn)定性概念等。此外,ESS概念不能推廣到n人對(duì)策的情況上。在本質(zhì)上,ESS要求強(qiáng)的納什均衡來實(shí)施,也就是每一個(gè)策略對(duì)于策略組而言應(yīng)是唯一的最佳反應(yīng)。
(二)復(fù)制動(dòng)力學(xué)。復(fù)制動(dòng)力學(xué)是選擇過程的顯性模型,它說明種群是如何分配博弈中有聯(lián)系的不同純策略隨時(shí)間而演化的。復(fù)制動(dòng)力學(xué)的數(shù)學(xué)公式是由Taylor和Jonker于1978年在“進(jìn)化穩(wěn)定策略和對(duì)策動(dòng)力學(xué)”一文中提出的。他們認(rèn)為由隨機(jī)配對(duì)的個(gè)體所構(gòu)成的一個(gè)大種群執(zhí)行有限對(duì)策的兩人博弈,猶如進(jìn)化穩(wěn)定性的設(shè)置一樣。然而,此處的個(gè)體僅僅采用純策略。種群狀態(tài)是指在純策略上的一個(gè)分布x。這種狀態(tài)在數(shù)學(xué)上與博弈中的混合策略是等價(jià)的。
如果博弈中的收益表示成生物學(xué)上的適合性,也就是后代的數(shù)目,同時(shí)每一個(gè)后代繼續(xù)其父母的策略,因此,采用純策略i的個(gè)體數(shù)目(在大的種群中)將以某一比率指數(shù)增長(zhǎng),而此等于對(duì)純策略i的預(yù)期收益u(ei,x),當(dāng)執(zhí)行著表示種群中當(dāng)前策略分布的混合策略x時(shí),采用任何純策略i的種群分布的增長(zhǎng)率等于此策略的收益與種群中平均收益的差。后者,等同于混合策略x當(dāng)與其自身博弈時(shí)的預(yù)期收益u(x,x)。這是一個(gè)單種群的對(duì)稱兩人博弈的復(fù)制動(dòng)力學(xué)。
Xi=[u(ei,x)-u(x,x)]xi………………(2)
注意到,對(duì)當(dāng)前種群狀態(tài)x的最佳反應(yīng)具有最高的增長(zhǎng)率。第二最佳反應(yīng)具有第二高的增長(zhǎng)率,如此等等。然而,雖然更成功的純策略比欠成功的純策略增長(zhǎng)得快,但是種群中的平均收益不必隨時(shí)間而增長(zhǎng)。產(chǎn)生這一原因的可能性是,如果一個(gè)個(gè)體由采用最佳策略的個(gè)體所代替,那么遇見這個(gè)新個(gè)體的成員會(huì)得到比較低的收益。例如,這正是囚徒困境博弈的情況。如果最初幾乎所有個(gè)體采用“合作”,那么個(gè)體中將逐漸地轉(zhuǎn)向“抵賴”,從而平均收益將下降。然而,如果博弈在兩個(gè)人總是獲得相等的收益意義上是一個(gè)雙對(duì)稱的,那么自然選擇的基本規(guī)律將成立:種群中收益隨時(shí)間而增長(zhǎng),即使沒有必要成為全局最大的。例如,這就是合作博弈的情況,其中所有個(gè)體逐漸地轉(zhuǎn)向到執(zhí)行同一個(gè)純策略上。復(fù)制動(dòng)力學(xué)能夠推廣到n人博弈的情況上,這可以看成是來自于n種群、中的個(gè)體隨機(jī)地以n類型配對(duì),其中每一個(gè)參與者的地位狀況正如納什所給出的群體行為解釋的那樣。目前,存在兩種形式的n種群復(fù)制動(dòng)力學(xué),其中一個(gè)是由Taylor在1979年提出的,另一個(gè)是由MaynardSmith在1982年給出的。
(三)學(xué)習(xí)模型與選擇動(dòng)力學(xué)
人們把學(xué)習(xí)模型分成三種類型,即基于信念的學(xué)習(xí)、強(qiáng)化學(xué)習(xí)以及模仿學(xué)習(xí)。最近的一些研究表明,復(fù)制動(dòng)力學(xué)是由后面兩類的某種模型所促成的。
1.強(qiáng)化學(xué)習(xí)模型
心理學(xué)上的有關(guān)個(gè)體學(xué)習(xí)文獻(xiàn)的中心模型是所謂的強(qiáng)化模型,這是由Bush和Mosteller在1951年提出的。然而,它的思想可以追溯到Thorndikede的“導(dǎo)致過去好的選擇在將來最有可能重復(fù)”。當(dāng)然,人們注意到這里的選擇隱含地作為概率上的一種說法。
Bush和Mosteller的強(qiáng)化學(xué)習(xí)模型及其他的推廣形式,已經(jīng)在一系列的人類主觀執(zhí)行博弈中得到運(yùn)用??上?,這些模型的通常數(shù)學(xué)性質(zhì),人們還知道得很少。然而,Borgers和Sarin在1997年發(fā)表的“通過強(qiáng)化和復(fù)制動(dòng)力學(xué)的學(xué)習(xí)”文章把Cross的Bush—Mosteller學(xué)習(xí)模型的形式與Taylor的兩種群復(fù)制動(dòng)力學(xué)進(jìn)行了理論上的對(duì)比研究。雖然這種學(xué)習(xí)過程在離散時(shí)間背景中是隨機(jī)的、演化的,而復(fù)制動(dòng)力學(xué)在連續(xù)時(shí)間背景中是確定的、演化的。他們證明,在適當(dāng)?shù)貥?gòu)造連續(xù)時(shí)間的界限下,他們的學(xué)習(xí)過程在有限時(shí)間區(qū)間內(nèi)可通過復(fù)制動(dòng)力學(xué)來*近。
更確切地講,他們研究在多次博弈回合中(n=l,2,…),在一個(gè)固定的兩人參與者采用混合策略對(duì)中有限兩人博弈的情況。每一個(gè)參與者憑借由其所運(yùn)用的純策略來記錄概率如下。如果參與者1(同樣的考察參與者2)在博弈的n次回合中運(yùn)用純策略k,并且獲得一個(gè)正的收益Vk(n),這里Vk(n)作為隨機(jī)變量,它依賴于參與者2所做出的隨機(jī)選擇,那么參與者1對(duì)于運(yùn)用這個(gè)策略的未來概率將越增加,其收益也就越高。參與者2以同樣的方法記錄其選擇概率向量Y。所有收益均假設(shè)處于單位開區(qū)間上,不過,這里的收益不能解釋成N—M(馮·諾依曼和摩根斯藤)效用。因此,一旦所用策略的概率是遞增的,那么所有選擇均是強(qiáng)化的。
從任何一個(gè)初始概率向量X(0)=x0和Y(0)=Y(jié)0開始,方程(3)定義出博弈的混合策略空間中的一個(gè)馬爾可夫鏈{X(n),Y(n)}∞n=1。其中參數(shù)δ>0表示博弈的兩次回合之間的時(shí)間:t=nδ是n次博弈回合中的“真實(shí)”時(shí)間。Borgers和Sarin得到這一過程的連續(xù)時(shí)間界限,通過設(shè)n→∞和δ→0以便有δn=t,在任何有限的“真實(shí)”時(shí)間上來估計(jì)價(jià)值。因此,博弈在越來越短的時(shí)間區(qū)間上執(zhí)行,同時(shí)概率以相稱的較小數(shù)值得以適應(yīng)。他們證明,在這個(gè)界限內(nèi),此過程以狀態(tài)(x(t),y(t))的形式出現(xiàn)在單位區(qū)間概率上,其中如果復(fù)制動(dòng)力學(xué)的初始狀態(tài)在時(shí)間0處以(x0,y0)開始,那么復(fù)制動(dòng)力學(xué)會(huì)在時(shí)間t達(dá)到。在這個(gè)意義上,復(fù)制動(dòng)力學(xué)在有限時(shí)間區(qū)間上近似于強(qiáng)化動(dòng)力學(xué)(3)。
然而,這兩類模型的漸進(jìn)性質(zhì)卻十分不同。例如,為了在直觀上理解這點(diǎn),假設(shè)參與者1的收益既是恒定獨(dú)立于他的策略選擇又獨(dú)立于參與者2的策略選擇。設(shè)參與者1在強(qiáng)化動(dòng)力學(xué)中的初始狀態(tài)指派概率等于參與者1的所有可獲得純策略的概率。同樣的,設(shè)復(fù)制動(dòng)力學(xué)的初始狀態(tài)指派種群的各部分采用策略的概率等于所有可獲得純策略的概率。顯然,復(fù)制動(dòng)力學(xué)的解是一個(gè)常量:所有種群的各部分分得的收益永遠(yuǎn)相等。然而,強(qiáng)化動(dòng)力學(xué)的實(shí)現(xiàn)會(huì)容易隨時(shí)間而收斂到參與者1可獲得的任何一個(gè)純策略上。由于在博弈的第一個(gè)回合中選用策略的概率將高于在下一次博弈回合中所選用的策略概率,所以強(qiáng)化動(dòng)力學(xué)的性質(zhì)更有可能把參與者1“鎖定”到他的任何一個(gè)純策略上。Borgers和Sarin證明,任何有限兩人博弈的強(qiáng)化動(dòng)力學(xué)以概率1收斂到一個(gè)純策略組合上,而不像復(fù)制動(dòng)力學(xué)那樣。
2.模仿學(xué)習(xí)模型
博弈論學(xué)者Gale,Binmore和Samuelon在1995年提出一個(gè)所有個(gè)體參與者都采用純策略的大群體,但是有限博弈的社會(huì)學(xué)習(xí)的簡(jiǎn)單模型。每一個(gè)參與者在博弈中都贏得一個(gè)渴望水平的收益。在離散時(shí)間0,δ,2δ,…上,任意從群體中抽取個(gè)體δ部分,把其當(dāng)前收益與他們的渴望水平收益相比較,其中δ>0是很小的數(shù)。如果個(gè)體實(shí)現(xiàn)的收益低于其生存水平收益,那么該個(gè)體就會(huì)隨機(jī)地模仿已抽取的個(gè)體,在相同的參與者群體中,所有其他個(gè)體都具有相同的概率被抽取。由此可見,如果渴望水平收益具有均勻分布(某一個(gè)區(qū)間上包含所有可能的收益值),那么模仿的概率對(duì)于個(gè)體的當(dāng)前策略而言,在預(yù)期收益上是線性遞減的。對(duì)于很小的δ,他們證明這個(gè)過程可以由有限時(shí)間區(qū)間上的復(fù)制動(dòng)力學(xué)來*近。
人們把個(gè)體策略的適應(yīng)過程作為連續(xù)時(shí)間中的一個(gè)隨機(jī)過程。假設(shè)在有限群體中每一個(gè)個(gè)體時(shí)常得到一個(gè)沖動(dòng),使其改變純策略。如果這些沖動(dòng)是依照i.i.d.的Poisson分布,那么同時(shí)發(fā)生的概率是零,而且總的過程也是一個(gè)Poisson過程。此外,總過程的密度剛好是各個(gè)過程密度的和。如果群體是很大的,那么人們利用預(yù)期值給出的確定流來近似這個(gè)總過程。
Bjornestedt和Weibull在1996年研究了一系列這種模型,其中改變的個(gè)體在其博弈的群體中模仿其他的個(gè)體,并證明許多正收益的選擇動(dòng)力學(xué)可以被人們推導(dǎo)出來,包括復(fù)制動(dòng)力學(xué)的三種形式。特別,如果個(gè)體改變比率對(duì)其策略而言預(yù)期收益是線性遞減的,那么每一個(gè)純策略Poisson過程的密度是與其個(gè)體總數(shù)大小成比例,同時(shí)比例因素將是其預(yù)期收益遞減的。如果每一個(gè)改變的個(gè)體選擇其未來的策略是通過在其博弈中隨機(jī)地模仿抽取的個(gè)體,那么其作為結(jié)果的流*近也是一個(gè)復(fù)制動(dòng)力學(xué)。
Schlag在1997年分析當(dāng)個(gè)體經(jīng)常以參與者的同樣地位去模仿其他參與者個(gè)體時(shí),個(gè)體應(yīng)該選擇什么樣的模仿規(guī)則的問題,然而參與者的同樣地位卻受制于信息和記憶的約束。他發(fā)現(xiàn),如果個(gè)體想要學(xué)習(xí)規(guī)則是在所有平穩(wěn)環(huán)境中收益遞增,那么此個(gè)體應(yīng)該滿足:(1)當(dāng)改變策略時(shí),總是通過模仿來進(jìn)行;(2)永遠(yuǎn)不向收益實(shí)現(xiàn)比其所擁有收益低的那些個(gè)體模仿;(3)向收益實(shí)現(xiàn)比其擁有收益高的那些個(gè)體模仿。
這種模型被各種各樣不同的環(huán)境所發(fā)展。在有限兩人博弈中,Schlag假設(shè)在隨機(jī)地來自于兩個(gè)相等大小的有限群體的個(gè)體之間兩兩配對(duì),每一個(gè)有其自己的地位。個(gè)體總是執(zhí)行純策略。在每一個(gè)收益實(shí)現(xiàn)之后,每一個(gè)個(gè)體都要隨機(jī)地與其他個(gè)體所處的群體進(jìn)行抽樣調(diào)查,并且比較兩種收益的實(shí)現(xiàn)。行為規(guī)則是一種函數(shù)關(guān)系,即把收益實(shí)現(xiàn)和所用策略對(duì)應(yīng)到博弈中個(gè)體地位上可獲得的純策略集合上的分布,為的是采用新的策略。換句話說,允許使用個(gè)體的唯一資料是這種收益實(shí)現(xiàn)和純策略對(duì)。特別,從較早的博弈回合中實(shí)現(xiàn)收益被忽略。此外,假設(shè)個(gè)體在所有博弈中運(yùn)用相同的行為規(guī)則,具有相同數(shù)目的純策略可選擇;也就是,個(gè)體不需要知曉他們執(zhí)行什么樣的博弈,他們知道所使用的純策略數(shù)目就足夠了。
在任何這樣的博弈中,導(dǎo)致預(yù)期收益弱遞增的以及在對(duì)手種群中對(duì)于任何固定策略分布的行為規(guī)則,稱為改進(jìn)。本文中的重要結(jié)果是對(duì)于所有這樣規(guī)則的刻畫。改進(jìn)規(guī)則的一個(gè)特征是他們是模仿的:個(gè)體堅(jiān)持其初始的策略或者采用抽樣的個(gè)體策略;但是不會(huì)轉(zhuǎn)向第三個(gè)的策略。
行為規(guī)則稱為是占優(yōu)的改進(jìn)規(guī)則,如果在某一個(gè)博弈中不存在改進(jìn)規(guī)則產(chǎn)生比較高的預(yù)期收益改進(jìn)比例,而且在對(duì)手種群中的某一個(gè)策略分布上。Schlag證明,某一個(gè)行為規(guī)則為占優(yōu)的改進(jìn)規(guī)則,其具有上面給出的性質(zhì)(1)(2)(3)。這個(gè)比例模仿規(guī)則是其自己的一個(gè)改進(jìn)規(guī)則,而且可以證明它確有一些其他吸引人的性質(zhì)。Schlag證明,Taylor兩種群復(fù)制動(dòng)力學(xué)的離散時(shí)間形式可以*近在任何給定有限時(shí)間范圍內(nèi)導(dǎo)出的一個(gè)隨機(jī)過程,只要種群充分的大就行。
(四)進(jìn)化對(duì)策論中的一些結(jié)論
本文集中探討關(guān)于有限n人博弈的顯性動(dòng)力學(xué)種群模型方向的介紹,其中個(gè)體執(zhí)行純策略。首先探討確定性選擇動(dòng)力學(xué),然后介紹隨機(jī)進(jìn)化模型,其中把隨機(jī)變異過程與確定性選擇過程或者隨機(jī)選擇過程結(jié)合起來。
研究確定性動(dòng)力學(xué)項(xiàng)目性質(zhì)的一種直接方法是選取一個(gè)初始的種群狀態(tài),并且稍后可以計(jì)算。然后,人們應(yīng)該記住讓初始的所有純策略在種群中出現(xiàn),由于初始的已亡策略將在選擇過程中仍保持已亡的狀態(tài)。這種解的軌跡稱為內(nèi)部的。解的軌跡隨時(shí)間流逝而安定下來,就稱為收斂的。反之,則稱為發(fā)散的。
如果種群狀態(tài)是收斂的,那么什么是長(zhǎng)時(shí)期限制狀態(tài)的本質(zhì)呢?可以證明,在任何一種弱的正收益選擇動(dòng)力學(xué)中,沿著任何收斂的內(nèi)部軌跡,限制狀態(tài)必將構(gòu)建納什均衡,研究人員發(fā)現(xiàn),種群執(zhí)行某種納什均衡或者在漸進(jìn)意義上的納什均衡。Nachbar在1990年第一個(gè)證明出單種群復(fù)制動(dòng)力學(xué)的這個(gè)結(jié)果。事實(shí)上,如果選擇過程遇見弱的正收益的相對(duì)溫和的條件,且如果匯總的行為隨時(shí)間而安定下來,那么在長(zhǎng)時(shí)期種群狀態(tài)中的個(gè)體就好像他們預(yù)期一個(gè)特殊的納什均衡對(duì)此執(zhí)行著一個(gè)最佳反應(yīng),這點(diǎn)頗像是納什所聲稱的“群體解釋”。
如果對(duì)于弱的正收益選擇動(dòng)力學(xué)的內(nèi)部解隨時(shí)間而收斂,那么我們看到幸存下來的策略在作為結(jié)果的混合策略組合的最佳反應(yīng)的意義上是理性的。此處的問題是,如果解的軌跡不收斂,那么會(huì)發(fā)生什么情況嗎?當(dāng)長(zhǎng)時(shí)期中沒有均衡達(dá)成時(shí),我們產(chǎn)生的問題是,執(zhí)行是否為理性的。
非合作博弈論中基本的理性假設(shè)是參與者不采用作為嚴(yán)格的劣(strictlydominated)純策略。這個(gè)假設(shè)要求不知道其他參與者的偏好或者行為。一個(gè)更嚴(yán)格的理性一--附有知識(shí)的---假設(shè)是參與者不采用作為迭代的嚴(yán)格的劣策略。除了回避嚴(yán)格的劣的策略之外,這個(gè)假定要求所有參與者相互知道彼此的收益,而這些就是他們知道等等,一直到共同知識(shí)的某一個(gè)有限水平上使得迭代剔除嚴(yán)格劣的純策略的過程停止。
因此,進(jìn)化對(duì)策論中的基本問題是進(jìn)化選擇過程是否剔除掉所有的嚴(yán)格劣策略或者所有的迭代的嚴(yán)格劣純策略。如果所有迭代的嚴(yán)格劣策略消失,那么這提供了在策略上相互作用的參與者行為假設(shè)的一種進(jìn)化證明,就好像此假設(shè)是參與者他們作為理性人的共同知識(shí)。
Akin在1980年證明,在任何有限對(duì)稱兩人博弈中所有嚴(yán)格劣的純策略沿著關(guān)于單種群復(fù)制動(dòng)力學(xué)的任何一個(gè)內(nèi)部解的軌跡都能消失。Samuelson和Zhang在1992年把這一結(jié)論推廣到某一個(gè)兩種群選擇動(dòng)力學(xué)的正收益子集合中的迭代的嚴(yán)格劣純策略上。他們將這種情況稱為聚集單調(diào)的(aggregatemonotonic)。
對(duì)長(zhǎng)時(shí)期進(jìn)化狀態(tài)分析的輔助方法是研究種群狀態(tài)的穩(wěn)定性,也就是考察種群對(duì)于很小的擾動(dòng)是如何反應(yīng)的。Bomze教授在1986年曾證明,如果種群狀態(tài)在單種群復(fù)制動(dòng)力學(xué)中是弱的動(dòng)態(tài)穩(wěn)定的,那么此狀態(tài)就是對(duì)自己的最佳反應(yīng),這里的狀態(tài)被認(rèn)為是采用混合策略的。經(jīng)常運(yùn)用的穩(wěn)定性準(zhǔn)則是李雅普諾夫穩(wěn)定性,即狀態(tài)x是李雅普諾夫穩(wěn)定的,如果x的鄰域B包含x的鄰域A,使得在A中開始的解將永遠(yuǎn)保留在B中。不是李雅普諾夫穩(wěn)定的狀態(tài)稱為不穩(wěn)定的。因此,不僅進(jìn)化穩(wěn)定性的靜態(tài)穩(wěn)定性準(zhǔn)則,而且復(fù)制動(dòng)力學(xué)中的動(dòng)態(tài)穩(wěn)定性都蘊(yùn)涵著納什均衡的實(shí)施。這個(gè)結(jié)果能夠推廣到任何有限n人博弈中的任何弱的正收益選擇動(dòng)力學(xué)上??傊?,對(duì)進(jìn)化壓力而言,以各種不同方式系統(tǒng)闡述的穩(wěn)定性都需要納什均衡來實(shí)施。然而,不是所有的納什均衡在這個(gè)方面都是穩(wěn)定的,因此,這些進(jìn)化穩(wěn)定性準(zhǔn)則是納什均衡概念的精煉。
另外,研究者在考察動(dòng)力學(xué)進(jìn)化穩(wěn)定性時(shí),把隨機(jī)因素并入到進(jìn)化過程的建模當(dāng)中。特別,變異過程被認(rèn)為是內(nèi)在隨機(jī)的一種情況。隨機(jī)振動(dòng)可以憑借穩(wěn)定性分析方法來解釋確定性選擇動(dòng)力學(xué);一個(gè)穩(wěn)定的種群狀態(tài)對(duì)于種群的孤立的很小擾動(dòng)而言是穩(wěn)健的。然而,這種穩(wěn)定分析幾乎說不出一系列的小振動(dòng)或者同時(shí)發(fā)生的小振動(dòng)累計(jì)之后促成的大振動(dòng)的穩(wěn)健性。這樣的一系列或者同時(shí)發(fā)生的連續(xù)不斷的振動(dòng)會(huì)使種群狀態(tài)離開選擇過程的吸引域。雖然這種大量涌現(xiàn)的小振動(dòng)不可能是統(tǒng)計(jì)意義上的獨(dú)立而稀少變異的事件,但這一可能性在基本方法上卻改變了動(dòng)力學(xué)進(jìn)化過程的性質(zhì)。代替歷史依賴性(依賴于初始種群狀態(tài)),此過程會(huì)成為遍歷的(ergodic),也就是具有一種漸進(jìn)分布,其中漸進(jìn)分布是歷史獨(dú)立的(對(duì)于所有的初始種群狀態(tài)都是相同的)。從而,導(dǎo)致人們現(xiàn)今研究的一個(gè)專題——隨機(jī)動(dòng)力學(xué)穩(wěn)定性。這種研究路線的先驅(qū)者是Foster和Young(1990),隨后是Fudenberg和Harris(1992),Young(1993)等等。四、進(jìn)化對(duì)策論在經(jīng)濟(jì)學(xué)中的應(yīng)用
進(jìn)化對(duì)策論的產(chǎn)生、發(fā)展在本質(zhì)上就是起因于對(duì)策論中關(guān)于理性行為人的假設(shè)與經(jīng)濟(jì)應(yīng)用中行為人“試驗(yàn)——失誤”(即試錯(cuò)法)學(xué)習(xí)過程相偏離的事實(shí)而引發(fā)的。從上述的闡述中,我們可以看到,進(jìn)化對(duì)策論在經(jīng)濟(jì)學(xué)里的應(yīng)用前景是十分廣闊的和吸引人的。
最近,Routledge探討了金融市場(chǎng)上個(gè)體行為人是如何通過適應(yīng)性或者進(jìn)化學(xué)習(xí)來發(fā)現(xiàn)內(nèi)生變化并運(yùn)用這種內(nèi)生關(guān)系的一種學(xué)習(xí)模型。他通過對(duì)來自于模仿過程和經(jīng)驗(yàn)過程來對(duì)個(gè)體的投資行為建模,而不是運(yùn)用傳統(tǒng)上的顯性最優(yōu)化方法放松關(guān)于知識(shí)和理性的假設(shè)。Routledge運(yùn)用Grossman和Stiglitz的1980年發(fā)表的經(jīng)濟(jì)模型的形式。Grossman和Stiglitz(GS)模型提供了考察適應(yīng)學(xué)習(xí)過程的一種良好的框架,因?yàn)樗谦@得內(nèi)生信息的標(biāo)準(zhǔn)模型,這點(diǎn)已經(jīng)被后來的其他許多關(guān)于學(xué)習(xí)方面的模型都是基于GS而提出的事實(shí)所證明。
如果假設(shè)交易者能夠觀察到他們自己的適應(yīng)度和其他行為人的行為,那么模仿是如何發(fā)生的許多特殊細(xì)節(jié)就顯得不重要了。Routledge的研究結(jié)果表明:首先,作為單調(diào)選擇動(dòng)力學(xué)的適應(yīng)學(xué)習(xí)會(huì)促成GS均衡;其次,由單凋適應(yīng)學(xué)習(xí)驅(qū)使的模仿的穩(wěn)健性可從隨機(jī)實(shí)驗(yàn)中來獲得噪聲(noise)來研究。他發(fā)現(xiàn),適應(yīng)學(xué)習(xí)是缺少穩(wěn)健性的。特別,他運(yùn)用Binmore和Samuelson(1999)的技術(shù)來對(duì)模仿和經(jīng)驗(yàn)建模。為了使帶有漂移(drift)的適應(yīng)學(xué)習(xí)產(chǎn)生GS理性預(yù)期均衡,必要的條件是在風(fēng)險(xiǎn)資產(chǎn)供給中的噪聲與學(xué)習(xí)過程中的經(jīng)驗(yàn)水平有很大的關(guān)系。
五、問題與前景
我們注意到,進(jìn)化過程并不總是導(dǎo)致最優(yōu)性、均衡或者社會(huì)有效性。通過目前已取得的一些成果,我們認(rèn)為下面的一些方向或許是值得學(xué)者進(jìn)一步探討與研究的:
(1)引進(jìn)機(jī)構(gòu),分析市場(chǎng)選擇機(jī)制。
(2)探討博弈中學(xué)習(xí)規(guī)則的進(jìn)化穩(wěn)定性。結(jié)果,這就會(huì)導(dǎo)致?lián)碛羞m度認(rèn)知能力的個(gè)體的模型。
(3)進(jìn)一步探討擴(kuò)展形式博弈中的進(jìn)化過程。
(4)對(duì)*近理論方面的進(jìn)一步探討。我們需要更多地了解確定性模型和隨機(jī)性模型之間的聯(lián)系與關(guān)系。
(5)探索、研究結(jié)構(gòu)化的穩(wěn)健預(yù)測(cè)。顯然,某種博弈的子結(jié)構(gòu),諸如在最佳反應(yīng)和弱最佳反應(yīng)的條件下所促成的純策略集合,是進(jìn)化過程的穩(wěn)健吸引子(robustattractor)等。
本文概括地闡述了進(jìn)化對(duì)策論中的理論內(nèi)容和一些模型,特別是博弈中有關(guān)學(xué)習(xí)模型的新近發(fā)展。通過上面的分析,我們發(fā)現(xiàn),進(jìn)化對(duì)策論的發(fā)展動(dòng)力來自于與其他社會(huì)學(xué)科的交叉融合,吸收其他社會(huì)科學(xué)中的有益知識(shí)。為了把有關(guān)的選擇過程、學(xué)習(xí)過程以及變異過程的類別變窄,我們需要更多地知曉個(gè)體、團(tuán)體、組織、廠商以及整個(gè)社會(huì)是如何隨時(shí)間而適應(yīng)和學(xué)習(xí)的。這里的部分內(nèi)容正是實(shí)驗(yàn)對(duì)策論中所要探討的,同時(shí)這也是我們應(yīng)向其他社會(huì)科學(xué)學(xué)習(xí)的領(lǐng)域。
參考文獻(xiàn):
1.王忠玉:《1994年度諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)與對(duì)策論》,載《科學(xué)(ScientificAmerican中文版)》,1996(7),3—5頁。
2.王忠玉:《金融市場(chǎng)從眾行為的數(shù)理模型》,載《中國(guó)管理科學(xué)》,2000(2),50~55頁。
3.Binmore,K.,1990.EssaysontheFoundationsofGameTheory,BasilBlackwell.
4.Binmore,K.,Samuelson,L.andVaughan,R.,1995.MusicalChairs:ModellingNoisyEvolution.GameandEconomicBehavior11,1--35.
5.Binmore,K.andSamuelson,L.,1999.EvolutionaryDriftandEquilibriumSelection.ReviewofEconomicStudies,66,363--393.
6.Blume,L.andEasleyD,1992.EvolutionandMarketBehavior.JournalofEconomicTheory58,9-45.
7.BlumeL.andEasley,D.,1990.EvolutionandLearninginCompetitiveMarkets,inKirman,A.andSalmon,M.(eds.),LearningandRationalityinEconomics,Blackwell(Oxford).
8.Bomze,1.andPotscher,B.,1989.GameTheoreticalFoundationsofEvolutionaryStability.SpringerVerlag(Berlin).
9.Bomze,I.andWeibull,J.,1996.DoesNeutralStabilityImplyLyapunovStability.9Gameand
EconomicBehavior11,173--192.
10.Bryan,R.Routledge,1999.AdaptiveLearninginFinancialMarkets.TheReviewofFinancial
Studies12,1165--1202.
11.Canning,D.,1990.LearningandSocialEquilibriuminLargePopulations,in
Kirman,A.andSalmon,M.(eds.),LearningandRationalityinEconomics,Blackwell(Oxford).
12.Cressman,R.,1992.TheStabilityConceptofEvolutionaryGameTheory,SpringerVerlag(Berlin).
13.VanDammeE.,1987.StabilityandPerfectionofNashEquilibria,SpringerVerlag(Berlin).
14.Dekel,E.andScotchmer,S.,1992.ontheEvolutionofOptimalBehavior.Journalof
EaonomicTheory57,392--406.
15.Fudenberg,D.andLevine,D.,1993.Steady-stateLearningandNashEquilibrium,Econometrica61,523-574.
16.Fudenberg,D.andLevine,D.,1997.TheTheoryofLearninginGames.MITPress.
17.Haesanyi,J.andSelten,R.,1988.AGeneralTheoryofEquilibriumSelectioninGame,MITPress.
18.Kandori,M.,Mailath,G.andRob,R.,1993.Learning,Mutation,andLong-runEquilibriainGame,Econometrica61,29--56.
19.Nelson,R.andWinter,S.1982.AnEvolutionaryTheoryofEconomicChange.HarvardUniversityPress(CambridgeMA).
20.Robson,J.A.2001.TheBiologicalBasisofEconomicBehavior.JournalofEconomicLiterature,Vol.ⅩⅩⅩⅨ(March2001),11--33.
21.Samuelson,L.andZhang,J.,1992.EvolutionaryStabilityinAsymmetricGames.JournalofEconomicTheory,57,363--391.
22.Weibull,J.,1995.EvolutionaryGameTheory.MITPress.
23.Vega--Redondo,F.,1995.Expectations,DriftandVolatilityinEvolutionaryGames.GamesandEconomicBehavior11,391-412.