聚類范文10篇
時間:2024-02-18 15:43:29
導(dǎo)語:這里是公務(wù)員之家根據(jù)多年的文秘經(jīng)驗,為你推薦的十篇聚類范文,還可以咨詢客服老師獲取更多原創(chuàng)文章,歡迎參考。
聚類分析K-means算法研究
摘要:通過對聚類分析及其算法的論述,從多個方面對這些算法性能進行比較,同時以兒童生長發(fā)育時期的數(shù)據(jù)為例通過聚類分析的軟件和改進的K-means算法來進一步闡述聚類分析在數(shù)據(jù)挖掘中的實踐應(yīng)用。
關(guān)鍵詞:數(shù)據(jù)挖掘;聚類分析;數(shù)據(jù)庫;聚類算法
隨著計算機硬件和軟件技術(shù)的飛速發(fā)展,尤其是數(shù)據(jù)庫技術(shù)的普及,人們面臨著日益擴張的數(shù)據(jù)海洋,原來的數(shù)據(jù)分析工具已無法有效地為決策者提供決策支持所需要的相關(guān)知識,從而形成一種獨特的現(xiàn)象“豐富的數(shù)據(jù),貧乏的知識”。數(shù)據(jù)挖掘[1]又稱為數(shù)據(jù)庫中知識發(fā)現(xiàn)(KnowledgeDiscoveryfromDatabase,KDD),它是一個從大量數(shù)據(jù)中抽取挖掘出未知的、有價值的模式或規(guī)律等知識的復(fù)雜過程。目的是在大量的數(shù)據(jù)中發(fā)現(xiàn)人們感興趣的知識。
常用的數(shù)據(jù)挖掘技術(shù)包括關(guān)聯(lián)分析、異類分析、分類與預(yù)測、聚類分析以及演化分析等。由于數(shù)據(jù)庫中收集了大量的數(shù)據(jù),聚類分析已經(jīng)成為數(shù)據(jù)挖掘領(lǐng)域的重要技術(shù)之一。
1問題的提出
隨著社會的發(fā)展和人們生活水平的提高,優(yōu)育觀念[2,3]逐漸滲透到每個家庭,小兒的生長發(fā)育越來越引起家長們的重視。中國每隔幾年都要進行全國兒童營養(yǎng)調(diào)查,然而用手工計算的方法在大量的數(shù)據(jù)中分析出其中的特點和規(guī)律,顯然是不現(xiàn)實的,也是不可行的。為了有效地解決這個問題,數(shù)據(jù)挖掘技術(shù)——聚類分析發(fā)揮了巨大的作用。
R軟件系統(tǒng)聚類分析剖析
提要多元統(tǒng)計聚類方法已被廣泛應(yīng)用于自然科學(xué)和社會科學(xué)的各個領(lǐng)域,而在現(xiàn)實處理多元數(shù)據(jù)聚類分析中,離不開統(tǒng)計軟件的支持;R軟件由于其免費、開源、強大的統(tǒng)計分析及其完美的作圖功能已得到越來越多人的關(guān)注與應(yīng)用;本文結(jié)合實例介紹了R軟件在多元統(tǒng)計系統(tǒng)分析中的應(yīng)用。
關(guān)鍵詞:R軟件;系統(tǒng)聚類分析;多元統(tǒng)計
引言
多元統(tǒng)計分析是統(tǒng)計學(xué)的一個重要分支,也稱多變量統(tǒng)計分析;在現(xiàn)實生活中,受多種指標共同作用和影響的現(xiàn)象大量存在,多元統(tǒng)計分析就是研究多個隨機變量之間相互依賴關(guān)系及其內(nèi)在統(tǒng)計規(guī)律的重要學(xué)科,其中最常用聚類分析方法,由于多元統(tǒng)計聚類分析方法一般涉及復(fù)雜的數(shù)學(xué)理論,一般無法用手工計算,必須有計算機和統(tǒng)計軟件的支持。
在統(tǒng)計軟件方面,常用的統(tǒng)計軟件有SPSS、SAS、STAT、R、S-PLUS,等等。R軟件是一個自由、免費、開源的軟件,是一個具有強大統(tǒng)計分析功能和優(yōu)秀統(tǒng)計制圖功能的統(tǒng)計軟件,現(xiàn)已是國內(nèi)外眾多統(tǒng)計學(xué)者喜愛的數(shù)據(jù)分析工具。本文結(jié)合實例介紹R軟件在多元統(tǒng)計聚類分析中的應(yīng)用。
一、系統(tǒng)聚類分析
新聚類判別分析研究思考
摘要:在分析經(jīng)典聚類判別分析方法實質(zhì)的基礎(chǔ)上,提出了一種新的聚類判別分析框架,改進了一種基于樣本指標值頻度計算的兩總體判別分析算法,提高了在對所有參與建立判別模型的樣本進行判別時的計算速度;給出了建立在此改進判別分析算法基礎(chǔ)上的一種動態(tài)聚類判別分析算法的設(shè)計,并實現(xiàn)了所有算法。進行相應(yīng)的實證研究,結(jié)果表明以此聚類判別分析框架對給定樣本集合進行分析,可以迅速得到多個合理的聚類結(jié)果以及對聚類結(jié)果的清晰解釋,既可以對已有的聚類結(jié)果進行驗證,又可以進行數(shù)據(jù)的探索性分析。
關(guān)鍵詞:聚類分析;判別分析;動態(tài)聚類
0引言
經(jīng)典聚類分析算法是基于距離計算的。然而除馬氏距離定義外,其他距離定義都存在樣本指標的量綱處理問題;除馬氏距離和斜交空間距離定義外,其他距離定義都存在樣本指標的相關(guān)性處理問題;另外,包括馬氏距離在內(nèi)的所有距離定義都存在將用于聚類的指標同等對待的缺點,不能反映不同指標對聚類結(jié)果的貢獻程度。
一般情況下,在確定樣本間距離計算方法的基礎(chǔ)上,用不同的聚類分析方法得到聚類的結(jié)果是不會完全一致的。這是因為在實際應(yīng)用中,許多對象在不同類之間本身并無清晰的劃分。這導(dǎo)致了在既定用于聚類的指標組合的情況下,用不同的聚類方法對同一組樣本進行分析會得到不同的聚類結(jié)果。如上所述,即使使用同一種聚類方法,有時由于樣本的排列順序不同,也可能導(dǎo)致不同的分類結(jié)果。這就提出了對不同的聚類方法進行評價的問題。關(guān)于所用方法好壞的評價,現(xiàn)在還沒有一個合適的標準。Edwards和CAVALLIsforza(1965)曾建議把樣本分成兩類,使得兩類間的離差平方和最大[1]。D.FisherWalter也指出,應(yīng)該尋找使類內(nèi)差異最小的聚類方法[2]。因此,評價不同聚類方法的一個重要方面,就是看這些方法得到的聚類結(jié)果在類內(nèi)的接近程度和在類間的相隔程度。一個較好的分類方法應(yīng)該得到類內(nèi)差異較小、類間差異較大的聚類結(jié)果。在實際應(yīng)用中,一般采用以下兩種處理方法:a)根據(jù)分類問題本身的專業(yè)知識,結(jié)合實際需要來選擇分類的方法,并確定分類的個數(shù);b)用多種方法對數(shù)據(jù)進行分析處理,把結(jié)果的共性取出來。如果用幾種方法的某些結(jié)果都一樣,則說明這樣的聚類確實反映了事物的本質(zhì)。將有爭議的樣本暫放一邊,或者用其他方法如判別分析進行處理歸類。另外,在聚類分析方法既定的情況下,同一組樣本采用不同的指標組合進行聚類分析,通常也會得到不同的分類結(jié)果。產(chǎn)生不同結(jié)果的原因主要是由于不同的指標組合測度是樣本間的不同側(cè)面的相似程度,在進行聚類分析時存在指標組合選擇的問題。一般是根據(jù)聚類的實際需要進行指標的選擇,這是一個比較復(fù)雜并且?guī)в兄饔^性的問題。實踐中,在開始進行聚類分析時,通常是先選擇多種指標組合分別進行聚類,然后對聚類分析的結(jié)果進行對比分析,以確定出合適的測度指標。
判別分析產(chǎn)生于20世紀30年代,是利用已知類別的樣本建立判別模型,為未知類別的樣本判別的一種統(tǒng)計方法。近年來,判別分析在自然科學(xué)、社會學(xué)及經(jīng)濟管理學(xué)科中都有廣泛的應(yīng)用。判別分析的特點是根據(jù)已掌握的、歷史上每個類別的若干樣本的數(shù)據(jù)信息,總結(jié)出客觀事物分類的規(guī)律性,建立判別公式和判別準則。當遇到新的樣本點時,只要根據(jù)總結(jié)出來的判別公式和判別準則,就能判別該樣本點所屬的類別。判別分析按照判別的組數(shù)來區(qū)分,可以分為兩組判別分析和多組判別分析。本文僅研究兩組判別分析。在眾多的判別分析方法中,最直觀的是距離判別法。
低碳經(jīng)濟下資源環(huán)境現(xiàn)狀的聚類分析
1我國各地區(qū)人均廢水、廢氣排放量的聚類分析
1.1我國各地區(qū)人均廢水排放量的聚類分析
隨著我國城市化速度的加快,城鄉(xiāng)居民生活水平不斷提高,廢水污染物排放量明顯增多.2011年,我國廢水排放總量為659億噸,其中化學(xué)需氧量2500萬噸,氨氮260萬噸,總氮447萬噸,總磷55萬噸,石油類21012噸,揮發(fā)酚2431噸,鉛155242千克,汞2892千克,鎘35899千克,六價鉻106395千克,總鉻293166千克,砷146616千克。文章選取2011年我國30個省市(西藏數(shù)據(jù)缺失)廢水排放量數(shù)據(jù),運用SPSS16.0軟件進行聚類分析,將我國各地區(qū)人均廢水排放量分為四類。由表2可知,從人均廢水排放量來看,屬于Ⅰ類地區(qū)的有云南、甘肅,屬于Ⅱ類地區(qū)的有天津、河北、山西、內(nèi)蒙古、遼寧、吉林、黑龍江、安徽、江西、山東、河南、湖北、湖南、廣西、海南、重慶、四川、云南、陜西、青海、新疆,屬于Ⅲ類地區(qū)的有北京、江蘇、浙江、廣東、寧夏,屬于Ⅳ類地區(qū)的有上海、福建.發(fā)達省份的人均廢水排放量較高,欠發(fā)達省份較低,發(fā)達地區(qū)工業(yè)經(jīng)濟繁榮,企業(yè)較多,導(dǎo)致工業(yè)廢水排放量居高不下。其中,寧夏造紙業(yè)企業(yè)較多,造成工業(yè)廢水排放量大。我國經(jīng)濟處于工業(yè)化快速發(fā)展階段,日趨嚴重的水污染使水體的使用功能降低,制約了我國經(jīng)濟可持續(xù)發(fā)展。
1.2我國各地區(qū)人均二氧化硫排放量的聚類分析
在廢氣排放方面,2011年我國二氧化硫排放總量為228萬噸,文章選取2011年我國30個省市(西藏數(shù)據(jù)缺失)二氧化硫排放量數(shù)據(jù),運用SPSS16.0軟件進行聚類分析,將我國各地區(qū)人均二氧化硫排放量分為四類。由表2可知,從人均二氧化硫排放量來看,屬于Ⅰ類地區(qū)的有北京、海南,屬于Ⅱ類地區(qū)的有天津、河北、吉林、黑龍江、上海、江蘇、浙江、安徽、福建、江西、山東、河南、湖北、湖南、廣東、廣西、重慶、四川、云南,屬于Ⅲ類地區(qū)的有山西、遼寧、貴州、陜西、甘肅、青海、新疆,屬于Ⅳ類地區(qū)的有內(nèi)蒙古、寧夏。能源豐富的省份人均二氧化硫排放量較高,內(nèi)蒙古和寧夏是典型的以能源工業(yè)為支柱產(chǎn)業(yè)的省份,煤的開采量多,通過燃燒煤進行火力發(fā)電,排放出大量的二氧化硫。
1.3我國各地區(qū)人均氮氧化物排放量的聚類分析
聚類算法項目成本動因合并研究
摘要:在作業(yè)成本法實施過程中,由于成本動因數(shù)量龐大及其復(fù)雜性導(dǎo)致大多數(shù)企業(yè)放棄使用作業(yè)成本法。因此,科學(xué)合理的選擇及合并成本動因是保證作業(yè)成本法有效實施的關(guān)鍵。文章以A風(fēng)景園林規(guī)劃研究院規(guī)劃設(shè)計類項目為例,運用主成分分析與聚類分析算法將存在相關(guān)性成本動因進行科學(xué)有效的合并,最終得到最具代表性的成本動因,顯著降低了作業(yè)成本計算的復(fù)雜性,在保障項目成本核算準確性的同時,減少了收集和處理成本數(shù)據(jù)的成本耗費。
關(guān)鍵詞:主成分分析;成本動因合并;成本核算;層次聚類;作業(yè)成本法
一、引言
作業(yè)成本法(Activity-BasedCosting,ABC)自20世紀90年代初引入我國以來,應(yīng)用已日趨普遍,在行業(yè)領(lǐng)域方面已由最初的制造業(yè)擴展到了零售、金融、保險以及醫(yī)療衛(wèi)生等行業(yè)。隨著近年來園林規(guī)劃設(shè)計行業(yè)競爭的加劇,為了提高成本管理水平,將作業(yè)成本法引入到規(guī)劃設(shè)計類項目成本管理中就顯得十分必要。相對于其他行業(yè),規(guī)劃設(shè)計行業(yè)間接成本占比較大,費用科目較多,不僅核算難度較大,在成本核算過程中需要大量的成本動因來計量間接費用的耗費,大量的成本動因會增加成本核算過程中信息收集、處理的成本,然而,在實務(wù)中企業(yè)進行成本核算不僅需要考慮結(jié)果的準確性,還必須考慮核算成本的提高,這也導(dǎo)致很多企業(yè)放棄引入作業(yè)成本法。因此,企業(yè)在實際運用作業(yè)成本法進行成本核算過程中,需要合理選擇并有效合并成本動因,在不損失過多成本精確度的同時減少核算成本耗費。機器學(xué)習(xí)作為實現(xiàn)人工智能技術(shù)的一種方法,憑借強大的計算能力分析數(shù)據(jù)的特征,將在某些特征上相同或相似數(shù)據(jù)自動形成集合。在成本動因合并的研究中,運用基于機器學(xué)習(xí)算法中的降維、聚類等無監(jiān)督學(xué)習(xí)算法,有助于企業(yè)從大量的成本相關(guān)數(shù)據(jù)中客觀的選擇最具代表性的成本動因,避免人為的經(jīng)驗判斷導(dǎo)致的主觀偏差,最終提高代表性成本動因選擇的可靠性??v觀已有文獻,不少學(xué)者通過實例運用將同質(zhì)性成本動因進行合并,能夠?qū)崿F(xiàn)在可接受的誤差范圍內(nèi)保證核算結(jié)果的準確度[1-2]。然而在規(guī)劃設(shè)計類項目研究方面,大多學(xué)者主要研究于作業(yè)成本法在規(guī)劃設(shè)計類項目適用性和實例運用[3-4],較少從成本動因合并角度解決作業(yè)成本法在設(shè)計規(guī)劃類項目實際應(yīng)用中的成本效益失衡問題。鑒于此,本文以A風(fēng)景園林規(guī)劃研究院規(guī)劃設(shè)計類項目為例,以現(xiàn)有成本動因合并理論為基礎(chǔ),結(jié)合設(shè)計規(guī)劃類企業(yè)的特點,構(gòu)建基于主成分分析算法和層次聚類算法設(shè)計項目成本動因合并模型,將一組數(shù)據(jù)的“主要成分”提取出來而忽略剩下的次要內(nèi)容,達到數(shù)據(jù)降維的效果,以減少運算資源消耗的目的,降低作業(yè)成本法實施成本和復(fù)雜度,提高了規(guī)劃設(shè)計類單位運用作業(yè)成本法的可操作性,從而推進成本核算工作。
二、A研究院項目成本核算的現(xiàn)狀與問題分析
A風(fēng)景園林規(guī)劃研究院(以下簡稱“A研究院”)隸屬于自收自支正處級公益二類事業(yè)單位。承擔城市園林綠化管理信息平臺建設(shè)工作以及根據(jù)資質(zhì)提供規(guī)劃編制、風(fēng)景園林設(shè)計、城市市政工程設(shè)計、建筑設(shè)計等技術(shù)服務(wù)。規(guī)劃設(shè)計類項目不同于傳統(tǒng)的制造行業(yè),其經(jīng)濟利潤的創(chuàng)造主要依賴人員的知識和技術(shù),知識技術(shù)作為單位最基本的核心生產(chǎn)要素,成本核算方法與傳統(tǒng)成本核算存在著顯著的差異。通過對A研究院實地調(diào)研以及結(jié)合歷史數(shù)據(jù)分析發(fā)現(xiàn),目前運用作業(yè)成本法進行項目成本核算仍存在一些問題。
透析證候研究中變量聚類結(jié)果
近年來,有不少學(xué)者利用系統(tǒng)變量聚類方法對西醫(yī)病種中中醫(yī)癥狀的分布情況進行研究。例如,麻氏等[1]通過對739例膽病病案進行分析,得到9個類,并把它們分別詮釋為肝膽濕熱證、肝膽郁熱證、肝膽蘊熱證、肝膽氣郁證、血瘀證、脾失健運證、陽虛寒濕證、陰虛內(nèi)熱證和熱毒亡陽證。筆者剖析系統(tǒng)變量聚類結(jié)果的統(tǒng)計學(xué)含義,并基于此討論把它們詮釋為證候的合理性。我們的結(jié)論是,變量聚類的結(jié)果不能詮釋為證候。
1變量聚類結(jié)果的統(tǒng)計學(xué)含義
在麻氏等[2]分析的膽病數(shù)據(jù)中,癥狀變量全部是二值的。分析所得的變量類之一如下。
類1:發(fā)熱寒戰(zhàn)、右上腹壓痛拒按、黃疸、惡心嘔吐、右上腹疼痛、大便秘結(jié)、小便色黃、苔黃、苔膩、脈滑、脈弦、口苦。
本節(jié)以這個類為例,剖析系統(tǒng)變量聚類結(jié)果的含義。要準確把握這個類的含義,需要考慮3個因素,即“變量”與“事件”這兩個概念的區(qū)別、變量間相似系數(shù)的定義以及變量類間相似系數(shù)的定義。下面逐一討論這3個因素。
1.1變量與事件
信息化水平聚類分析論文
1、變量指標的選取
國家統(tǒng)計局在其《中國信息能力報告》中,設(shè)計了一套評價我國信息化水平的指標:指標體系共分4級,有25個指標:①信息技術(shù)和信息設(shè)備應(yīng)用能力:a.每千人擁有PC數(shù);b.每千人擁有傳真機數(shù);c.每百人擁有電話數(shù);d.每千人擁有電視機數(shù);e.每千人擁有收音機數(shù);f.每萬人接入因特網(wǎng)用戶;g.每百萬人互聯(lián)網(wǎng)上網(wǎng)主機數(shù);h.每平方公里光纜長度;i.每百家企事業(yè)單位上網(wǎng)數(shù);j.基礎(chǔ)信息產(chǎn)業(yè)產(chǎn)值占GDP比重。②信息資源及開發(fā)利用能力:a.每戶打國際電話時間;b.每百人期刊發(fā)行量;c.每日信息量;d.網(wǎng)絡(luò)用戶平均上網(wǎng)時間;e.每萬人Web站點數(shù)。③人口素質(zhì):a.每萬人平均科學(xué)家和工程師數(shù);b.第三產(chǎn)業(yè)從業(yè)人數(shù)占就業(yè)總?cè)丝诒戎?;c.大學(xué)入學(xué)率;d.每十萬人在校學(xué)生數(shù);e.計算機專家和工程師數(shù)。④國家對信息產(chǎn)業(yè)發(fā)展的支撐:a.信息產(chǎn)業(yè)產(chǎn)值占GDP比重;b.研究開發(fā)(R&G)支出占GDP比重;c.每主線電信投資;d.人均GNP;e.教育投入。
鑒于遵循數(shù)據(jù)的客觀性和代表性,以及易得性,本文采取以下指標:每千人工業(yè)增加值x1;每千人電信業(yè)務(wù)量x2;每千人移動通信交換機容量x3;移動電話普及率x4;電話普及率x5;廣播綜合人口覆蓋率x6;電視綜合人口覆蓋率x7;有線電視普及率x8;每十戶寬帶上網(wǎng)用占有戶數(shù)x9;R&D經(jīng)費支出占GDP比重x10;每十人從事科技活動人員總數(shù)占有的人數(shù)x11;每十人在校大學(xué)生人數(shù)占有的人數(shù)x12;每千人專利授權(quán)數(shù)占有數(shù)x13。其中缺省值用平均值代替或者臨近年數(shù)內(nèi)值代替。由于篇幅有限,指標數(shù)據(jù)省略。
2、因子分析
因子分析法是能夠?qū)崿F(xiàn)數(shù)據(jù)簡化目的的有效方法之一。其基本思想是根據(jù)相關(guān)性大小把變量分組,使得同組內(nèi)的變量之間相關(guān)性較高,使不同組的變量相關(guān)性較低,每組變量代表一個基本結(jié)構(gòu),這個基本結(jié)構(gòu)稱為公共因子。運用因子分析法,借助EXCEL多元統(tǒng)分析,對已得的指標數(shù)據(jù)進行分析處理,在處理過程中選取方差貢獻比率為0.80。
按照方差貢獻比率大于80%,應(yīng)提取前四個因子,它們所解釋的方差占總方差的84.58%,這四個因子就可以解釋原始數(shù)據(jù)的大部分信息了。
K-Means聚類算法數(shù)據(jù)分析
摘要:K-Means算法是無監(jiān)督學(xué)習(xí)中經(jīng)典的算法之一,通過組間的相異性規(guī)則把不同事物劃分為若干類,使各類之間的數(shù)據(jù)最為相似,不同類數(shù)據(jù)相異性盡可能最大化。本文通過K-means聚類算法分析某學(xué)校大學(xué)生期末大學(xué)信息技術(shù)基礎(chǔ)和C語言程序設(shè)計的成績,通過數(shù)據(jù)分析表明想要提高學(xué)生的整體成績,需要在C語言程序設(shè)計上付出更大的努力。
關(guān)鍵詞:K-means;數(shù)據(jù)分析;機器學(xué)習(xí)
1概述
機器學(xué)習(xí)中有兩類大問題:一個是聚類,另一個是分類。聚類是統(tǒng)計學(xué)的概念,屬于非監(jiān)督機器學(xué)習(xí)(unsupervisedlearning),應(yīng)用中數(shù)據(jù)挖掘,數(shù)據(jù)分析等領(lǐng)域,根據(jù)數(shù)據(jù)不同特征,將其劃分為不同的數(shù)據(jù)類,屬于一種無監(jiān)督學(xué)習(xí)方法。它的目的是使得屬于同一類別個體之間的密度盡可能的高,而不同類別個體間的密度盡可能的低[1]。分類是用已知的結(jié)果類別訓(xùn)練數(shù)據(jù),對預(yù)測數(shù)據(jù)進行預(yù)測分類,屬于有監(jiān)督學(xué)習(xí)(supervisedlearning),常見的算法如邏輯回歸、支持向量機、深度學(xué)習(xí)等。聚類也是對數(shù)據(jù)進行歸類,不過聚類算法的訓(xùn)練數(shù)據(jù)只有輸入,事先并不清楚數(shù)據(jù)的類別,通過特征的相似性對文本進行無監(jiān)督的學(xué)習(xí)分類。聚類試圖將數(shù)據(jù)集中的樣本劃分為若干個通常不相交的子集,每個子集稱為一個簇(cluster)[2]。K-means屬于經(jīng)典聚類算法,根據(jù)樣本間的距離或者相異性進行聚類,把特征相似的樣本歸為一類,相異的樣本歸為不同的簇。
2理論基礎(chǔ)
K-Means算法是從訓(xùn)練集D={x1,x2,…,xn}中選取K個樣本作為初始聚類中心c=c1,c2,…,ck,計算數(shù)據(jù)集中每個樣本xi到k個樣本初始中心點的距離,并把每個樣本劃分到離它最近的中心點的類中;每個簇類別βj,重新計算該簇所有樣本的質(zhì)心βj=1|cj|i∈cjΣxj,重復(fù)以上兩步,迭代更新直到每類質(zhì)心的變化小于閾值或者達到最大迭代次數(shù)?;静襟E為選擇數(shù)據(jù)中心,計算距離,分簇,重新選擇數(shù)據(jù)的質(zhì)心,重復(fù),直到數(shù)據(jù)收斂或達到最大迭代次數(shù)。該算法不能保證收斂到全局最優(yōu)。選擇訓(xùn)練過程的偽代碼如下:訓(xùn)練數(shù)據(jù)n個m維的數(shù)據(jù),隨機生成初始化聚類中心k個m維的點。While(t)t為迭代次數(shù)Foriinrange(n+1):#n為樣本點個數(shù)。Forjinrange(k+1):#k為簇的數(shù)目。Foriinrange(k+1):#計算樣本i到每個簇質(zhì)點j的距離。找出屬于這個簇中的所有數(shù)據(jù)點,計算這類的質(zhì)心。重復(fù)以上步驟,直到每類質(zhì)心變化小于設(shè)定的閾值或者達到最大的迭代次數(shù)。設(shè)置最大特征數(shù),設(shè)置分類的組K值,訓(xùn)練特征數(shù)據(jù)進行數(shù)據(jù)分析。本文將數(shù)據(jù)過濾清洗,去除停用詞轉(zhuǎn)化為向量模型,使用TF-IDF算法對詞頻進行權(quán)重計算,TF是詞頻,IDF是逆文檔頻率,TF-IDF反應(yīng)了一個詞在文本中的重要性它的值是TF×IDF。使用Python中的sklearn模塊的TfidfTransformer、CountVectorizer方法計算TF-IDF值,轉(zhuǎn)化為空間向量模型,選用K-means聚類算法對數(shù)據(jù)進行挖掘與分析。
聚類分析在財務(wù)績效評價的應(yīng)用
[提要]本文探討數(shù)據(jù)挖掘技術(shù)中聚類分析在財務(wù)績效評價中的應(yīng)用進展。介紹背景及意義,應(yīng)用現(xiàn)狀,簡述利用聚類分析法進行財務(wù)績效評價的一般流程,并提出對財會和數(shù)據(jù)挖掘技術(shù)結(jié)合的一些看法和觀點。
關(guān)鍵詞:財務(wù)績效分析;指標選??;聚類分析法
引言
(一)背景及意義。企業(yè)的財務(wù)績效是指企業(yè)的運營、戰(zhàn)略的執(zhí)行等是否能提高企業(yè)最終的經(jīng)營業(yè)績。財務(wù)績效能夠詳細地反映出企業(yè)在對成本的控制能力、合理調(diào)配各項資金的水平、管理資產(chǎn)用于盈利的程度。然而,現(xiàn)階段,僅憑借簡單的數(shù)據(jù)分析對企業(yè)財務(wù)績效進行分析是不充分、不全面的,所以需要引入其他的研究方法。而且隨著信息時代的來臨,鋪天蓋地的信息碎片為我們的財務(wù)工作帶來了巨大的數(shù)據(jù)量,財務(wù)工作中收集到的數(shù)據(jù)中往往存在一些內(nèi)在邏輯關(guān)系,因此學(xué)會利用數(shù)據(jù)挖掘技術(shù)對深入研究財務(wù)數(shù)據(jù)越發(fā)重要。數(shù)據(jù)挖掘中的聚類分析被廣泛應(yīng)用在各種財務(wù)分析中,如財務(wù)風(fēng)險分析、財務(wù)績效分析、財務(wù)數(shù)據(jù)分析等。本文將探討聚類分析在財務(wù)績效評價中的應(yīng)用進展。(二)相關(guān)概念1、財務(wù)績效評價。財務(wù)績效評價表示用科學(xué)合理的方法對企業(yè)某個時期內(nèi)的生產(chǎn)經(jīng)營結(jié)果進行定性定量的分析,使得企業(yè)業(yè)績具有可比性。便于利益相關(guān)者們直觀地理解財務(wù)績效,并對企業(yè)經(jīng)營成果做出客觀、公正的評判。正是因為財務(wù)績效評價的客觀性與公正性,財務(wù)績效評價已經(jīng)成為了分析企業(yè)經(jīng)營狀況不可缺少的部分。2、聚類分析。聚類分析的基礎(chǔ)是數(shù)據(jù)之間存在相似性,在此基礎(chǔ)上將數(shù)據(jù)分為幾類,是一種常見的數(shù)據(jù)挖掘手段。數(shù)據(jù)間的相關(guān)性是存在價值的,因此聚類分析可以被用于提取數(shù)據(jù)間存在的特性來產(chǎn)生價值。在進行聚類之前,需要保證數(shù)據(jù)之間的相關(guān)性,這一步則需要通過因子分析來實現(xiàn)。
一、應(yīng)用現(xiàn)狀及評價
在財務(wù)績效評價和聚類分析的結(jié)合方面,國內(nèi)存在大量研究,下面對一些期刊論文進行綜述,評價應(yīng)用的現(xiàn)狀及優(yōu)缺點等。帥麗媛選取我國煤炭上市公司作為研究對象,剔除ST公司以保證財務(wù)數(shù)據(jù)穩(wěn)定,用13個財務(wù)指標反映企業(yè)的盈利、償債、營運和發(fā)展能力。通過篩選,去除了3個指標,并將反向指標做了正向化處理。最終的側(cè)重是盈利能力4個指標,其余能力均是選取2個指標。第一個因子的貢獻率最高為35.667%,再結(jié)合其旋轉(zhuǎn)成分矩陣,能代表盈利能力的資產(chǎn)報酬率X3、凈資產(chǎn)收益率X4、營業(yè)凈利率X5、每股收益X6均超過0.85,說明通過因子分析,盈利能力最能影響財務(wù)績效評價。下一步對得分進行K-means法聚類分析,得出以下四類情況。第一類:償債能力較強而盈利能力弱,之前分析出盈利能力最能影響評價結(jié)果,所以這一類整體排名均靠后。剩余三類排名也均是受盈利能力的強弱影響,比如金瑞礦業(yè),三個指標排名都不靠前,卻能依靠一個盈利指標使綜合排名拉高。指標選取側(cè)重點在于盈利能力,所以排名最受盈利能力影響。對于煤炭上市公司指標選取是否應(yīng)以盈利能力為主,其中原因作者并未敘述。煤炭公司以國企為主,一直是高耗能、高污染產(chǎn)業(yè),而現(xiàn)今時代主題是去產(chǎn)能、去庫存的供給側(cè)改革和“綠水青山就是金山銀山”發(fā)展理論,其核心指標的選取應(yīng)該多加分析和探究。李慶東等人對醫(yī)藥上市公司的財務(wù)績效進行聚類分析,在指標選取過程中,提出了對盈利質(zhì)量和盈利數(shù)量的思考,最終敲定以32個指標來評價115家企業(yè)的財務(wù)績效。通過因子分析把32個指標降維,最終得到利用效果因子、主營業(yè)務(wù)獲利因子、現(xiàn)金流量因子、負債水平因子、所有者資本占固定資產(chǎn)價值因子、成長能力因子、經(jīng)營條件因子、資產(chǎn)保值增值因子和還債壓力因子。不僅能反映企業(yè)的盈利、負債、發(fā)展和營運能力,還體現(xiàn)了企業(yè)的資本結(jié)構(gòu)、現(xiàn)金流量等。通過聚類分析,最終所有企業(yè)被分成5類,提煉出每一類的共同點,并對醫(yī)藥行業(yè)的總體進行論述,最后對需要提高的點提出相應(yīng)的對策。由于旋轉(zhuǎn)成分表、得分排名表等均沒有列示,只能看出其指標多、公司多。創(chuàng)新之處在于,提出了盈利的質(zhì)量,不單單以盈利數(shù)量進行分析,其結(jié)果更加合理。龐鳳嬌選取32家鋼鐵行業(yè)上市公司作為研究對象,剔除其中的ST公司,剩余10家上市公司。將鋼鐵行業(yè)的節(jié)能減排戰(zhàn)略目標考慮到指標選取當中,并結(jié)合行業(yè)的實際發(fā)展情況,在傳統(tǒng)的財務(wù)績效評價體系中加入了股票投資獲利能力?,F(xiàn)今,在股市的投資活動已經(jīng)成為了眾多企業(yè)收入的重要來源,尤其是鋼鐵煤炭等高耗能、高污染傳統(tǒng)行業(yè)。作者通過專業(yè)知識結(jié)合行業(yè)狀況,形成了獨特的“綠色技術(shù)創(chuàng)新績效評價”體系,把每股收益、每股凈資產(chǎn)、每股未分配利潤和每股股利納入指標體系,較為全面地反映公司的股市投資能力。隨后,剔除相關(guān)性較高的指標,形成近似值矩陣,如表1所示。將償債能力每個指標的相關(guān)性進行列示,用以展示指標的篩選過程,讓讀者更清晰地理解。最終選擇了13個指標,發(fā)展能力3個、股票投資能力3個、盈利能力2個、營運能力2個、償債能力3個,指標分配比較均勻,沒有特別偏重的情況。研究使用的聚類方法是層次聚類法,使用平均距離來計算因子間的距離。平均距離可以反映類內(nèi)每個點之間的距離,比較客觀、合理。此外,由于分析中加入了股票獲利能力,不僅給行業(yè)內(nèi)部人員參考建議,還能讓股票市場的投資者對公司股票的漲跌有了清楚的認知。(表1)呂振君從盈利、償債、發(fā)展和營運能力四個傳統(tǒng)方面來考察50家物流企業(yè)的財務(wù)績效,指標選取很常規(guī)、很均勻,每組3個指標,但沒有見到對反向指標的正向化處理。在聚類分析的過程中,作者創(chuàng)造性地對聚類完成后的三個種類建立了得分評判標準,通過數(shù)據(jù)分析來清晰地展現(xiàn)每一類間的差別。付靜使用因子分析法和聚類分析法分析了28家上市公司的競爭力狀況,選取18個指標,運用SPSS軟件進行因子分析和聚類分析,但在聚類分析過程中,只對綜合得分這一個指標進行聚類。其指標所含信息丟失嚴重,為避免信息損失,應(yīng)該對所有因子的得分進行分別的權(quán)重計算,即用各自的得分乘以其權(quán)重,得出新的權(quán)重得分,再對結(jié)果進行聚類,才能保證信息盡可能反映在結(jié)果中。綜上,在文獻閱讀的過程中,可以得出一些簡單的體會:指標的選取應(yīng)該結(jié)合行業(yè)發(fā)展背景來看,不能忽略行業(yè)的制約因素和重大影響因素,比如龐鳳嬌建立的“綠色技術(shù)創(chuàng)新績效評價”體系,為高污染、高排放企業(yè)績效評價提供借鑒意義。此外,指標在體系中的分布應(yīng)該盡量均勻,不能厚此薄彼,如果偏重點過于集中,那么得出的結(jié)論是具有一定導(dǎo)向性的,比如說盈利能力指標占所以指標的50%以上,盈利指標的權(quán)重得分一定最高。在指標選取過程中,需要對反向指標進行正向化處理,比較常見的有用1減去原指標、取倒數(shù)等處理手段。具體實施過程可以借鑒龐鳳嬌的相關(guān)性矩陣處理,可以直接清晰地反映出如何剔除指標。另外,進行聚類分析時,不能僅用單個指標或綜合得分進行聚類,因為在數(shù)據(jù)折疊、展開過程中丟失的信息太多,而且如果類內(nèi)只有一個數(shù)據(jù),與別的數(shù)據(jù)計算之間的歐式距離沒有意義。此外,如果能像呂振君那樣建立一個分類評分標準,那么整個績效評價過程會更加完善,得出的結(jié)果也更有說服力。
雙網(wǎng)格校正小波聚類在航空發(fā)動機的應(yīng)用
摘要:航空發(fā)動機的核心部件轉(zhuǎn)子系統(tǒng),它的工作狀態(tài)關(guān)系到整臺機械設(shè)備的運行狀態(tài),對其進行狀態(tài)監(jiān)測和故障診斷能夠提高生產(chǎn)效率、避免重大事故發(fā)生,對現(xiàn)代工業(yè)的發(fā)展具有重大的意義。通過運用雙網(wǎng)格校正小波聚類算法分析航空發(fā)動機的故障信號可以更好的將同類數(shù)據(jù)歸類,并將噪聲數(shù)據(jù)從類中分離出來,從而提高聚類精度和更快得到聚類結(jié)果,因此該診斷方法可以提高航空發(fā)動機轉(zhuǎn)子系統(tǒng)的故障診斷水平。
關(guān)鍵詞:小波聚類;雙網(wǎng)格校正;航空發(fā)動機;故障診斷
航空航天產(chǎn)業(yè)的快速發(fā)展,越來越得到人們的重視,安全問題也成了重中之重的事情,輕則影響飛機的正常運行,重則機毀人亡,會給社會和人們帶來嚴重的經(jīng)濟損失。航空發(fā)動機作為飛機的重要組成部分,直接關(guān)系到飛機的安全飛行。而航空發(fā)動機的核心零部件轉(zhuǎn)子系統(tǒng),轉(zhuǎn)子系統(tǒng)的正常運行尤為重要,直接關(guān)系到飛機的運行狀態(tài),因此對轉(zhuǎn)子系統(tǒng)進行狀態(tài)監(jiān)測和故障診斷具有重要意義。WaveCluster算法是由GholamhoseinSheikholeslami、SurojitChatterjee、AidongZhang提出的,經(jīng)過多次完善,最終形成了現(xiàn)有的Wave-Cluster算法[1]。鄧貝貝對小波聚類算法在轉(zhuǎn)子故障診斷中的應(yīng)用進行了初步探索[2];劉曉波教授提出一種基于雙網(wǎng)格校正的小波聚類算法,并應(yīng)用于轉(zhuǎn)子故障診斷中[3],因此本文利用雙網(wǎng)格校正小波聚類算法對航空發(fā)動機轉(zhuǎn)子系統(tǒng)的故障信號進行診斷。
1基于雙網(wǎng)格校正小波聚類算法
小波聚類最終的量化結(jié)果是運用一種尺寸對空間進行均勻量化,一般而言,通過細化網(wǎng)格來準確捕獲邊界,但細化網(wǎng)格產(chǎn)生的網(wǎng)格點數(shù)的波動因閾值的設(shè)置可能使類分裂成更多小類,這就造成細化網(wǎng)格、聚類精度與閾值之間存在矛盾,而并行校正算法在這之間找到了一個平衡:降低網(wǎng)格劃分和密度閾值對聚類結(jié)果的影響,雙網(wǎng)格校正算法的框圖如圖1所示。小波聚類[4]最重要的思想是將數(shù)據(jù)空間轉(zhuǎn)換為信號空間,而后在信號空間中利用小波變換的原理去求解數(shù)據(jù)空間中數(shù)據(jù)聚類的問題,這種轉(zhuǎn)換最大限度地利用了小波變換和網(wǎng)格聚類兩者的優(yōu)勢?;陔p網(wǎng)格校正小波聚類算法是以兩種尺寸對空間并行量化,運用元胞數(shù)組結(jié)構(gòu)對有效信息進行存儲和運算,降低高維空間復(fù)雜度,運用廣度優(yōu)先搜索[5]鄰居網(wǎng)格單元連通聚類,提高聚類精度,并行地進行原始網(wǎng)格小波聚類和校正網(wǎng)格小波聚類,最后通過校正算法對原始網(wǎng)格小波聚類結(jié)果進行校正[6]。在量化之前就要先確定下特征空間的維數(shù)d。在雙網(wǎng)格校正小波聚類中,采取的是兩種尺度的網(wǎng)格對信號數(shù)據(jù)空間進行量化,確定K的取值范圍[Kmin,Kmax]。根據(jù)啟發(fā)式方法確定K的取值:[Kmin]。根據(jù)經(jīng)驗公式K=int(姨N),得到最佳劃分值為[Kmax]。其中,N為數(shù)據(jù)的個數(shù),d為特征空間的維數(shù)。
2實驗分析