天天精品资源在线观看,亚洲精品在线影院,女性私人爽爽影院免费观看国产,亚洲中文字幕aⅴ天堂自拍

(0)

首頁資料文庫正文

聚類范文10篇

時間：2024-02-18 15:43:29

導(dǎo)語：這里是公務(wù)員之家根據(jù)多年的文秘經(jīng)驗，為你推薦的十篇聚類范文，還可以咨詢客服老師獲取更多原創(chuàng)文章，歡迎參考。

聚類分析K-means算法研究

摘要：通過對聚類分析及其算法的論述，從多個方面對這些算法性能進行比較，同時以兒童生長發(fā)育時期的數(shù)據(jù)為例通過聚類分析的軟件和改進的K－means算法來進一步闡述聚類分析在數(shù)據(jù)挖掘中的實踐應(yīng)用。

關(guān)鍵詞：數(shù)據(jù)挖掘；聚類分析；數(shù)據(jù)庫；聚類算法

隨著計算機硬件和軟件技術(shù)的飛速發(fā)展，尤其是數(shù)據(jù)庫技術(shù)的普及，人們面臨著日益擴張的數(shù)據(jù)海洋，原來的數(shù)據(jù)分析工具已無法有效地為決策者提供決策支持所需要的相關(guān)知識，從而形成一種獨特的現(xiàn)象“豐富的數(shù)據(jù)，貧乏的知識”。數(shù)據(jù)挖掘[1]又稱為數(shù)據(jù)庫中知識發(fā)現(xiàn)（KnowledgeDiscoveryfromDatabase，KDD），它是一個從大量數(shù)據(jù)中抽取挖掘出未知的、有價值的模式或規(guī)律等知識的復(fù)雜過程。目的是在大量的數(shù)據(jù)中發(fā)現(xiàn)人們感興趣的知識。

常用的數(shù)據(jù)挖掘技術(shù)包括關(guān)聯(lián)分析、異類分析、分類與預(yù)測、聚類分析以及演化分析等。由于數(shù)據(jù)庫中收集了大量的數(shù)據(jù)，聚類分析已經(jīng)成為數(shù)據(jù)挖掘領(lǐng)域的重要技術(shù)之一。

1問題的提出

隨著社會的發(fā)展和人們生活水平的提高，優(yōu)育觀念[2，3]逐漸滲透到每個家庭，小兒的生長發(fā)育越來越引起家長們的重視。中國每隔幾年都要進行全國兒童營養(yǎng)調(diào)查，然而用手工計算的方法在大量的數(shù)據(jù)中分析出其中的特點和規(guī)律，顯然是不現(xiàn)實的，也是不可行的。為了有效地解決這個問題，數(shù)據(jù)挖掘技術(shù)——聚類分析發(fā)揮了巨大的作用。

R軟件系統(tǒng)聚類分析剖析

提要多元統(tǒng)計聚類方法已被廣泛應(yīng)用于自然科學(xué)和社會科學(xué)的各個領(lǐng)域，而在現(xiàn)實處理多元數(shù)據(jù)聚類分析中，離不開統(tǒng)計軟件的支持；R軟件由于其免費、開源、強大的統(tǒng)計分析及其完美的作圖功能已得到越來越多人的關(guān)注與應(yīng)用；本文結(jié)合實例介紹了R軟件在多元統(tǒng)計系統(tǒng)分析中的應(yīng)用。

關(guān)鍵詞：R軟件；系統(tǒng)聚類分析；多元統(tǒng)計

引言

多元統(tǒng)計分析是統(tǒng)計學(xué)的一個重要分支，也稱多變量統(tǒng)計分析；在現(xiàn)實生活中，受多種指標共同作用和影響的現(xiàn)象大量存在，多元統(tǒng)計分析就是研究多個隨機變量之間相互依賴關(guān)系及其內(nèi)在統(tǒng)計規(guī)律的重要學(xué)科，其中最常用聚類分析方法，由于多元統(tǒng)計聚類分析方法一般涉及復(fù)雜的數(shù)學(xué)理論，一般無法用手工計算，必須有計算機和統(tǒng)計軟件的支持。

在統(tǒng)計軟件方面，常用的統(tǒng)計軟件有SPSS、SAS、STAT、R、S-PLUS，等等。R軟件是一個自由、免費、開源的軟件，是一個具有強大統(tǒng)計分析功能和優(yōu)秀統(tǒng)計制圖功能的統(tǒng)計軟件，現(xiàn)已是國內(nèi)外眾多統(tǒng)計學(xué)者喜愛的數(shù)據(jù)分析工具。本文結(jié)合實例介紹R軟件在多元統(tǒng)計聚類分析中的應(yīng)用。

一、系統(tǒng)聚類分析

新聚類判別分析研究思考

摘要：在分析經(jīng)典聚類判別分析方法實質(zhì)的基礎(chǔ)上，提出了一種新的聚類判別分析框架，改進了一種基于樣本指標值頻度計算的兩總體判別分析算法，提高了在對所有參與建立判別模型的樣本進行判別時的計算速度；給出了建立在此改進判別分析算法基礎(chǔ)上的一種動態(tài)聚類判別分析算法的設(shè)計，并實現(xiàn)了所有算法。進行相應(yīng)的實證研究，結(jié)果表明以此聚類判別分析框架對給定樣本集合進行分析，可以迅速得到多個合理的聚類結(jié)果以及對聚類結(jié)果的清晰解釋，既可以對已有的聚類結(jié)果進行驗證，又可以進行數(shù)據(jù)的探索性分析。

關(guān)鍵詞：聚類分析；判別分析；動態(tài)聚類

0引言

經(jīng)典聚類分析算法是基于距離計算的。然而除馬氏距離定義外，其他距離定義都存在樣本指標的量綱處理問題；除馬氏距離和斜交空間距離定義外，其他距離定義都存在樣本指標的相關(guān)性處理問題；另外，包括馬氏距離在內(nèi)的所有距離定義都存在將用于聚類的指標同等對待的缺點，不能反映不同指標對聚類結(jié)果的貢獻程度。

一般情況下，在確定樣本間距離計算方法的基礎(chǔ)上，用不同的聚類分析方法得到聚類的結(jié)果是不會完全一致的。這是因為在實際應(yīng)用中，許多對象在不同類之間本身并無清晰的劃分。這導(dǎo)致了在既定用于聚類的指標組合的情況下，用不同的聚類方法對同一組樣本進行分析會得到不同的聚類結(jié)果。如上所述，即使使用同一種聚類方法，有時由于樣本的排列順序不同，也可能導(dǎo)致不同的分類結(jié)果。這就提出了對不同的聚類方法進行評價的問題。關(guān)于所用方法好壞的評價，現(xiàn)在還沒有一個合適的標準。Edwards和CAVALLIsforza(1965)曾建議把樣本分成兩類，使得兩類間的離差平方和最大[1]。D.FisherWalter也指出，應(yīng)該尋找使類內(nèi)差異最小的聚類方法[2]。因此，評價不同聚類方法的一個重要方面，就是看這些方法得到的聚類結(jié)果在類內(nèi)的接近程度和在類間的相隔程度。一個較好的分類方法應(yīng)該得到類內(nèi)差異較小、類間差異較大的聚類結(jié)果。在實際應(yīng)用中，一般采用以下兩種處理方法：a)根據(jù)分類問題本身的專業(yè)知識，結(jié)合實際需要來選擇分類的方法，并確定分類的個數(shù)；b)用多種方法對數(shù)據(jù)進行分析處理，把結(jié)果的共性取出來。如果用幾種方法的某些結(jié)果都一樣，則說明這樣的聚類確實反映了事物的本質(zhì)。將有爭議的樣本暫放一邊，或者用其他方法如判別分析進行處理歸類。另外，在聚類分析方法既定的情況下，同一組樣本采用不同的指標組合進行聚類分析，通常也會得到不同的分類結(jié)果。產(chǎn)生不同結(jié)果的原因主要是由于不同的指標組合測度是樣本間的不同側(cè)面的相似程度，在進行聚類分析時存在指標組合選擇的問題。一般是根據(jù)聚類的實際需要進行指標的選擇，這是一個比較復(fù)雜并且?guī)в兄饔^性的問題。實踐中，在開始進行聚類分析時，通常是先選擇多種指標組合分別進行聚類，然后對聚類分析的結(jié)果進行對比分析，以確定出合適的測度指標。

判別分析產(chǎn)生于20世紀30年代，是利用已知類別的樣本建立判別模型，為未知類別的樣本判別的一種統(tǒng)計方法。近年來，判別分析在自然科學(xué)、社會學(xué)及經(jīng)濟管理學(xué)科中都有廣泛的應(yīng)用。判別分析的特點是根據(jù)已掌握的、歷史上每個類別的若干樣本的數(shù)據(jù)信息，總結(jié)出客觀事物分類的規(guī)律性，建立判別公式和判別準則。當遇到新的樣本點時，只要根據(jù)總結(jié)出來的判別公式和判別準則，就能判別該樣本點所屬的類別。判別分析按照判別的組數(shù)來區(qū)分，可以分為兩組判別分析和多組判別分析。本文僅研究兩組判別分析。在眾多的判別分析方法中，最直觀的是距離判別法。

低碳經(jīng)濟下資源環(huán)境現(xiàn)狀的聚類分析

1我國各地區(qū)人均廢水、廢氣排放量的聚類分析

1.1我國各地區(qū)人均廢水排放量的聚類分析

隨著我國城市化速度的加快，城鄉(xiāng)居民生活水平不斷提高，廢水污染物排放量明顯增多.2011年，我國廢水排放總量為659億噸，其中化學(xué)需氧量2500萬噸，氨氮260萬噸，總氮447萬噸，總磷55萬噸，石油類21012噸，揮發(fā)酚2431噸，鉛155242千克，汞2892千克，鎘35899千克，六價鉻106395千克，總鉻293166千克，砷146616千克。文章選取2011年我國30個省市（西藏數(shù)據(jù)缺失）廢水排放量數(shù)據(jù)，運用SPSS16.0軟件進行聚類分析，將我國各地區(qū)人均廢水排放量分為四類。由表2可知，從人均廢水排放量來看，屬于Ⅰ類地區(qū)的有云南、甘肅，屬于Ⅱ類地區(qū)的有天津、河北、山西、內(nèi)蒙古、遼寧、吉林、黑龍江、安徽、江西、山東、河南、湖北、湖南、廣西、海南、重慶、四川、云南、陜西、青海、新疆，屬于Ⅲ類地區(qū)的有北京、江蘇、浙江、廣東、寧夏，屬于Ⅳ類地區(qū)的有上海、福建.發(fā)達省份的人均廢水排放量較高，欠發(fā)達省份較低，發(fā)達地區(qū)工業(yè)經(jīng)濟繁榮，企業(yè)較多，導(dǎo)致工業(yè)廢水排放量居高不下。其中，寧夏造紙業(yè)企業(yè)較多，造成工業(yè)廢水排放量大。我國經(jīng)濟處于工業(yè)化快速發(fā)展階段，日趨嚴重的水污染使水體的使用功能降低，制約了我國經(jīng)濟可持續(xù)發(fā)展。

1.2我國各地區(qū)人均二氧化硫排放量的聚類分析

在廢氣排放方面，2011年我國二氧化硫排放總量為228萬噸，文章選取2011年我國30個省市（西藏數(shù)據(jù)缺失）二氧化硫排放量數(shù)據(jù)，運用SPSS16.0軟件進行聚類分析，將我國各地區(qū)人均二氧化硫排放量分為四類。由表2可知，從人均二氧化硫排放量來看，屬于Ⅰ類地區(qū)的有北京、海南，屬于Ⅱ類地區(qū)的有天津、河北、吉林、黑龍江、上海、江蘇、浙江、安徽、福建、江西、山東、河南、湖北、湖南、廣東、廣西、重慶、四川、云南，屬于Ⅲ類地區(qū)的有山西、遼寧、貴州、陜西、甘肅、青海、新疆，屬于Ⅳ類地區(qū)的有內(nèi)蒙古、寧夏。能源豐富的省份人均二氧化硫排放量較高，內(nèi)蒙古和寧夏是典型的以能源工業(yè)為支柱產(chǎn)業(yè)的省份，煤的開采量多，通過燃燒煤進行火力發(fā)電，排放出大量的二氧化硫。

1.3我國各地區(qū)人均氮氧化物排放量的聚類分析

聚類算法項目成本動因合并研究

摘要：在作業(yè)成本法實施過程中，由于成本動因數(shù)量龐大及其復(fù)雜性導(dǎo)致大多數(shù)企業(yè)放棄使用作業(yè)成本法。因此，科學(xué)合理的選擇及合并成本動因是保證作業(yè)成本法有效實施的關(guān)鍵。文章以A風(fēng)景園林規(guī)劃研究院規(guī)劃設(shè)計類項目為例，運用主成分分析與聚類分析算法將存在相關(guān)性成本動因進行科學(xué)有效的合并，最終得到最具代表性的成本動因，顯著降低了作業(yè)成本計算的復(fù)雜性，在保障項目成本核算準確性的同時，減少了收集和處理成本數(shù)據(jù)的成本耗費。

關(guān)鍵詞：主成分分析；成本動因合并；成本核算；層次聚類；作業(yè)成本法

一、引言

作業(yè)成本法（Activity-BasedCosting，ABC）自20世紀90年代初引入我國以來，應(yīng)用已日趨普遍，在行業(yè)領(lǐng)域方面已由最初的制造業(yè)擴展到了零售、金融、保險以及醫(yī)療衛(wèi)生等行業(yè)。隨著近年來園林規(guī)劃設(shè)計行業(yè)競爭的加劇，為了提高成本管理水平，將作業(yè)成本法引入到規(guī)劃設(shè)計類項目成本管理中就顯得十分必要。相對于其他行業(yè)，規(guī)劃設(shè)計行業(yè)間接成本占比較大，費用科目較多，不僅核算難度較大，在成本核算過程中需要大量的成本動因來計量間接費用的耗費，大量的成本動因會增加成本核算過程中信息收集、處理的成本，然而，在實務(wù)中企業(yè)進行成本核算不僅需要考慮結(jié)果的準確性，還必須考慮核算成本的提高，這也導(dǎo)致很多企業(yè)放棄引入作業(yè)成本法。因此，企業(yè)在實際運用作業(yè)成本法進行成本核算過程中，需要合理選擇并有效合并成本動因，在不損失過多成本精確度的同時減少核算成本耗費。機器學(xué)習(xí)作為實現(xiàn)人工智能技術(shù)的一種方法，憑借強大的計算能力分析數(shù)據(jù)的特征，將在某些特征上相同或相似數(shù)據(jù)自動形成集合。在成本動因合并的研究中，運用基于機器學(xué)習(xí)算法中的降維、聚類等無監(jiān)督學(xué)習(xí)算法，有助于企業(yè)從大量的成本相關(guān)數(shù)據(jù)中客觀的選擇最具代表性的成本動因，避免人為的經(jīng)驗判斷導(dǎo)致的主觀偏差，最終提高代表性成本動因選擇的可靠性?？v觀已有文獻，不少學(xué)者通過實例運用將同質(zhì)性成本動因進行合并，能夠?qū)崿F(xiàn)在可接受的誤差范圍內(nèi)保證核算結(jié)果的準確度[1-2]。然而在規(guī)劃設(shè)計類項目研究方面，大多學(xué)者主要研究于作業(yè)成本法在規(guī)劃設(shè)計類項目適用性和實例運用[3-4]，較少從成本動因合并角度解決作業(yè)成本法在設(shè)計規(guī)劃類項目實際應(yīng)用中的成本效益失衡問題。鑒于此，本文以A風(fēng)景園林規(guī)劃研究院規(guī)劃設(shè)計類項目為例，以現(xiàn)有成本動因合并理論為基礎(chǔ)，結(jié)合設(shè)計規(guī)劃類企業(yè)的特點，構(gòu)建基于主成分分析算法和層次聚類算法設(shè)計項目成本動因合并模型，將一組數(shù)據(jù)的“主要成分”提取出來而忽略剩下的次要內(nèi)容，達到數(shù)據(jù)降維的效果，以減少運算資源消耗的目的，降低作業(yè)成本法實施成本和復(fù)雜度，提高了規(guī)劃設(shè)計類單位運用作業(yè)成本法的可操作性，從而推進成本核算工作。

二、A研究院項目成本核算的現(xiàn)狀與問題分析

A風(fēng)景園林規(guī)劃研究院（以下簡稱“A研究院”）隸屬于自收自支正處級公益二類事業(yè)單位。承擔城市園林綠化管理信息平臺建設(shè)工作以及根據(jù)資質(zhì)提供規(guī)劃編制、風(fēng)景園林設(shè)計、城市市政工程設(shè)計、建筑設(shè)計等技術(shù)服務(wù)。規(guī)劃設(shè)計類項目不同于傳統(tǒng)的制造行業(yè)，其經(jīng)濟利潤的創(chuàng)造主要依賴人員的知識和技術(shù)，知識技術(shù)作為單位最基本的核心生產(chǎn)要素，成本核算方法與傳統(tǒng)成本核算存在著顯著的差異。通過對A研究院實地調(diào)研以及結(jié)合歷史數(shù)據(jù)分析發(fā)現(xiàn)，目前運用作業(yè)成本法進行項目成本核算仍存在一些問題。

透析證候研究中變量聚類結(jié)果

近年來，有不少學(xué)者利用系統(tǒng)變量聚類方法對西醫(yī)病種中中醫(yī)癥狀的分布情況進行研究。例如，麻氏等[1]通過對739例膽病病案進行分析，得到9個類，并把它們分別詮釋為肝膽濕熱證、肝膽郁熱證、肝膽蘊熱證、肝膽氣郁證、血瘀證、脾失健運證、陽虛寒濕證、陰虛內(nèi)熱證和熱毒亡陽證。筆者剖析系統(tǒng)變量聚類結(jié)果的統(tǒng)計學(xué)含義，并基于此討論把它們詮釋為證候的合理性。我們的結(jié)論是，變量聚類的結(jié)果不能詮釋為證候。

1變量聚類結(jié)果的統(tǒng)計學(xué)含義

在麻氏等[2]分析的膽病數(shù)據(jù)中，癥狀變量全部是二值的。分析所得的變量類之一如下。

類1：發(fā)熱寒戰(zhàn)、右上腹壓痛拒按、黃疸、惡心嘔吐、右上腹疼痛、大便秘結(jié)、小便色黃、苔黃、苔膩、脈滑、脈弦、口苦。

本節(jié)以這個類為例，剖析系統(tǒng)變量聚類結(jié)果的含義。要準確把握這個類的含義，需要考慮3個因素，即“變量”與“事件”這兩個概念的區(qū)別、變量間相似系數(shù)的定義以及變量類間相似系數(shù)的定義。下面逐一討論這3個因素。

1.1變量與事件

信息化水平聚類分析論文

1、變量指標的選取

國家統(tǒng)計局在其《中國信息能力報告》中，設(shè)計了一套評價我國信息化水平的指標：指標體系共分4級，有25個指標：①信息技術(shù)和信息設(shè)備應(yīng)用能力：a.每千人擁有PC數(shù)；b.每千人擁有傳真機數(shù)；c.每百人擁有電話數(shù)；d.每千人擁有電視機數(shù)；e.每千人擁有收音機數(shù)；f.每萬人接入因特網(wǎng)用戶；g.每百萬人互聯(lián)網(wǎng)上網(wǎng)主機數(shù)；h.每平方公里光纜長度；i.每百家企事業(yè)單位上網(wǎng)數(shù)；j.基礎(chǔ)信息產(chǎn)業(yè)產(chǎn)值占GDP比重。②信息資源及開發(fā)利用能力：a.每戶打國際電話時間；b.每百人期刊發(fā)行量；c.每日信息量；d.網(wǎng)絡(luò)用戶平均上網(wǎng)時間；e.每萬人Web站點數(shù)。③人口素質(zhì)：a.每萬人平均科學(xué)家和工程師數(shù)；b.第三產(chǎn)業(yè)從業(yè)人數(shù)占就業(yè)總?cè)丝诒戎?；c.大學(xué)入學(xué)率；d.每十萬人在校學(xué)生數(shù)；e.計算機專家和工程師數(shù)。④國家對信息產(chǎn)業(yè)發(fā)展的支撐：a.信息產(chǎn)業(yè)產(chǎn)值占GDP比重；b.研究開發(fā)(R&G)支出占GDP比重；c.每主線電信投資；d.人均GNP；e.教育投入。

鑒于遵循數(shù)據(jù)的客觀性和代表性，以及易得性，本文采取以下指標：每千人工業(yè)增加值x1；每千人電信業(yè)務(wù)量x2；每千人移動通信交換機容量x3；移動電話普及率x4；電話普及率x5；廣播綜合人口覆蓋率x6；電視綜合人口覆蓋率x7；有線電視普及率x8；每十戶寬帶上網(wǎng)用占有戶數(shù)x9；R&D經(jīng)費支出占GDP比重x10；每十人從事科技活動人員總數(shù)占有的人數(shù)x11；每十人在校大學(xué)生人數(shù)占有的人數(shù)x12；每千人專利授權(quán)數(shù)占有數(shù)x13。其中缺省值用平均值代替或者臨近年數(shù)內(nèi)值代替。由于篇幅有限，指標數(shù)據(jù)省略。

2、因子分析

因子分析法是能夠?qū)崿F(xiàn)數(shù)據(jù)簡化目的的有效方法之一。其基本思想是根據(jù)相關(guān)性大小把變量分組，使得同組內(nèi)的變量之間相關(guān)性較高，使不同組的變量相關(guān)性較低，每組變量代表一個基本結(jié)構(gòu)，這個基本結(jié)構(gòu)稱為公共因子。運用因子分析法，借助EXCEL多元統(tǒng)分析，對已得的指標數(shù)據(jù)進行分析處理，在處理過程中選取方差貢獻比率為0.80。

按照方差貢獻比率大于80%，應(yīng)提取前四個因子，它們所解釋的方差占總方差的84.58%，這四個因子就可以解釋原始數(shù)據(jù)的大部分信息了。

K-Means聚類算法數(shù)據(jù)分析

摘要：K-Means算法是無監(jiān)督學(xué)習(xí)中經(jīng)典的算法之一，通過組間的相異性規(guī)則把不同事物劃分為若干類，使各類之間的數(shù)據(jù)最為相似，不同類數(shù)據(jù)相異性盡可能最大化。本文通過K-means聚類算法分析某學(xué)校大學(xué)生期末大學(xué)信息技術(shù)基礎(chǔ)和C語言程序設(shè)計的成績，通過數(shù)據(jù)分析表明想要提高學(xué)生的整體成績，需要在C語言程序設(shè)計上付出更大的努力。

關(guān)鍵詞：K-means；數(shù)據(jù)分析；機器學(xué)習(xí)

1概述

機器學(xué)習(xí)中有兩類大問題：一個是聚類，另一個是分類。聚類是統(tǒng)計學(xué)的概念，屬于非監(jiān)督機器學(xué)習(xí)(unsupervisedlearning)，應(yīng)用中數(shù)據(jù)挖掘，數(shù)據(jù)分析等領(lǐng)域，根據(jù)數(shù)據(jù)不同特征，將其劃分為不同的數(shù)據(jù)類，屬于一種無監(jiān)督學(xué)習(xí)方法。它的目的是使得屬于同一類別個體之間的密度盡可能的高，而不同類別個體間的密度盡可能的低[1]。分類是用已知的結(jié)果類別訓(xùn)練數(shù)據(jù)，對預(yù)測數(shù)據(jù)進行預(yù)測分類，屬于有監(jiān)督學(xué)習(xí)（supervisedlearning），常見的算法如邏輯回歸、支持向量機、深度學(xué)習(xí)等。聚類也是對數(shù)據(jù)進行歸類，不過聚類算法的訓(xùn)練數(shù)據(jù)只有輸入，事先并不清楚數(shù)據(jù)的類別，通過特征的相似性對文本進行無監(jiān)督的學(xué)習(xí)分類。聚類試圖將數(shù)據(jù)集中的樣本劃分為若干個通常不相交的子集，每個子集稱為一個簇（cluster）[2]。K-means屬于經(jīng)典聚類算法,根據(jù)樣本間的距離或者相異性進行聚類，把特征相似的樣本歸為一類，相異的樣本歸為不同的簇。

2理論基礎(chǔ)

K-Means算法是從訓(xùn)練集D={x1,x2,…,xn}中選取K個樣本作為初始聚類中心c=c1,c2,…,ck,計算數(shù)據(jù)集中每個樣本xi到k個樣本初始中心點的距離，并把每個樣本劃分到離它最近的中心點的類中；每個簇類別βj，重新計算該簇所有樣本的質(zhì)心βj=1|cj|i∈cjΣxj,重復(fù)以上兩步，迭代更新直到每類質(zhì)心的變化小于閾值或者達到最大迭代次數(shù)?；静襟E為選擇數(shù)據(jù)中心，計算距離，分簇，重新選擇數(shù)據(jù)的質(zhì)心，重復(fù)，直到數(shù)據(jù)收斂或達到最大迭代次數(shù)。該算法不能保證收斂到全局最優(yōu)。選擇訓(xùn)練過程的偽代碼如下：訓(xùn)練數(shù)據(jù)n個m維的數(shù)據(jù)，隨機生成初始化聚類中心k個m維的點。While(t)t為迭代次數(shù)Foriinrange(n+1):#n為樣本點個數(shù)。Forjinrange(k+1):#k為簇的數(shù)目。Foriinrange(k+1):#計算樣本i到每個簇質(zhì)點j的距離。找出屬于這個簇中的所有數(shù)據(jù)點，計算這類的質(zhì)心。重復(fù)以上步驟，直到每類質(zhì)心變化小于設(shè)定的閾值或者達到最大的迭代次數(shù)。設(shè)置最大特征數(shù)，設(shè)置分類的組K值，訓(xùn)練特征數(shù)據(jù)進行數(shù)據(jù)分析。本文將數(shù)據(jù)過濾清洗，去除停用詞轉(zhuǎn)化為向量模型，使用TF-IDF算法對詞頻進行權(quán)重計算，TF是詞頻，IDF是逆文檔頻率，TF-IDF反應(yīng)了一個詞在文本中的重要性它的值是TF×IDF。使用Python中的sklearn模塊的TfidfTransformer、CountVectorizer方法計算TF-IDF值，轉(zhuǎn)化為空間向量模型，選用K-means聚類算法對數(shù)據(jù)進行挖掘與分析。

聚類分析在財務(wù)績效評價的應(yīng)用

［提要］本文探討數(shù)據(jù)挖掘技術(shù)中聚類分析在財務(wù)績效評價中的應(yīng)用進展。介紹背景及意義，應(yīng)用現(xiàn)狀，簡述利用聚類分析法進行財務(wù)績效評價的一般流程，并提出對財會和數(shù)據(jù)挖掘技術(shù)結(jié)合的一些看法和觀點。

關(guān)鍵詞：財務(wù)績效分析；指標選??；聚類分析法

引言

（一）背景及意義。企業(yè)的財務(wù)績效是指企業(yè)的運營、戰(zhàn)略的執(zhí)行等是否能提高企業(yè)最終的經(jīng)營業(yè)績。財務(wù)績效能夠詳細地反映出企業(yè)在對成本的控制能力、合理調(diào)配各項資金的水平、管理資產(chǎn)用于盈利的程度。然而，現(xiàn)階段，僅憑借簡單的數(shù)據(jù)分析對企業(yè)財務(wù)績效進行分析是不充分、不全面的，所以需要引入其他的研究方法。而且隨著信息時代的來臨，鋪天蓋地的信息碎片為我們的財務(wù)工作帶來了巨大的數(shù)據(jù)量，財務(wù)工作中收集到的數(shù)據(jù)中往往存在一些內(nèi)在邏輯關(guān)系，因此學(xué)會利用數(shù)據(jù)挖掘技術(shù)對深入研究財務(wù)數(shù)據(jù)越發(fā)重要。數(shù)據(jù)挖掘中的聚類分析被廣泛應(yīng)用在各種財務(wù)分析中，如財務(wù)風(fēng)險分析、財務(wù)績效分析、財務(wù)數(shù)據(jù)分析等。本文將探討聚類分析在財務(wù)績效評價中的應(yīng)用進展。（二）相關(guān)概念1、財務(wù)績效評價。財務(wù)績效評價表示用科學(xué)合理的方法對企業(yè)某個時期內(nèi)的生產(chǎn)經(jīng)營結(jié)果進行定性定量的分析，使得企業(yè)業(yè)績具有可比性。便于利益相關(guān)者們直觀地理解財務(wù)績效，并對企業(yè)經(jīng)營成果做出客觀、公正的評判。正是因為財務(wù)績效評價的客觀性與公正性，財務(wù)績效評價已經(jīng)成為了分析企業(yè)經(jīng)營狀況不可缺少的部分。2、聚類分析。聚類分析的基礎(chǔ)是數(shù)據(jù)之間存在相似性，在此基礎(chǔ)上將數(shù)據(jù)分為幾類，是一種常見的數(shù)據(jù)挖掘手段。數(shù)據(jù)間的相關(guān)性是存在價值的，因此聚類分析可以被用于提取數(shù)據(jù)間存在的特性來產(chǎn)生價值。在進行聚類之前，需要保證數(shù)據(jù)之間的相關(guān)性，這一步則需要通過因子分析來實現(xiàn)。

一、應(yīng)用現(xiàn)狀及評價

在財務(wù)績效評價和聚類分析的結(jié)合方面，國內(nèi)存在大量研究，下面對一些期刊論文進行綜述，評價應(yīng)用的現(xiàn)狀及優(yōu)缺點等。帥麗媛選取我國煤炭上市公司作為研究對象，剔除ST公司以保證財務(wù)數(shù)據(jù)穩(wěn)定，用13個財務(wù)指標反映企業(yè)的盈利、償債、營運和發(fā)展能力。通過篩選，去除了3個指標，并將反向指標做了正向化處理。最終的側(cè)重是盈利能力4個指標，其余能力均是選取2個指標。第一個因子的貢獻率最高為35.667%，再結(jié)合其旋轉(zhuǎn)成分矩陣，能代表盈利能力的資產(chǎn)報酬率X3、凈資產(chǎn)收益率X4、營業(yè)凈利率X5、每股收益X6均超過0.85，說明通過因子分析，盈利能力最能影響財務(wù)績效評價。下一步對得分進行K-means法聚類分析，得出以下四類情況。第一類：償債能力較強而盈利能力弱，之前分析出盈利能力最能影響評價結(jié)果，所以這一類整體排名均靠后。剩余三類排名也均是受盈利能力的強弱影響，比如金瑞礦業(yè)，三個指標排名都不靠前，卻能依靠一個盈利指標使綜合排名拉高。指標選取側(cè)重點在于盈利能力，所以排名最受盈利能力影響。對于煤炭上市公司指標選取是否應(yīng)以盈利能力為主，其中原因作者并未敘述。煤炭公司以國企為主，一直是高耗能、高污染產(chǎn)業(yè)，而現(xiàn)今時代主題是去產(chǎn)能、去庫存的供給側(cè)改革和“綠水青山就是金山銀山”發(fā)展理論，其核心指標的選取應(yīng)該多加分析和探究。李慶東等人對醫(yī)藥上市公司的財務(wù)績效進行聚類分析，在指標選取過程中，提出了對盈利質(zhì)量和盈利數(shù)量的思考，最終敲定以32個指標來評價115家企業(yè)的財務(wù)績效。通過因子分析把32個指標降維，最終得到利用效果因子、主營業(yè)務(wù)獲利因子、現(xiàn)金流量因子、負債水平因子、所有者資本占固定資產(chǎn)價值因子、成長能力因子、經(jīng)營條件因子、資產(chǎn)保值增值因子和還債壓力因子。不僅能反映企業(yè)的盈利、負債、發(fā)展和營運能力，還體現(xiàn)了企業(yè)的資本結(jié)構(gòu)、現(xiàn)金流量等。通過聚類分析，最終所有企業(yè)被分成5類，提煉出每一類的共同點，并對醫(yī)藥行業(yè)的總體進行論述，最后對需要提高的點提出相應(yīng)的對策。由于旋轉(zhuǎn)成分表、得分排名表等均沒有列示，只能看出其指標多、公司多。創(chuàng)新之處在于，提出了盈利的質(zhì)量，不單單以盈利數(shù)量進行分析，其結(jié)果更加合理。龐鳳嬌選取32家鋼鐵行業(yè)上市公司作為研究對象，剔除其中的ST公司，剩余10家上市公司。將鋼鐵行業(yè)的節(jié)能減排戰(zhàn)略目標考慮到指標選取當中，并結(jié)合行業(yè)的實際發(fā)展情況，在傳統(tǒng)的財務(wù)績效評價體系中加入了股票投資獲利能力?，F(xiàn)今，在股市的投資活動已經(jīng)成為了眾多企業(yè)收入的重要來源，尤其是鋼鐵煤炭等高耗能、高污染傳統(tǒng)行業(yè)。作者通過專業(yè)知識結(jié)合行業(yè)狀況，形成了獨特的“綠色技術(shù)創(chuàng)新績效評價”體系，把每股收益、每股凈資產(chǎn)、每股未分配利潤和每股股利納入指標體系，較為全面地反映公司的股市投資能力。隨后，剔除相關(guān)性較高的指標，形成近似值矩陣，如表1所示。將償債能力每個指標的相關(guān)性進行列示，用以展示指標的篩選過程，讓讀者更清晰地理解。最終選擇了13個指標，發(fā)展能力3個、股票投資能力3個、盈利能力2個、營運能力2個、償債能力3個，指標分配比較均勻，沒有特別偏重的情況。研究使用的聚類方法是層次聚類法，使用平均距離來計算因子間的距離。平均距離可以反映類內(nèi)每個點之間的距離，比較客觀、合理。此外，由于分析中加入了股票獲利能力，不僅給行業(yè)內(nèi)部人員參考建議，還能讓股票市場的投資者對公司股票的漲跌有了清楚的認知。（表1）呂振君從盈利、償債、發(fā)展和營運能力四個傳統(tǒng)方面來考察50家物流企業(yè)的財務(wù)績效，指標選取很常規(guī)、很均勻，每組3個指標，但沒有見到對反向指標的正向化處理。在聚類分析的過程中，作者創(chuàng)造性地對聚類完成后的三個種類建立了得分評判標準，通過數(shù)據(jù)分析來清晰地展現(xiàn)每一類間的差別。付靜使用因子分析法和聚類分析法分析了28家上市公司的競爭力狀況，選取18個指標，運用SPSS軟件進行因子分析和聚類分析，但在聚類分析過程中，只對綜合得分這一個指標進行聚類。其指標所含信息丟失嚴重，為避免信息損失，應(yīng)該對所有因子的得分進行分別的權(quán)重計算，即用各自的得分乘以其權(quán)重，得出新的權(quán)重得分，再對結(jié)果進行聚類，才能保證信息盡可能反映在結(jié)果中。綜上，在文獻閱讀的過程中，可以得出一些簡單的體會：指標的選取應(yīng)該結(jié)合行業(yè)發(fā)展背景來看，不能忽略行業(yè)的制約因素和重大影響因素，比如龐鳳嬌建立的“綠色技術(shù)創(chuàng)新績效評價”體系，為高污染、高排放企業(yè)績效評價提供借鑒意義。此外，指標在體系中的分布應(yīng)該盡量均勻，不能厚此薄彼，如果偏重點過于集中，那么得出的結(jié)論是具有一定導(dǎo)向性的，比如說盈利能力指標占所以指標的50%以上，盈利指標的權(quán)重得分一定最高。在指標選取過程中，需要對反向指標進行正向化處理，比較常見的有用1減去原指標、取倒數(shù)等處理手段。具體實施過程可以借鑒龐鳳嬌的相關(guān)性矩陣處理，可以直接清晰地反映出如何剔除指標。另外，進行聚類分析時，不能僅用單個指標或綜合得分進行聚類，因為在數(shù)據(jù)折疊、展開過程中丟失的信息太多，而且如果類內(nèi)只有一個數(shù)據(jù)，與別的數(shù)據(jù)計算之間的歐式距離沒有意義。此外，如果能像呂振君那樣建立一個分類評分標準，那么整個績效評價過程會更加完善，得出的結(jié)果也更有說服力。

雙網(wǎng)格校正小波聚類在航空發(fā)動機的應(yīng)用

摘要：航空發(fā)動機的核心部件轉(zhuǎn)子系統(tǒng)，它的工作狀態(tài)關(guān)系到整臺機械設(shè)備的運行狀態(tài)，對其進行狀態(tài)監(jiān)測和故障診斷能夠提高生產(chǎn)效率、避免重大事故發(fā)生，對現(xiàn)代工業(yè)的發(fā)展具有重大的意義。通過運用雙網(wǎng)格校正小波聚類算法分析航空發(fā)動機的故障信號可以更好的將同類數(shù)據(jù)歸類，并將噪聲數(shù)據(jù)從類中分離出來，從而提高聚類精度和更快得到聚類結(jié)果，因此該診斷方法可以提高航空發(fā)動機轉(zhuǎn)子系統(tǒng)的故障診斷水平。

關(guān)鍵詞：小波聚類；雙網(wǎng)格校正；航空發(fā)動機；故障診斷

航空航天產(chǎn)業(yè)的快速發(fā)展，越來越得到人們的重視，安全問題也成了重中之重的事情，輕則影響飛機的正常運行，重則機毀人亡，會給社會和人們帶來嚴重的經(jīng)濟損失。航空發(fā)動機作為飛機的重要組成部分，直接關(guān)系到飛機的安全飛行。而航空發(fā)動機的核心零部件轉(zhuǎn)子系統(tǒng)，轉(zhuǎn)子系統(tǒng)的正常運行尤為重要，直接關(guān)系到飛機的運行狀態(tài)，因此對轉(zhuǎn)子系統(tǒng)進行狀態(tài)監(jiān)測和故障診斷具有重要意義。WaveCluster算法是由GholamhoseinSheikholeslami、SurojitChatterjee、AidongZhang提出的，經(jīng)過多次完善，最終形成了現(xiàn)有的Wave-Cluster算法[1]。鄧貝貝對小波聚類算法在轉(zhuǎn)子故障診斷中的應(yīng)用進行了初步探索[2]；劉曉波教授提出一種基于雙網(wǎng)格校正的小波聚類算法，并應(yīng)用于轉(zhuǎn)子故障診斷中[3]，因此本文利用雙網(wǎng)格校正小波聚類算法對航空發(fā)動機轉(zhuǎn)子系統(tǒng)的故障信號進行診斷。

1基于雙網(wǎng)格校正小波聚類算法

小波聚類最終的量化結(jié)果是運用一種尺寸對空間進行均勻量化，一般而言，通過細化網(wǎng)格來準確捕獲邊界，但細化網(wǎng)格產(chǎn)生的網(wǎng)格點數(shù)的波動因閾值的設(shè)置可能使類分裂成更多小類，這就造成細化網(wǎng)格、聚類精度與閾值之間存在矛盾，而并行校正算法在這之間找到了一個平衡：降低網(wǎng)格劃分和密度閾值對聚類結(jié)果的影響，雙網(wǎng)格校正算法的框圖如圖1所示。小波聚類[4]最重要的思想是將數(shù)據(jù)空間轉(zhuǎn)換為信號空間，而后在信號空間中利用小波變換的原理去求解數(shù)據(jù)空間中數(shù)據(jù)聚類的問題，這種轉(zhuǎn)換最大限度地利用了小波變換和網(wǎng)格聚類兩者的優(yōu)勢?；陔p網(wǎng)格校正小波聚類算法是以兩種尺寸對空間并行量化，運用元胞數(shù)組結(jié)構(gòu)對有效信息進行存儲和運算，降低高維空間復(fù)雜度，運用廣度優(yōu)先搜索[5]鄰居網(wǎng)格單元連通聚類，提高聚類精度，并行地進行原始網(wǎng)格小波聚類和校正網(wǎng)格小波聚類，最后通過校正算法對原始網(wǎng)格小波聚類結(jié)果進行校正[6]。在量化之前就要先確定下特征空間的維數(shù)d。在雙網(wǎng)格校正小波聚類中，采取的是兩種尺度的網(wǎng)格對信號數(shù)據(jù)空間進行量化，確定K的取值范圍[Kmin，Kmax]。根據(jù)啟發(fā)式方法確定K的取值：[Kmin]。根據(jù)經(jīng)驗公式K=int（姨N），得到最佳劃分值為[Kmax]。其中，N為數(shù)據(jù)的個數(shù)，d為特征空間的維數(shù)。

2實驗分析

上一篇：俱樂部范文
下一篇：距離范文

熱門標簽

相關(guān)文章

1聚類分析在財務(wù)績效評價的應(yīng)用

2聚類算法項目成本動因合并研究

3K-Means聚類算法數(shù)據(jù)分析

4雙網(wǎng)格校正小波聚類在航空發(fā)動機的應(yīng)用

5探索性和聚類《高等數(shù)學(xué)》成績分析

6基于聚類分析的職工基本醫(yī)療保險的實證分析

相關(guān)期刊

精品范文

1聚類分析論文

友情鏈接

鄭州大學(xué)學(xué)報·理學(xué)版雜志