統(tǒng)計(jì)學(xué)數(shù)據(jù)挖掘?qū)嶒?yàn)教學(xué)探索
時(shí)間:2022-11-08 08:45:29
導(dǎo)語(yǔ):統(tǒng)計(jì)學(xué)數(shù)據(jù)挖掘?qū)嶒?yàn)教學(xué)探索一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢(xún)客服老師,歡迎參考。
摘要:大數(shù)據(jù)時(shí)代,數(shù)據(jù)分析各環(huán)節(jié)的變化對(duì)統(tǒng)計(jì)學(xué)專(zhuān)業(yè)人才培養(yǎng)模式的變革起到了催化作用.數(shù)據(jù)挖掘作為拓展和提升大數(shù)據(jù)分析方法與思路的應(yīng)用型課程,被廣泛納入統(tǒng)計(jì)學(xué)本科專(zhuān)業(yè)人才培養(yǎng)方案.本文對(duì)大數(shù)據(jù)時(shí)代數(shù)據(jù)分析師的職業(yè)需求進(jìn)行了調(diào)研,在此基礎(chǔ)上提出了基于R語(yǔ)言的項(xiàng)目式數(shù)據(jù)挖掘實(shí)驗(yàn)教學(xué)模式.教學(xué)實(shí)踐結(jié)果表明,通過(guò)項(xiàng)目式學(xué)習(xí),可以讓學(xué)生在掌握理論知識(shí)的基礎(chǔ)上,進(jìn)一步提升分析問(wèn)題和解決實(shí)際問(wèn)題的能力,進(jìn)一步適應(yīng)大數(shù)據(jù)時(shí)代數(shù)據(jù)分析師的職業(yè)要求.
關(guān)鍵詞:統(tǒng)計(jì)學(xué);數(shù)據(jù)挖掘;實(shí)驗(yàn)教學(xué);數(shù)據(jù)分析師;項(xiàng)目式學(xué)習(xí)
1引言
2016年美國(guó)統(tǒng)計(jì)協(xié)會(huì)(AmericanStatisticalAsociation)對(duì)統(tǒng)計(jì)學(xué)的內(nèi)涵給出一個(gè)較為簡(jiǎn)潔的說(shuō)明,將統(tǒng)計(jì)學(xué)定義為:“thescienceoflearningfromdata”,即從數(shù)據(jù)中學(xué)習(xí)的科學(xué)[1].該定義實(shí)際上與數(shù)據(jù)科學(xué)(DataScience)的內(nèi)涵如出一轍.筆者以為ASA之所以對(duì)統(tǒng)計(jì)學(xué)做出這樣的內(nèi)涵解釋?zhuān)瑢?shí)際上表明在大數(shù)據(jù)浪潮中,統(tǒng)計(jì)學(xué)正走在變革的道路上.大數(shù)據(jù)時(shí)代,數(shù)據(jù)的產(chǎn)生、收集、分析與應(yīng)用等環(huán)節(jié)都發(fā)生著深刻的變化.互聯(lián)網(wǎng)技術(shù)的高速發(fā)展使每個(gè)人成為數(shù)據(jù)的生產(chǎn)者,數(shù)據(jù)生產(chǎn)已經(jīng)突破了時(shí)間、地點(diǎn)的限制,數(shù)據(jù)量也由抽樣數(shù)據(jù)向大數(shù)據(jù)轉(zhuǎn)化;數(shù)據(jù)的存儲(chǔ)類(lèi)型由紙和筆記載的關(guān)系型結(jié)構(gòu)化數(shù)據(jù)向半結(jié)構(gòu)、非結(jié)構(gòu)和異構(gòu)的網(wǎng)絡(luò)數(shù)據(jù)類(lèi)型轉(zhuǎn)化;數(shù)據(jù)的采集由根據(jù)統(tǒng)計(jì)分析目的的調(diào)查式收集向基于大數(shù)據(jù)技術(shù)的自動(dòng)化采集方法轉(zhuǎn)化;數(shù)據(jù)的分析由傳統(tǒng)的驗(yàn)證型分析方法向探索型分析方法轉(zhuǎn)化;數(shù)據(jù)的應(yīng)用由輔助管理決策向引導(dǎo)變革轉(zhuǎn)化.以上變化正在重塑數(shù)據(jù)分析流程,而數(shù)據(jù)分析模式的變革必然引起教育模式的改革.事實(shí)上,在大數(shù)據(jù)洪流的沖擊下,統(tǒng)計(jì)學(xué)專(zhuān)業(yè)的人才培養(yǎng)模式已經(jīng)悄然發(fā)生變化.當(dāng)前,統(tǒng)計(jì)學(xué)專(zhuān)業(yè)融合大數(shù)據(jù)、計(jì)算機(jī)、人工智能等相關(guān)學(xué)科知識(shí),引導(dǎo)學(xué)生認(rèn)識(shí)和掌握數(shù)據(jù)處理的新技術(shù),推動(dòng)交叉學(xué)科應(yīng)用型人才的培養(yǎng),已經(jīng)成為共識(shí).其中,在統(tǒng)計(jì)學(xué)專(zhuān)業(yè)課程體系中引入數(shù)據(jù)挖掘課程就是典型的代表.數(shù)據(jù)挖掘技術(shù)在一定程度上彌補(bǔ)了傳統(tǒng)統(tǒng)計(jì)分析方法的不足,可以進(jìn)一步增強(qiáng)學(xué)生探索性數(shù)據(jù)分析的能力,更加適應(yīng)大數(shù)據(jù)時(shí)代的需求.與統(tǒng)計(jì)學(xué)強(qiáng)調(diào)推斷理論和方法不同,數(shù)據(jù)挖掘強(qiáng)調(diào)經(jīng)驗(yàn),著重于從數(shù)據(jù)中挖掘有用的模式和價(jià)值,只要能夠有效地解決問(wèn)題,方法和模型本身并不重要.因而,筆者認(rèn)為數(shù)據(jù)挖掘課程能夠拓展統(tǒng)計(jì)學(xué)專(zhuān)業(yè)學(xué)生數(shù)據(jù)分析的思路和方法,進(jìn)一步加深對(duì)數(shù)據(jù)分析內(nèi)涵的理解.由此,本文致力于探索大數(shù)據(jù)背景下統(tǒng)計(jì)學(xué)專(zhuān)業(yè)數(shù)據(jù)挖掘?qū)嶒?yàn)課程教學(xué)模式,以提升統(tǒng)計(jì)學(xué)人才實(shí)踐應(yīng)用能力,使其不斷適應(yīng)大數(shù)據(jù)分析的需求.
2大數(shù)據(jù)時(shí)代市場(chǎng)對(duì)應(yīng)用型統(tǒng)計(jì)人才的新需求
數(shù)據(jù)分析師是統(tǒng)計(jì)學(xué)專(zhuān)業(yè)大學(xué)生畢業(yè)后的主要職業(yè)選擇之一.數(shù)據(jù)分析師是指在不同行業(yè)中,專(zhuān)門(mén)從事數(shù)據(jù)搜集、整理、分析,并依據(jù)數(shù)據(jù)做出行業(yè)或市場(chǎng)研究、評(píng)估和預(yù)測(cè)的專(zhuān)業(yè)人員;是以實(shí)際數(shù)據(jù)為依據(jù),對(duì)項(xiàng)目現(xiàn)狀及遠(yuǎn)期進(jìn)行統(tǒng)計(jì)、分析、預(yù)測(cè)并轉(zhuǎn)化為決策信息的專(zhuān)業(yè)人才[2].為了客觀分析大數(shù)據(jù)時(shí)代應(yīng)用型統(tǒng)計(jì)人才需具備的知識(shí)、能力和技術(shù),本文通過(guò)智聯(lián)招聘網(wǎng)對(duì)企業(yè)公布的數(shù)據(jù)分析師職位招聘信息進(jìn)行了調(diào)研,這些招聘信息都是面向應(yīng)屆本科畢業(yè)生的,具有較強(qiáng)的針對(duì)性,調(diào)研時(shí)間為2018年8月3日.本文調(diào)研了七家上市公司[3],有國(guó)企事業(yè)單位、互聯(lián)網(wǎng)公司、金融公司、網(wǎng)絡(luò)游戲公司、網(wǎng)絡(luò)媒體公司等,各公司對(duì)數(shù)據(jù)分析師的崗位職責(zé)、知識(shí)要求、能力要求和技術(shù)要求見(jiàn)表1所示.從數(shù)據(jù)分析師的崗位職責(zé)來(lái)看,不同類(lèi)型的企業(yè)雖然具體要求不同,但是核心職責(zé)是相同的,主要有三個(gè)方面:負(fù)責(zé)業(yè)務(wù)部門(mén)的數(shù)據(jù)需求分析,也就是通過(guò)調(diào)研了解業(yè)務(wù)部門(mén)的需求,確定數(shù)據(jù)分析對(duì)象和目的;構(gòu)建業(yè)務(wù)數(shù)據(jù)分析指標(biāo)體系,即如何開(kāi)展數(shù)據(jù)分析工作,確定數(shù)據(jù)采集、處理和分析及結(jié)果解讀等環(huán)節(jié)的指標(biāo)、方法、模型及數(shù)據(jù)分析工具等;為業(yè)務(wù)部門(mén)提供數(shù)據(jù)決策支持,包括撰寫(xiě)調(diào)研報(bào)告、數(shù)據(jù)分析報(bào)告及設(shè)計(jì)數(shù)據(jù)產(chǎn)品和開(kāi)發(fā)數(shù)據(jù)分析工具等等.從崗位職責(zé)的核心要素來(lái)看,數(shù)據(jù)分析師是非常契合統(tǒng)計(jì)學(xué)專(zhuān)業(yè)的人才培養(yǎng)目標(biāo)的,從調(diào)研到設(shè)計(jì)到分析到結(jié)果解讀,是數(shù)據(jù)分析的一個(gè)完整流程.但是,也可以看出很多企業(yè)在數(shù)據(jù)分析中特別強(qiáng)調(diào)了數(shù)據(jù)挖掘方法,如北京計(jì)算機(jī)技術(shù)及應(yīng)用研究所強(qiáng)調(diào)用戶(hù)行為挖掘和個(gè)性化推薦、金融界強(qiáng)調(diào)用戶(hù)行為數(shù)據(jù)和網(wǎng)絡(luò)日志數(shù)據(jù)挖掘,而這些都不是傳統(tǒng)統(tǒng)計(jì)學(xué)分析方法的范疇.從知識(shí)要求來(lái)看,大部分企業(yè)都要求數(shù)據(jù)分析師具有統(tǒng)計(jì)學(xué)專(zhuān)業(yè)背景,但互聯(lián)網(wǎng)公司特別強(qiáng)調(diào)統(tǒng)計(jì)學(xué)、數(shù)學(xué)和計(jì)算機(jī)的交叉和融合.實(shí)際上,數(shù)據(jù)分析師作為復(fù)合型人才,除了掌握必要的統(tǒng)計(jì)分析理論和方法外,數(shù)學(xué)建模和編程能力都是必不可少的.從能力要求來(lái)看,較強(qiáng)的數(shù)據(jù)敏感度和清晰的邏輯思維能力是核心要素.其次,從業(yè)務(wù)來(lái)看,數(shù)據(jù)分析師需要同不同的部門(mén)打交道,溝通協(xié)調(diào)能力和團(tuán)隊(duì)協(xié)作能力也是必不可少的.從技術(shù)要求來(lái)看,大部分企業(yè)都要求數(shù)據(jù)分析師至少要掌握一種統(tǒng)計(jì)分析軟件,如SPSS或MATLAB;至少要熟悉一種編程語(yǔ)言,如Python或R;至少要掌握一種數(shù)據(jù)庫(kù)技術(shù),如MySql/Oracle/SQLServer等,最簡(jiǎn)單的是excel.在高校及商業(yè)統(tǒng)計(jì)分析領(lǐng)域,R語(yǔ)言是當(dāng)前最受歡迎的統(tǒng)計(jì)編程語(yǔ)言之一.綜合以上分析可以得出,統(tǒng)計(jì)學(xué)專(zhuān)業(yè)的學(xué)生要想成為出色的數(shù)據(jù)分析師,除了具備堅(jiān)實(shí)的統(tǒng)計(jì)學(xué)理論和方法外,還需要具備良好的計(jì)算機(jī)能力,如數(shù)據(jù)庫(kù)技術(shù)和編程能力.更重要的是,數(shù)據(jù)挖掘方法與技術(shù)作為大數(shù)據(jù)技術(shù)的基礎(chǔ)已經(jīng)成為數(shù)據(jù)分析師必備的技能,也是企業(yè)招聘時(shí)重點(diǎn)關(guān)注的技術(shù).
3基于R語(yǔ)言的項(xiàng)目式數(shù)據(jù)挖掘?qū)嵺`教學(xué)模式探索
R是一套完整的數(shù)據(jù)處理、計(jì)算和制圖軟件系統(tǒng).其功能包括:數(shù)據(jù)存儲(chǔ)和處理系統(tǒng);數(shù)組運(yùn)算工具(其向量、矩陣運(yùn)算方面功能尤其強(qiáng)大);完整連貫的統(tǒng)計(jì)分析工具;優(yōu)秀的統(tǒng)計(jì)制圖功能;簡(jiǎn)便而強(qiáng)大的統(tǒng)計(jì)編程語(yǔ)言.特別是,R是免費(fèi)、開(kāi)源、全面、可視、交互的專(zhuān)業(yè)統(tǒng)計(jì)分析和數(shù)據(jù)挖掘軟件.通過(guò)R的相關(guān)集成開(kāi)發(fā)環(huán)境(IDE),如RStudio/PyCharm等,用戶(hù)可以輕松訪問(wèn)數(shù)據(jù)庫(kù),并利用一些集成的統(tǒng)計(jì)工具,靈活機(jī)動(dòng)的進(jìn)行數(shù)據(jù)分析,構(gòu)建屬于自己的統(tǒng)計(jì)分析項(xiàng)目(Project),甚至創(chuàng)造出符合需要的新的統(tǒng)計(jì)計(jì)算方法.因此,R受到了教育界的熱捧,成為大學(xué)生最喜歡的統(tǒng)計(jì)分析與數(shù)據(jù)挖掘軟件之一.此外,2018IEEE頂級(jí)編程語(yǔ)言交互排行榜中,R語(yǔ)言排名第七,是過(guò)去十年中發(fā)展最快的編程語(yǔ)言之一,也是最好的數(shù)據(jù)科學(xué)語(yǔ)言之一[4].由此,筆者認(rèn)為,R語(yǔ)言是統(tǒng)計(jì)學(xué)專(zhuān)業(yè)學(xué)生進(jìn)行數(shù)據(jù)分析的不二之選.項(xiàng)目式學(xué)習(xí)(project-basedlearning,以下簡(jiǎn)稱(chēng)PjBL)是一種以學(xué)生為中心的系統(tǒng)教學(xué)方法或模式,讓學(xué)生圍繞來(lái)自項(xiàng)目中的現(xiàn)實(shí)工作任務(wù)來(lái)學(xué)習(xí)知識(shí)和技能,并認(rèn)真地設(shè)計(jì)產(chǎn)品和任務(wù)[5].其中,項(xiàng)目是指復(fù)雜的任務(wù),學(xué)習(xí)者為了完成項(xiàng)目目標(biāo),需要展開(kāi)調(diào)查、參與設(shè)計(jì)、解決問(wèn)題、制定決策等[6].項(xiàng)目式學(xué)習(xí)最大的亮點(diǎn)是通過(guò)完成項(xiàng)目的形式,發(fā)揮學(xué)生學(xué)習(xí)的主動(dòng)性和自覺(jué)性,在做中學(xué),在學(xué)中做,有利于提高學(xué)生學(xué)習(xí)效率,提升學(xué)生實(shí)踐和創(chuàng)新能力.基于以上分析,筆者認(rèn)為在R軟件的集成開(kāi)發(fā)環(huán)境下,實(shí)施數(shù)據(jù)挖掘?qū)嶒?yàn)課程的項(xiàng)目式學(xué)習(xí)方案是可行的,也符合應(yīng)用型統(tǒng)計(jì)人才培養(yǎng)目標(biāo)的定位.下面將從數(shù)據(jù)挖掘?qū)嶒?yàn)課程教學(xué)計(jì)劃、實(shí)驗(yàn)項(xiàng)目設(shè)計(jì)、考核方式、典型項(xiàng)目示例和實(shí)驗(yàn)教學(xué)效果進(jìn)行論述.3.1課程教學(xué)計(jì)劃.數(shù)據(jù)挖掘是一門(mén)多學(xué)科交叉且實(shí)踐應(yīng)用性較強(qiáng)的課程,一般是在碩士研究生階段才開(kāi)設(shè)的課程.在本科生階段開(kāi)設(shè)數(shù)據(jù)挖掘課程具有較大的難度,需協(xié)調(diào)好相關(guān)課程的前后邏輯,如該課程必須開(kāi)設(shè)在概率論與數(shù)理統(tǒng)計(jì)、數(shù)據(jù)庫(kù)原理、計(jì)算機(jī)基礎(chǔ)等課程之后.作為應(yīng)用型本科院校,巢湖學(xué)院數(shù)學(xué)與統(tǒng)計(jì)學(xué)院于2016年開(kāi)始在統(tǒng)計(jì)學(xué)本科專(zhuān)業(yè)開(kāi)設(shè)數(shù)據(jù)挖掘課程,課程性質(zhì)為專(zhuān)業(yè)核心能力課程,總學(xué)時(shí)52,理論課學(xué)時(shí)40,實(shí)驗(yàn)課學(xué)時(shí)12.理論課與實(shí)驗(yàn)課的安排如表2所示.由于統(tǒng)計(jì)學(xué)專(zhuān)業(yè)學(xué)生未將R語(yǔ)言的學(xué)習(xí)列入人才培養(yǎng)方案,所以在理論課階段安排了8個(gè)學(xué)時(shí)的R語(yǔ)言學(xué)習(xí),目的是在進(jìn)入正式的數(shù)據(jù)挖掘項(xiàng)目學(xué)習(xí)之前,熟悉R的數(shù)據(jù)組織、整理和可視化方法,教學(xué)方法為講練結(jié)合、學(xué)生邊聽(tīng)邊實(shí)踐操作.從模式識(shí)別的角度來(lái)看,數(shù)據(jù)挖掘技術(shù)的主要任務(wù),包括分類(lèi)、聚類(lèi)、回歸、關(guān)聯(lián)、序列分析和偏差分析6種模式的識(shí)別[7].其中,回歸是統(tǒng)計(jì)學(xué)的傳統(tǒng)分析方法,時(shí)間序列分析方法在人才培養(yǎng)方案中有專(zhuān)門(mén)的《時(shí)間序列分析》課程.因此,本課程主要選擇了分類(lèi)和聚類(lèi)這兩類(lèi)方法,分類(lèi)選擇了近鄰分析法和支持向量機(jī),聚類(lèi)主要有k-means聚類(lèi)和基于密度的聚類(lèi)方法.另外,人工神經(jīng)網(wǎng)絡(luò)作為人工智能的熱點(diǎn)研究領(lǐng)域,也納入本課程學(xué)習(xí)中,可以作為深度學(xué)習(xí)的入門(mén)知識(shí).3.2實(shí)驗(yàn)項(xiàng)目設(shè)計(jì).在實(shí)驗(yàn)教學(xué)中,本課程圍繞K近鄰分析、支持向量機(jī)、k-means聚類(lèi)和人工神經(jīng)網(wǎng)絡(luò)四個(gè)主要的算法設(shè)計(jì)了四個(gè)綜合性的開(kāi)放性實(shí)驗(yàn)項(xiàng)目.實(shí)驗(yàn)教學(xué)過(guò)程采取項(xiàng)目學(xué)習(xí)式教學(xué)模式,授課教師只是提出實(shí)驗(yàn)的問(wèn)題和實(shí)驗(yàn)的目的,并不規(guī)定嚴(yán)格的實(shí)驗(yàn)步驟和過(guò)程,教師根據(jù)理論課所講授知識(shí)及時(shí)引導(dǎo)學(xué)生,讓學(xué)生根據(jù)實(shí)驗(yàn)問(wèn)題和目的,自行設(shè)計(jì)實(shí)驗(yàn)內(nèi)容和實(shí)驗(yàn)過(guò)程,包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、模型與方法選擇、基于R軟件的數(shù)據(jù)分析過(guò)程、結(jié)果的可視化與分析等.在實(shí)驗(yàn)過(guò)程中,教師指導(dǎo)學(xué)生組成實(shí)驗(yàn)項(xiàng)目小組,一般由3名學(xué)生共同組隊(duì),通過(guò)小組討論、相互協(xié)作共同完成實(shí)驗(yàn)項(xiàng)目.經(jīng)過(guò)教師的指導(dǎo),使每個(gè)實(shí)驗(yàn)項(xiàng)目小組在3個(gè)課時(shí)的時(shí)間內(nèi),確定實(shí)驗(yàn)內(nèi)容和項(xiàng)目實(shí)施計(jì)劃,實(shí)驗(yàn)實(shí)施過(guò)程可在課后完成.實(shí)驗(yàn)項(xiàng)目結(jié)項(xiàng)方式為小組成員共同完成項(xiàng)目實(shí)驗(yàn)報(bào)告,項(xiàng)目實(shí)驗(yàn)報(bào)告內(nèi)容包括實(shí)驗(yàn)?zāi)康?、?shí)驗(yàn)內(nèi)容、實(shí)驗(yàn)過(guò)程、結(jié)果分析和實(shí)驗(yàn)總結(jié).3.3考核方式.數(shù)據(jù)挖掘作為考查課,考核方式比較靈活,也給課程組進(jìn)行考核方式改革提供了便利.課程組經(jīng)過(guò)研討決定采取開(kāi)放性課程設(shè)計(jì)的方式作為期末考試的形式,并結(jié)合平時(shí)課程表現(xiàn)和平時(shí)實(shí)驗(yàn)項(xiàng)目完成情況評(píng)價(jià)綜合成績(jī).其中,期末的開(kāi)放性課程設(shè)計(jì)成績(jī)?cè)诰C合成績(jī)中占比60%,平時(shí)課堂表現(xiàn)和平時(shí)實(shí)驗(yàn)項(xiàng)目完成情況占比40%(課堂表現(xiàn)占40%,平時(shí)實(shí)驗(yàn)項(xiàng)目完成情況占比60%).3.4典型實(shí)驗(yàn)項(xiàng)目教.學(xué)示例-以基于R的K-近鄰分析為例K-近鄰分析法(K-nearestneighbor,KNN)是分類(lèi)型數(shù)據(jù)預(yù)測(cè)的經(jīng)典數(shù)據(jù)挖掘方法,在輸入變量較多,樣本量較大的情況下,是簡(jiǎn)單而有效的建模方法[8].課程組設(shè)計(jì)了鳶尾花數(shù)據(jù)集(IRIS)的分類(lèi)預(yù)測(cè)實(shí)驗(yàn)項(xiàng)目.3.4.1問(wèn)題提出.利用已有的鳶尾花數(shù)據(jù)集(IRIS),通過(guò)K-近鄰分析法對(duì)新的鳶尾花數(shù)據(jù)進(jìn)行分類(lèi)預(yù)測(cè),要求構(gòu)建合理、具體的模型,基于R軟件實(shí)現(xiàn)模型的訓(xùn)練和預(yù)測(cè).3.4.2項(xiàng)目提要.請(qǐng)同學(xué)們根據(jù)實(shí)驗(yàn)問(wèn)題,設(shè)計(jì)實(shí)驗(yàn)內(nèi)容.一些實(shí)驗(yàn)要點(diǎn)供同學(xué)們參考:a.如何利用R軟件掌握鳶尾花數(shù)據(jù)集(IRIS)的特征?提要:str()函數(shù)可以查看數(shù)據(jù)集的變量和數(shù)據(jù);scale()函數(shù)可以實(shí)現(xiàn)數(shù)據(jù)的歸一化處理.另外,請(qǐng)同學(xué)們自行查閱資料了解R軟件數(shù)據(jù)預(yù)處理的方法.b.K-近鄰分析法中距離的選取依據(jù)是什么?提要:K-近鄰分析法將樣本包括的觀測(cè)數(shù)據(jù)看成是p維特征空間(變量個(gè)數(shù)為p個(gè))中的向量,應(yīng)選擇合適的距離度量方法,以測(cè)度預(yù)測(cè)向量X0與鄰居向量X之間的距離,作為鄰近關(guān)系的依據(jù).主要的距離度量方法有:閔可夫斯基距離、歐氏距離、絕對(duì)距離、切比雪夫距離和夾角余弦距離.請(qǐng)同學(xué)們查閱資料分析各種距離度量方法的適用范圍,并確定鳶尾花數(shù)據(jù)集(IRIS)適用的距離度量方法.c.K-近鄰分析法中K值選取的依據(jù)是什么?K-近鄰法的核心問(wèn)題之一是確定預(yù)測(cè)向量X0的鄰居個(gè)數(shù),即K值的確定.一般可以依據(jù)以下方法:一是依據(jù)旁置法計(jì)算參數(shù)K取不同值時(shí)的預(yù)測(cè)誤差;二是依據(jù)留一法計(jì)算參數(shù)K取不同值時(shí)的預(yù)測(cè)誤差.請(qǐng)同學(xué)們查閱資料,是否還有其他更好的K值確定方法?3.4.3R軟件操作提要.R實(shí)現(xiàn)K-近鄰法的函數(shù)是class包中的knn函數(shù).可通過(guò)install.packages(‘class’)加載class程序包,并使用library(class)載入到工作空間中,可通過(guò)help(knn)查看knn函數(shù)的使用方法.3.5實(shí)驗(yàn)教學(xué)效果.通過(guò)一個(gè)學(xué)期的實(shí)驗(yàn)教學(xué)來(lái)看,本文提出的基于R語(yǔ)言的項(xiàng)目式數(shù)據(jù)挖掘?qū)嶒?yàn)教學(xué)模式取得了較好的教學(xué)效果.從學(xué)生的綜合成績(jī)來(lái)看,成績(jī)分布合理,不及格率較低,大部分學(xué)生的綜合成績(jī)分布在70-89這個(gè)分?jǐn)?shù)段內(nèi),說(shuō)明學(xué)生對(duì)數(shù)據(jù)挖掘的基本理論和應(yīng)用技術(shù)掌握的較好.從平時(shí)實(shí)驗(yàn)項(xiàng)目的完成情況來(lái)看,大部分小組能夠較好的完成實(shí)驗(yàn)項(xiàng)目.對(duì)于項(xiàng)目式教學(xué)模式,不少同學(xué)反映比單純的輸出式教學(xué)模式效果好很多,不但增強(qiáng)了學(xué)習(xí)的主動(dòng)性和積極性,而且增強(qiáng)了團(tuán)隊(duì)合作意識(shí),廣受學(xué)生歡迎.但是在實(shí)踐教學(xué)過(guò)程中,也出現(xiàn)了很多問(wèn)題.例如,在課程教學(xué)初期,學(xué)生普遍反映R語(yǔ)言的入門(mén)難度較大,希望教師能夠在R語(yǔ)言學(xué)習(xí)方面給予更多的建議和支持;在項(xiàng)目式學(xué)習(xí)過(guò)程中,出現(xiàn)了實(shí)驗(yàn)完成效果參差不齊和個(gè)別學(xué)生過(guò)于依賴(lài)小組其他成員,從而坐享其成的情況.筆者認(rèn)為,任何教學(xué)模式都不是完美的,這些問(wèn)題還需要任課教師結(jié)合學(xué)生學(xué)習(xí)實(shí)際拿出解決方案,這也是筆者在下一階段的教學(xué)過(guò)程中重點(diǎn)思考的問(wèn)題.
4總結(jié)
數(shù)據(jù)挖掘作為一門(mén)多學(xué)科交叉且應(yīng)用性較強(qiáng)的課程,在教學(xué)內(nèi)容和教學(xué)方法上與傳統(tǒng)統(tǒng)計(jì)學(xué)課程有較大的區(qū)別.但是,從數(shù)據(jù)分析的流程來(lái)看,數(shù)據(jù)挖掘方法與傳統(tǒng)統(tǒng)計(jì)分析方法又有相通之處,關(guān)鍵是讓學(xué)生了解二者之間的區(qū)別與聯(lián)系.因此,在數(shù)據(jù)挖掘?qū)嶒?yàn)課程教學(xué)中,本文基于大數(shù)據(jù)時(shí)代企業(yè)對(duì)應(yīng)用型統(tǒng)計(jì)人才的需求,采取了基于R語(yǔ)言的項(xiàng)目式數(shù)據(jù)挖掘?qū)嶒?yàn)教學(xué)模式.通過(guò)項(xiàng)目式學(xué)習(xí),讓學(xué)生在掌握理論知識(shí)的基礎(chǔ)上,探索解決實(shí)際問(wèn)題的能力,進(jìn)一步提升數(shù)據(jù)分析能力,以適用大數(shù)據(jù)時(shí)代數(shù)據(jù)分析師的職業(yè)要求.
作者:關(guān)鵬 錢(qián)云 張海永 單位:1.巢湖學(xué)院 2.滁州學(xué)院
熱門(mén)標(biāo)簽
統(tǒng)計(jì)學(xué)論文 統(tǒng)計(jì)論文 統(tǒng)計(jì)分析論文 統(tǒng)計(jì)學(xué)畢業(yè)論文 統(tǒng)計(jì)實(shí)訓(xùn)報(bào)告 統(tǒng)計(jì)調(diào)研報(bào)告 統(tǒng)計(jì)交流材料 統(tǒng)計(jì)專(zhuān)業(yè)論文 統(tǒng)計(jì)工作意見(jiàn) 統(tǒng)計(jì)工作論文 心理培訓(xùn) 人文科學(xué)概論