智慧校園學(xué)生數(shù)據(jù)畫像生成方式
時間:2022-08-17 08:33:22
導(dǎo)語:智慧校園學(xué)生數(shù)據(jù)畫像生成方式一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
摘要:近些年,大數(shù)據(jù)技術(shù)在我國逐步得到發(fā)展,并被社會的各個領(lǐng)域所應(yīng)用,因此數(shù)據(jù)的價值深受關(guān)注。以海南經(jīng)貿(mào)職業(yè)技術(shù)學(xué)院為例,學(xué)校在授課過程中,會生成許多有關(guān)學(xué)生的數(shù)據(jù),因此,我們需要更多地考慮如何將這些數(shù)據(jù)升值為有利資源,為學(xué)生及學(xué)校相關(guān)部門所用。由此,本文基于Hadoop大數(shù)據(jù)平臺,對學(xué)生畫像存在的價值以及系統(tǒng)設(shè)計和研究思路進行了詳細分析,希望可以為相關(guān)研究人員提供參考。
關(guān)鍵詞:智慧校園;Hadoop;學(xué)生畫像;方式研究
大數(shù)據(jù)技術(shù)具有低成本,高速度以及能夠大規(guī)模利用數(shù)據(jù)價值的特點,可以有效促進社會各個領(lǐng)域的發(fā)展?,F(xiàn)如今,各大學(xué)的數(shù)字化和計算機化建設(shè)基本上都已得到了完成,并且日趨智能化。隨之而來的各類數(shù)據(jù)也越來越多,這也包括海南經(jīng)貿(mào)職業(yè)技術(shù)學(xué)院,學(xué)生在校期間生成了大量的數(shù)據(jù)群,例如消費數(shù)據(jù)、學(xué)業(yè)成績數(shù)據(jù)、圖書查看數(shù)據(jù)等各方面的數(shù)據(jù),從各種角度進行研究,以了解學(xué)生的行為和喜好,為學(xué)生進行畫像以幫助學(xué)生全面客觀地了解自己,同時也有利于學(xué)生管理部門精確管理并幫助學(xué)生提高教育水平。
1什么是Hadoop技術(shù)
在大數(shù)據(jù)時代,無論是傳統(tǒng)的計算,還是傳統(tǒng)的數(shù)據(jù)存儲,都已經(jīng)不能跟上現(xiàn)代化的腳步。Hadoop的逐步發(fā)展及完善,和Spark技術(shù)的問世,有效解決了大數(shù)據(jù)所面臨的各種問題。Hadoop可以說是一個統(tǒng)一的分布式計算,專門用于處理規(guī)模較大的數(shù)據(jù),通過自動并行處理提供的MapReduce,自然可伸縮性,簡單的實現(xiàn)和強大的容錯能力等。提供分布式并行計算。它具有數(shù)據(jù)提取,轉(zhuǎn)換和加載以及離線數(shù)據(jù)處理的優(yōu)勢。此外,Hadoop還與Sqoop,F(xiàn)lum和其他工具兼容。Sqoop是一種數(shù)據(jù)遷移工具,用于在MySQL與現(xiàn)有關(guān)系數(shù)據(jù)庫(例如Oracle,HDFS和Hbase)之間導(dǎo)入和導(dǎo)出數(shù)據(jù)。Flum提供高可用性和可靠的解決方案。它是一個用于大規(guī)模日志收集,聚合和傳輸?shù)姆植际较到y(tǒng),可以執(zhí)行大規(guī)模流數(shù)據(jù)的分布式收集[1]。
2學(xué)生畫像所存在的價值
1)可以使數(shù)據(jù)中存在的孤島問題得到改善,促進信息的流通性。大數(shù)據(jù)人物畫像需要從學(xué)校的多個部門檢索學(xué)生數(shù)據(jù),以保證建模的結(jié)果是準確有效的,并允許在不同部門之間可以共享數(shù)據(jù)。2)信息技術(shù)的合理應(yīng)用,可以有效提升管理水平。通過充分利用學(xué)生模型,現(xiàn)代教育系統(tǒng)來進行計算機化,使教育決策更具有科學(xué)性,從而實現(xiàn)教育機構(gòu)的高水平管理。3)探索基于學(xué)生畫像的新教學(xué)模式,對現(xiàn)有的教育體系進行創(chuàng)新及優(yōu)化,可以有效提升教學(xué)質(zhì)量;4)通過對學(xué)生畫像結(jié)果進行分析,可以捕捉學(xué)生獨特的人格特質(zhì),對學(xué)生進行準確的指導(dǎo)和幫助,并制定精確的實施策略,已達到對學(xué)生進行科學(xué)、有效、精確的管理工作。
3學(xué)生畫像的系統(tǒng)設(shè)計
3.1學(xué)生畫像系統(tǒng)功能需求
可以通過網(wǎng)絡(luò)從網(wǎng)頁訪問大數(shù)據(jù)驅(qū)動的學(xué)生畫像系統(tǒng)。該體系劃分為三個步驟:1)客戶端;2)服務(wù)器;3)數(shù)據(jù)庫模式。如圖1行為畫像構(gòu)建步驟所示,學(xué)生在進入系統(tǒng)后,就會進行身份識別,對學(xué)生的各種數(shù)據(jù)進行總結(jié)和讀取,最終對學(xué)生的日常生活、學(xué)習(xí)成績等數(shù)據(jù)構(gòu)建成不同時間段的報表,并為學(xué)生提供相應(yīng)的指導(dǎo)和建議,就比如說,學(xué)生去圖書館借書,假如特別頻繁借書就會對學(xué)生進行獎勵或表揚,假如在學(xué)習(xí)或者閱覽等方面特別懶惰,就會對學(xué)生進行批評或者是提供相關(guān)好的建議。并反饋給輔導(dǎo)員或?qū)W生個人,進行談話戒備。通過該系統(tǒng),我們希望為學(xué)生提供一個學(xué)生畫像系統(tǒng),該系統(tǒng)集成了學(xué)術(shù)統(tǒng)計信息、信息請求和年終摘要[2]。
3.2學(xué)生畫像系統(tǒng)數(shù)據(jù)需求
程序數(shù)據(jù)十分重要,可以說是系統(tǒng)的心臟。想要對個人信息進行及時準確的處理與分析,那么系統(tǒng)就需要大量數(shù)據(jù)來完成和歸納個人信息,例如消費統(tǒng)計和分析,學(xué)校成績等。數(shù)據(jù)分為學(xué)生的生活中的基本數(shù)據(jù)、學(xué)生在平時學(xué)習(xí)中的表現(xiàn)所產(chǎn)生的數(shù)據(jù)等。數(shù)據(jù)通常都是以Excel表或csv文件進行展現(xiàn),之后納入數(shù)據(jù)庫。數(shù)據(jù)總長度需要設(shè)置為100,以避免數(shù)據(jù)庫存儲異常。在進行數(shù)據(jù)采集過程中,會有一些異常的數(shù)據(jù)產(chǎn)生,例如一些不完整或是不準確的數(shù)據(jù),這些數(shù)據(jù)有一個統(tǒng)一的名稱(臟數(shù)據(jù))。對于臟數(shù)據(jù),我們可以采取在分析數(shù)據(jù)之前先清理數(shù)據(jù)的方法。操作時,所有數(shù)據(jù)源都需要進行格式化轉(zhuǎn)換。數(shù)據(jù)清理十分重要,是必不可少的環(huán)節(jié),結(jié)果的質(zhì)量與模式效果和最終結(jié)論直接相關(guān)。在實際操作中,數(shù)據(jù)清理通常占掃描過程工作量的50%到80%,因此它也是運行整個配置文件系統(tǒng)的關(guān)鍵鏈接,在格式設(shè)置上需要謹慎[3]。
3.3學(xué)生畫像系統(tǒng)設(shè)計原理
1)需要遵循簡單的原理在進行數(shù)據(jù)處理過程中,也需要以簡單原理為基礎(chǔ)。這樣在獲取有用數(shù)據(jù)時,可以有效控制數(shù)據(jù)群的大小,提升數(shù)據(jù)質(zhì)量。在實際工作中,您可以選擇特定的分析數(shù)據(jù)和適當?shù)奶幚矸椒▉韴?zhí)行簡單、有效的工作。2)確保清晰明了的原理所有事物的分析,都會有其結(jié)論產(chǎn)生。其結(jié)論必須清晰明了。假如在結(jié)論沒有明確的狀況下,這時所講的分析并不成立,也不具備任何意義,因為必須在進行分析之前需要對該結(jié)論進行尋找和驗證。3)數(shù)據(jù)要具有可靠性良好的分析應(yīng)基于可靠的數(shù)據(jù)源。實際上,在許多情況下,數(shù)據(jù)收集會花費更長的時間,包括計劃和定義數(shù)據(jù),調(diào)整數(shù)據(jù)報告以及允許開發(fā)人員正確提取或進行數(shù)據(jù)設(shè)置。在對良好數(shù)據(jù)進行分析只有一個目的,那就是尋求正確答案,所以所采集數(shù)據(jù)的精確性是其基礎(chǔ),否則的話,就會適得其反。4)報告進行圖標體現(xiàn)應(yīng)盡可能使用圖表體現(xiàn)數(shù)據(jù)。采用圖表來替換大量堆疊的數(shù)字,使用戶可以更生動、直接地面對所存在的弊端或者是做出的結(jié)論。另外,圖標雖然有很多好處,但是也不能過度使用。因為人在面對大量圖表示容易感到困惑。5)要具有思維邏輯邏輯性在報告中是十分重要的,除了需要具有邏輯性外,還需要具備三個步驟,那就是對問題的挖掘、分析和解決。具有較強邏輯性的分析報告也是具有說服力的。分析的結(jié)論應(yīng)基于嚴格的分析和數(shù)據(jù)推理過程。6)要具有實用性編輯數(shù)據(jù)分析報告時需要認真仔細。要保證基礎(chǔ)數(shù)據(jù)不僅具有真實性還要具有完整性,在進行分析的過程中,一定要遵循科學(xué)、合理和完整的原則,分析結(jié)果必須可靠且包含內(nèi)容要切合實際[4]。
4研究思路與方法
4.1進行數(shù)據(jù)收集
需要以學(xué)校當前的學(xué)術(shù)管理系統(tǒng)、教育管理體系、招生體系、注冊體系等為基礎(chǔ),來進行學(xué)生基礎(chǔ)數(shù)據(jù)的獲取,例如學(xué)生在校期間的圖書閱讀數(shù)據(jù)、專業(yè)學(xué)習(xí)表現(xiàn)數(shù)據(jù)、上網(wǎng)信息等[5]。
4.2數(shù)據(jù)進行預(yù)處理
學(xué)生行為的數(shù)據(jù),具有多元化及復(fù)雜性等問題,并不適用于對數(shù)據(jù)進行直接挖掘。為了獲得純粹,精確和完善的數(shù)據(jù),首先需要處理數(shù)據(jù)。數(shù)據(jù)的清理主要是針對數(shù)據(jù)的完整性,統(tǒng)一性,合法性處理,從而獲得想要的干凈數(shù)據(jù)。數(shù)據(jù)合并是統(tǒng)一存儲和合并多個數(shù)據(jù)源。數(shù)據(jù)選擇涉及調(diào)整原始數(shù)據(jù)以減小數(shù)據(jù)大小。數(shù)據(jù)轉(zhuǎn)換是效特征值的獲取,也就是對數(shù)據(jù)進行歸一化和離散化等處理[6]。
4.3構(gòu)建學(xué)生畫像模型
分析各種類型的學(xué)生數(shù)據(jù),分析學(xué)生在各個角度產(chǎn)生數(shù)據(jù)的差別,并使用分類算法創(chuàng)建一個合理的標簽系統(tǒng)來構(gòu)建大數(shù)據(jù)學(xué)生畫像模型。不同的標簽所體現(xiàn)的是學(xué)生特征或者是屬性,并且隨時間、區(qū)域、不同類型進行轉(zhuǎn)變。使用大數(shù)據(jù)算法,將學(xué)生行為管理和思想政治教育的概念和實踐相結(jié)合,進行預(yù)測模型的合理設(shè)計,學(xué)生畫像像系統(tǒng)的構(gòu)建,并為學(xué)校生成學(xué)生思維動態(tài)和行為數(shù)據(jù)標簽,以幫助學(xué)校對學(xué)生的思想和行為進行實時掌握和規(guī)范,從而實現(xiàn)對教育進行精準化管理[7]。需要就當前存在的主要問題,合理使用相關(guān)的策略,從而推動分布式數(shù)據(jù)庫系統(tǒng)的開發(fā)進程,改善分布式數(shù)據(jù)庫系統(tǒng)的管理水平,明確工作重點,擴大應(yīng)用價值。
參考文獻:
[1]王冰冰,彭海樓.Oracle分布式數(shù)據(jù)庫系統(tǒng)及網(wǎng)絡(luò)安全策略探究[J].數(shù)碼世界,2020(4):242.
[2]肖占軍,孔偉燁,艾宏巖.分布式日志結(jié)構(gòu)數(shù)據(jù)庫系統(tǒng)的主鍵維護方法探析[J].數(shù)字化用戶,2019,25(19):84.
[3]莫新建.分布式數(shù)據(jù)庫系統(tǒng)的查詢優(yōu)化技術(shù)研究[J].電腦知識與技術(shù),2020,16(13):48-49.
作者:符龍生 單位:海南經(jīng)貿(mào)職業(yè)技術(shù)學(xué)院