護(hù)理學(xué)免費(fèi)資源實(shí)現(xiàn)研究
時間:2022-04-29 05:39:16
導(dǎo)語:護(hù)理學(xué)免費(fèi)資源實(shí)現(xiàn)研究一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
1護(hù)理學(xué)免費(fèi)資源知識元組織的必要性
根據(jù)是否收費(fèi),Web上護(hù)理學(xué)電子資源分為收費(fèi)資源和免費(fèi)資源兩種。收費(fèi)資源如中國知網(wǎng)(CNKI)、萬方等電子數(shù)據(jù)庫,是護(hù)理學(xué)工作者獲取知識的主要途徑。由于其結(jié)構(gòu)嚴(yán)謹(jǐn),內(nèi)容準(zhǔn)確,為其知識組織方式由信息元過度至知識元提供了良好的基礎(chǔ),如CNKI數(shù)據(jù)庫已經(jīng)提供了知識元檢索途徑。在收費(fèi)電子資源發(fā)展的同時,免費(fèi)資源的發(fā)展也是日新月異,主要包括三類:①基于電子圖書、期刊的開源資源,如道客巴巴、百度文庫等。從目前資源的種類和數(shù)量上分析,開源資源的電子圖書、期刊、博碩論文已經(jīng)與收費(fèi)數(shù)據(jù)庫大體相當(dāng);②護(hù)理學(xué)電子論壇如丁香園、天使之城等。電子論壇向所有護(hù)理學(xué)工作者敞開了大門,是廣大護(hù)理學(xué)工作者交流工作經(jīng)驗(yàn)、思想體會的主要陣地,在資源種類和內(nèi)容上與電子數(shù)據(jù)庫形成了良好互補(bǔ);③護(hù)理學(xué)百科知識網(wǎng)站,如百度百科、搜搜百科等。百科類網(wǎng)站的誕生為廣大互聯(lián)網(wǎng)用戶提供了新的信息獲取途徑,其發(fā)展理念強(qiáng)調(diào)用戶的參與和奉獻(xiàn)精神,內(nèi)容整體詳實(shí)準(zhǔn)確??梢姀馁Y源的種類和數(shù)量上分析,護(hù)理學(xué)收費(fèi)資源僅是免費(fèi)資源的一個子集。然而,在知識的組織方式上后者與收費(fèi)資源遠(yuǎn)遠(yuǎn)不能同日而語,整體處于無組織的狀態(tài)。這是由于免費(fèi)資源分布過于廣泛,所有的內(nèi)容沒有統(tǒng)一的結(jié)構(gòu)格式要求,尤其是電子論壇信息的沒有審核的過程,不規(guī)范用語非常常見等等,在這種條件下,顯然信息元不可能成為免費(fèi)資源的組織方式。為了合理組織這些資源,知識元組織方式最佳的選擇。
2護(hù)理學(xué)知識元的標(biāo)引范圍
2.1限定開源資源的標(biāo)引范圍
目前國內(nèi)大型綜合類開源資源網(wǎng)站主要以道客巴巴、百度文庫和豆丁網(wǎng)為代表,筆者在3月19日以“護(hù)理學(xué)”為檢索詞向這三個數(shù)據(jù)庫的默認(rèn)檢索方式進(jìn)行檢索,分別得到956149、901090和401445個檢索結(jié)果,由于以上三者均是以電子期刊、電子圖書、學(xué)術(shù)論文、電子課件等作為資源收集的內(nèi)容,從資源數(shù)量可以簡單的判斷道客巴巴的護(hù)理學(xué)資源最為豐富。因此,將開源資源的收集范圍限定在道客巴巴中,其他兩個數(shù)據(jù)庫沒有必要做重復(fù)的分析統(tǒng)計(jì)。
2.2限定電子論壇的標(biāo)引范圍
包括護(hù)理學(xué)在內(nèi),各種電子論壇的整體資源質(zhì)量與論壇服務(wù)時間往往成正比,如丁香園論壇始建于2000年7月23日,經(jīng)過多年的發(fā)展,吸引了大量高素質(zhì)醫(yī)學(xué)工作者的關(guān)注,內(nèi)容也較為準(zhǔn)確,信息每天都在動態(tài)更新;相比之下大量小的醫(yī)學(xué)論壇不具有較強(qiáng)的吸引力,內(nèi)容的整體質(zhì)量較低,而且即使對其進(jìn)行標(biāo)引,這些論壇未來也非常可能被市場所淘汰,無法找到標(biāo)引所對應(yīng)的知識內(nèi)容,顯然對這樣的網(wǎng)站內(nèi)容進(jìn)行深入的知識挖掘幾乎沒有意義。因此有必要將論壇的范圍限制在2年以上,以此保充分提高對電子論壇知識元標(biāo)引的質(zhì)量和工作效率。
2.3限定百科全書類網(wǎng)站的標(biāo)引范圍
主流的百科全書類網(wǎng)站主要有百度百科、搜搜百科、360百科、谷歌百科等等,通過名字即可發(fā)現(xiàn)這些網(wǎng)站均有一個共同的特點(diǎn),即先有搜索引擎,后有百科,每個所有引擎都會首要的引用自身的百科知識,兩者相互促進(jìn)發(fā)展。以上百科類網(wǎng)站的知識內(nèi)容幾乎均涵蓋所有的學(xué)科范圍,種類和內(nèi)容沒有明顯差別,但由于百度搜索引擎是市場占有率最大,在2012年11月占有率高達(dá)72.84%[2],可以說百度已經(jīng)成為多數(shù)人檢索信息的習(xí)慣。相應(yīng)的使百度百科自然成為百科類知識點(diǎn)擊率最高的網(wǎng)站,因此將范圍限定在百度百科中。
3知識元標(biāo)引過程
3.1護(hù)理學(xué)免費(fèi)資源的分詞
分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程,將沒有間隔符中文詞語變?yōu)闄C(jī)器可以理解的詞語。常用的分詞方法可分為三大類:基于字符串匹配的分詞法、基于理解的分詞方法和基于詞頻統(tǒng)計(jì)的分詞方法?;诶斫獾姆衷~方法模擬了人腦的理解過程,目前還處在試驗(yàn)階段[3]。前文雖然對護(hù)理學(xué)免費(fèi)資源的范圍進(jìn)行了限定,但整體仍然是海量的,為了提高分析效率,保證分詞質(zhì)量,本文設(shè)計(jì)了一種曲線高效的分詞方法?!扒€”表示為首先不直接對免費(fèi)資源進(jìn)行分詞,而是以CNKI中的期刊數(shù)據(jù)庫、報紙數(shù)據(jù)庫、博碩論文數(shù)據(jù)庫、會議論文等數(shù)據(jù)庫,和讀秀電子圖書數(shù)據(jù)庫為對象,采用字符串配算法進(jìn)行分詞方法對其內(nèi)容進(jìn)行分詞。其原因如下:①電子期刊、博碩論文、會議論文等數(shù)據(jù)庫是高端人才交流前沿知識的主要陣地。這決定其內(nèi)容整體具有極高的含金量,任何新的理論知識、高效的工作方法必然第一時間誕生在其中或必然有所體現(xiàn),保證了分詞結(jié)果的全面性;②整體內(nèi)容經(jīng)過作者和編輯部多次審閱和校對,幾乎沒有錯別字和奇異詞,不需要對詞語進(jìn)行語義理解的過程,保證了分詞結(jié)果的準(zhǔn)確性;三、文獻(xiàn)數(shù)量范圍進(jìn)一步縮小。筆者利用CNKI總庫檢索近5年發(fā)表的有關(guān)護(hù)理學(xué)方面的文獻(xiàn),檢索表達(dá)式為:主題=護(hù)理(出版年:2009年3月29日—2013年4月29日)進(jìn)行跨庫檢索,總計(jì)得到313643個檢索結(jié)果;以護(hù)理為檢索詞,在讀秀電子圖書中檢索得到35859個檢索結(jié)果,有限的內(nèi)容具備開展字符串匹配算法的基礎(chǔ)??梢娛召M(fèi)數(shù)據(jù)庫的特點(diǎn)完全彌補(bǔ)了字符串匹配算法的缺陷?!案咝А北憩F(xiàn)在以此分詞結(jié)果為基礎(chǔ),將整體分詞的結(jié)果作為字典,向免費(fèi)護(hù)理學(xué)資源采取詞頻統(tǒng)計(jì)分詞的方法進(jìn)行分詞,從而省去以往詞頻統(tǒng)計(jì)需要建立字典的復(fù)雜過程。分詞統(tǒng)計(jì)完成后減去中文停用詞表的分詞,就是最終的分詞結(jié)果。
3.2護(hù)理學(xué)免費(fèi)資源的關(guān)鍵詞提取
提取關(guān)鍵詞是知識元標(biāo)引的核心環(huán)節(jié),主要有兩種方法,分別根據(jù)分詞的重要性和出現(xiàn)頻率作為提取依據(jù)。根據(jù)護(hù)理學(xué)各種免費(fèi)資源自身物理結(jié)構(gòu)的差異,如開源資源和百度百科對內(nèi)容結(jié)構(gòu)有嚴(yán)格的格式限制,尤其是關(guān)鍵詞、摘要是前者必備組成部分,后者雖然沒有對結(jié)構(gòu)有如此細(xì)化的要求,但其內(nèi)容的每個段落均有段落標(biāo)題??梢娨陨蟽烧咴诮Y(jié)構(gòu)上就對分詞間的輕重程度即權(quán)重進(jìn)行了表達(dá)和說明。因此以各個分詞的重要性為依據(jù)提取關(guān)鍵詞。在提取算法的設(shè)計(jì)上,作者傅雷在碩士研究生論文中提出了一種基于TFIDF算法的權(quán)重改進(jìn)型算法,即在TFIDF算法上,增加分詞的參考權(quán)重系數(shù)K,權(quán)重由標(biāo)題、摘要、關(guān)鍵詞和正文四項(xiàng)組成,權(quán)重值分別為2、1.5、3和1。在計(jì)算時,被統(tǒng)計(jì)的文章所有分詞以此為參照物,若某一分詞與標(biāo)題、摘要等項(xiàng)的分詞相同,就附以相應(yīng)的權(quán)重值。以此進(jìn)一步體現(xiàn)出文章結(jié)構(gòu)與分詞重要性的對應(yīng)的關(guān)系,將結(jié)算結(jié)果前10名的分詞設(shè)為關(guān)鍵詞,并經(jīng)過實(shí)踐證明較為合理準(zhǔn)確[4]。本文在此基礎(chǔ)上,對權(quán)重系數(shù)K進(jìn)行了如下細(xì)化和修改。細(xì)化內(nèi)容為,根據(jù)標(biāo)準(zhǔn)格式的論文和圖書結(jié)構(gòu)中必有段落小標(biāo)題,這是對段落或部分內(nèi)容的總結(jié)性歸納,和美國學(xué)者P.E.Baxendale統(tǒng)計(jì)表明,反映段落主題的句子85%出現(xiàn)在段首,7%出現(xiàn)在段尾為原則[5],按著權(quán)重的重要性依次排序?yàn)槎温湫?biāo)題分詞>段首句分詞>段尾句分詞。相應(yīng)的對權(quán)重值進(jìn)行修改為2.5、2和1.5,即正文權(quán)重值1不變,新增三項(xiàng)依次以0.5遞增。標(biāo)題、摘要、關(guān)鍵詞的權(quán)重值依次增加1.5,分別為3.5、3和4.5。若某一分詞同時與權(quán)重項(xiàng)的多個相同,按最大值賦予權(quán)重系數(shù)。同樣取前10個分詞作為關(guān)鍵詞。最后在道客巴巴和百度百科中各隨即抽取50篇文章,通過自動抽取的關(guān)鍵詞與人工抽取的關(guān)鍵詞相比較,計(jì)算出抽取精度、召回率和Fβ=1值分別為33%、87%和47.8%,較TFIDF權(quán)重改進(jìn)型的算法的值均有所提高,結(jié)果較為理想。從電子論壇內(nèi)容的格式分析,大部門內(nèi)容由一段話組成,內(nèi)容較少,甚至在百字以下。有限的內(nèi)容使其產(chǎn)生分詞與其位置幾乎沒有重要的對應(yīng)關(guān)系,這極大降低了知識元提取的難度。因此,選擇計(jì)算分詞出現(xiàn)頻率的方法提取關(guān)鍵詞,即依次計(jì)算每一個分詞的出現(xiàn)頻率取其平均值,將出現(xiàn)頻率高于平均值的分詞提取為關(guān)鍵詞。
3.3護(hù)理學(xué)免費(fèi)資源關(guān)鍵句的提取
由于關(guān)鍵詞雖然可以表達(dá)概念,但無法完整的表達(dá)語義,從而無法準(zhǔn)確的描述文章的知識,也不符合人們慣用的對文章的理解過程,相比之下句子才是表達(dá)知識的基本單位。因此,知識元以句子作為基本對象,能夠更加合理、準(zhǔn)確、方便的描述知識元表述的內(nèi)容。具體過程如下:首先根據(jù)關(guān)鍵詞提取的結(jié)果,將關(guān)鍵詞還原至所在的句子。然后對句子進(jìn)行分析,判斷該句子是否能夠完整表達(dá)一個知識且不可再分,將符合條件的句子提取為關(guān)鍵句。由于以上過程較為簡單,在這里就不再贅述。3.4護(hù)理學(xué)免費(fèi)資源知識元標(biāo)引按著知識元的結(jié)構(gòu)描述關(guān)鍵句就形成了知識元。隨著情報等學(xué)科對知識元研究的逐步深入,目前已經(jīng)誕生較為合理的知識元描述框架[6]。
4知識元樹型組織
本文設(shè)計(jì)分類器的思想是根據(jù)知識元結(jié)構(gòu)中的內(nèi)容屬性設(shè)計(jì)的,整體分類器由三級組成:①設(shè)置護(hù)理學(xué)理論知識元與實(shí)踐知識元分類器,對Web上免費(fèi)的護(hù)理學(xué)知識元進(jìn)行初次分類。通過對護(hù)理學(xué)知識元內(nèi)容的特點(diǎn)進(jìn)行分析,發(fā)現(xiàn)以下詞語往往與護(hù)理學(xué)理論知識關(guān)系緊密,如分析、淺議、原理、概念、進(jìn)展等,將以上詞語組織構(gòu)建成為護(hù)理學(xué)理論知識分類器。以下詞語如治療、作用、效果、調(diào)查、步驟、比較、處置等與護(hù)理學(xué)實(shí)踐知識的內(nèi)容相關(guān),由此組成護(hù)理學(xué)實(shí)踐知識分類器。②在根據(jù)醫(yī)學(xué)廣義的內(nèi)、外、婦、兒的分類,設(shè)置二級分類器,如心梗、心絞痛、腎炎等詞語組成內(nèi)科護(hù)理學(xué)分類器等,同時根據(jù)護(hù)理學(xué)實(shí)際的研究和工作需要,增設(shè)護(hù)理學(xué)教學(xué)、護(hù)理學(xué)管理、護(hù)理學(xué)心里三個分類器[7]。③根據(jù)醫(yī)院科室的和醫(yī)學(xué)教學(xué)課程的設(shè)置,進(jìn)一步細(xì)化分類器,如將內(nèi)科護(hù)理學(xué)分類器細(xì)分為心內(nèi)科護(hù)理學(xué)分類器、神經(jīng)內(nèi)科護(hù)理學(xué)分類器等[8]。當(dāng)然,以上分類器的構(gòu)建是一個非常繁瑣的過程,需要護(hù)理學(xué)權(quán)威專家進(jìn)行仔細(xì)論證,受到作者水平能力的制約和篇幅的限制,只是進(jìn)行簡單的框架描述,希望能夠起到拋磚引玉的作用。分類器構(gòu)建完成后,通過對護(hù)理學(xué)知識元的內(nèi)容屬性與分類器的詞語進(jìn)行比較和分析,采用決策樹分類挖掘算法進(jìn)行分類,將所有的知識元組織起來。
5未來努力方向
5.1對護(hù)理學(xué)隱性知識進(jìn)行標(biāo)引
知識元是顯性知識的最小可控單元,也就是說本文是將護(hù)理學(xué)顯性知識作為研究的對象,忽略了隱性知識的標(biāo)引和組織。其實(shí)隱性知識與顯性知識相比更為重要,只是由于目前隱性知識的獲取和共享還存在許多實(shí)質(zhì)性的問題,如部分隱性知識的顯性化存在一定的技術(shù)困難,加之缺乏合理的知識保護(hù)體系和鼓勵方法,限制了隱性知識整體的數(shù)量和質(zhì)量。但近年來基于隱性知識的研究已經(jīng)成為情報學(xué)等學(xué)科研究的重點(diǎn),在一些學(xué)科隱性知識共享平臺初見雛形[9]??梢砸灶A(yù)見不久的將來,隱性知識共享平臺將是人們獲取知識的嶄新途徑。當(dāng)未來護(hù)理學(xué)隱性知識顯性化發(fā)展成熟時,有必要將該部分內(nèi)容進(jìn)行知識元層面的標(biāo)引,擴(kuò)大和豐富護(hù)理學(xué)知識的標(biāo)引的范圍,將所有的護(hù)理學(xué)知識高效組織在一起。
5.2構(gòu)建學(xué)習(xí)組織
知識元標(biāo)引有效的解決了信息孤島的問題,是目前知識組織的最佳方法,但并沒有將知識的生產(chǎn)者有效聯(lián)系在一起,知識生產(chǎn)之間就像在獨(dú)立的包房中進(jìn)行工作一樣,缺乏面對面的交流和協(xié)作。因此,本文計(jì)劃當(dāng)護(hù)理學(xué)免費(fèi)知識元標(biāo)引逐漸完善成熟時,通過對用戶的檢索行為進(jìn)行分析,動態(tài)的將查詢內(nèi)容向同或相近的護(hù)理學(xué)工作者組成學(xué)習(xí)組織[10],尤其是將以高校、科研院所為主的護(hù)理學(xué)研究人員和以醫(yī)院為主的護(hù)理學(xué)臨床工作人員組織在一起,為理論知識和實(shí)踐知識的相互轉(zhuǎn)化創(chuàng)造良好條件。
作者:王春利工作單位:吉林醫(yī)藥學(xué)院附屬醫(yī)院護(hù)理部