天天精品资源在线观看,亚洲精品在线影院,女性私人爽爽影院免费观看国产,亚洲中文字幕aⅴ天堂自拍

(0)

首頁文章中心正文

關鍵詞組合研究論文

時間：2022-03-04 08:23:00

導語：關鍵詞組合研究論文一文來源于網(wǎng)友上傳，不代表本站觀點，若需要原創(chuàng)文章可咨詢客服老師，歡迎參考。

關鍵詞組合研究論文

近年來，以文本格式存儲的海量信息出現(xiàn)在Internet、數(shù)字化圖書館及公司的Intranet上，如何從這些浩瀚的文本中發(fā)現(xiàn)有價值的信息是信息處理領域的重要目標，而文本自動分類系統(tǒng)能夠在給定的分類模型下，根據(jù)文本的內(nèi)容自動對文本分門別類，從而更好地幫助人們組織及挖掘文本信息，因此得到日益廣泛的關注，成為信息處理領域最重要的研究方向之一。

一、自動分類的種類和作用

自動分類就是用計算機系統(tǒng)代替人工對文獻等對象進行分類，一般包括自動聚類和自動歸類。自動聚類和自動歸類的主要區(qū)別就是自動聚類不需要事先定義好分類體系，而自動歸類則需要確定好類別體系，并且要為每個類別提供一批預先分好的對象作為訓練文集，分類系統(tǒng)先通過訓練文集學習分類知識，在實際分類時，再根據(jù)學習到的分類知識為需要分類的文獻確定一個或者多個類別。本文中所指的自動分類是指對網(wǎng)頁的自動分類，包括網(wǎng)頁的自動歸類和自動聚類。

目前搜索引擎提供兩種信息查詢方式:分類瀏覽和關鍵詞檢索。分類瀏覽一般是基于網(wǎng)站分類目錄。關鍵詞檢索的對象不是網(wǎng)站，而是符合條件的網(wǎng)頁。關鍵詞檢索信息量大、更新及時、不需要人工干預。

二、問題描述

1.系統(tǒng)任務

簡單地說，文本分類系統(tǒng)的任務是：在給定的分類體系下，根據(jù)文本的內(nèi)容自動地確定文本關聯(lián)的類別。從數(shù)學角度來看，文本分類是一個映射的過程，它將未標明類別的文本映射到已有的類別中，該映射可以是一一映射，也可以是一對多的映射，因為通常一篇文本可以同多個類別相關聯(lián)。用數(shù)學公式表示如下：

文本分類的映射規(guī)則是系統(tǒng)根據(jù)已經(jīng)掌握的每類若干樣本的數(shù)據(jù)信息,總結(jié)出分類的規(guī)律性而建立的判別公式和判別規(guī)則。然后在遇到新文本時,根據(jù)總結(jié)出的判別規(guī)則,確定文本相關的類別。

2.評估方法

我們使用評估文本分類系統(tǒng)的兩個指標：準確率和查全率。準確率是所有判斷的文本中與人工分類結(jié)果吻合的文本所占的比率。其數(shù)學公式表示如下：

;查全率是人工分類結(jié)果應有的文本中分類系統(tǒng)吻合的文本所占的比率，其數(shù)學公式表示如下：

;準確率和查全率反映了分類質(zhì)量的兩個不同方面，兩者必須綜合考慮，不可偏廢。

3.詞語向量空間模型的文本表示

目前，在信息處理方向上,文本的表示主要采用向量空間模型(VSM)。向量空間模型的基本思想是以向量來表示文本:（W1,W2,W3……Wn），其中Wi為第i個特征項的權(quán)重，那么選取什么作為特征項呢,一般可以選擇字、詞或詞組，根據(jù)實驗結(jié)果，普遍認為選取詞作為特征項要優(yōu)于字和詞組,因此,要將文本表示為向量空間中的一個向量,就首先要將文本分詞,由這些詞作為向量的維數(shù)來表示文本。詞頻分為絕對詞頻和相對詞頻，絕對詞頻,即使用詞在文本中出現(xiàn)的頻率表示文本,相對詞頻為歸一化的詞頻,其計算方法主要運用TF～IDF公式,目前存在多種TF～IDF公式,一種比較普遍的TF～IDF公式為:;其中，為詞t在文本中的權(quán)重，而為詞t在文本中的詞頻，N為訓練文本的總數(shù)，nt為訓練文本集中出現(xiàn)t的文本數(shù)，分母為歸一化因子。

4.詞語向量空間模型的訓練方法和分類算法

訓練方法和分類算法是分類系統(tǒng)的核心部分，目前存在多種基于向量空間模型的訓練算法和分類算法，例如，支持向量機算法、神經(jīng)網(wǎng)絡方法，最大平均熵方法，最近K鄰居方法和貝葉斯方法等等。一般相似度定義公式為:;其中，di，dj為不同的文本，M為特征向量的維數(shù)，Wk為向量的第K維。

三、關鍵詞組合向量空間的文本表示模型

關鍵詞組合是大多數(shù)搜索引擎使用的查詢語言。我們這里定義的關鍵詞組合(Keywordexpression)為：

Keywordexpression=keyword[andkeyword]*

例如keywordexpression=“大?！盿nd“海鷗”表示如果文本中同時出現(xiàn)“大?！焙汀昂ｚt”，則這個文檔滿足關鍵詞表達式。

定義P為可能關注的關鍵詞集合為P，|P|為關鍵詞的個數(shù)。對于一般的分類系統(tǒng)|P|一般為10萬左右。Pi為其中的一個關鍵詞。關鍵詞可以是一個有穩(wěn)定的詞語也可以是一個短語。

定義E表示可能關注的關鍵詞集合。|P|為關鍵詞組合的個數(shù).Ei是其中的一個組合。同時保證出現(xiàn)在Ei的關鍵詞一定在P中。定義D表示全部文檔集合。|D|為的文檔個數(shù).是其中的一個文檔。定義l表示一個表達式必須出現(xiàn)在多少連續(xù)的句子中。一般定義為3個句子。則定義文檔當且僅當在文本dk..k+l中出現(xiàn)了關鍵詞組合e的全部關鍵詞。定義。則表示表達式出現(xiàn)在文檔的中的頻率。類似向量空間模型，我們定義表達式的權(quán)重:

;其中，為詞e在文本中的權(quán)重，N為訓練文本的總數(shù)，nt為訓練文本集中出現(xiàn)t的文本數(shù)，分母為歸一化因子。

同理我們可以定義文本的相似度:;其中，di，dj為不同的文本，M為特征向量的維數(shù)，Wk為向量的第K維。計算由于對于存在的多關鍵詞匹配算法，所以對關鍵詞集合P可以在計算出關鍵詞序列Q。使用自動機算法可以在O(|Q|)時間內(nèi)計算出全部出現(xiàn)的關鍵詞集合。

四、特征詞的提取

使用特征詞的向量空間來表示文檔時，直接使用構(gòu)成文檔的詞條作為向量空間的維度，會使相應的詞條向量矩陣非常稀疏和巨大，而且存在著大量對文檔的描述和區(qū)分不相關或影響很小的詞條維度，這會造成對文檔語義描述的混淆和模糊。為了提高分類算法的效率和準確度，有必要對構(gòu)成文檔的詞條進行特征詞的提取和篩選，即對詞條向量空間進行降維處理。

特征詞提取有多種算法，大致可分為兩種：一種是在現(xiàn)有的詞條中從統(tǒng)計的角度選擇對文檔語義表達較好的詞條，如IG(InformationGain)，DF(DocumentFrequency)，χ2-statistic等特征詞選取算法；還有一種是從現(xiàn)有詞條中抽提和構(gòu)造可以表達文檔的隱含語義的特征，作為向量空間的維度，如隱含語義檢索（LatentSemanticIndexing,LSI）。LSI的核心操作是對詞條文檔矩陣進行截斷的SVD（SingularValueDecomposition）分解，從而可以得到原詞條文檔矩陣在最小二乘意義上的最好近似。LSI可以在降維的同時，抽取文檔的隱含語義，使得生成的文檔向量可以較好地表達文檔的語義。詞條的權(quán)重算法對LSI的效果有一定的影響，據(jù)分析，聯(lián)合使用平方根對數(shù)（Squareroot-Log，局部權(quán)重）－熵（Entropy，全局權(quán)重）－余弦標準化（Cosinenormalization，歸一化參數(shù)）來計算詞條權(quán)重的效果比較好。

上一篇：酒店網(wǎng)絡系統(tǒng)論文
下一篇：電子商務企業(yè)生產(chǎn)途徑論文