包裝產(chǎn)品精準(zhǔn)營銷論文
時間:2022-10-10 09:15:57
導(dǎo)語:包裝產(chǎn)品精準(zhǔn)營銷論文一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
摘要:在當(dāng)今信息化社會中,人物關(guān)系網(wǎng)絡(luò)研究具有十分重要的意義,它蘊含了巨大的商機(jī),并可應(yīng)用于不同的領(lǐng)域。在包裝產(chǎn)品信息分析中,文本信息是重要的基礎(chǔ)資源,將原始文本經(jīng)過命名實體識別、人物實體關(guān)系抽取、指代消解等技術(shù)處理后,構(gòu)建出人物社會關(guān)系網(wǎng)絡(luò)來服務(wù)于包裝產(chǎn)品的精準(zhǔn)營銷,是一種行之有效的方法。實驗結(jié)果表明,人物關(guān)系網(wǎng)絡(luò)構(gòu)建方法具有領(lǐng)域可移植性,它便于在大規(guī)模的網(wǎng)絡(luò)文本中對包裝產(chǎn)品相關(guān)文本進(jìn)行靈活分析,從而為包裝產(chǎn)品生產(chǎn)經(jīng)營者精準(zhǔn)營銷提供輔助決策功能,其方法具有較強(qiáng)的實用價值。
關(guān)鍵詞:人物關(guān)系網(wǎng)絡(luò);自然語言處理;精準(zhǔn)營銷;包裝產(chǎn)品;結(jié)構(gòu)化信息
互聯(lián)網(wǎng)中的WEB文本以爆炸式的速度增長,其中蘊含著豐富的人物社會關(guān)系。在基于WEB網(wǎng)頁的人物關(guān)系網(wǎng)絡(luò)構(gòu)建研究中,Kautz等[1]根據(jù)人名在個人主頁和合作論文等文檔中的共現(xiàn)頻率構(gòu)建了命名為Re-ferralWeb的社會關(guān)系網(wǎng)絡(luò)。Mika等[2]通過人物共現(xiàn)關(guān)系開發(fā)了Flink網(wǎng)絡(luò)社區(qū)系統(tǒng)。Chang等[3]利用貝葉斯概率模型計算Wikipedia中人物實體之間的關(guān)系構(gòu)成人物關(guān)系網(wǎng)絡(luò)。姚從磊等[4]采用模擬退火算法發(fā)掘網(wǎng)絡(luò)文本中人物關(guān)系。王鵬等[5]利用個性化的圖書推薦算法構(gòu)建了基于社會網(wǎng)絡(luò)的圖書推薦系統(tǒng)。在基于純文本的人物關(guān)系網(wǎng)絡(luò)構(gòu)建研究中,Jing等[6]通過多種統(tǒng)計自然語言處理技術(shù)提取文本中的人物關(guān)系和事件,從而構(gòu)建相應(yīng)的人物關(guān)系網(wǎng)絡(luò)。Elson等[7]通過識別文學(xué)作品的兩個對話角色構(gòu)建人物關(guān)系網(wǎng)絡(luò)。Camp等[8]利用SVM分類器對人物關(guān)系進(jìn)行分類并構(gòu)建人物關(guān)系網(wǎng)絡(luò)。趙京勝等[9]應(yīng)用計算語言學(xué)技術(shù)和復(fù)雜網(wǎng)絡(luò)技術(shù),從文學(xué)作品《三國演義》中構(gòu)建社會網(wǎng)絡(luò)。彭成等[10]提出了一種以實體關(guān)系抽取技術(shù)為中心的社會網(wǎng)絡(luò)構(gòu)建方法。精準(zhǔn)營銷是指在精準(zhǔn)定位的前提下通過現(xiàn)代信息技術(shù)構(gòu)建的顧客溝通服務(wù)體系[11]。人物關(guān)系網(wǎng)絡(luò)可為企業(yè)經(jīng)營者、市場分析提供有價值的決策信息,服務(wù)于包裝產(chǎn)品精準(zhǔn)營銷。同時,自動發(fā)現(xiàn)WEB文本中隱含的人物關(guān)系網(wǎng)絡(luò)對于精準(zhǔn)營銷、好友推薦等應(yīng)用也十分重要。在包裝產(chǎn)品領(lǐng)域WEB文本中,研究一種基于自然語言處理技術(shù)自動構(gòu)建人物關(guān)系網(wǎng)絡(luò)的方法非常有意義。所以,筆者利用基于樹核函數(shù)的人物關(guān)系抽取技術(shù)訓(xùn)練得到SVM分類模型,再將該模型應(yīng)用在包裝產(chǎn)品領(lǐng)域人物關(guān)系網(wǎng)絡(luò)挖掘中,為包裝產(chǎn)品的精準(zhǔn)營銷提供決策依據(jù)。
1人物關(guān)系網(wǎng)絡(luò)構(gòu)建技術(shù)
1.1基于ACE語料庫的人物關(guān)系網(wǎng)絡(luò)組成。自2000年開始,美國國家標(biāo)準(zhǔn)技術(shù)研究院組織了自動內(nèi)容抽?。ˋutomaticContentExtraction,ACE)評測,目的是在機(jī)器學(xué)習(xí)技術(shù)基礎(chǔ)上解決用戶在進(jìn)行海量信息檢索、比較和判斷時面臨的困難。在ACE中文語料庫的633篇新聞文檔中,標(biāo)注的人物關(guān)系類型有靜態(tài)的人物社會關(guān)系(PER-SOC)和動態(tài)的社會交互事件(CONTACT)轉(zhuǎn)化的社會交互關(guān)系,每種大類關(guān)系又被細(xì)分成具體的小類。它涵蓋了家庭成員關(guān)系、商業(yè)伙伴關(guān)系、社會交互關(guān)系、書信電話交互關(guān)系等多種靜態(tài)和動態(tài)人物關(guān)系?;贏CE語料庫的人物關(guān)系網(wǎng)絡(luò)構(gòu)建需經(jīng)過圖1所示的人名實體識別、關(guān)系抽取、共指消解等步驟。1.2構(gòu)建人物關(guān)系網(wǎng)絡(luò)相關(guān)處理技術(shù)。在自然語言處理技術(shù)中,人名實體識別的準(zhǔn)確率很高,已接近商用化。其任務(wù)就是自動標(biāo)注待處理文本中的人名、地名等命名實體??刹捎贸墒旃ぞ逽tanfordNamedEntityRecognizer來實現(xiàn)中文人名實體識別任務(wù)。除此之外,仍需經(jīng)過以下關(guān)鍵技術(shù)處理。1.2.1實體間關(guān)系抽取。對于人物實體關(guān)系抽取是人物關(guān)系網(wǎng)絡(luò)中的核心步驟,其目標(biāo)是通過一個句子中與兩個人名實體相關(guān)的信息,判斷這兩個人名實體是否存在關(guān)系以及存在何種關(guān)系。采用的方法是基于樹核函數(shù)的人物關(guān)系抽取技術(shù)確定句子中的兩個實體之間的關(guān)系。其關(guān)鍵技術(shù)是準(zhǔn)確刻畫實體相互關(guān)系的結(jié)構(gòu)化信息,即保留句法樹中的哪些部分作為結(jié)構(gòu)化信息表達(dá)形式。Zhang等[12]實驗證明最短路徑包含樹形式的結(jié)構(gòu)化信息取得了最好的性能。文中在最短路徑包含樹的基礎(chǔ)上,根據(jù)新聞人物關(guān)系實例的長語句文本特點,通過刪除冗余信息和引入動詞語言學(xué)特征,在人名實體的父節(jié)點加入同義詞詞林等語義信息來提高人物關(guān)系抽取的性能,同時使用重采樣技術(shù)[13]解決語料庫正負(fù)例樣本不平衡的問題。為了充分利用實驗語料,按照五倍交叉驗證原則,將關(guān)系實例按照5∶1的比例分為訓(xùn)練集和測試集,最終獲得基于ACE語料庫的人物關(guān)系模型文件。1.2.2單文本指代消解。在自然語言描述中,指代是一種常見的語言表達(dá)現(xiàn)象,單文本指代消解是將篇章內(nèi)的指代現(xiàn)象進(jìn)行消解形成指代鏈的過程,例如指代鏈“他、總統(tǒng)、奧巴馬”等實體詞,指的都是同一個名詞性實體“奧巴馬”。為了更準(zhǔn)確地構(gòu)建人物關(guān)系網(wǎng)絡(luò),指向同一個人名實體必須合并為同一個結(jié)點,從而提高人物關(guān)系網(wǎng)絡(luò)的表現(xiàn)力和實用性。文中將人物實體關(guān)系抽取得到相應(yīng)的關(guān)系模式泛化,使用新的關(guān)系模式重新檢索語料庫文本的方式來解決單文本指代消解問題。1.2.3跨文本指代消解??缥谋局复馐桥袛嗖煌恼轮械膶嶓w引用是否為同一個實體的過程,它的任務(wù)是將多個篇章中指向同一實體的所有指代詞形成同一指代鏈。其中“多名”現(xiàn)象指的是同一實體在不同文本中有不同的指代詞,“重名”現(xiàn)象指的是不同文檔中的相同指代詞指向不同的實體。針對跨文本指代消解問題,首先將兩對同樣的人名實體(實體名稱及實體關(guān)系均相同)存在于不同的文檔中的關(guān)系實例合并,然后將指代消解問題轉(zhuǎn)化為分類問題,采用成熟的SVM分類模型解決跨文本指代消解中的重名消歧和多名聚合問題。經(jīng)過以上步驟,將抽取到的人名實體間的關(guān)系作為網(wǎng)絡(luò)的邊,相應(yīng)的人名實體作為網(wǎng)絡(luò)結(jié)點,歸并掉冗余的邊和結(jié)點后即形成人物關(guān)系網(wǎng)絡(luò)。
2包裝產(chǎn)品營銷中的人物關(guān)系網(wǎng)絡(luò)
2.1基于包裝產(chǎn)品營銷中的人物關(guān)系網(wǎng)絡(luò)組成。從包裝領(lǐng)域文本中挖掘人物關(guān)系進(jìn)而構(gòu)建人物關(guān)系網(wǎng)絡(luò)包括WEB網(wǎng)頁提取、分句、分詞和詞性標(biāo)注、句法分析及關(guān)系實例生成、人物實體關(guān)系抽取、指代信息處理等關(guān)鍵步驟,具體過程如圖2所示。對于人物實體關(guān)系抽取部分,首先將基于ACE語料庫的訓(xùn)練文件和手動標(biāo)注的少量包裝產(chǎn)品領(lǐng)域文本的訓(xùn)練實例歸并為新的訓(xùn)練實例,通過SVM分類器訓(xùn)練得到基于包裝產(chǎn)品領(lǐng)域文本的人物關(guān)系模型文件,再對手動標(biāo)注的大量測試實例進(jìn)行預(yù)測,得到人物關(guān)系抽取的實驗性能指標(biāo)。2.2包裝產(chǎn)品營銷中的人物關(guān)系網(wǎng)絡(luò)處理方式在包裝產(chǎn)品的精準(zhǔn)營銷中,運用人物關(guān)系網(wǎng)絡(luò)表達(dá)的包裝領(lǐng)域人物關(guān)系,幫助用戶篩出所需要的信息,達(dá)到精準(zhǔn)營銷的目的。在人物關(guān)系網(wǎng)絡(luò)處理中需要進(jìn)行如下的處理方式。2.2.1WEB網(wǎng)頁提取。以“全國先進(jìn)包裝企業(yè)名單”中200家企業(yè)門戶網(wǎng)站作為實驗數(shù)據(jù)來源,通過搜索引擎獲取大量包裝領(lǐng)域相關(guān)網(wǎng)頁。根據(jù)網(wǎng)絡(luò)爬蟲抓取到的網(wǎng)頁布局特點,編寫腳本程序提取網(wǎng)頁文章的標(biāo)題和正文,按照網(wǎng)頁為單位保存至對應(yīng)的文檔中;緊接著采用正則表達(dá)式過濾文檔中的噪聲信息。2.2.2文本預(yù)處理首先,將文檔中的“句號、感嘆號、問號、省略號”作為句子終結(jié)符進(jìn)行分句;然后,采用中科院計算所的詞性標(biāo)注工具ICTCLAS進(jìn)行分詞,分詞工具還提供人名實體信息的詞性標(biāo)注;最后,根據(jù)上述詞性標(biāo)注的結(jié)果,凡是含有兩個及兩個以上人名實體的句子即為候選句。2.2.3句法分析及關(guān)系實例生成。首先,采用句法分析工具Charniakparser[14]對候選句進(jìn)行句法分析,獲得完整的句法樹信息;然后,將候選句中人名實體按照不同組合生成相應(yīng)的關(guān)系實例,并在關(guān)系實例的當(dāng)前兩個人名實體的詞性結(jié)點的相應(yīng)位置加入標(biāo)記結(jié)點;最后,依據(jù)結(jié)構(gòu)化信息生成算法對完整句法樹進(jìn)行定向裁剪后生成關(guān)系實例。2.2.4人物實體關(guān)系抽取。根據(jù)ACE標(biāo)準(zhǔn)語料庫中訓(xùn)練實例和少量新標(biāo)注的包裝產(chǎn)品領(lǐng)域文本的訓(xùn)練實例,充分訓(xùn)練SVM分類器,得到新的分類模型文件對包裝產(chǎn)品領(lǐng)域的大量測試實例進(jìn)行關(guān)系抽取與分類,最終得到包裝領(lǐng)域WEB文本中蘊含的人物關(guān)系。2.2.5指代信息處理。指代信息處理有助于提高人物關(guān)系網(wǎng)絡(luò)的真實性及表現(xiàn)力。根據(jù)分類模型抽取的人物關(guān)系實例,自動提取兩個實體,并標(biāo)注實體間相互關(guān)系。由于包裝領(lǐng)域文本的絕大多數(shù)人名實體即為其人名全稱,不需要進(jìn)行指代消解。對于極少部分的指代現(xiàn)象采取人工歸并的方式處理,例如“西南地區(qū)銷售經(jīng)理、王強(qiáng)、他”為同一指代鏈,則使用名詞性實體“王強(qiáng)”替代。根據(jù)人物關(guān)系抽取獲取到的結(jié)點和邊,構(gòu)成了基于包裝領(lǐng)域文本的人物關(guān)系網(wǎng)絡(luò)。
3實驗與結(jié)果分析
文中采用常用的準(zhǔn)確率(Precision)、召回率(Recall)和對應(yīng)的加權(quán)幾何平均值(F1-Measure)作為人物關(guān)系抽取性能評價標(biāo)準(zhǔn)。它們的定義如下Precision=C/T(1)Recall=C/N(2)F1-Measure=[P×R×(1+β2)]/[(P+R)×β2](3)其中,C為被正確分為某類的實例數(shù),N為測試樣本中某類的實例總數(shù),T為系統(tǒng)識別出某類實例的總數(shù),P為準(zhǔn)確率,R為召回率,β是召回率和準(zhǔn)確率的相對權(quán)重(文中)的β值取1)。表1中的“ACE和WEB”兩列展示了基于ACE語料庫和包裝領(lǐng)域WEB文本兩種文本來源所蘊含的人物社會關(guān)系數(shù)量,表格的最后三列展示了在包裝領(lǐng)域WEB文本中進(jìn)行人物關(guān)系抽取的實驗性能,TOTAL是PER-SOC和CONTACT兩類實例綜合在一起計算時的性能平均值。準(zhǔn)確率和召回率均取得了較好結(jié)果,這表明包裝領(lǐng)域WEB文本的語言結(jié)構(gòu)類似于ACE語料,同時也證明基于自然語言處理技術(shù)的人物關(guān)系網(wǎng)絡(luò)挖掘方法具有較好的領(lǐng)域可移植性。在ACE語料庫訓(xùn)練實例的基礎(chǔ)上,加入少量包裝領(lǐng)域文本的訓(xùn)練實例后生成的分類模型文件可以用于挖掘包裝領(lǐng)域的人物關(guān)系網(wǎng)絡(luò)。從實驗結(jié)果還可以看出,ACE語料庫中文本以人物-社會關(guān)系中的家庭和商業(yè)伙伴關(guān)系為主,而包裝領(lǐng)域文本以社會交互事件中產(chǎn)生的社會交互關(guān)系為主。
4結(jié)語
由于文中提出的人物關(guān)系網(wǎng)絡(luò)挖掘方法具有較好的領(lǐng)域適應(yīng)性,因此在海量的包裝信息數(shù)據(jù)文本中,可以自動抽取人名實體間有潛在價值的商業(yè)伙伴關(guān)系和社會交互關(guān)系,構(gòu)建包裝領(lǐng)域人物關(guān)系網(wǎng)絡(luò),從而為包裝領(lǐng)域挖掘出最有營銷價值的客戶群體,為用戶提供有針對性的服務(wù),以實現(xiàn)高效營銷。值得注意的是,文中介紹的包裝產(chǎn)品精準(zhǔn)營銷依賴于大規(guī)模的數(shù)據(jù)文本,現(xiàn)階段原始數(shù)據(jù)有限,實驗效果會受到制約,隨著對包裝領(lǐng)域網(wǎng)絡(luò)文本的深入挖掘,基于人物關(guān)系網(wǎng)絡(luò)的營銷模式將發(fā)揮其優(yōu)勢,成為企業(yè)高效的營銷選擇,具有較強(qiáng)的實用價值。
作者:彭麗麗 奚雪峰 單位:蘇州科技大學(xué)