專利數(shù)據(jù)挖掘論文

時間:2022-06-25 08:46:50

導(dǎo)語:專利數(shù)據(jù)挖掘論文一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

專利數(shù)據(jù)挖掘論文

一、專利數(shù)據(jù)挖掘

數(shù)據(jù)挖掘技術(shù)是延伸和擴(kuò)展了傳統(tǒng)分析方法,可以發(fā)現(xiàn)傳統(tǒng)分析方法不能發(fā)現(xiàn)的內(nèi)容和規(guī)律,并且它將人們從單調(diào)、枯燥的閱讀專利文獻(xiàn)的工作中解放出來,使用計算機(jī)代替了人類勞動,這樣不僅提高了效率,而且提升了準(zhǔn)確度。因此,數(shù)據(jù)挖掘作為一個專利分析的強(qiáng)有力工具被引入到專利分析中來,并且得到快速的發(fā)展應(yīng)用。專利數(shù)據(jù)挖掘流程應(yīng)考慮的問題:一是用數(shù)據(jù)挖掘解決什么樣的問題;二是為進(jìn)行數(shù)據(jù)挖掘所做的數(shù)據(jù)準(zhǔn)備;三是數(shù)據(jù)挖掘的各種分析算法。故專利數(shù)據(jù)挖掘的一般過程通常按照以下步驟來完成:領(lǐng)會數(shù)據(jù)挖掘的目的,獲取分析所用的數(shù)據(jù)集合,探索、清理和預(yù)處理數(shù)據(jù),選擇要使用的數(shù)據(jù)挖掘技術(shù),使用算法解決問題,解釋算法的結(jié)果。而其一般流程可簡化為三個階段:數(shù)據(jù)準(zhǔn)備→數(shù)據(jù)挖掘→結(jié)果解釋和評價。本文采用簡化的流程進(jìn)行實(shí)證分析。

二、石家莊地區(qū)制藥企業(yè)專利數(shù)據(jù)挖掘

本文對石家莊地區(qū)制藥企業(yè)的專利數(shù)據(jù)進(jìn)行挖掘分析,挖掘?qū)ο笫侨A北制藥集團(tuán)公司、石家莊制藥集團(tuán)有限公司、石家莊神威藥業(yè)股份有限公司、石家莊四藥股份、河北以嶺藥業(yè)股份有限公司、石家莊市華曙制藥集團(tuán)、河北醫(yī)科大學(xué)制藥廠、河北圣雪大成制藥有限責(zé)任公司等地址在石家莊且具有一定代表性的藥企,希望通過這些藥企數(shù)據(jù)能夠找到石家莊地區(qū)制藥領(lǐng)域的核心組成,并能為藥企更好地發(fā)展提供有力的信息支持。IPC號是目前權(quán)威的專利技術(shù)主題的標(biāo)識編碼之一,基本包含了各行各業(yè)的專利信息,是一個龐大的專利信息體系。目前國內(nèi)外很多分析方法及技術(shù)大部分是基于專利的IPC分類號來分析專利技術(shù)主題的,此分析方法有一定的參考價值和科學(xué)性,而且對于具有大量專利信息的分析具有很好的總結(jié)概括效果。本文以專利全部IPC號為分析對象,并且構(gòu)建IPC號之間的關(guān)聯(lián)規(guī)則,在最大程度上揭示隱含的專利技術(shù)關(guān)聯(lián)性,從而為石家莊地區(qū)制藥企業(yè)專利技術(shù)的發(fā)展提供參考。

1.數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)來源的準(zhǔn)確與否是數(shù)據(jù)分析與挖掘的基礎(chǔ),是數(shù)據(jù)分析與挖掘的根本。本文所使用的石家莊地區(qū)制藥領(lǐng)域?qū)@麛?shù)據(jù)由萬方數(shù)據(jù)公司提供,以制藥企業(yè)地址為石家莊為檢索條件,搜索出了包括從1985—2014年間石家莊地區(qū)制藥領(lǐng)域?qū)@?44條,分別分布在A、B、C、D、E、F、G、H八個大部。對專利數(shù)據(jù)庫中的644條專利進(jìn)行篩選,根據(jù)“分類號”字段限制,它涉及專利信息的分類,有些IPC所涉及的范圍與石家莊地區(qū)制藥領(lǐng)域沒有聯(lián)系或聯(lián)系很小,不宜保留。根據(jù)“申請人(專利權(quán)人)”字段的限制,剔除與石家莊地區(qū)制藥不相關(guān)或制藥企業(yè)地址不在石家莊地區(qū)的專利。最后篩選出590條最符合該領(lǐng)域特點(diǎn)的專利。由于IPC號在幾乎所有現(xiàn)存數(shù)據(jù)庫中均是以一個字段存儲一個專利的所有IPC分類號的,形如:A61K38/26、A61K9/08、A61K47/12、A61P3/10,且每個專利一般都有好幾個分類號,而每個企業(yè)又研究大量的專利,所以在進(jìn)行專利分析之前,需要對專利IPC號進(jìn)行數(shù)據(jù)整理。由于過于細(xì)致的IPC分類號并不利于專利主題的分析與揭示,所以本文中采用專利小類分析,就是取IPC號的前4位。并將申請人與其對應(yīng)的多條IPC號進(jìn)行拆分,拆分后的數(shù)據(jù)項(xiàng)有773條,即顯示每個申請人對應(yīng)的一條IPC分類號。

2.數(shù)據(jù)挖掘。本文數(shù)據(jù)挖掘過程將采用Excel和SQLsever2005軟件,首先對所得到的數(shù)據(jù)導(dǎo)入SQLserver2005進(jìn)行挖掘,利用SQLserver2005可以直接進(jìn)行IPC號的關(guān)聯(lián)規(guī)則挖掘,然后對專利信息進(jìn)行分析。

3.數(shù)據(jù)挖掘結(jié)果與分析?;陉P(guān)聯(lián)規(guī)則制作依賴關(guān)系網(wǎng)絡(luò)圖,可以更加直觀地看到各個IPC號之間的關(guān)聯(lián)和依賴狀態(tài)。

(1)以A61K、C12N、C12P、C07D、C07C為中心的核心專利技術(shù)群。這些專利的IPC分類號是關(guān)鍵部分藥物組成的各種化合物即藥物主要成分的重要聚集組。A61K(醫(yī)用、牙科用等的配置品)是項(xiàng)集次數(shù)最多的,即支持度較高的,C12P(發(fā)酵或使用酶的方法合成目標(biāo)化合物或組合物或從外消旋混合物中分離旋光異構(gòu)體)、C12N(微生物或酶;其組合物)、C07D(雜環(huán)環(huán)合物,例如鄰氯芐星青霉素的合成)、C07C(無環(huán)和碳環(huán)化合物)通過專利相關(guān)知識我們已經(jīng)知道這些都是藥物的合成成分,即土霉素、鏈霉素、青霉素等多種抗生素和維生素的主要成分組成,是制藥領(lǐng)域的核心。這也是和石家莊地區(qū)制藥企業(yè)的核心領(lǐng)域相符合的。另外這些專利主題的相互關(guān)聯(lián)、依賴說明了石家莊地區(qū)制藥企業(yè)在該領(lǐng)域具有很好的布局網(wǎng)絡(luò),在研發(fā)數(shù)量上也占有一定優(yōu)勢,所以說是石家莊地區(qū)制藥企業(yè)的主要研究領(lǐng)域。

(2)以B65G、C12M為中心的輔助設(shè)備專利技術(shù)群。藥品的生產(chǎn)離不開設(shè)備的支持,所以設(shè)備方面的專利也能體現(xiàn)制藥企業(yè)的技術(shù)水平。在圖1中也能體現(xiàn)出來,專利間有著很強(qiáng)的依賴性和關(guān)聯(lián)性,在核心專利周邊有B65G(運(yùn)輸或貯存裝置,例如裝載或傾斜用輸送機(jī)、車間輸送機(jī)系統(tǒng)、氣動管道輸送機(jī))、C12M(酶學(xué)或微生物學(xué)裝置),這些是制藥的輔助技術(shù)手段,與中心專利是相互聯(lián)系的,也是制藥過程中必不可少的,在這些方面的提高有利于制藥核心領(lǐng)域的發(fā)展。先進(jìn)藥品的研制離不開先進(jìn)制藥設(shè)備支持,所以設(shè)備水平的提高也是關(guān)鍵的。如圖3所示,石家莊地區(qū)制藥企業(yè)在這一方面的技術(shù)依賴網(wǎng)絡(luò)也已經(jīng)形成,說明在此技術(shù)領(lǐng)域也已經(jīng)擁有較強(qiáng)實(shí)力。但與中心主要專利相比,輔助設(shè)備專利技術(shù)還是需要不斷提高的。

三、總結(jié)

對專利的研究有著巨大的潛在價值,我們能通過數(shù)據(jù)挖掘技術(shù)對專利進(jìn)行挖掘,發(fā)現(xiàn)隱含在其中的有用信息,為企業(yè)的有效發(fā)展提供保障。石家莊地區(qū)制藥企業(yè)在專利方面是河北省此領(lǐng)域的發(fā)達(dá)企業(yè),所以發(fā)現(xiàn)其中隱含的價值及蘊(yùn)含的規(guī)律能帶動河北省制藥行業(yè)快速發(fā)展,同時也能發(fā)現(xiàn)自己存在的問題??偟膩碚f,我們只有利用挖掘工具把數(shù)據(jù)轉(zhuǎn)化為有用的信息,才能幫助企業(yè)制定有效的決策,才能在市場競爭中獲得優(yōu)勢地位。本文有很多不足之處,還有待更為深入的研究。

作者:許燕宏 閆坤 單位:河北省委黨校