一種基于多視圖學(xué)習(xí)的科學(xué)主題提取方法
【專利摘要】基于多視圖學(xué)習(xí)的科學(xué)主題提取方法,從論文數(shù)據(jù)庫中獲取論文數(shù)據(jù),作為即將進(jìn)行科學(xué)主題提取的目標(biāo)文檔;針對(duì)每個(gè)目標(biāo)文檔,提取該文檔中的多個(gè)視圖的數(shù)據(jù)信息,作為科學(xué)主題提取的依據(jù);對(duì)每個(gè)視圖的數(shù)據(jù)信息進(jìn)行簡單的數(shù)據(jù)預(yù)處理并針對(duì)每一個(gè)視圖,將所有目標(biāo)文檔的數(shù)據(jù)信息表示成一個(gè)數(shù)據(jù)矩陣,每一個(gè)目標(biāo)文檔的數(shù)據(jù)信息是其中的一個(gè)行向量;利用多視圖學(xué)習(xí)的方法,對(duì)目標(biāo)文檔進(jìn)行聚類,屬于同一類的目標(biāo)文檔對(duì)應(yīng)相同的科學(xué)主題;對(duì)于每一類目標(biāo)文檔,分別提取它們的科學(xué)主題,并以多個(gè)關(guān)鍵詞的形式表示出來。本方法的優(yōu)點(diǎn)在于,彌補(bǔ)了傳統(tǒng)方法只考慮單一方面數(shù)據(jù)信息的不足,更好的利用多方面的數(shù)據(jù)信息,借助它們的互補(bǔ)關(guān)系和潛在主題的一致性輔助聚類,得到更好的科學(xué)主題提取效果。
【專利說明】—種基于多視圖學(xué)習(xí)的科學(xué)主題提取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及文本聚類和科學(xué)主題提取等【技術(shù)領(lǐng)域】,特別是基于多視圖學(xué)習(xí)的文本聚類方法和主題提取工作。
【背景技術(shù)】
[0002]每一篇文章都有自己特定的主題,學(xué)術(shù)論文更是如此,所有學(xué)者和研究人員在進(jìn)行科學(xué)研究和撰寫論文之前,都需要對(duì)現(xiàn)有的科學(xué)主題進(jìn)行調(diào)研,而普通讀者在查找資料的時(shí)候,也希望首先知道文章的主題。經(jīng)驗(yàn)豐富的研究人員對(duì)自己所在領(lǐng)域的科學(xué)主題往往都有很清楚的認(rèn)識(shí),他們能夠很好的發(fā)現(xiàn)與自己研究領(lǐng)域相關(guān)的論文,理清論文之間的關(guān)系,預(yù)測某些科學(xué)主題的流行程度和發(fā)展趨勢,而且這些信息對(duì)于學(xué)者的研究工作以至整個(gè)研究領(lǐng)域的發(fā)展都起著至關(guān)重要的作用。隨著互聯(lián)網(wǎng)的高速發(fā)展,信息開始爆棚,憑借經(jīng)驗(yàn)進(jìn)行簡單的人為處理和分析已經(jīng)不能解決大數(shù)據(jù)時(shí)代帶來的挑戰(zhàn)。為了方便普通讀者能夠更加容易的了解新興的研究領(lǐng)域,幫助經(jīng)驗(yàn)不足的研究人員快速掌握各個(gè)研究領(lǐng)域的研究成果和代表人物,科學(xué)主題的提取工作顯得尤為重要。
[0003]現(xiàn)有的科學(xué)主題提取工作基本上只考慮到論文數(shù)據(jù)中的單方面數(shù)據(jù)信息,而忽略了其他可以利用的潛在數(shù)據(jù)。學(xué)術(shù)論文主要包括正文,標(biāo)題,摘要,關(guān)鍵字,共同作者以及參考文獻(xiàn)等內(nèi)容,傳統(tǒng)的科學(xué)主題提取工作主要依據(jù)正文或者摘要等單一方面信息進(jìn)行處理,很少考慮到多方面數(shù)據(jù)信息的相互影響和內(nèi)在聯(lián)系。因此我們提出了一種基于多視圖學(xué)習(xí)的科學(xué)主題提取方法,彌補(bǔ)了傳統(tǒng)方法的不足,更好的利用多方面的數(shù)據(jù)信息,借助它們的互補(bǔ)關(guān)系和潛在主題的一致性輔助聚類,得到更好的主題提取效果。
【發(fā)明內(nèi)容】
[0004]為了克服現(xiàn)有的科學(xué)主題提取方法只考慮到論文數(shù)據(jù)中的單方面數(shù)據(jù)信息,而忽略了其他可以利用的潛在數(shù)據(jù)的缺點(diǎn),本發(fā)明提出了一種基于多視圖學(xué)習(xí)的科學(xué)主題提取方法,以方便普通讀者能夠更加容易的了解新興的研究領(lǐng)域,幫助經(jīng)驗(yàn)不足的研究人員快速掌握各個(gè)研究領(lǐng)域的研究成果和代表人物。
[0005]本發(fā)明所述的一種基于多視圖學(xué)習(xí)的科學(xué)主題提取方法:
[0006]1、該方法包括以下步驟:
[0007]I)從論文數(shù)據(jù)庫中獲取論文數(shù)據(jù),作為即將進(jìn)行科學(xué)主題提取的目標(biāo)文檔;
[0008]2)針對(duì)每個(gè)目標(biāo)文檔,提取該文檔中的多個(gè)視圖的數(shù)據(jù)信息,作為科學(xué)主題提取的依據(jù);
[0009]3)根據(jù)不同視圖數(shù)據(jù)信息的內(nèi)容特點(diǎn)不同,對(duì)每個(gè)視圖的數(shù)據(jù)信息進(jìn)行簡單的數(shù)據(jù)預(yù)處理;
[0010]4)針對(duì)每一個(gè)視圖,將所有目標(biāo)文檔的數(shù)據(jù)信息表示成一個(gè)數(shù)據(jù)矩陣,每一個(gè)目標(biāo)文檔的數(shù)據(jù)信息是其中的一個(gè)行向量;
[0011]5)利用多視圖學(xué)習(xí)的方法,借助多個(gè)視圖的數(shù)據(jù)信息,對(duì)目標(biāo)文檔進(jìn)行聚類,屬于同一類的目標(biāo)文檔對(duì)應(yīng)相同的科學(xué)主題;
[0012]6)對(duì)于每一類目標(biāo)文檔,分別提取它們的科學(xué)主題,科學(xué)主題以多個(gè)關(guān)鍵詞的形式表不。
[0013]2、步驟2)中所述的多個(gè)視圖的數(shù)據(jù)信息,其特征在于:
[0014]I)根據(jù)應(yīng)用的實(shí)際需求和目標(biāo)文檔所包含數(shù)據(jù)信息的實(shí)際情況,選取t個(gè)不同視圖的數(shù)據(jù)信息,論文數(shù)據(jù)主要包括文章的正文,標(biāo)題,摘要,關(guān)鍵字,共同作者以及參考文獻(xiàn)等多方面的數(shù)據(jù)信息,當(dāng)選取其中的四種:標(biāo)題,摘要,關(guān)鍵字,共同作者這四個(gè)視圖的數(shù)據(jù)Ih 息時(shí),t = 4。
[0015]3、步驟3)中所述的根據(jù)不同視圖數(shù)據(jù)信息的內(nèi)容特點(diǎn)不同,對(duì)每個(gè)視圖的數(shù)據(jù)信息進(jìn)行簡單的數(shù)據(jù)預(yù)處理,其特征在于:
[0016]I)對(duì)于論文數(shù)據(jù)的正文、標(biāo)題、摘要,去掉所有停止詞(a,the, or等使用頻率很多但沒有特定意義或明顯區(qū)分價(jià)值的字或詞,常為冠詞、介詞、副詞或連詞等),將單詞詞干化,即去掉ed,ing等分詞形式或ment等詞綴,只保留詞干形式;
[0017]2)對(duì)于論文數(shù)據(jù)的關(guān)鍵字、共同作者和參考文獻(xiàn)不需要進(jìn)行上述操作。
[0018]4、步驟4)中所述的針對(duì)每一個(gè)視圖,將所有目標(biāo)文檔的數(shù)據(jù)信息表示成一個(gè)數(shù)據(jù)矩陣,每一個(gè)目標(biāo)文檔的數(shù)據(jù)信息是其中的一個(gè)行向量,其特征在于:
[0019]I)共同作者視圖、關(guān)鍵字視圖和參考文獻(xiàn)視圖處理方式相同,以共同作者視圖為例,遍歷所有目標(biāo)文檔的作者部分,統(tǒng)計(jì)所有不同的作者姓名,將每一個(gè)目標(biāo)文檔的共同作
者視圖用向量的形式表示,定義向量
【權(quán)利要求】
1.一種基于多視圖學(xué)習(xí)的科學(xué)主題提取方法,該方法的特征在于: 1)從論文數(shù)據(jù)庫中獲取論文數(shù)據(jù),作為即將進(jìn)行科學(xué)主題提取的目標(biāo)文檔; 2)針對(duì)每個(gè)目標(biāo)文檔,提取該文檔中的多個(gè)視圖的數(shù)據(jù)信息,作為科學(xué)主題提取的依據(jù); 3)根據(jù)不同視圖數(shù)據(jù)信息的內(nèi)容特點(diǎn)不同,對(duì)每個(gè)視圖的數(shù)據(jù)信息進(jìn)行簡單的數(shù)據(jù)預(yù)處理; 4)針對(duì)每一個(gè)視圖,將所有目標(biāo)文檔的數(shù)據(jù)信息表示成一個(gè)數(shù)據(jù)矩陣,每一個(gè)目標(biāo)文檔的數(shù)據(jù)信息是其中的一個(gè)行向量; 5)利用多視圖學(xué)習(xí)的方法,借助多個(gè)視圖的數(shù)據(jù)信息,對(duì)目標(biāo)文檔進(jìn)行聚類,屬于同一類的目標(biāo)文檔對(duì)應(yīng)相同的科學(xué)主題; 6)對(duì)于每一類目標(biāo)文檔,分別提取它們的科學(xué)主題,科學(xué)主題以多個(gè)關(guān)鍵詞的形式表/Jn ο
2.如權(quán)利要求1所述的基于多視圖學(xué)習(xí)的科學(xué)主題提取方法,步驟2)中所述的多個(gè)視圖的數(shù)據(jù)信息,其特征在于: I)根據(jù)應(yīng)用的實(shí)際需求和目標(biāo)文檔所包含數(shù)據(jù)信息的實(shí)際情況,選取t個(gè)不同視圖的數(shù)據(jù)信息,論文數(shù)據(jù)主要包括文章的正文,標(biāo)題,摘要,關(guān)鍵字,共同作者以及參考文獻(xiàn)等多方面的數(shù)據(jù)信息,當(dāng)選取其中的四種:標(biāo)題,摘要,關(guān)鍵字,共同作者這四個(gè)視圖的數(shù)據(jù)信息時(shí),t = 4。
3.如權(quán)利要求2所述的 基 于多視圖學(xué)習(xí)的科學(xué)主題提取方法,步驟3)中所述的根據(jù)不同視圖數(shù)據(jù)信息的內(nèi)容特點(diǎn)不同,對(duì)每個(gè)視圖的數(shù)據(jù)信息進(jìn)行簡單的數(shù)據(jù)預(yù)處理,其特征在于: 1)對(duì)于論文數(shù)據(jù)的正文、標(biāo)題、摘要,去掉所有停止詞(a,the,or等使用頻率很多但沒有特定意義或明顯區(qū)分價(jià)值的字或詞,常為冠詞、介詞、副詞或連詞等),將單詞詞干化,即去掉ed, ing等分詞形式或ment等詞綴,只保留詞干形式; 2)對(duì)于論文數(shù)據(jù)的關(guān)鍵字、共同作者和參考文獻(xiàn)不需要進(jìn)行上述操作。
4.如權(quán)利要求3所述的基于多視圖學(xué)習(xí)的科學(xué)主題提取方法,步驟4)中所述的針對(duì)每一個(gè)視圖,將所有目標(biāo)文檔的數(shù)據(jù)信息表示成一個(gè)數(shù)據(jù)矩陣,每一個(gè)目標(biāo)文檔的數(shù)據(jù)信息是其中的一個(gè)行向量,其特征在于: 1)共同作者視圖、關(guān)鍵字視圖和參考文獻(xiàn)視圖處理方式相同,以共同作者視圖為例,遍歷所有目標(biāo)文檔的作者部分,統(tǒng)計(jì)所有不同的作者姓名,將每一個(gè)目標(biāo)文檔的共同作者視圖用向量的形式表不,定義向
5.如權(quán)利要求4所述的基于多視圖學(xué)習(xí)的科學(xué)主題提取方法,步驟5)中所述的利用多視圖學(xué)習(xí)的方法,借助多個(gè)視圖的數(shù)據(jù)信息,對(duì)目標(biāo)文檔進(jìn)行聚類,屬于同一類的目標(biāo)文檔對(duì)應(yīng)相同的科學(xué)主題,其特征在于: 1)假定我們有t個(gè)不同的視圖,用W(1),W(2),……Ww表示,定義下述公式
6.如權(quán)利要求5所述的基于多視圖學(xué)習(xí)的科學(xué)主題提取方法,步驟6)中所述的對(duì)于每一類目標(biāo)文檔,分別提取它們的科學(xué)主題,科學(xué)主題以多個(gè)關(guān)鍵詞的形式表示,其特征在于: 1)對(duì)于每一類目標(biāo)文檔,選取該類文檔的某一個(gè)視圖或多個(gè)視圖,分別統(tǒng)計(jì)所有該類文檔在該視圖中不重復(fù)的單詞,作為科學(xué)主題關(guān)鍵詞的備選詞庫,如果選取的是參考文獻(xiàn)視圖,則以某一篇被引用的論文作為關(guān)鍵詞,而不是一個(gè)簡單的詞,如果選取的是共同作者視圖則以作者姓名作為關(guān)鍵詞; 2)對(duì)備選詞庫中的關(guān)鍵詞進(jìn)行排序,如果選取的論文的正文、摘要、標(biāo)題視圖,則按照TF-1DF值進(jìn)行降序排序,如果選取的是論文的共同作者、參考文獻(xiàn)視圖則按照出現(xiàn)次數(shù)進(jìn)行降序排序,其中TF-1DF值的計(jì)算方法與權(quán)利要求4中步驟2)所說明的方法相同; 3)在備選詞庫中針對(duì)不同視圖,分別選取前N個(gè)關(guān)鍵詞(根據(jù)實(shí)際情況人為設(shè)定)來代表這一類論文所屬的科學(xué)主題,因此描述一類科學(xué)主題的關(guān)鍵詞可以是一些具有代表性的 領(lǐng)域名詞、比較有影響力的論文作者,也可以一些經(jīng)典的引用率較高的核心論文。
【文檔編號(hào)】G06F17/30GK103530316SQ201310416384
【公開日】2014年1月22日 申請(qǐng)日期:2013年9月12日 優(yōu)先權(quán)日:2013年9月12日
【發(fā)明者】王燦, 王哲, 卜佳俊, 陳純, 于智 申請(qǐng)人:浙江大學(xué)