基于企業(yè)屬性庫的企業(yè)實體認(rèn)證方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)信息采集的技術(shù)領(lǐng)域,具體說是一種基于企業(yè)屬性庫的企業(yè)實體認(rèn)證方法。
【背景技術(shù)】
[0002]隨之互聯(lián)網(wǎng)的快速發(fā)展,使得網(wǎng)頁信息成為了一個巨大的信息發(fā)布源和傳播源,且網(wǎng)頁信息還在飛速增加,而網(wǎng)頁中可能包含了用戶所需的大量信息。
[0003]實際應(yīng)用中,為了能夠有針對性地向用戶提供網(wǎng)頁信息,一般通過網(wǎng)頁信息提取的方式從存在的網(wǎng)頁中提取有用的信息,并將提取出的信息提供給用戶?,F(xiàn)有技術(shù)中,提取網(wǎng)頁信息時,可以通過關(guān)鍵字匹配等方法實現(xiàn)。具體的,通過關(guān)鍵字匹配法提取網(wǎng)頁信息時,在目標(biāo)網(wǎng)頁的源代碼中查找與預(yù)設(shè)的關(guān)鍵字相匹配的信息,并提取與預(yù)設(shè)的關(guān)鍵字相匹配的信息。應(yīng)用上述方法能夠由目標(biāo)網(wǎng)頁中提取出部分相關(guān)信息學(xué),但是由于網(wǎng)頁中所包含的信息量較大,有可能會存在多個與預(yù)設(shè)的關(guān)鍵字相匹配的信息,可能會造成所提取的信息中包含冗余信息或者錯誤信息,影響用戶體驗。當(dāng)提取出的信息中包含冗余信息的情況下,如要剔除冗余信息,則需要對提取出的信息進(jìn)行二次處理,信息提取效率低。
[0004]目前通過智能抽取技術(shù)在幾大權(quán)威網(wǎng)站采集I千多萬家企業(yè)相關(guān)屬性信息,已構(gòu)建了企業(yè)屬性庫,并用于后續(xù)的企業(yè)實體認(rèn)證。在文本處理中,需要對企業(yè)實體進(jìn)行證認(rèn),主要依賴與企業(yè)屬性庫中各家企業(yè)的相關(guān)知識,包括企業(yè)名稱,別稱,尚管,廣品,職位等關(guān)鍵信息。而在企業(yè)別稱的識別中,由于企業(yè)別稱可能對應(yīng)多家企業(yè)ID,因此如何通過企業(yè)別稱更準(zhǔn)確識別文本中真正描述的企業(yè)是目前函待解決的問題。
【發(fā)明內(nèi)容】
[0005]本發(fā)明要解決的技術(shù)問題是提供一種基于企業(yè)屬性庫的企業(yè)實體認(rèn)證方法。
[0006]本發(fā)明為解決公知技術(shù)中存在的技術(shù)問題所采取的技術(shù)方案是:
本發(fā)明的基于企業(yè)屬性庫的企業(yè)實體認(rèn)證方法,包括以下步驟:
A、建立企業(yè)屬性庫,包括企業(yè)ID和涵蓋企業(yè)名稱、別稱、高管、產(chǎn)品、職位信息的企業(yè)屬性信息;
B、根據(jù)企業(yè)屬性庫內(nèi)企業(yè)屬性字段,建立詞數(shù)集,并建立企業(yè)屬性信息與企業(yè)ID的對應(yīng)關(guān)系;
C、掃描文本,對文本進(jìn)行分詞,并得到文本中詞數(shù)集出現(xiàn)的位置;
D、企業(yè)認(rèn)證處理,如果文本中出現(xiàn)了相同企業(yè)ID對應(yīng)的企業(yè)名稱、企業(yè)高管、企業(yè)產(chǎn)品等企業(yè)屬性信息,并且存在兩個屬性信息之間的間隔在15個文字之內(nèi),則初步判斷這篇文本描述了該企業(yè),通過該邏輯獲得該文本中所有描述的企業(yè)ID;
E、計算文本描述該家企業(yè)的概率,根據(jù)文本的分詞結(jié)果以及倒文檔率,計算排名前20的關(guān)鍵詞,如果在前20位關(guān)鍵詞中存在已認(rèn)證的企業(yè)屬性信息,則判斷文章描述該企業(yè)的概率較大,再結(jié)合企業(yè)屬性信息在文章中出現(xiàn)的次數(shù)以及在文章中出現(xiàn)的位置,總和計算已認(rèn)證的企業(yè)的被描述的概率;
具體計算方法如下:
定義:文章中可能描述企業(yè)i的概率為P(i),描述企業(yè)i的權(quán)重為Score(i); 1.對整篇文本進(jìn)行分詞,并統(tǒng)計每個詞在文章中出現(xiàn)的次數(shù);
i1.計算各詞的TF-1DF值=TF* IDF,其中TF為詞頻,IDF為逆向文件頻率;
ii1.將文章中的分詞根據(jù)計算后的TF-1DF值進(jìn)行排序,選排名前20的詞;
iv.如果前20個關(guān)鍵詞中存在企業(yè)i的屬性信息,則P(i)=l;反之,P(i)=0;
v.分別統(tǒng)計企業(yè)i的相關(guān)屬性信息在標(biāo)題出現(xiàn)的次數(shù)X和在正文中出現(xiàn)的次數(shù)y,則Score(i)= P(i)*(5*x+y)。
[0007]本發(fā)明還可以采用以下技術(shù)措施:
當(dāng)在文章中識別出一個企業(yè)別稱后,進(jìn)一步識別該別稱具體對應(yīng)于何企業(yè),識別方法如下:根據(jù)文本中出現(xiàn)企業(yè)別稱對應(yīng)的其他候選企業(yè)屬性信息的位置,按就近識別原則,如果存在,則將最近的候選屬性信息對應(yīng)的企業(yè)ID作為該企業(yè)別稱的ID;反之,選擇企業(yè)屬性庫中第一個候選企業(yè)ID作為該企業(yè)別稱對應(yīng)的ID。
[0008]本發(fā)明具有的優(yōu)點和積極效果是:
本發(fā)明的基于企業(yè)屬性庫的企業(yè)實體認(rèn)證方法中,建立企業(yè)屬性庫,
并建立企業(yè)屬性信息與企業(yè)ID的對應(yīng)關(guān)系,對文本進(jìn)行分詞,并得到文本中詞數(shù)集出現(xiàn)的位置,如果文本中出現(xiàn)了相同企業(yè)ID對應(yīng)的企業(yè)屬性信息,且兩個屬性信息之間的間隔在15個文字之內(nèi),認(rèn)為該文本描述了該企業(yè),再計算文本描述該家企業(yè)的概率。本發(fā)明通過建立企業(yè)屬性庫與增加企業(yè)認(rèn)證機(jī)制,有針對性的抽取企業(yè)屬性,通過該方法抽取的企業(yè)屬性具有較高的準(zhǔn)確率。
【具體實施方式】
[0009]以下通過具體實施例對本發(fā)明進(jìn)行詳細(xì)說明。
[0010]本發(fā)明的基于企業(yè)屬性庫的企業(yè)實體認(rèn)證方法,包括以下步驟:
本發(fā)明的基于企業(yè)屬性庫的企業(yè)實體認(rèn)證方法,包括以下步驟:
A、建立企業(yè)屬性庫,包括企業(yè)ID和涵蓋企業(yè)名稱、別稱、高管、產(chǎn)品、職位信息的企業(yè)屬性信息;
B、根據(jù)企業(yè)屬性庫內(nèi)企業(yè)屬性字段,建立詞數(shù)集,并建立企業(yè)屬性信息與企業(yè)ID的對應(yīng)關(guān)系;
C、掃描文本,對文本進(jìn)行分詞,并得到文本中詞數(shù)集出現(xiàn)的位置;
D、企業(yè)認(rèn)證處理,如果文本中出現(xiàn)了相同企業(yè)ID對應(yīng)的企業(yè)名稱、企業(yè)高管、企業(yè)產(chǎn)品等企業(yè)屬性信息,并且存在兩個屬性信息之間的間隔在15個文字之內(nèi),則初步判斷這篇文本描述了該企業(yè),通過該邏輯獲得該文本中所有描述的企業(yè)ID;
E、計算文本描述該家企業(yè)的概率,根據(jù)文本的分詞結(jié)果以及倒文檔率,計算排名前20的關(guān)鍵詞,如果在前20位關(guān)鍵詞中存在已認(rèn)證的企業(yè)屬性信息,則判斷文章描述該企業(yè)的概率較大,再結(jié)合企業(yè)屬性信息在文章中出現(xiàn)的次數(shù)以及在文章中出現(xiàn)的位置,總和計算已認(rèn)證的企業(yè)的被描述的概率,具體計算方法如下:
定義:文章中可能描述企業(yè)i的概率為P(i),描述企業(yè)i的權(quán)重為Score(i); 1.對整篇文本進(jìn)行分詞,并統(tǒng)計每個詞在文章中出現(xiàn)的次數(shù);
i1.計算各詞的TF-1DF值=TF* IDF,其中TF為詞頻,IDF為逆向文件頻率;
ii1.將文章中的分詞根據(jù)計算后的TF-1DF值進(jìn)行排序,選排名前20的詞;
iv.如果前20個關(guān)鍵詞中存在企業(yè)i的屬性信息,則P(i)=l;反之,P(i)=0;
v.分別統(tǒng)計企業(yè)i的相關(guān)屬性信息在標(biāo)題出現(xiàn)的次數(shù)X和在正文中出現(xiàn)的次數(shù)y,則Score(i)= P(i)*(5*x+y)。
[0011]由于存在多家不同企業(yè)都對應(yīng)于同一企業(yè)別稱的情況,當(dāng)在文本掃描后,由企業(yè)別稱詞數(shù)集掃描到企業(yè)別稱后,仍需要進(jìn)一步根據(jù)企業(yè)其他屬性信息來確定企業(yè)別稱描述的企業(yè)ID。根據(jù)文本中出現(xiàn)企業(yè)別稱對應(yīng)的其他候選企業(yè)屬性信息的位置,按就近識別原貝IJ,如果存在,則將最近的候選屬性信息對應(yīng)的企業(yè)ID作為該企業(yè)別稱的ID;反之,選擇企業(yè)屬性庫中第一個候選企業(yè)ID作為該企業(yè)別稱對應(yīng)的ID。
[0012]樣例如下:
如“美亞”分別是天津美亞技術(shù)有限公司,廣東美亞食品有限公司的別稱。當(dāng)文章中出現(xiàn)美亞的時候,需要按照上述方法進(jìn)行鑒定。天津美亞技術(shù)有限公司的相關(guān)屬性信息如下:“高管:王某”,廣東美亞食品有限公司的相關(guān)屬性信息如下:“高管:李某”。
[0013]當(dāng)文章內(nèi)容如下:
“美亞高管王某昨日參加了公司項目會議”。
[0014]根據(jù)本發(fā)明中所述的基于企業(yè)屬性庫的企業(yè)實體認(rèn)證方法中的適配原則,此文描述的美亞的企業(yè)全稱為天津美亞技術(shù)有限公司。
[0015]以上所述,僅是本發(fā)明的較佳實施例而已,并非對本發(fā)明作任何形式上的限制,雖然本發(fā)明已以較佳實施例公開如上,然而,并非用以限定本發(fā)明,任何熟悉本專業(yè)的技術(shù)人員,在不脫離本發(fā)明技術(shù)方案范圍內(nèi),當(dāng)然會利用揭示的技術(shù)內(nèi)容作出些許更動或修飾,成為等同變化的等效實施例,但凡是未脫離本發(fā)明技術(shù)方案的內(nèi)容,依據(jù)本發(fā)明的技術(shù)實質(zhì)對以上實施例所作的任何簡單修改、等同變化與修飾,均屬于本發(fā)明技術(shù)方案的范圍內(nèi)。
【主權(quán)項】
1.一種基于企業(yè)屬性庫的企業(yè)實體認(rèn)證方法,包括以下步驟: A、建立企業(yè)屬性庫,包括企業(yè)ID和涵蓋企業(yè)名稱、別稱、高管、產(chǎn)品、職位信息的企業(yè)屬性信息; B、根據(jù)企業(yè)屬性庫內(nèi)企業(yè)屬性字段,建立詞數(shù)集,并建立企業(yè)屬性信息與企業(yè)ID的對應(yīng)關(guān)系; C、掃描文本,對文本進(jìn)行分詞,并得到文本中詞數(shù)集出現(xiàn)的位置; D、企業(yè)認(rèn)證處理,如果文本中出現(xiàn)了相同企業(yè)ID對應(yīng)的企業(yè)名稱、企業(yè)高管、企業(yè)產(chǎn)品等企業(yè)屬性信息,并且存在兩個屬性信息之間的間隔在15個文字之內(nèi),則初步判斷這篇文本描述了該企業(yè),通過該邏輯獲得該文本中所有描述的企業(yè)ID; E、計算文本描述該家企業(yè)的概率,根據(jù)文本的分詞結(jié)果以及倒文檔率,計算排名前20的關(guān)鍵詞,如果在前20位關(guān)鍵詞中存在已認(rèn)證的企業(yè)屬性信息,則判斷文本描述該企業(yè)的概率較大,再結(jié)合企業(yè)屬性信息在文本中出現(xiàn)的次數(shù)以及在文本中出現(xiàn)的位置,總和計算已認(rèn)證的企業(yè)的被描述的權(quán)重; 具體計算方法如下: 定義:文章中可能描述企業(yè)i的概率為P(i),描述企業(yè)i的權(quán)重為Score(i); i.對整篇文本進(jìn)行分詞,并統(tǒng)計每個詞在文章中出現(xiàn)的次數(shù); i1.計算各詞的TF-1DF值=TF*IDF,其中TF為詞頻,IDF為逆向文件頻率; ii1.將文章中的分詞根據(jù)計算后的TF-1DF值進(jìn)行排序,選排名前20的詞; IV.如果前20個關(guān)鍵詞中存在企業(yè)i的屬性信息,則P(i) = I;反之,P(i) =0; v.分別統(tǒng)計企業(yè)i的相關(guān)屬性信息在標(biāo)題出現(xiàn)的次數(shù)X和在正文中出現(xiàn)的次數(shù)y,則Score(i) = P(i)*(5*x+y)。2.根據(jù)權(quán)利要求1所述的基于企業(yè)屬性庫的企業(yè)實體認(rèn)證方法,其特征在于:當(dāng)在文章中識別出一個企業(yè)別稱后,進(jìn)一步識別該別稱具體對應(yīng)于何企業(yè),識別方法如下:根據(jù)文本中出現(xiàn)企業(yè)別稱對應(yīng)的其他候選企業(yè)屬性信息的位置,按就近識別原則,如果存在,則將最近的候選屬性信息對應(yīng)的企業(yè)ID作為該企業(yè)別稱的ID;反之,選擇企業(yè)屬性庫中第一個候選企業(yè)ID作為該企業(yè)別稱對應(yīng)的ID。 樣例如下: 如 “美亞”分別是天津美亞技術(shù)有限公司,廣東美亞食品有限公司的別稱。當(dāng)文章中出現(xiàn)美亞的時候,需要按照上述方法進(jìn)行鑒定。天津美亞技術(shù)有限公司的相關(guān)屬性信息如下(高管:王某),廣東美亞食品有限公司的相關(guān)屬性信息如下(高管:李某) 文章內(nèi)容如下: “美亞高管王某昨日參加了公司項目會議”。 根據(jù)適配原則,此文描述的美亞的企業(yè)全稱為天津美亞技術(shù)有限公司。
【專利摘要】一種基于企業(yè)屬性庫的企業(yè)實體認(rèn)證方法,通過建立企業(yè)屬性庫,并建立企業(yè)屬性信息與企業(yè)ID的對應(yīng)關(guān)系,對文本進(jìn)行分詞,并得到文本中詞數(shù)集出現(xiàn)的位置,如果文本中出現(xiàn)了相同企業(yè)ID對應(yīng)的企業(yè)屬性信息,且兩個屬性信息之間的間隔在15個文字之內(nèi),認(rèn)為該文本描述了該企業(yè),再計算文本描述該家企業(yè)的概率。本發(fā)明通過建立企業(yè)屬性庫與增加企業(yè)認(rèn)證機(jī)制,有針對性的抽取企業(yè)屬性,通過該方法抽取的企業(yè)屬性具有較高的準(zhǔn)確率。
【IPC分類】G06F17/30, G06Q10/06
【公開號】CN105574111
【申請?zhí)枴緾N201510925898
【發(fā)明人】郝靜, 張作職
【申請人】天津海量信息技術(shù)有限公司
【公開日】2016年5月11日
【申請日】2015年12月10日