一種基于企業網絡的企業業務相似度計算方法與系統的制作方法
【技術領域】
[0001] 本發明設及一種基于企業網絡的企業業務相似度計算方法與系統。
【背景技術】
[0002] 社交網絡的迅速發展,為人們解決問題提供了一種新的視角和工具。當前社交網 絡主要限制在人與人之間交際的網絡,設及到的實體和關系類型比較少,實體主要是人,而 關系類型主要是人之間的社會關系。將社交網絡的思想應用于企業網絡,可W讓我們W- 個全新的視角來研究傳統企業商業網絡中存在的問題。企業網絡中的實體設及企業、產品 和員工等,并且存在供應、分銷、代理、投資和OEM等多種關系類型。實體種類多和關系復雜 為挖掘有價值信息提供了豐富的原材料。當前,企業網絡研究的目標也主要是對增值信息 的挖掘。
[0003] 在企業發展過程中,往往需要時刻關注競爭對手,并與自身相比較,從而向競爭對 手學習,最終獲得更好的發展。而其中很重要的一方面是,業務相似的企業構成了較強的競 爭關系,運些企業也就成為了同行業相互關注的焦點。所W如何找到與自己業務最相似的 企業成為了一個很有價值的問題。
[0004] 現在找業務相似企業的一般方法是通過企業業務描述,尋找同行業企業,或者與 自身行業領域地位相近的企業。存在的技術缺點如下:
[0005] 1.在互聯網上直接捜索相似企業,掌握的數據會比較局限,不夠全面;而關鍵詞 選取精確度的差別,也不利于找到真正所需的數據。
[000引 2.現有的信息捜索,只是單純的將結果羅列,不能形成良好的數據可視化展示,因 此,分析同行業的企業時,需要人工不斷重復地比較和分析,數據處理效率低。
[0007] 3.現有的相似企業尋找方法,僅僅是通過主營業務的描述進行比較,由于文字描 述的多樣性,結果不夠精確,誤差較大;另外,業務的描述只能反映企業屬于同一個行業,并 不能真正反映企業業務的相似程度。
[0008] 因此,亟需一種操作簡便,數據精確,便于展示的基于企業網絡的企業業務相似度 計算方法與系統。
【發明內容】
[0009] 為解決現有技術存在的不足,本發明公開了一種基于企業網絡的企業業務相似度 計算方法與系統,本發明基于企業網絡,企業網絡是一張有向圖,企業是圖中的節點,企業 和企業之間的供應關系是節點之間的邊,邊是從供應商指向制造商。通過企業網絡,我們可 W找到一個制造商的所有供應商,W及一個供應商的所有制造商。制造商之間共用的供應 商可W反映企業業務的相似度。制造商之間共用的供應商數目越多,可W認為運兩個制造 商在業務上越相似,反之,認為業務相似度較低。通過計算制造商之間共用供應商的數目, 并經過歸一化處理,即可得到制造商之間的業務相似度。
[0010] 為實現上述目的,本發明的具體方案如下:
[0011] 一種基于企業網絡的企業業務相似度計算方法,包括W下步驟:
[0012] 步驟一:數據集爬取和構建:通過爬蟲將網站頁面上的企業信息爬取下來,對爬 取下來的配套信息進行分詞匹配,并為企業信息對應的供應商和匹配出來的制造商建立供 應關系;
[0013] 步驟二:構建企業網絡:企業網絡的數據結構為有向圖,采用的數據集主要包括 企業信息和企業之間的供應關系信息,因此可W將數據集轉換成有向圖結構,并導入到圖 數據庫中,將數據集中的每個企業作為節點加入到圖數據庫中,根據數據集中每條企業的 供應關系在圖數據庫中查詢到表示相關企業的節點,在節點間建立一條類型為供應關系的 邊;
[0014] 步驟=:企業業務相似度計算:根據已經構造出來的企業網絡,通過計算任意兩 個制造商之間的共用供應商在總的供應商中所占的比例進行企業業務相似度計算;建立一 條從一個企業指向另一個企業的邊,其關系類型為Similar;
[0015] 步驟四:構造出一個新的圖S,任意兩個有共用供應商的制造商,有一條Similar 類型的邊相連,邊的屬性SIM即為業務相似度,基于新的圖S進行企業業務相似度查詢。
[0016] 企業信息包括企業名稱、主營產品、配套客戶、廠家地址等信息。網站頁面指的是 B2B電子商務網站頁面,對配套信息進行分詞匹配采用的是現有的字典分詞算法。
[0017] 將數據集中的每個企業(包含企業名稱,為方便檢索,其他信息可選擇性加入)作 為節點加入到圖數據庫中。根據數據集中每條企業的供應關系(包含供應商名稱和制造商 名稱,供應關系的其他信息選擇性加入),在圖數據庫中查詢到表示相關企業的節點。
[0018] 所述數據集的爬取和構建工作主要分為B2B網站數據爬取和企業供應關系匹配 兩個過程,主要步驟如下:
[0019] 1)通過爬蟲技術(標準爬蟲技術,此處不做討論)將B2B網站的相關信息爬取下 來,主要包括企業名稱、主營產品、配套客戶、廠家地址等信息。
[0020] 2)將所有爬取到的企業名稱保存為分詞字典,用于下一步的企業匹配。
[0021] 3)針對爬取下來的每個供應商的配套客戶信息,利用現有的分詞算法(已有的利 用字典的分詞算法,此處不做討論)將配套客戶信息中的企業名稱匹配出來,在一條記錄 中保存供應商名稱和制造商名稱,從而建立供應商到制造商的供應關系。
[0022] 所述企業網絡構建采用圖數據庫化o4j保存和處理圖數據,企業網絡的構建工作 主要用于在圖數據庫中建立企業節點和企業之間的關系邊。
[0023] 所述企業業務相似度計算,定義P巧NTi)為制造商i的供應商集合,P巧NTj)為制 造商j的供應商集合,SHARE即為制造商i和j所共用的供應商數目,定義SIMii為制造商 i和j的業務相似度,計算公式為:
[0024]SHARE=IP巧NTi)nP巧NTJ)
[00巧]
[0026] 在圖數據庫中計算企業業務相似度主要步驟如下:
[0027]1)去除供應商數目過少制造商,由于數據集是從網絡爬取的,存在一些噪音數據, 將供應商數目少于設定量的作為噪音數據去掉,并將符合要求的制造商標簽設為"0K"; [002引。針對每一個標簽為"0K"的企業,獲取其id,進行扣-6);
[0029] 3)取制造商P,其編號為pid,計算其擁有的供應商數目pnum ;
[0030] 4)根據制造商P,取與其有共用供應商的其他每一制造商Q,并獲得共用供應商數 目SHARE,針對每一制造商Q,進行5)-6);
[003。 5)根據制造商Q的qid,計算該制造商的擁有的供應商數目qnum ;
[0032] 6)計算企業P和企業Q的業務相似度SIMpq,并建立一條從企業P指向企業Q的 邊,其關系類型為Similar,其相似度屬性名為SIM,值為SIMpq;
[0033]
[0034] 7)最終構造出來一個新的圖S:任意兩個有共用供應商的制造商,有一條Similar 類型的邊相連,邊的屬性SIM即為業務相似度。
[0035] 一種基于企業網絡的企業業務相似度計算系統,包括數據集爬取和構建模塊,企 業網絡構建模塊、企業業務相似度計算模塊和查詢模塊。
[0036] 數據集爬取和構建模塊,通過爬蟲,將B2B電子商務網站頁面上的企業信息爬取 下來,并使用字典分詞算法對配套信息進行分詞匹配,并為供應商和匹配出來的制造商建 立供應關系;
[0037] 企業網絡構建模塊,根據經過爬取來的企業關系數據,將企業網絡構建出來,采用 圖數據庫存儲和處理企業網絡數據;
[0038] 企業業務相似度計算模塊,在企業網絡之上,對任意兩個有共用供應商的制造商 計算其業務相似度,并在兩點之間建立一條邊,其相似度作為邊的一個屬性,最終構造成新 的圖S;
[0039] 業務相似度查詢模塊,在圖S上,根據用戶的需求進行相似度排序、企業相似度查 詢操作。
[0040] 所述數據集的爬取和構建工作主要分為B2B網站數據爬取和企業供應關系匹配 兩個過程,主要步驟如下:
[0041] 1)通過爬蟲技術(標準爬蟲技術,此處不做討論)將B2B網站的相關信息爬取下 來,主要包括企業名稱、主營產品、配套客戶、廠家地址等信息。
[0042] 2)將所有爬取到的企業名稱保存為分詞字典,用于下一步的企業匹配。
[0043] 3)針對爬取下來的每個供應商的配套客戶信息,利用現有的分詞算法(已有的利 用字典的分詞算法,此處不做討論)將配套客戶信息中的企業名稱匹配出來,在一條記錄 中保存供應商名稱和制造商名稱,從而建立供應商到制造商的供應關系。
[0044] 所述企業網絡構建采用圖數據庫化o4j保存和處理圖數據,企業網絡的構建工作 主要為在圖數據庫中建立企業節點和企業之間的關系邊。
[0045] 所述企業業務相似度計算,定義P巧NTi)為制造商i的供應商集合,P巧NTj)為制 造商j的供應商集合,SHARE即為制造商i和j所共用的供應商數目,定義SI