連鎖品牌詞詞庫、類別詞詞庫建立方法和裝置制造方法
【專利摘要】本發明實施例公開了連鎖品牌詞、類別詞詞庫建立方法和裝置。一種情況下,基于同一城市POI數據庫中的POI數據進行連鎖品牌詞識別器的訓練,利用該連鎖品牌詞識別器可對POI數據庫中所有POI數據的名稱主干進行識別,識別出是連鎖品牌詞的名稱主干,并將其存儲在連鎖品牌詞詞庫中。另一種情況下,基于用戶查詢日志中記錄的查詢詞和與查詢詞對應的被點擊的POI數據進行識別器的訓練,利用該識別器可對用戶查詢日志中記錄的所有查詢詞進行識別,識別出是連鎖品牌詞和類別詞的查詢詞,并分別將其存儲在連鎖品牌詞詞庫和類別詞詞庫中。根據本發明實施例,不僅提高了工作效率,還可以通過定時挖掘,實現及時更新詞庫。
【專利說明】連鎖品牌詞詞庫、類別詞詞庫建立方法和裝置
【技術領域】
[0001] 本發明涉及地理信息【技術領域】,特別是連鎖品牌詞詞庫、類別詞詞庫建立方法和 裝直。
【背景技術】
[0002] 在利用導航引擎進行路徑導航之前,通常需要先搜索目的地。在搜索目的地的過 程中,用戶先向導航引擎輸入一個查詢詞,導航引擎從POI (Point of Interest,興趣點) 數據庫中搜索與該查詢詞匹配的幾個POI數據,當用戶從中選擇一個POI數據后,導航引擎 根據用戶選擇的POI數據進行路徑規劃并導航。
[0003] 在一些情況下,用戶輸入的查詢詞可能是反映某一種類別的類別詞,例如,"餐館" 是一個類別詞,基于不同的維度,"餐館"既可以分為"中餐餐館"和"西餐餐館",又可以分 為"高檔餐廳"和"街頭小吃鋪",而"中餐餐館"、"西餐餐館"、"高檔餐廳"和"街頭小吃鋪" 作為"餐館"的子類別,同樣也都是類別詞。在另一些情況下,用戶輸入的查詢詞也可能是 反映某一個連鎖品牌機構的連鎖品牌詞,例如,"工商銀行"、"肯德基"和"蘇寧電器"等都屬 于連鎖品牌詞。
[0004] 目前,基于用戶需求的考慮,為提高搜索結果的準確性,確保搜索結果更符合用戶 所需要查詢的結果,當查詢詞是一個類別詞或者是一個連鎖品牌詞時,導航引擎搜索與該 查詢詞匹配的POI數據的搜索方法以及對搜索結果的排序方法與查詢詞為普通詞(普通詞 不是類別詞也不是連鎖品牌詞,如方恒國際中心)時,導航引擎所采用的搜索方法和排序方 法不同。如當導航引擎判斷出用戶輸入的查詢詞為類別詞時,說明用戶需要搜索的應該是 某一種類別的Ρ0Ι,因此導航引擎采取的搜索方法是根據用戶輸入的類別詞,從POI數據 庫中篩選出與該類別詞匹配的Ρ0Ι,并在展示查詢結果時按照POI距離用戶位置由近到遠 的順序展示;而當導航引擎判斷出用戶輸入的查詢詞為連鎖品牌詞時,由于連鎖品牌機構 在地理上來說分布較為均勻,說明用戶需要搜索的應該是距離當前位置較近的連鎖品牌機 構,因此導航引擎采取的搜索方法是搜索用戶位置周邊一定范圍內的與連鎖品牌詞匹配的 Ρ0Ι,并且在展示檢索結果時,按照POI距離用戶位置由近到遠的順序展示。
[0005] 現有技術中,導航引擎判斷用戶輸入的查詢詞為類別詞或連鎖品牌詞的方式為: 通過將查詢詞與類別詞詞庫和連鎖品牌詞詞庫進行匹配,若從類別詞詞庫中匹配到該查詢 詞則判斷該查詢詞為類別詞,若從連鎖品牌詞詞庫中匹配到該查詢詞則判斷該查詢詞為連 鎖品牌詞詞庫。目前主要通過人工對POI數據進行分析、總結歸納出一些常用的類別詞和 連鎖品牌詞,并分別建立類別詞詞庫和連鎖品牌詞詞庫,以便導航引擎依據類別詞詞庫和 連鎖品牌詞詞庫來識別一個查詢詞為類別詞或連鎖品牌詞。但是,這種依靠人工的總結歸 納來建立類別詞詞庫和連鎖品牌詞詞庫的方式不僅工作效率低,而且,一旦出現了新的詞 匯,也無法及時更新詞庫。
【發明內容】
[0006] 為了解決上述技術問題,本發明實施例提供了連鎖品牌詞、類別詞詞庫建立方法 和裝置,能夠從POI數據庫中自動挖掘出連鎖品牌詞,以及從用戶查詢日志中自動挖掘出 連鎖品牌詞和類別詞,不僅提高了工作效率,而且,還可以通過定時挖掘,實現及時更新詞 庫。
[0007] 本發明實施例公開了如下技術方案:
[0008] -種連鎖品牌詞詞庫建立方法,包括:
[0009] 將同一城市興趣點POI數據庫中名稱主干相同的POI數據聚合成一個POI數據 組,所述POI數據組與所述名稱主干對應;
[0010] 從各個POI數據組中提取所述POI數據組的識別特征;
[0011] 從所有POI數據組中抽取出名稱主干已被標記為連鎖品牌詞和非連鎖品牌詞的 POI數據組作為訓練數據,基于所述訓練數據的識別特征進行連鎖品牌詞識別器的訓練;
[0012] 利用訓練后的所述連鎖品牌詞識別器對所有POI數據組對應的名稱主干中未識 別的名稱主干進行識別,識別出是連鎖品牌詞的名稱主干;
[0013] 將所述是連鎖品牌詞的名稱主干存儲在預置的連鎖品牌詞詞庫中。
[0014] 一種連鎖品牌詞詞庫和類別詞詞庫建立方法,包括:
[0015] 從用戶查詢日志中,獲取不同用戶在同一城市通過相同的查詢詞查詢得到的POI 數據,將獲取到的POI數據聚合成一個POI數據組,所述POI數據組與所述查詢詞對應;
[0016] 從各個POI數據組中提取所述POI數據組的識別特征;
[0017] 從所有POI數據組中抽取出查詢詞已被標記為連鎖品牌詞、類別詞和普通詞的 POI數據組作為訓練數據,基于所述訓練數據的識別特征進行識別器的訓練;
[0018] 利用訓練后的識別器對所有POI數據組對應的查詢詞中未識別的查詢詞進行識 另IJ,識別出是連鎖品牌詞和類別詞的查詢詞;
[0019] 將所述是連鎖品牌詞的查詢詞存儲在預置的連鎖品牌詞詞庫中,以及將所述是類 別詞的查詢詞存儲在預置的類別詞詞庫中。
[0020] 一種連鎖品牌詞詞庫建立裝置,包括:
[0021] 第一聚合單元,用于將同一城市POI數據庫中名稱主干相同的POI數據聚合成一 個POI數據組,所述POI數據組與所述名稱主干對應;
[0022] 第一特征提取單元,用于從各個POI數據組中提取所述POI數據組的識別特征;
[0023] 第一訓練單元,用于從所有POI數據組中抽取出名稱主干已被標記為連鎖品牌詞 和非連鎖品牌詞的POI數據組作為訓練數據,基于所述訓練數據的識別特征進行連鎖品牌 詞識別器的訓練;
[0024] 第一識別單元,用于利用訓練后的所述連鎖品牌詞識別器對所有POI數據組對應 的名稱主干中未識別的名稱主干進行識別,識別出是連鎖品牌詞的名稱主干;
[0025] 第一詞庫建立單元,用于將所述是連鎖品牌詞的名稱主干存儲在預置的連鎖品牌 詞詞庫中。
[0026] 一種連鎖品牌詞詞庫和類別詞詞庫建立裝置,包括:
[0027] 第二聚合單元,用于從用戶查詢日志中,獲取不同用戶在同一城市通過相同的查 詢詞查詢得到的POI數據,將獲取到的POI數據聚合成一個POI數據組,所述POI數據組與 所述查詢詞對應;
[0028] 第二特征提取單元,用于從各個POI數據組中提取與所述POI數據組的識別特 征;
[0029] 第二訓練單元,用于從所有POI數據組中抽取出查詢詞已被標記為連鎖品牌詞、 類別詞和普通詞的POI數據組作為訓練數據,基于所述訓練數據的識別特征進行識別器的 訓練;
[0030] 第三識別單元,用于利用訓練后的識別器對所有POI數據組對應的查詢詞中未識 別的查詢詞進行識別,識別出是連鎖品牌詞和類別詞的查詢詞;
[0031] 第二詞庫建立單元,用于將所述是連鎖品牌詞的查詢詞存儲在預置的連鎖品牌詞 詞庫中,以及將所述是類別詞的查詢詞存儲在預置的類別詞詞庫中。
[0032] 由上述實施例可以看出,與現有技術相比,本發明的優點在于:
[0033] 本發明提供的連鎖品牌詞詞庫建立方法,基于同一城市POI數據庫中的POI數據 進行連鎖品牌詞識別器的訓練,利用該連鎖品牌詞識別器可對POI數據庫中所有POI數據 的名稱主干進行識別,識別出是連鎖品牌詞的名稱主干,并將其存儲在連鎖品牌詞詞庫中。 另一種情況下,基于用戶查詢日志中記錄的查詢詞和與查詢詞對應的被點擊的POI數據進 行識別器的訓練,利用該識別器可對用戶查詢日志中記錄的所有查詢詞進行識別,識別出 是連鎖品牌詞和類別詞的查詢詞,并分別將其存儲在連鎖品牌詞詞庫和類別詞詞庫中。與 現有技術通過人工來對POI數據庫中的POI數據進行分析來得到連鎖品牌詞相比,提高了 獲取連鎖品牌詞的效率,從而提高了建立連鎖品牌詞詞庫的效率和速度。
【專利附圖】
【附圖說明】
[0034] 為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現 有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可 以根據這些附圖獲得其他的附圖。
[0035] 圖1為本發明一種連鎖品牌詞詞庫建立方法的流程圖;
[0036] 圖2為本發明另一種連鎖品牌詞詞庫建立方法的流程圖;
[0037] 圖3為本發明一種連鎖品牌詞詞庫和類別詞詞庫建立方法的流程圖;
[0038] 圖4為本發明另一種連鎖品牌詞詞庫和類別詞詞庫的建立方法的流程圖;
[0039] 圖5為本發明一種連鎖品牌詞詞庫建立裝置的一個實施例結構圖;
[0040] 圖6為本發明另一種連鎖品牌詞詞庫建立裝置的一個實施例結構圖;
[0041] 圖7為本發明一種連鎖品牌詞詞庫和類別詞詞庫建立裝置的一個實施例結構圖;
[0042] 圖8為本發明另一種連鎖品牌詞詞庫和類別詞詞庫建立裝置的一個實施例結構 圖。
【具體實施方式】
[0043] 本發明實施例提供了連鎖品牌詞、類別詞詞庫的建立方法和裝置。一種情況下,基 于同一城市POI數據庫中的POI數據進行連鎖品牌詞識別器的訓練,利用該連鎖品牌詞識 別器可對POI數據庫中所有POI數據的名稱主干進行識別,識別出是連鎖品牌詞的名稱主 干,并將其存儲在連鎖品牌詞詞庫中。另一種情況下,基于用戶查詢日志中記錄的查詢詞和 與查詢詞對應的被點擊的POI數據進行識別器的訓練,利用該識別器可對用戶查詢日志中 記錄的所有查詢詞進行識別,識別出是連鎖品牌詞和類別詞的查詢詞,并分別將其存儲在 連鎖品牌詞詞庫和類別詞詞庫中。
[0044] 為使本發明的上述目的、特征和優點能夠更加明顯易懂,下面結合附圖對本發明 實施例進行詳細描述。
[0045] 實施例一
[0046] 本實施例基于POI數據庫中的POI數據進行連鎖品牌詞識別器的訓練,該連鎖品 牌詞識別器可將來源于POI數據的名稱主干分為連鎖品牌詞和非連鎖品牌詞,從分類結果 中篩選出是連鎖品牌詞的名稱主干,并將其存儲在連鎖品牌詞詞庫中。請參閱圖1,其為本 發明一種連鎖品牌詞詞庫建立方法的流程圖,該方法包括以下步驟:
[0047] 步驟101 :將同一城市POI數據庫中名稱主干相同的POI數據聚合成一個POI數 據組,其中,所述POI數據組與所述名稱主干對應;
[0048] "名稱主干"是指將POI數據的名稱中的分店和地址等附屬信息去除后的部分,名 稱主干與附屬信息的區分方式與POI數據格式相關。在一些常用的數據格式中,附屬信息 放在括號中,在其它的一些數據格式中,附屬信息放在符號"一"的后面。例如,"工商銀行 (望京支行)"是一個POI數據的名稱,其中,"工商銀行"就是該POI數據的名稱主干。還例 如,"工商銀行-望京支行"是一個POI數據的名稱,其中,工商銀行"就是該POI數據的名 稱主干。
[0049] 將POI數據庫中具有相同名稱主干的POI數據匯總在一起,并形成POI數據組。顯 然,一個POI數據庫會形成多個POI數據組,而每一個POI數據組包含有一個或多個POI數 據,一個POI數據組包含的所有POI數據都具有相同的名稱主干。
[0050] 需要說明的是,在本發明技術方案中,"Ρ0Ι數據庫"是包含同一城市的所有POI數 據的數據庫,例如,北京市POI數據庫。
[0051] 步驟102 :從各個POI數據組中提取所述POI數據組的識別特征;
[0052] 該識別特征為用于識別所述POI數據組對應的名稱主干是否為連鎖品牌詞的參 數。
[0053] 該識別特征包括以下任意一個特征或任意多個特征的組合:空間分布距離;空間 分布熵;POI數據組中名稱帶有分店標志的POI數據的比率;POI數據組中名稱帶有門標志 的POI數據的比率;POI數據組的類別分值。
[0054] 所述類別分值是指將所述POI數據組中類別相同的POI數據聚合成一個數據組, 包含POI數據最多的數據組的類別對應的預置分值,所述預置分值是根據預置的所述類別 出現連鎖品牌機構的先驗概率得到,所述先驗概率等于N/M,其中M為所述訓練數據中標記 為連鎖品牌詞的名稱主干所對應的POI數據的數量,N為所述M個POI數據中與所述包含 POI數據最多的數據組的類別相同的POI數據的數量。
[0055] 步驟103 :從所有POI數據組中抽取出名稱主干已被標記為連鎖品牌詞和非連鎖 品牌詞的POI數據組作為訓練數據,基于所述訓練數據的識別特征進行連鎖品牌詞識別器 的訓練;
[0056] 假設,基于一個POI數據庫共聚合成1000個POI數據組,其中有100個POI數據 組的名稱主干已經被標記為連鎖品牌詞和非連鎖品牌詞,從1000個POI數據組中抽取100 個POI數據組作為訓練數據。對于首次建立詞庫來說,這100個POI數據組的名稱主干可 以是在建立詞庫之前預先由人工識別并標記的。對于詞庫更新來說,這100個POI數據組 的名稱主干可以是預先由人工識別并標記的,也可以是在之前建立連鎖品牌詞詞庫時由連 鎖品牌詞識別器識別并標記的。
[0057] 需要說明的是,本發明技術方案對訓練數據中的POI數據組的個數不做限定。當 然,抽取的訓練數據越多,訓練出的連鎖品牌詞識別器越準確。在具體操作時,可以根據對 連鎖品牌詞識別器的準確性的要求,抽取適量的訓練數據訓練連鎖品牌詞識別器。
[0058] 以從1000個POI數據組中抽取出100個POI數據組作為訓練數據為例,這100個 POI數據組對應的名稱主干已被標記為連鎖品牌詞和非連鎖品牌詞,如,當為連鎖品牌詞 時,將其標記為2,當為非連鎖品牌詞時,將其標記為0,共產生100個標記結果(2或0),顯 然,所標記出的每個標記結果都為準確的結果。然后再從這100個POI數據組中分別抽取 相同的識別特征,共產生100組識別特征,每一組所提取的識別特征都是相同的,如,每一 組提取的識別特征都是:空間分布距離和空間分布熵。最后基于100個標記結果和100組 識別類特征對識別器模型進行訓練得到可區分連鎖品牌詞和非連鎖品牌詞的連鎖品牌詞 識別器。
[0059] 下面,以上海市POI數據庫中的一個POI數據組(具有相同的名稱主干"蘇寧電 器")為例,詳細說明如何從一個POI數據組中提取識別特征,在該POI數據組中共有87個 POI數據,如,蘇寧電器(江橋店)和蘇寧電器(銀都路店)等。
[0060] (1)空間分布距離
[0061] 首先,確定該POI數據組中87個POI數據在導航地圖中的最小分布矩形,如,根據 87個POI數據中的經緯度坐標,找出經度最大(即位于最東面)和經度最小(即位于最西面) 的POI數據,以及,找出緯度最大(即位于最北面)和緯度最小(即位于最南面)的POI數據, 得到:
[0062] 經度最大的POI數據,其名稱是蘇寧電器(南匯東門大街店),經度為121. 7629 ;
[0063] 經度最小的POI數據,其名稱是蘇寧電器(公園路店),經度為121. 1173 ;
[0064] 緯度最大的POI數據,其名稱是蘇寧電器(北門路店),維度為31.6278 ;
[0065] 緯度最小的POI數據,其名稱是蘇寧電器(衛零路店),緯度為30. 7155。
[0066] 根據以上4個經緯度數據可以確定一個矩形(S卩,該POI數據組中的87個POI數 據構成的最小分布矩形)。
[0067] 其次,選取最小分布矩形的最長邊,將最長邊做歸一化處理,得到空間分布距離, 如,計算出上述矩形的兩個邊分別為101. 1公里和61. 2公里,取最長邊101. 1公里,并進行 歸一化處理101. 1/200=0. 505,因此,空間分布距離為0. 505。
[0068] 由于連鎖品牌機構的空間分布范圍較廣,因此,空間分布距離也就較大。反之,非 連鎖品牌機構的空間分布范圍較窄,空間分布距離也就較小。根據空間分布距離這一識別 特性可以區分一個POI數據是否為一個連鎖品牌機構,進而區分該POI數據的名稱主干是 否為一個連鎖品牌詞。
[0069] (2)空間分布熵
[0070] 首先,按照上述方式確定87個POI數據構成的最小分布矩形。
[0071] 其次,將該最小分布矩形拆分成多個區域,分別統計87個POI數據在每個區域 的分布概率,如,將該最小分布矩形拆分成3*3=9個區域,統計落入到各個區域的POI個 數,結果為:{3, 5,0,6, 54, 7, 3, 7, 2},計算落入各個區域的POI個數與該POI數據組中 POI數據的總個數的比值,得到分布概率為:{〇. 34482759,0. 057471264,0,0. 068965517, 0.620689655,0.08045977,0.034482759,0. 08045977,0. 022988506}。
[0072] 最后,計算87個POI數據在每個區域的分布概率的熵值,將該熵值做歸一化處 理,得到空間分布熵,如,采用求熵公式Sum[-P*l 0g2(P)]/l〇g2(N)計算熵值,計算結果為 1.976/3. 170=0. 623,其中,"Sum"表示求和,"P"表示POI數據在每個區域的分布概率,"N" 表示拆分的區域個數。
[0073]當然,可以采用其它的求熵公式計算熵值,本發明技術方案對熵值的計算公式并 不做限定。
[0074] 由于連鎖品牌機構在空間的分布更均勻,因此,空間分布熵也就更大,反之,非連 鎖品牌機構在空間分布不均勻,空間分布熵也就較小。根據空間分布熵這一識別特性也可 以區分一個POI數據是否為一個連鎖品牌機構,進而區分該POI數據的名稱主干是否為一 個連鎖品牌詞。
[0075] (3) POI數據中名稱帶有分店標志的POI數據的比率
[0076] 例如,將"店"和"營業廳"等字樣作為分店標志,在87個POI數據中,名稱中帶 分店標志的POI數據共有79個,計算POI數據中名稱帶有分店標志的POI數據的比率為 79/87=0. 908〇
[0077] 由于連鎖品牌機構帶分店標志的比率較高,因此,POI數據中名稱帶有分店標志的 POI數據的比率也就較大,反之,非連鎖品牌機構帶分店標志的比率較低,POI數據中名稱 帶有分店標志的POI數據的比率也就較小。根據POI數據中名稱帶有分店標志的POI數據 的比率這一識別特性也可以區分一個POI數據是否為一個連鎖品牌機構,進而區分該POI 數據的名稱主干是否為一個連鎖品牌詞。
[0078] (4) POI數據中名稱帶有門標志的POI數據的比率
[0079] 例如,將"門字樣"作為門標志,在87個POI數據中,名稱帶有門標志的POI數據 共有2個,計算POI數據中名稱帶有門標志的POI數據的比率為2/87=0. 023。
[0080] 由于連鎖品牌機構帶門標志的POI數據的比率較低,因此,POI數據中名稱帶有門 標志的POI數據的比率也就較小,反之,非連鎖品牌機構帶門標志的POI數據的比率較高, POI數據中名稱帶門標志的POI數據的比率也就較大。根據POI數據中名稱帶有門標志的 POI數據的比率這一識別特性也可以區分一個POI數據是否為一個連鎖品牌機構,進而區 分該POI數據的名稱主干是否為一個連鎖品牌詞。
[0081] (5) POI數據組的類別分值
[0082] 所述類別分值是指將所述POI數據組中類別相同的POI數據聚合成一個數據組, 包含POI數據最多的數據組的類別對應的預置分值,所述預置分值是根據預置的所述類別 出現連鎖品牌機構的先驗概率得到,所述先驗概率等于N/M,其中M為所述訓練數據中標記 為連鎖品牌詞的名稱主干所對應的POI數據的數量,N為所述M個POI數據中與所述包含 POI數據最多的數據組的類別相同的POI數據的數量。
[0083] 在POI數據庫中,一般會對其中的POI數據進行分類,通常會用二級或三級對POI 數據進行分類,二級類為一級類的子類,三級類為二級類的子類。由于連鎖品牌機構多數出 現在"餐飲"、"購物"和"生活"一級類中,而非連鎖品牌機構多數出現在"住宅"、"風景"和 "政府機構"一級類中,因此,"餐飲"、"購物"和"生活"一級類的分值比"住宅"、"風景"和 "政府機構"一級類的分值要高,如,將"餐飲"、"購物"和"生活" 一級類的分值設置為2,將 "住宅"、"風景"和"政府機構"一級類的分值設置為0,其余一級類的分值設置為1。
[0084] 例如,在87個POI數據中,其中有40個POI數據的類別為"購物",37個POI數據 的類別為"住宅",將類別都為"購物"的40個POI數據聚合成一個數據組,將類別都為"住 宅"的37個POI數據聚合成另一個數據組,第一個數據組包含的POI數據最多,而其類別為 "購物",因此,POI數據組的類別分值為2。
[0085] 將得到的100個標記結果和100組識別特征輸入到訓練模塊,通過訓練得到連鎖 品牌詞識別器。例如,一種優選方案是:連鎖品牌詞識別器為線性分類器,該線性分類器 為:
【權利要求】
1. 一種連鎖品牌詞詞庫建立方法,其特征在于,包括: 將同一城市興趣點POI數據庫中名稱主干相同的POI數據聚合成一個POI數據組,所 述POI數據組與所述名稱主干對應; 從各個POI數據組中提取所述POI數據組的識別特征; 從所有POI數據組中抽取出名稱主干已被標記為連鎖品牌詞和非連鎖品牌詞的POI數 據組作為訓練數據,基于所述訓練數據的識別特征進行連鎖品牌詞識別器的訓練; 利用訓練后的所述連鎖品牌詞識別器對所有POI數據組對應的名稱主干中未識別的 名稱主干進行識別,識別出是連鎖品牌詞的名稱主干; 將所述是連鎖品牌詞的名稱主干存儲在預置的連鎖品牌詞詞庫中。
2. 根據權利要求1所述的方法,其特征在于,在利用訓練后的所述連鎖品牌詞識別器 對所有POI數據組對應的名稱主干中未識別的名稱主干進行識別之前,還包括檢驗過程, 所述檢驗過程包括: 從所有POI數據組中抽取出名稱主干已被標記為連鎖品牌詞和非連鎖品牌詞的POI數 據組作為檢驗數據,所述檢驗數據和所述訓練數據為不同的數據; 利用所述連鎖品牌詞識別器對所述檢驗數據的名稱主干進行識別,識別出是連鎖品牌 詞的名稱主干; 根據所述連鎖品牌詞識別器對所述檢驗數據的識別結果,計算所述連鎖品牌詞識別器 對連鎖品牌詞的識別準確率和/或識別召回率,其中,所述識別準確率等于識別結果中是 準確的連鎖品牌詞的名稱主干的數量除以識別結果中識別出的是連鎖品牌詞的名稱主干 的數量,所述召回率等于識別結果中是準確的連鎖品牌詞的名稱主干的數量除以所述檢驗 數據中已被標記為連鎖品牌詞的名稱主干的數量,所述準確的連鎖品牌詞的名稱主干是既 被標記為連鎖品牌詞又被識別為連鎖品牌詞的名稱主干; 判斷所述識別準確率和/或識別召回率是否大于或等于各自對應的閾值; 若否,則調節所述連鎖品牌詞識別器,利用調節后的所述連鎖品牌詞識別器重復所述 檢驗過程中的第二至第四個步驟。
3. 根據權利要求2所述的方法,其特征在于,所述連鎖品牌詞識別器為線性分類器,所 述線件分類器為:
其中,Wi為第i個識別特征的權重系數,Xi為第i個識別特征的值,b為常數項,當y大 于或等于預設閾值則識別所述POI數組對應的名稱主干為連鎖品牌詞,當y小于所述預設 閾值則識別所述POI數據組對應的名稱主干為非連鎖品牌詞。
4. 根據權利要求1?3任一項所述的方法,其特征在于,POI數據組的識別特征為以下 任意一個或任意多個組合: 空間分布距離;空間分布熵;POI數據組中名稱帶有分店標志的POI數據的比率;POI數據組中名稱帶有門標志的POI數據的比率;POI數據組的類別分值,所述類別分值是指將 所述POI數據組中類別相同的POI數據聚合成一個數據組,包含POI數據最多的數據組的 類別對應的預置分值,所述預置分值是根據預置的所述類別出現連鎖品牌機構的先驗概率 得到,所述先驗概率等于N/M,其中M為所述訓練數據中標記為連鎖品牌詞的名稱主干所對 應的POI數據的數量,N為所述M個POI數據中與所述包含POI數據最多的數據組的類別 相同的POI數據的數量。
5. -種連鎖品牌詞詞庫和類別詞詞庫建立方法,其特征在于,包括: 從用戶查詢日志中,獲取不同用戶在同一城市通過相同的查詢詞查詢得到的POI數 據,將獲取到的POI數據聚合成一個POI數據組,所述POI數據組與所述查詢詞對應; 從各個POI數據組中提取所述POI數據組的識別特征; 從所有POI數據組中抽取出查詢詞已被標記為連鎖品牌詞、類別詞和普通詞的POI數 據組作為訓練數據,基于所述訓練數據的識別特征進行識別器的訓練; 利用訓練后的識別器對所有POI數據組對應的查詢詞中未識別的查詢詞進行識別,識 別出是連鎖品牌詞和類別詞的查詢詞; 將所述是連鎖品牌詞的查詢詞存儲在預置的連鎖品牌詞詞庫中,以及將所述是類別詞 的查詢詞存儲在預置的類別詞詞庫中。
6. 根據權利要求5所述的方法,其特征在于,在利用訓練后的識別器對所有POI數據組 對應的查詢詞中未識別的查詢詞進行識別之前,還包括檢驗過程,所述檢驗過程包括: 從所有POI數據組中抽取查詢詞已被標記為連鎖品牌詞、類別詞和普通詞的POI數據 組作為檢驗數據,所述檢驗數據和所述訓練數據為不同的數據; 利用所述識別器對所述檢驗數據的查詢詞進行識別,識別出是連鎖品牌詞的查詢詞和 是類別詞的查詢詞; 根據所述識別器對所述檢驗數據的識別結果,計算所述識別器對連鎖品牌詞的識別準 確率和/或識別召回率,以及計算所述識別器對類別詞的識別準確率和/或識別召回率,其 中:連鎖品牌詞/類別詞的識別準確率等于所述識別結果中是準確的連鎖品牌詞/類別詞 的查詢詞的數量除以所述識別結果中識別出的是連鎖品牌詞/類別詞的查詢詞的數量,所 述連鎖品牌詞/類別詞的識別召回率等于所述識別結果中是準確的連鎖品牌詞/類別詞的 查詢詞數量除以已被標記為連鎖品牌詞/類別詞的查詢詞的數量,所述準確的連鎖品牌詞 /類別詞的查詢詞是既被標記為連鎖品牌詞/類別詞又被識別為連鎖品牌詞/類別詞的查 詢詞; 判斷所述連鎖品牌詞的識別準確率和/或識別召回率是否大于或等于各自對應的閾 值,以及判斷所述類別詞的識別準確率和/或識別召回率是否大于或等于各自對應的閾 值; 如果所述連鎖品牌詞的識別準確率和/或識別召回率小于各自對應的閾值,或者,所 述類別詞的識別準確率和/或識別召回率小于各自對應的閾值,則調節所述識別器,利用 調節后的所述識別器重復所述檢驗過程中的第二至第四個步驟。
7. 根據權利要求5所述的方法,其特征在于,所述識別器包括第一識別器、第二識別器 和第三識別器,基于所述訓練數據的識別特征進行識別器的訓練,具體包括: 基于訓練數據中查詢詞標記為連鎖品牌詞的POI數據組與查詢詞標記為類別詞的POI數據組的識別特征進行第一識別器的訓練,得到用于根據POI數據組的識別特征識別出 POI數據組的查詢詞為疑似類別詞和疑似連鎖品牌詞的第一識別器; 基于訓練數據中查詢詞標記為連鎖品牌詞的POI數據組與查詢詞標記為普通詞的POI數據組的識別特征進行第二識別器的訓練,得到用于根據POI數據組的識別特征識別出 POI數據組的查詢詞為連鎖品牌詞和普通詞的第二識別器; 基于訓練數據中查詢詞標記為類別詞的POI數據組與查詢詞標記為普通詞的POI數據 組的識別特征進行第三識別器的訓練,得到用于根據POI數據組的識別特征識別出POI數 據組的查詢詞為分類詞和普通詞的第三識別器。
8. 根據權利要求7所述的方法,其特征在于,利用訓練后的識別器對所有POI數據組對 應的查詢詞中未識別的查詢詞進行識別,識別出是連鎖品牌詞和類別詞的查詢詞,具體包 括: 將未識別的查詢詞對應的POI數據組的識別特征輸入到所述第一識別器中,從所述第 一識別器輸出所述POI數據組對應的查詢詞為疑似連鎖品牌詞或疑似類別詞的第一識別 結果; 將所述第一識別結果中疑似連鎖品牌詞的查詢詞對應的POI數據組的識別特征輸入 到所述第二識別器中,所述第二識別器輸出所述POI數據組對應的查詢詞為普通詞或連鎖 品牌詞的第二識別結果; 將所述第一識別結果中疑似類別詞的查詢詞對應的所述POI數據組的識別特征輸入 到所述第三識別器中,所述第三識別器輸出所述POI數據組的查詢詞為普通詞或類別詞的 第三識別結果; 從所述第二識別結果和第三識別結果中提取出連鎖品牌詞和類別詞。
9. 根據權利要求5?8任一項所述的方法,其特征在于,POI數據組的識別特征為以下 任意一個或者任意多個組合: POI數據組中POI數據的個數;POI數據組的點擊分布熵;POI數據組中POI數據的類 別個數;POI數據組的按類點擊分布熵;空間分布距離;空間分布熵;出現同一查詢詞的城 市的個數;POI數據組中名稱帶有分店標志的POI數據的比率;POI數據組中名稱帶有門標 志POI數據的比率;POI數據被點擊比率,其中所述POI數據被點擊比率等于M除以N,其中 M為對POI數據組中的POI數據的名稱進行名稱主干的提取所得到的名稱主干的數量,N為 POI數據組中的POI數據的數量。
10. -種連鎖品牌詞詞庫建立裝置,其特征在于,包括: 第一聚合單元,用于將同一城市POI數據庫中名稱主干相同的POI數據聚合成一個POI數據組,所述POI數據組與所述名稱主干對應; 第一特征提取單元,用于從各個POI數據組中提取所述POI數據組的識別特征; 第一訓練單元,用于從所有POI數據組中抽取出名稱主干已被標記為連鎖品牌詞和非 連鎖品牌詞的POI數據組作為訓練數據,基于所述訓練數據的識別特征進行連鎖品牌詞識 別器的訓練; 第一識別單元,用于利用訓練后的所述連鎖品牌詞識別器對所有POI數據組對應的名 稱主干中未識別的名稱主干進行識別,識別出是連鎖品牌詞的名稱主干; 第一詞庫建立單元,用于將所述是連鎖品牌詞的名稱主干存儲在預置的連鎖品牌詞詞 庫中。
11. 根據權利要求10所述的方法,其特征在于,還包括: 第一抽取單元,用于在所述第一識別單元利用訓練后的所述連鎖品牌詞識別器對所有POI數據組對應的名稱主干中未識別的名稱主干進行識別之前,從所有POI數據組中抽取 出名稱主干已被標記為連鎖品牌詞和非連鎖品牌詞的POI數據組作為檢驗數據,所述檢驗 數據和所述訓練數據為不同的數據; 第二識別單元,用于利用所述連鎖品牌詞識別器對所述檢驗數據的名稱主干進行識 另IJ,識別出是連鎖品牌詞的名稱主干; 第一計算單元,用于根據所述連鎖品牌詞識別器對所述檢驗數據的識別結果,計算所 述連鎖品牌詞識別器對連鎖品牌詞的識別準確率和/或識別召回率,其中,所述識別準確 率等于所述識別結果中是準確的連鎖品牌詞的名稱主干的數量除以所述識別結果中識別 出的是連鎖品牌詞的名稱主干的數量,所述召回率等于所述識別結果中是準確的連鎖品牌 詞的名稱主干的數量除以所述檢驗數據中已被標記為連鎖品牌詞的名稱主干的數量,所述 準確的連鎖品牌詞的名稱主干是既被標記為連鎖品牌詞又被識別為連鎖品牌詞的名稱主 干; 第一判斷單元,用于判斷所述識別準確率和/或識別召回率是否大于或等于各自對應 的閾值; 第一調節單元,用于若所述第一判斷單元的判斷結果為否,則調節所述連鎖品牌詞識 別器,利用調節后的所述連鎖品牌詞識別器觸發所述第二識別單元、所述第一計算單元和 所述第一判斷單元重新工作; 則所述第一識別單元具體用于,利用調節后的所述連鎖品牌詞識別器對所有POI數據 組對應的名稱主干中未識別的名稱主干進行識別。
12. 根據權利要求11所述的裝置,其特征在于,所述連鎖品牌詞識別器為線性分類器, 所述線性分類器為:
其中,Wi為第i個識別特征的權重系數,Xi為第i個識別特征的值,b為常數項,當y大 于或等于預設閾值則識別所述POI數組對應的名稱主干為連鎖品牌詞,當y小于所述預設 閾值則識別所述POI數據組對應的名稱主干為非連鎖品牌詞。
13. 根據權利要求10?12任一項所述的裝置,其特征在于,POI數據組的識別特征為 以下任意一個或任意多個組合: 空間分布距離;空間分布熵;POI數據組中名稱帶有分店標志的POI數據的比率;POI數據組中名稱帶有門標志的POI數據的比率;POI數據組的類別分值,所述類別分值是指將 所述POI數據組中類別相同的POI數據聚合成一個數據組,包含POI數據最多的數據組的 類別對應的預置分值,所述預置分值是根據預置的所述類別出現連鎖品牌機構的先驗概率 得到,所述先驗概率等于N/M,其中M為所述訓練數據中標記為連鎖品牌詞的名稱主干所對 應的POI數據的數量,N為所述M個POI數據中與所述包含POI數據最多的數據組的類別 相同的POI數據的數量。
14. 一種連鎖品牌詞詞庫和類別詞詞庫建立裝置,其特征在于,包括: 第二聚合單元,用于從用戶查詢日志中,獲取不同用戶在同一城市通過相同的查詢詞 查詢得到的POI數據,將獲取到的POI數據聚合成一個POI數據組,所述POI數據組與所述 查詢詞對應; 第二特征提取單元,用于從各個POI數據組中提取與所述POI數據組的識別特征; 第二訓練單元,用于從所有POI數據組中抽取出查詢詞已被標記為連鎖品牌詞、類別 詞和普通詞的POI數據組作為訓練數據,基于所述訓練數據的識別特征進行識別器的訓 練; 第三識別單元,用于利用訓練后的識別器對所有POI數據組對應的查詢詞中未識別的 查詢詞進行識別,識別出是連鎖品牌詞和類別詞的查詢詞; 第二詞庫建立單元,用于將所述是連鎖品牌詞的查詢詞存儲在預置的連鎖品牌詞詞庫 中,以及將所述是類別詞的查詢詞存儲在預置的類別詞詞庫中。
15. 根據權利要求14所述的裝置,其特征在于,還包括: 第二抽取單元,用于在所述第三識別單元用訓練后的識別器對所有POI數據組對應的 查詢詞中未識別的查詢詞進行識別之前,從所有POI數據組中抽取查詢詞已被標記為連鎖 品牌詞、類別詞和普通詞的POI數據組作為檢驗數據,所述檢驗數據和所述訓練數據為不 同的數據; 第四識別單元,用于利用所述識別器對所述檢驗數據的查詢詞進行識別,識別出是連 鎖品牌詞的查詢詞和是類別詞的查詢詞; 第二計算單元,用于根據所述識別器對所述檢驗數據的識別結果,計算所述識別器對 連鎖品牌詞的識別準確率和/或識別召回率,以及計算所述識別器對類別詞的識別準確率 和/或識別召回率,其中:連鎖品牌詞/類別詞的識別準確率等于所述識別結果中是準確的 連鎖品牌詞/類別詞的查詢詞的數量除以所述識別結果中識別出的是連鎖品牌詞/類別詞 的查詢詞的數量,所述連鎖品牌詞/類別詞的識別召回率等于所述查詢結果中是準確的連 鎖品牌詞/類別詞的查詢詞數量除以已被標記為連鎖品牌詞/類別詞的查詢詞的數量,所 述準確的連鎖品牌詞/類別詞的查詢詞是既被標記為連鎖品牌詞/類別詞又被識別為連鎖 品牌詞/類別詞的查詢詞; 第二判斷單元,用于判斷所述連鎖品牌詞的識別準確率和/或識別召回率是否大于或 等于各自對應的閾值,以及判斷所述類別詞的識別準確率和/或識別召回率是否大于或等 于各自對應的閾值; 第二調節單元,用于若所述連鎖品牌詞的識別準確率和/或識別召回率小于各自對應 的閾值,或者,所述類別詞的識別準確率和/或識別召回率小于各自對應的閾值,則調節所 述識別器,利用調節后的所述識別器觸發所述第四識別單元、所述第二計算單元和第二判 斷單元重新工作; 則所述第三識別單元具體用于,利用調節后的所述識別器對所有POI數據組對應的查 詢詞中未識別的查詢詞進行識別。
16. 根據權利要求14所述的裝置,其特征在于,所述識別器包括第一識別器、第二識別 器和第三識別器,所述第二訓練單元包括: 第一識別器訓練子單元,用于基于訓練數據中查詢詞標記為連鎖品牌詞的POI數據 組與查詢詞標記為類別詞的POI數據組的識別特征進行第一識別器的訓練,得到用于根據 POI數據組的識別特征識別出POI數據組的查詢詞為疑似類別詞和疑似連鎖品牌詞的第一 識別器; 第二識別器訓練子單元,用于基于訓練數據中查詢詞標記為連鎖品牌詞的POI數據 組與查詢詞標記為普通詞的POI數據組的識別特征進行第二識別器的訓練,得到用于根據 POI數據組的識別特征識別出POI數據組的查詢詞為連鎖品牌詞和普通詞的第二識別器; 第三識別器訓練子單元,用于基于訓練數據中查詢詞標記為類別詞的POI數據組與查 詢詞標記為普通詞的POI數據組的識別特征進行第三識別器的訓練,得到用于根據POI數 據組的識別特征識別出POI數據組的查詢詞為分類詞和普通詞的第三識別器。
17. 根據權利要求16所述的裝置,其特征在于,所述第三識別單元包括: 第一識別結果確定子單元,用于將未識別的查詢詞對應的POI數據組的識別特征輸入 到所述第一識別器中,從所述第一識別器輸出所述POI數據組對應的查詢詞為疑似連鎖品 牌詞或疑似類別詞的第一識別結果; 第二識別結果確定子單元,用于將所述第一識別結果中疑似連鎖品牌詞的查詢詞對應 的POI數據組的識別特征輸入到所述第二識別器中,所述第二識別器輸出所述POI數據組 對應的查詢詞為普通詞或連鎖品牌詞的第二識別結果; 第三識別結果確定子單元,用于將所述第一識別結果中疑似類別詞的查詢詞對應的所 述POI數據組的識別特征輸入到所述第三識別器中,所述第三識別器輸出所述POI數據組 的查詢詞為普通詞或類別詞的第三識別結果; 連鎖品牌詞/類別詞提取子單元,用于從所述第二識別結果和第三識別結果中提取出 連鎖品牌詞和類別詞。
18. 根據權利要求14?17任一項所述的裝置,其特征在于,POI數據組的識別特征為 以下任意一個或者任意多個組合: POI數據組中POI數據的個數;POI數據組的點擊分布熵;POI數據組中POI數據的類 別個數;POI數據組的按類點擊分布熵;空間分布距離;空間分布熵;出現同一查詢詞的城 市的個數;POI數據組中名稱帶有分店標志的POI數據的比率;POI數據組中名稱帶有門標 志POI數據的比率;POI數據被點擊比率,其中所述POI數據被點擊比率等于M除以N,其中 M為對POI數據組中的POI數據的名稱進行名稱主干的提取所得到的名稱主干的數量,N為 POI數據組中的POI數據的數量。
【文檔編號】G06F17/30GK104462143SQ201310439450
【公開日】2015年3月25日 申請日期:2013年9月24日 優先權日:2013年9月24日
【發明者】劉廣權 申請人:高德軟件有限公司