信息庫的生成方法及裝置、信息的搜索方法
【專利摘要】本申請公開了一種信息庫的生成方法及裝置、信息的搜索方法。該信息庫的生成方法包括:確定包括若干相互關聯且具有相同屬性的用戶的用戶群;記錄所述用戶群內每個用戶產生的與其屬性相匹配的信息;保存記錄到的所有信息而形成信息庫。通過搜集用戶群內所有用戶具有相同類屬性的信息,來構建具有特有屬性特征的信息庫,以滿足用戶搜索特有屬性信息的需求。
【專利說明】
信息庫的生成方法及裝置、信息的搜索方法
技術領域
[0001]本申請涉及計算機技術領域,尤其涉及一種信息庫的生成方法及裝置、信息的搜索方法。
【背景技術】
[0002]現有技術中,互聯網用戶在搜索引擎上搜索一般性新聞資訊時,得出的搜索結果會較好的匹配到用戶初始的目標資訊或信息。然而,由于一般搜索引擎的后臺數據庫內的信息并非完全是目標信息,因此用戶在互聯網搜索引擎上搜索一些需要的目標資訊或信息時,得出的搜索結果往往會夾雜一些非目標的資訊或信息,因此搜索結論并不能精準的匹配到用戶所要查找的目標資訊或信息。
【發明內容】
[0003]本申請提供一種信息庫的生成方法及裝置,用以解決現有技術中作為搜索引擎后臺數據庫的信息庫中信息與用戶搜索的目標信息不能很好地匹配的問題。
[0004]一種信息庫的生成方法,包括:
[0005]確定包括若干相互關聯且具有相同屬性的用戶的用戶群;
[0006]記錄所述用戶群內每個用戶產生的與其屬性相匹配的信息;
[0007]保存記錄到的所有信息而形成信息庫。
[0008]一種信息庫的生成裝置,包括:
[0009]確定模塊,用于確定包括若干相互關聯且具有相同屬性的用戶的用戶群;
[0010]記錄模塊,用于記錄所述用戶群內每個用戶產生的與其屬性相匹配的信息;
[0011]保存模塊,用于保存記錄到的所有信息而形成信息庫。
[0012]本申請提供的一種信息庫的生成方法及裝置,通過搜集用戶群內所有用戶具有相同類屬性的信息,來構建具有特有屬性特征的信息庫,以滿足用戶搜索特有屬性信息的需求。特別地,當用戶需要搜索專業信息時,本申請信息庫的生成方法,包括搜集具有相同專業背景且相互關聯的人員產生的專業信息,并通過搜集到的專業信息為基礎建立信息庫。由于信息庫內的信息均為專業人員產生的信息,因此信息庫內的信息專業、全面可供搜索用戶搜索使用。
[0013]本申請提還供一種信息的搜索方法,用以解決現有技術中用戶無法精確搜索到所需要的專業信息的問題。
[0014]—種信息的搜索方法,包括:
[0015]接收輸入的搜索詞;
[0016]查詢到與所述輸入搜索詞對應的信息庫;
[0017]提供所述信息庫內與所述搜索詞相匹配的信息。
[0018]本申請實施例提供一種信息的搜索方法,用戶在搜索信息時,能夠快速查找到該索搜詞對應的信息庫,并提供用戶想要得到的準確信息。特別在以特定人員的姓名為關鍵詞搜索專業信息時,該特定人員及與該特定人員相關聯的人員產生的信息均會被搜索出來,使得搜索人員得到的信息更專業、更全面、更準確。
【附圖說明】
[0019]此處所說明的附圖用來提供對本申請的進一步理解,構成本申請的一部分,本申請的示意性實施例及其說明用于解釋本申請,并不構成對本申請的不當限定。在附圖中:
[0020]圖1為本申請實施例提供的信息庫的生成方法的過程示意圖;
[0021]圖2為本申請實施例提供的信息庫的生成方法的一個過程的進一步示意圖;
[0022]圖3為本申請實施例提供的信息的生成裝置的結構示意圖;
[0023]圖4為本申請實施例提供的信息的搜索方法的過程示意圖。
【具體實施方式】
[0024]為使本申請的目的、技術方案和優點更加清楚,下面將結合本申請具體實施例及相應的附圖對本申請技術方案進行清楚、完整地描述。顯然,所描述的實施例僅是本申請一部分實施例,而不是全部的實施例。基于本申請中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬于本申請保護的范圍。
[0025]圖1為本申請實施例提供的信息庫的生成方法,具體包括以下步驟:
[0026]Sll:確定包括若干相互關聯且具有相同屬性的用戶的用戶群;
[0027]在本申請實施例中,每個互聯網用戶在互聯網上都有其身份標簽,互聯網用戶通過其身份標簽來被他人識別。用戶的身份標簽一般由用戶自己填寫,身份標簽的信息包括姓名、職業、專業、工作單位、電話號碼、郵件、帳號等信息。
[0028]在本申請實施例中,相同屬性的用戶指具有相同專業背景的用戶。比如,若干用戶的身份標簽內的專業信息均為醫生,那么上述用戶即具有相同的屬性。需要說明的是,有些用戶的身份標簽只填寫了職業信息,雖然職業信息不同但也有可能具有相同專業,即相同屬性。比如,有的用戶身份標簽的職業為律師、有的用戶身份標簽的職業為法官,雖然二者的職業不一樣,但均具有法律專業背景,因此二者也可以視為具有相同屬性。另外,從用戶的身份標簽的工作單位也可以大致確認其專業。比如,用戶的身份標簽的工作單位為IBM,那該用戶的專業很有可能是IT專業,那么該用戶與其他IT專業的用戶屬于相同的屬性。
[0029]在本申請實施例中,若干相互關聯的用戶指若干具有直接聯系或間接聯系的用戶。具有直接聯系的用戶是指兩用戶之間有可以直接聯絡。比如,用戶A與用戶B在即時通訊工具中互為好友,或者在各自的電話簿中互有對方的號碼。間接聯系的用戶指兩用戶之間無直接聯系,但均與一個第三用戶有直接聯系,那么該兩用戶之間就存在間接聯系。比如,用戶A與用戶B有直接聯系、用戶B與用戶C之間也有直接聯系,那么用戶A與用戶C之間就存在間接聯系。
[0030]圖2為步驟Sll確定包括若干相互關聯且具有相同屬性的用戶的用戶群的進一步示意圖,具體包括:
[0031]Slll:選定一個具有特定屬性的中心用戶。
[0032]比如,選定A為一個中心用戶,其具有醫學專業背景。
[0033]S112:確定與所述中心用戶有直接聯系和間接聯系的關聯用戶。
[0034]比如,中心用戶A與bl、b2、b3之間有直接聯系,bl與cl、c2、c3之間有直接聯系,b2與c4、c5、d6之間有直接聯系,b3與c7、c8、c9之間也有直接聯系。關聯用戶bl、b2、b3是中心用戶A的第一度關系圈(或稱第一度人脈圈),關聯用戶cl、c2、c3、c4、c5、c6、c7、c8、c9為中心用戶A的第二度關系圈。需要說明的,根據信息庫對專業信息覆蓋面或量的需求,以中心用戶A為基礎,不局限于第一度、第二度關系圈,可以在第二度關系圈的基礎上可以向外逐步展開第三度關系圈,以此類推可以得需要的關聯用戶。
[0035]S113:從確定出的關聯用戶中,篩選出與所述中心用戶具有相同屬性的若干關聯用戶,構成用戶群。
[0036]繼續沿用上例說明,即將S112步驟確定的關聯用戶bl-b3,cl_c9中與中心用戶A不具有相同屬性的關聯用戶刪除,篩選出與中心用戶A具有相同屬性的關聯用戶。
[0037]通過步驟Slll至S113即可確定包括若干相互關聯且具有相同屬性的用戶的用戶群。
[0038]S12:記錄所述用戶群內每個用戶產生的與其屬性相匹配的信息。
[0039]在本申請實施例中,一般用戶在互聯網上會產生一些操作行為,比如,瀏覽信息、收藏瀏覽過得信息及發表相關信息。記錄所述用戶群內每個用戶產生的與其屬性相匹配的信息,具體指記錄所述用戶群內每個用戶在互聯網上發表、瀏覽、收藏的與其專業相匹配的?目息O
[0040]收集記錄用戶在互聯網上產生的信息可以通過cookie追蹤來實現。cookie是由用戶訪問網站的后臺服務器端生成,發送給瀏覽器,瀏覽器會將cookie的key/value保存到某個目錄下的文本文件內,用戶下次請求訪問同一網站時就發送該cookie給該網站的后臺服務器。Cookie中包含了各種互聯網賬號、計算機名、使用的瀏覽器、曾經訪問的網站、瀏覽記錄等信息。因此,通過cookie可以識別用戶群內的所有用戶并追蹤用戶產生的與其專業相關的信息。
[0041]S13:保存記錄到的所有信息而形成信息庫。
[0042]在本申請實施例中,可以根據記錄的信息的重要性標識,或者用戶對記錄的信息的瀏覽行為,從記錄的信息中篩選出重要信息;保存篩選出的重要信息,形成信息庫。根據用戶對記錄的信息的瀏覽行為,從記錄的信息中篩選出重要信息,具體包括:根據用戶對記錄的信息的瀏覽時間和/或翻頁速度,從記錄的信息中篩選出重要信息。需要說明的是,用戶通過專業瀏覽器在互聯網上進行操作行為時,可以針對自己瀏覽過的信息、收藏的信息進行重要性的標識。
[0043]保存記錄到的所有信息而形成信息庫,具體包括:保存所有信息對應網頁的URL ;抓取URL對應的網頁內容;將網頁內容存儲形成信息庫。
[0044]以上為本申請實施例提供的信息庫的生成方法,基于同樣的思路,本申請實施例提供的信息庫的生成裝置,如圖3所示。
[0045]圖3為本申請實施例提供的信息庫的生成裝置結構示意圖,具體包括:
[0046]確定模塊21,用于確定包括若干相互關聯且具有相同屬性的用戶的用戶群;
[0047]記錄模塊22,用于記錄所述用戶群內每個用戶產生的與其屬性相匹配的信息;
[0048]保存模塊23,用于保存記錄到的所有信息而形成信息庫。
[0049]所述確定模塊21,具體包括:
[0050]選定單元211,用于選定一個具有特定屬性的中心用戶;
[0051]確定單元212,用于確定與所述中心用戶有直接聯系和間接聯系的關聯用戶;
[0052]篩選單元213,用于從確定出的關聯用戶中,篩選出與所述中心用戶具有相同屬性的若干關聯用戶,構成用戶群。
[0053]所述屬性是用戶的專業。
[0054]所述記錄模塊22,具體用于記錄所述用戶群內每個用戶在互聯網上發表、瀏覽、收藏的與其屬性相匹配的信息。
[0055]所述保存模塊23,具體用于根據記錄的信息的重要性標識,或者用戶對記錄的信息的瀏覽行為,從記錄的信息中篩選出重要信息;保存篩選出的重要信息,形成信息庫。
[0056]所述用戶對記錄的信息的瀏覽行為,具體包括:用戶對記錄的信息的瀏覽時間和/或翻頁速度。
[0057]所述保存模塊23,具體包括:
[0058]保存單元231,用于保存所有信息對應網頁的URL ;
[0059]抓取單元232,用于抓取URL對應的網頁內容;
[0060]存儲單元233,用于將網頁內容存儲形成信息庫。
[0061]本申請提供的一種信息庫的生成方法及裝置,通過搜集用戶群內所有用戶具有相同類屬性的信息,來構建具有特有屬性特征的信息庫,以滿足用戶搜索特有屬性信息的需求。特別地,當用戶需要搜索專業信息時,本申請信息庫的生成方法,包括搜集具有相同專業背景且相互關聯的人員產生的專業信息,并通過搜集到的專業信息為基礎建立信息庫。由于信息庫內的信息均為專業人員產生的信息,因此信息庫內的信息專業、全面可供搜索用戶搜索使用。
[0062]圖4為本申請實施例提供的信息的搜索方法,具體包括以下步驟:
[0063]S31:接收輸入的搜索詞。
[0064]在本申請實施例中,搜索引擎接收搜索用戶輸入的搜索詞,該搜索詞與其所要查找的目標信息相對應。
[0065]S32:查詢與所述輸入的搜索詞對應的信息庫。
[0066]在本申請實施例中,搜索引擎后臺數據庫中包含若干各種類型的專業信息庫,因此先查詢與所述搜索詞對應的信息庫。比如,需要搜索關于補牙、植牙的信息,則先查詢醫學類的信息庫。
[0067]S33:提供所述信息庫內與所述搜索詞相匹配的信息。
[0068]當步驟S31接收輸入的搜索詞為特定人員的姓名時,同時該特定人員具有特定的專業時。步驟S33所述提供所述信息庫內與所述搜索詞相匹配的信息,進一步具體包括:
[0069]查找到與所述特定人員相關聯且具有相同專業的關聯人員;
[0070]提供所述特定人員及其關聯人員在信息庫內的所有信息。
[0071]所述查找到與所述特定人員相關聯且具有相同專業的關聯人員,具體包括:
[0072]查找到與所述特定人員有直接聯系和間接聯系的關聯人員;
[0073]從所述關聯人員中,篩選出與所述特定人員有具有相同專業的關聯人員。
[0074]需要說明的是,所述信息庫是通過信息庫的生成方法所建立的信息庫,該信息庫內的信息為特定人員及關聯人員在互聯網上發表、瀏覽、收藏的與其專業相關的信息。
[0075]本申請實施例提供一種信息的搜索方法,用戶在搜索信息時,能夠快速查找到該索搜詞對應的信息庫,并提用戶想要得到的準確信息。特別在以特定人員的姓名為關鍵詞搜索專業信息時,該特定人員及與該特定人員相關聯的人員產生的信息均會被搜索出來,使得搜索人員得到的信息更專業、更全面、更準確。
[0076]本領域內的技術人員應明白,本發明的實施例可提供為方法、系統、或計算機程序產品。因此,本發明可采用完全硬件實施例、完全軟件實施例、或結合軟件和硬件方面的實施例的形式。而且,本發明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限于磁盤存儲器、CD-ROM、光學存儲器等)上實施的計算機程序產品的形式。
[0077]本發明是參照根據本發明實施例的方法、設備(系統)、和計算機程序產品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數據處理設備的處理器以產生一個機器,使得通過計算機或其他可編程數據處理設備的處理器執行的指令產生用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
[0078]這些計算機程序指令也可存儲在能引導計算機或其他可編程數據處理設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產生包括指令裝置的制造品,該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
[0079]這些計算機程序指令也可裝載到計算機或其他可編程數據處理設備上,使得在計算機或其他可編程設備上執行一系列操作步驟以產生計算機實現的處理,從而在計算機或其他可編程設備上執行的指令提供用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
[0080]在一個典型的配置中,計算設備包括一個或多個處理器(CPU)、輸入/輸出接口、網絡接口和內存。
[0081]內存可能包括計算機可讀介質中的非永久性存儲器,隨機存取存儲器(RAM)和/或非易失性內存等形式,如只讀存儲器(ROM)或閃存(flash RAM)。內存是計算機可讀介質的示例。
[0082]計算機可讀介質包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現信息存儲。信息可以是計算機可讀指令、數據結構、程序的模塊或其他數據。計算機的存儲介質的例子包括,但不限于相變內存(PRAM)、靜態隨機存取存儲器(SRAM)、動態隨機存取存儲器(DRAM)、其他類型的隨機存取存儲器(RAM)、只讀存儲器(ROM)、電可擦除可編程只讀存儲器(EEPROM)、快閃記憶體或其他內存技術、只讀光盤只讀存儲器(CD-ROM)、數字多功能光盤(DVD)或其他光學存儲、磁盒式磁帶,磁帶磁磁盤存儲或其他磁性存儲設備或任何其他非傳輸介質,可用于存儲可以被計算設備訪問的信息。按照本文中的界定,計算機可讀介質不包括暫存電腦可讀媒體(transitory media),如調制的數據信號和載波。
[0083]還需要說明的是,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、商品或者設備中還存在另外的相同要素。
[0084]本領域技術人員應明白,本申請的實施例可提供為方法、系統或計算機程序產品。因此,本申請可采用完全硬件實施例、完全軟件實施例或結合軟件和硬件方面的實施例的形式。而且,本申請可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限于磁盤存儲器、CD-ROM、光學存儲器等)上實施的計算機程序產品的形式。
[0085]以上所述僅為本申請的實施例而已,并不用于限制本申請。對于本領域技術人員來說,本申請可以有各種更改和變化。凡在本申請的精神和原理之內所作的任何修改、等同替換、改進等,均應包含在本申請的權利要求范圍之內。
【主權項】
1.一種信息庫的生成方法,其特征在于,包括: 確定包括若干相互關聯且具有相同屬性的用戶的用戶群; 記錄所述用戶群內每個用戶產生的與其屬性相匹配的信息; 保存記錄到的所有信息而形成信息庫。2.如權利要求1所述的方法,其特征在于,所述確定包括若干相互關聯且具有相同屬性的用戶的用戶群,具體包括: 選定一個具有特定屬性的中心用戶; 確定與所述中心用戶有直接聯系和間接聯系的關聯用戶; 從確定出的關聯用戶中,篩選出與所述中心用戶具有相同屬性的若干關聯用戶,構成用戶群。3.如權利要求1或2所述的方法,其特征在于,所述屬性是用戶的專業。4.如權利要求1所述的方法,其特征在于,所述記錄所述用戶群內每個用戶產生的與其屬性相匹配的信息,具體包括: 記錄所述用戶群內每個用戶在互聯網上發表、瀏覽、收藏的與其屬性相匹配的信息。5.如權利要求4所述的方法,其特征在于,保存記錄到的所有信息而形成信息庫,具體包括: 根據記錄的信息的重要性標識,或者用戶對記錄的信息的瀏覽行為,從記錄的信息中篩選出重要信息; 保存篩選出的重要信息,形成信息庫。6.如權利要求5所述的方法,其特征在于,根據用戶對記錄的信息的瀏覽行為,從記錄的信息中篩選出重要信息,具體包括: 根據用戶對記錄的信息的瀏覽時間和/或翻頁速度,從記錄的信息中篩選出重要信息。7.如權利要求1所述的方法,其特征在于,所述保存記錄到的所有信息而形成信息庫,具體包括: 保存所有信息對應網頁的URL ; 抓取URL對應的網頁內容; 將網頁內容存儲形成信息庫。8.一種信息庫的生成裝置,其特征在于,包括: 確定模塊,用于確定包括若干相互關聯且具有相同屬性的用戶的用戶群; 記錄模塊,用于記錄所述用戶群內每個用戶產生的與其屬性相匹配的信息; 保存模塊,用于保存記錄到的所有信息而形成信息庫。9.如權利要求8所述的裝置,其特征在于,所述確定模塊,具體包括: 選定單元,用于選定一個具有特定屬性的中心用戶; 確定單元,用于確定與所述中心用戶有直接聯系和間接聯系的關聯用戶; 篩選單元,用于從確定出的關聯用戶中,篩選出與所述中心用戶具有相同屬性的若干關聯用戶,構成用戶群。10.如權利要求8或9所述的裝置,其特征在于,所述屬性是用戶的專業。11.如權利要求8所述的裝置,其特征在于,所述記錄模塊,具體用于記錄所述用戶群內每個用戶在互聯網上發表、瀏覽、收藏的與其屬性相匹配的信息。12.如權利要求11所述的裝置,其特征在于,所述保存模塊,具體用于根據記錄的信息的重要性標識,或者用戶對記錄的信息的瀏覽行為,從記錄的信息中篩選出重要信息; 保存篩選出的重要信息,形成信息庫。13.如權利要求12所述的裝置,其特征在于,所述用戶對記錄的信息的瀏覽行為,具體包括: 用戶對記錄的信息的瀏覽時間和/或翻頁速度。14.如權利要求8所述的裝置,其特征在于,所述保存模塊,具體包括: 保存單元,用于保存所有信息對應網頁的URL ; 抓取單元,用于抓取URL對應的網頁內容; 存儲單元,用于將網頁內容存儲形成信息庫。15.一種信息的搜索方法,其特征在于,包括: 接收輸入的搜索詞; 查詢到與所述輸入搜索詞對應的信息庫; 提供所述信息庫內與所述搜索詞相匹配的信息。16.如權利要求15所述的方法,其特征在于,所述搜索詞為特定人員的姓名,所述特定人員具有特定的專業。17.如權利要求16所述的方法,其特征在于,所述提供所述信息庫內與所述搜索詞相匹配的信息,具體包括: 查找到與所述特定人員相關聯且具有相同專業的關聯人員; 提供所述特定人員及其關聯人員在信息庫內的所有信息。18.如權利要求17所述的方法,其特征在于,所述查找到與所述特定人員相關聯且具有相同專業的關聯人員,具體包括: 查找到與所述特定人員有直接聯系和間接聯系的關聯人員; 從所述關聯人員中,篩選出與所述特定人員有具有相同專業的關聯人員。19.如權利要求17或18所述的方法,其特征在于,所述信息庫內的信息為特定人員及關聯人員在互聯網上發表、瀏覽、收藏的與其專業相關的信息。
【文檔編號】G06F17/30GK106033413SQ201510102743
【公開日】2016年10月19日
【申請日】2015年3月9日
【發明人】李立中, 虞教來
【申請人】阿里巴巴集團控股有限公司