熱點信息分析方法及設備的制作方法
【專利摘要】本發明提供一種熱點信息分析方法及設備。熱點信息分析方法包括:從互聯網數據中提取描述熱點事件的熱點數據;對整個業務市場中與業務交易有關的業務數據與熱點數據進行關聯分析,獲得候選熱點數據與候選業務數據的對應關系,候選熱點數據是指熱點數據中與業務交易有關的熱點數據,候選業務數據是指業務數據中與熱點事件有關的業務數據;根據候選熱點數據與候選業務數據的對應關系,對候選熱點數據進行合并處理,獲得目標熱點數據和目標熱點數據對應的目標業務數據。本發明技術方案可以進行熱點信息的分析,提高分析出的熱點信息的準確度。
【專利說明】熱點信息分析方法及設備 【【技術領域】】
[0001] 本發明涉及互聯網【技術領域】,尤其涉及一種熱點信息分析方法及設備。 【【背景技術】】
[0002] 隨著業務市場的發展,越來越多的業務行業需要進行熱點信息挖掘,以便進行行 業分析或者獲取有用的信息。以證券市場為例,證券市場中的熱點行情是此起彼伏。現階 段,股民用戶主要是基于自己了解到的股票的市場交易數據和消息面數據,憑借業務經驗 進行判斷和分析,以獲得證券市場中的熱點信息。目前這種分析熱點信息的方法一方面依 賴于用戶的業務經驗,另一方面使用用戶所能了解到的數據,數據量相對較少,導致分析出 的熱點信息的準確度較低。 【
【發明內容】
】
[0003] 本發明的多個方面提供一種熱點信息分析方法及設備,用以進行熱點信息的分 析,提高分析出的熱點信息的準確度。
[0004] 本發明的一方面,提供一種熱點信息分析方法,包括:
[0005] 從互聯網數據中提取描述熱點事件的熱點數據;
[0006] 對整個業務市場中與業務交易有關的業務數據與所述熱點數據進行關聯分析,獲 得候選熱點數據與候選業務數據的對應關系,所述候選熱點數據是指所述熱點數據中與業 務交易有關的熱點數據,所述候選業務數據是指所述業務數據中與熱點事件有關的業務數 據;
[0007] 根據所述候選熱點數據與候選業務數據的對應關系,對所述候選熱點數據進行合 并處理,獲得目標熱點數據和所述目標熱點數據對應的目標業務數據。
[0008] 作為本發明的進一步改進,所述從互聯網數據中提取描述當天熱點事件的熱點數 據,包括:
[0009] 從所述互聯網數據中確定用戶訪問數據;
[0010] 從所述用戶訪問數據中確定均值突變率大于第一突變率門限且短期突變率大于 第二突變率門限的候選用戶訪問數據;
[0011] 對所述候選用戶訪問數據的真實性進行驗證,將通過真實性驗證的所述候選用戶 訪問數據作為描述熱點事件的所述熱點數據;
[0012] 其中,所述均值突變率用于表征所述用戶訪問數據從第一時間點到當前一段時間 內的訪問量的變化趨勢;所述短期突變率用于表征所述用戶訪問數據自第二時間點到當前 一段時間內的訪問量的變化趨勢,所述第一時間點早于所述第二時間點。
[0013] 作為本發明的進一步改進,所述從所述用戶訪問數據中確定均值突變率大于第一 突變率門限且短期突變率大于第二突變率門限的候選用戶訪問數據之前,還包括:
[0014] 獲取所述用戶訪問數據自所述第一時間點到當前的第一平均訪問量、所述用戶訪 問數據自所述第二時間點到當前的第二平均訪問量、以及所述用戶訪問數據當前的訪問 量;
[0015] 用所述用戶訪問數據當前的訪問量除以所述第一平均訪問量,獲得所述均值突變 率;
[0016] 用所述用戶訪問數據當前的訪問量除以所述第二平均訪問量,獲得短期突變率。
[0017] 作為本發明的進一步改進,所述對所述候選用戶訪問數據的真實性進行驗證,包 括:
[0018] 判斷所述候選用戶訪問數據是否出現在新聞標題的切詞片段中;
[0019] 如果判斷結果為是,確定所述候選用戶訪問數據通過真實性驗證;如果判斷結果 為否,確定所述候選用戶訪問數據未通過真實性驗證。
[0020] 作為本發明的進一步改進,所述對整個業務市場中與業務交易有關的業務數據與 所述熱點數據進行關聯分析,獲得候選熱點數據與候選業務數據的對應關系,包括:
[0021] 對于每種所述業務數據,確定所述業務數據對應的價格走勢和每個所述熱點數據 對應的訪問量走勢之間的相似度,并確定所述業務數據對應的關鍵詞在每個所述熱點數據 所屬的用戶訪問數據中的共現次數,如果存在相似度滿足預設的相似度條件、且共現次數 大于預設的共現量門限的熱點數據,則建立所述業務數據和所述存在的熱點數據之間的對 應關系,并確定所述業務數據和所述存在的熱點數據分別作為所述候選業務數據和所述候 選熱點數據。
[0022] 作為本發明的進一步改進,所述根據所述候選熱點數據與候選業務數據的對應關 系,對所述候選熱點數據進行合并處理,獲得目標熱點數據和所述目標熱點數據對應的目 標業務數據,包括:
[0023] 根據所述候選熱點數據與候選業務數據的對應關系,確定每個所述候選熱點數據 對應的候選業務數據;
[0024] 將所述候選熱點數據兩兩進行比較,以判斷每兩個所述候選熱點數據對應的候選 業務數據中是否存在相同的候選業務數據且所述相同的候選業務數據的數量滿足預設的 重置條件;
[0025] 如果判斷結果為是,則將所述兩個候選熱點數據進行合并作為新的候選熱點數 據,并將所述兩個候選熱點數據對應的候選業務數據進行合并作為所述新的候選熱點數據 對應的候選業務數據,并返回執行將所述候選熱點數據兩兩進行比較,以判斷每兩個所述 候選熱點數據對應的候選業務數據中是否存在相同的候選業務數據且所述相同的候選業 務數據的數量滿足預設的重疊條件的操作,直到所有判斷結果均為否,獲得所述目標熱點 數據和所述目標熱點數據對應的目標業務數據。
[0026] 作為本發明的進一步改進,在獲得目標熱點數據和所述目標熱點數據對應的目標 業務數據之后,還包括:
[0027] 計算所述目標熱點數據的熱度值;
[0028] 輸出所述目標熱點數據、所述目標熱點數據對應的目標業務數據以及所述目標熱 點數據的熱度值。
[0029] 本發明的另一方面,提供一種熱點信息分析設備,包括:
[0030] 提取模塊,用于從互聯網數據中提取描述熱點事件的熱點數據;
[0031] 分析模塊,用于對整個業務市場中與業務交易有關的業務數據與所述熱點數據進 行關聯分析,獲得候選熱點數據與候選業務數據的對應關系,所述候選熱點數據是指所述 熱點數據中與業務交易有關的熱點數據,所述候選業務數據是指所述業務數據中與熱點事 件有關的業務數據;
[0032] 合并模塊,用于根據所述候選熱點數據與候選業務數據的對應關系,對所述候選 熱點數據進行合并處理,獲得目標熱點數據和所述目標熱點數據對應的目標業務數據。
[0033] 作為本發明的進一步改進,所述提取模塊包括:
[0034] 第一確定單元,用于從所述互聯網數據中確定用戶訪問數據;
[0035] 第二確定單元,用于從所述用戶訪問數據中確定均值突變率大于第一突變率門限 且短期突變率大于第二突變率門限的候選用戶訪問數據;
[0036] 驗證單元,用于對所述候選用戶訪問數據的真實性進行驗證;
[0037] 提取單元,用于將通過真實性驗證的所述候選用戶訪問數據作為描述熱點事件的 所述熱點數據;
[0038] 其中,所述均值突變率用于表征所述用戶訪問數據從第一時間點到當前一段時間 內的訪問量的變化趨勢;所述短期突變率用于表征所述用戶訪問數據自第二時間點到當前 一段時間內的訪問量的變化趨勢,所述第一時間點早于所述第二時間點。
[0039] 作為本發明的進一步改進,所述設備還包括:獲取模塊,用于獲取所述用戶訪問數 據自所述第一時間點到當前的第一平均訪問量、所述用戶訪問數據自所述第二時間點到當 前的第二平均訪問量、以及所述用戶訪問數據當前的訪問量;
[0040] 第一計算模塊,用于用所述用戶訪問數據當前的訪問量除以所述第一平均訪問 量,獲得所述均值突變率,并用所述用戶訪問數據當前的訪問量除以所述第二平均訪問量, 獲得短期突變率。
[0041] 作為本發明的進一步改進,所述驗證單元具體用于判斷所述候選用戶訪問數據是 否出現在新聞標題的切詞片段中;如果判斷結果為是,確定所述候選用戶訪問數據通過真 實性驗證;如果判斷結果為否,確定所述候選用戶訪問數據未通過真實性驗證。
[0042] 作為本發明的進一步改進,所述分析模塊具體用于對于每種所述業務數據,確定 所述業務數據對應的價格走勢和每個所述熱點數據對應的訪問量走勢之間的相似度,并確 定所述業務數據對應的關鍵詞在每個所述熱點數據所屬的用戶訪問數據中的共現次數,如 果存在相似度滿足預設的相似度條件、且共現次數大于預設的共現量門限的熱點數據,則 建立所述業務數據和所述存在的熱點數據之間的對應關系,并確定所述業務數據和所述存 在的熱點數據分別作為所述候選業務數據和所述候選熱點數據。
[0043] 作為本發明的進一步改進,所述合并模塊包括:
[0044] 第三確定單元,用于根據所述候選熱點數據與候選業務數據的對應關系,確定每 個所述候選熱點數據對應的候選業務數據;
[0045] 比較單元,用于將所述候選熱點數據兩兩進行比較,以判斷每兩個所述候選熱點 數據對應的候選業務數據中是否存在相同的候選業務數據且所述相同的候選業務數據的 數量滿足預設的重疊條件;
[0046] 合并單元,用于在所述比較單元的判斷結果為是時,將所述兩個候選熱點數據進 行合并作為新的候選熱點數據,并將所述兩個候選熱點數據對應的候選業務數據進行合并 作為所述新的候選熱點數據對應的候選業務數據,并觸發所述比較單元繼續執行將所述候 選熱點數據兩兩進行比較,以判斷每兩個所述候選熱點數據對應的候選業務數據中是否存 在相同的候選業務數據且所述相同的候選業務數據的數量滿足預設的重疊條件的操作; [0047] 獲得單元,用于在所述比較單元的所有判斷結果均為否時,獲得所述目標熱點數 據和所述目標熱點數據對應的目標業務數據。
[0048] 作為本發明的進一步改進,所述設備還包括:
[0049] 第二計算模塊,用于計算所述目標熱點數據的熱度值;
[0050] 輸出模塊,用于輸出所述目標熱點數據、所述目標熱點數據對應的目標業務數據 以及所述目標熱點數據的熱度值。
[0051] 本發明提供的熱點信息分析方法及設備,從互聯網數據中提取描述熱點事件的熱 點數據,對整個業務市場中與業務交易有關的業務數據和上述熱點數據進行關聯分析,獲 得熱點數據中與業務交易有關的候選熱點數據與業務數據中與熱點事件有關的候選業務 數據之間的對應關系,再根據所獲得的對應關系,對候選熱點數據進行合并處理,最終獲得 目標熱點數據與目標熱點數據對應的目標業務數據,作為業務市場中的熱點信息。本發明 技術方案不再依賴用戶的業務經驗,而且采用的是互聯網數據及整個業務市場中與業務交 易相關的業務數據,數據量較大,因此與現有技術相比,提高了分析出的熱點信息的準確 度。 【【專利附圖】
【附圖說明】】
[0052] 為了更清楚地說明本發明實施例中的技術方案,下面將對實施例或現有技術描述 中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發明的一些實 施例,對于本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附 圖獲得其他的附圖。
[0053] 圖1為本發明一實施例提供的熱點信息分析方法的流程示意圖;
[0054] 圖2為本發明一實施例提供的步驟101的實施方式的流程示意圖;
[0055] 圖3為本發明一實施例提供的候選熱點數據合并結果的示意圖;
[0056] 圖4為本發明另一實施例提供的熱點信息分析方法的流程示意圖;
[0057] 圖5為本發明一實施例提供的熱點信息分析設備的結構示意圖;
[0058] 圖6為本發明另一實施例提供的熱點信息分析設備的結構示意圖。 【【具體實施方式】】
[0059] 為使本發明實施例的目的、技術方案和優點更加清楚,下面將結合本發明實施例 中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是 本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員 在沒有作出創造性勞動前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。
[0060] 圖1為本發明一實施例提供的熱點信息分析方法的流程示意圖。如圖1所示,該 方法包括:
[0061] 101、從互聯網數據中提取描述熱點事件的熱點數據。
[0062] 本實施例提供了一種將互聯網數據與業務市場中的業務數據有機結合用以分析 業務市場中熱點信息的方法。本實施例使用的互聯網數據可以是搜索引擎使用的數據(例 如搜索詞)或者可以是互聯網全網數據。互聯網全網數據可以是微博數據、頁面訪問數據 等。
[0063] 具體的,熱點信息分析設備從海量互聯網數據中提取出描述熱點事件的數據。為 便于描述,本實施例將描述熱點事件的數據稱為熱點數據。相應的,業務市場中與熱點事件 相關的業務數據被認為是業務市場中的熱點信息。
[0064] 進一步,為了保證分析出的熱點信息的實時性,熱點信息分析設備可以從海量互 聯網數據中提取描述當天熱點事件的熱點數據,并通過后續步驟基于描述當天熱點事件的 熱點數據確定出的業務市場中的熱點信息。
[0065] 步驟101的一種可選實施方式如圖2所示,包括:
[0066] 1011、熱點信息分析設備從互聯網數據中確定用戶訪問數據。
[0067] 這里的用戶訪問數據是指用戶訪問互聯網頁面使用的數據,例如可以是輸入搜索 引擎使用的數據,例如查詢詞,或者是用戶訪問微博過程中使用的搜索詞等等。
[0068] 值得說明的是,上述用戶訪問數據通常會有多個。
[0069] 1012、熱點信息分析設備從上述用戶訪問數據中確定均值突變率大于第一突變率 門限且短期突變率大于第二突變率門限的候選用戶訪問數據。
[0070] 具體的,對每個用戶訪問數據,熱點信息分析設備確定該用戶訪問數據的均值突 變率和短期突變率,然后判斷用戶訪問數據的均值突變率是否大于第一突變率門限,并判 斷用戶訪問數據的短期突變率是否大于第二突變率門限,如果用戶訪問數據的均值突變率 大于第一突變率門限,且短期突變率大于第二突變率門限,則確定該用戶訪問數據為候選 用戶訪問數據。
[0071] 關于第一突變率門限和第二突變率門限的取值,本實施例不做限定。舉例說明,第 一突變率門限可以是3. 0。第二突變率門限可以是5. 0。
[0072] 上述用戶訪問數據的均值突變率用于表征用戶訪問數據從第一時間點到當前一 段時間內的訪問量的變化趨勢;相應的,用戶訪問數據的短期突變率用于表征該用戶訪問 數據從第二時間點到當前一段時間內的訪問量的變化趨勢。其中,第一時間點早于第二時 間點,也就是說,均值突變率反應的是用戶訪問數據在較長一段時間內的訪問量的變化趨 勢;而短期突變率反應的是用戶訪問數據在近期一段時間內的訪問量的變化趨勢。
[0073] 基于上述,熱點信息分析設備在執行上述步驟1012之前,還需要獲取用戶訪問數 據自第一時間點到當前時間的第一平均訪問量、用戶訪問數據自第二時間點到當前時間的 第二平均訪問量、以及用戶訪問數據的當前訪問量;利用用戶訪問數據的當前訪問量除以 第一平均訪問量作為該用戶訪問數據的均值突變率,利用用戶訪問數據的當前訪問量除以 第二平均訪問量作為該用戶訪問數據的短期突變率。
[0074] 在此說明,上述第一平均訪問量是自第一時間點到當前時間用戶訪問數據的平均 訪問量;第二平均訪問量是自第二時間點到當前用戶訪問數據的平均訪問量。
[0075] 舉例說明,假設本實施例是以"天"為單位統計用戶訪問數據的訪問量,則上述當 前即為當天,假設第一時間點到當天一段時間是當天之前五天時間;第二時間點到當天一 段時間是當天的前一天。則第一平均訪問量是指當天之前五天內用戶訪問數據的訪問量的 平均值,第二平均訪問量是當天的前一天用戶訪問數據的訪問量;用戶訪問數據的當前訪 問量是用戶訪問數據的當天訪問量。
[0076] 1013、熱點信息分析設備對上述候選用戶訪問數據的真實性進行驗證,將通過真 實性驗證的候選用戶訪問數據作為描述熱點事件的熱點數據。
[0077] 考慮到互聯網數據中有些數據的真實性無法保證,本實施例的熱點信息分析設備 通過對候選用戶訪問數據的真實性進行驗證,選擇通過真實性驗證的候選用戶訪問數據作 為熱點數據,這樣有利于保證基于熱點數據分析出的業務市場中與熱點數據相關的業務數 據的準確性。
[0078] 可選的,考慮到新聞一般會對熱點事件進行報道,因此熱點信息分析設備可以判 斷上述候選用戶訪問數據是否出現在新聞標題的切詞片段中;如果判斷結果為是,則確定 候選用戶訪問數據通過真實性驗證,如果判斷結果為否,確定候選用戶訪問數據未通過真 實性驗證。
[0079] 值得說明的是,上述新聞標題可以從互聯網數據中的新聞搜索中獲得,但不限于 此。例如,上述新聞標題還可以通過報紙或電視等方式獲得并存儲起來。
[0080] 102、對整個業務市場中與業務交易有關的業務數據與上述熱點數據進行關聯分 析,獲得候選熱點數據與候選業務數據的對應關系;其中,候選熱點數據是指上述熱點數據 中與業務交易有關的熱點數據,候選業務數據是指上述業務數據中與熱點事件有關的業務 數據。
[0081] 首先說明,上述獲得的熱點數據中有些與本實施例要分析的業務市場中的業務交 易有關,有些可能與本實施例所要分析的業務市場中的業務交易無關。同理,本實施例要分 析的業務市場中與業務交易有關的業務數據也不是全部都與熱點事件有關。因此,在獲得 熱點數據之后,熱點信息分析設備對整個業務市場中與業務交易有關的業務數據與上述熱 點數據進行關聯分析,獲得熱點數據中與業務交易有關的候選熱點數據以及業務數據中與 熱點事件有關的候選業務數據,并建立候選熱點數據與候選業務數據之間的對應關系。
[0082] 在此說明,業務市場中的業務交易可能有好多種,例如證券市場中通常會分股票 類交易、債券類交易,股票類交易根據股票類型又可分為多種業務交易,債券類交易也會根 據債券類型分為多種業務交易,所以本實施例中的業務數據可以有多種,一種業務交易對 應一種業務數據。例如,在證券市場中,A股股票的交易是一種業務交易,與A股股票的交 易有關的數據是一種業務數據;B股股票的交易也是一種業務交易,與B股股票的交易有關 的數據是一種業務數據;國債的交易也是一種業務交易,與國債交易有關的數據是一種業 務數據;企業債的交易也是一種業務交易,與企業債的交易有關的數據是一種業務數據。
[0083] 在一可選實施方式中,步驟102的實施方式包括:對于每種業務數據,熱點信息分 析設備先確定該業務數據對應的價格走勢和每個熱點數據對應的訪問量走勢之間的相似 度,并確定該業務數據對應的關鍵詞在每個熱點數據所屬的用戶訪問數據中的共現次數, 如果存在相似度滿足預設的相似度條件、且共現次數大于預設的共現量的熱點數據,則建 立該業務數據與上述存在的熱點數據之間的對應關系,并確定該業務數據與上述存在的熱 點數據分別作為候選業務數據和候選熱點數據。需要說明的是,熱點數據所屬的用戶訪問 數據是指包括該熱點數據的用戶訪問數據,熱點數據所屬的用戶訪問數據可以是多個。 [0084] 對于上述相似度條件和共現量門限的取值,本實施例不做限定。例如,上述相似度 條件可以是一個數值范圍,即要求業務數據對應的價格走勢和熱點數據對應的訪問量走勢 之間的相似度在該數值范圍內,例如該數值范圍可以是〇. 4-1。上述共現量門限可以是大于 10的自然數。
[0085] 在此說明,上述業務數據對應的價格走勢可以預先獲得并存儲在熱點信息分析設 備本地,或者可由熱點信息分析設備從業務數據中獲取價格并分析出價格走勢。同理,上述 熱點數據對應的訪問量走勢可以預先獲得并存儲在熱點信息分析設備本地,或者可由熱點 信息分析設備統計熱點數據的訪問量并分析其訪問量走勢。值得說明的是,確定業務數據 對應的價格走勢和熱點數據對應的訪問量走勢之間的相似度,需要使用對應于同一時間段 范圍的價格走勢和訪問量走勢。
[0086] 上述業務數據對應的關鍵字可以是與該業務數據對應的業務相關的信息,例如可 以是業務名稱、業務代碼、業務名稱的縮寫等。該關鍵字可以預先存儲到熱點信息分析設備 本地。
[0087] 在此說明,經過步驟102, 一方面建立了候選熱點數據與候選業務數據之間的對應 關系,另一方面也對熱點數據和業務數據進行了篩選,既剔除了熱點數據中與本實施例要 分析的業務市場中的業務交易無關的熱點數據,又剔除了業務數據中與熱點事件無關的業 務數據。
[0088] 103、根據候選熱點數據與候選業務數據的對應關系,對候選熱點數據進行合并處 理,獲得目標熱點數據和目標熱點數據對應的目標業務數據。
[0089] 經過步驟102獲得的候選熱點數據可能屬于同一題材,但卻是分散的,即作為獨 立的候選熱點數據,也就是說此時獲得的候選熱點數據以及其對應的候選業務數據還不能 準確的表示業務市場中的熱點信息,因此需要對候選熱點數據進行歸納合并。
[0090] 基于此,熱點信息分析設備根據上述候選熱點數據與候選業務數據的對應關系, 確定每個候選熱點數據對應的候選業務數據;將候選熱點數據兩兩進行比較,以判斷每兩 個候選熱點數據對應的候選業務數據中是否存在相同的候選業務數據且所述相同的候選 業務數據的數量是否滿足預設的重疊條件;如果判斷結果為是,則將這兩個候選熱點數據 (這兩個候選熱點數據是指對應的候選業務數據中存在相同的候選業務數據且相同的候選 業務數據的數量滿足預設的重疊條件的候選熱點數據)進行合并作為新的候選熱點數據, 并將這兩個候選熱點數據對應的候選業務數據進行合并作為該新的候選熱點數據對應的 候選業務數據,之后返回執行將候選熱點數據兩兩進行比較,以判斷每兩個候選熱點數據 對應的候選業務數據中是否存在相同的候選業務數據且相同的候選業務數據的數量滿足 預設的重疊條件的操作,直到所有判斷結果均為否,獲得所述目標熱點數據和所述目標熱 點數據對應的目標業務數據。
[0091] 即當每兩個候選熱點數據對應的候選業務數據均不包括相同的候選業務數據,或 者包括相同的候選業務數據但相同的候選業務數據的數量不滿足預設的重疊條件時,獲取 此時的候選熱點數據作為目標熱點數據,并將此時候選熱點數據對應的候選業務數據作為 目標熱點數據對應的目標業務數據。
[0092] 上述重疊條件可以是一個數值范圍,即要求兩個候選熱點數據對應的候選業務數 據中相同候選業務數據的數量應該在該數值范圍內。或者,上述重疊條件也可以是一個下 限數值,即要求兩個候選熱點數據對應的候選業務數據中相同候選業務數據的數量應該大 于該下限數值。
[0093] 以證券市場為例進行說明,如圖3所示中的"Nest"、"智能家居概念股"和"谷歌 (Google)收購"分別是不同的候選熱點數據,假設"Nest"對應的候選業務數據有四川長虹 的業務數據(圖3中簡稱為四川長虹)、安居寶的業務數據(圖3中簡稱為安居寶)、英唐 智控的業務數據(圖3中簡稱為英唐智控)和九陽股份的業務數據(圖3中簡稱為九陽股 份),"智能家居概念股"對應的候選業務數據有四川長虹的業務數據、東軟載波的業務數據 (圖3中簡稱為東軟載波)、英唐智控的業務數據和九陽股份的業務數據,"Google收購"對 應的候選業務數據有四川長虹的業務數據、安居寶的業務數據、英唐智控的業務數據以及 和晶科技的業務數據(圖3中簡稱為和晶科技)。
[0094] 按照上述方法進行分析可以得出:"Nest"、"智能家居概念股"和"Google收購"雖 然字面意思不同但實際上屬于同一主題(即屬于描述同一熱點事件)的熱點數據,于是將 三個候選熱點數據進行合并處理,得到目標熱點數據,即"智能家居概念股",并將"Nest"、 "智能家居概念股"和"Google收購"對應的候選業務數據進行合并,得到四川長虹的業務 數據、安居寶的業務數據、英唐智控的業務數據、九陽股份的業務數據、東軟載波的業務數 據以及和晶科技的業務數據,作為"智能家居概念股"對應的目標業務數據。
[0095] 經過上述分析可知,本實施例提供的方法不再依賴用戶的業務經驗,而是由熱點 信息分析設備將互聯網數據和業務市場中與業務交易有關的業務數據相結合從而分析出 業務市場中的熱點信息,克服了用戶的主觀因素對分析過程的影響,另外,本實施例提供的 方法采用的是互聯網數據及整個業務市場中與業務交易相關的業務數據,數據量較大,因 此與現有技術相比,本實施例提高了分析出的熱點信息的準確度。
[0096] 圖4為本發明另一實施例提供的熱點信息分析方法的流程示意圖。該實施例可基 于圖1所示實施例實現,如圖4所示,該方法在步驟103之后,還包括:
[0097] 104、計算目標熱點數據的熱度值。
[0098] 105、輸出目標熱點數據、目標熱點數據對應的目標業務數據以及目標熱點數據的 熱度值。
[0099] 其中,熱度值反映了目標熱點數據的受關注度,便于用戶更加直觀的了解目標熱 點數據及目標業務數據的受關注度,為用戶做決策提供更加直觀的判斷依據。
[0100] 在一可選實施方式中,熱點信息分析設備確定目標熱點數據的當前訪問量、目標 熱點數據的均值突變率和短期突變率;對目標熱點數據的當前訪問量、均值突變率和短期 突變率進行數值擬合或回歸分析,獲得目標熱點數據的熱度值。
[0101] 對于目標熱點數據,如果是由多個候選熱點數據合并而成,則將合并成該目標熱 點數據的多個候選熱點數據的當前訪問量中最大的作為目標熱點數據的當前訪問量,并將 訪問量最大的候選熱點數據的均值突變率和短期突變率作為目標熱點數據的均值突變率 和短期突變率。
[0102] 如圖3所示,"智能家居概念股"的熱度值是五顆星,表示受關注度極高。熱點信息 分析設備計算目標熱點數據的熱度值,并輸出目標熱點數據、其對應的目標業務數據及其 熱度值,有利于用戶了解不同熱點數據及其對應的目標業務數據的受關注度,便于用戶做 決策。
[0103] 需要說明的是,對于前述的各方法實施例,為了簡單描述,故將其都表述為一系列 的動作組合,但是本領域技術人員應該知悉,本發明并不受所描述的動作順序的限制,因為 依據本發明,某些步驟可以采用其他順序或者同時進行。其次,本領域技術人員也應該知 悉,說明書中所描述的實施例均屬于優選實施例,所涉及的動作和模塊并不一定是本發明 所必須的。
[0104] 在上述實施例中,對各個實施例的描述都各有側重,某個實施例中沒有詳述的部 分,可以參見其他實施例的相關描述。
[0105] 圖5為本發明一實施例提供的熱點信息分析設備的結構示意圖。如圖5所示,該 設備包括:提取模塊51、分析模塊52和合并模塊53。
[0106] 提取模塊51,用于從互聯網數據中提取描述熱點事件的熱點數據。
[0107] 分析模塊52,與提取模塊51連接,用于對整個業務市場中與業務交易有關的業務 數據與提取模塊51提取的熱點數據進行關聯分析,獲得候選熱點數據與候選業務數據的 對應關系,所述候選熱點數據是指所述熱點數據中與業務交易有關的熱點數據,所述候選 業務數據是指所述業務數據中與熱點事件有關的業務數據。
[0108] 合并模塊53,與分析模塊52連接,用于根據分析模塊52獲得的候選熱點數據與候 選業務數據的對應關系,對候選熱點數據進行合并處理,獲得目標熱點數據和目標熱點數 據對應的目標業務數據。
[0109] 在一可選實施方式中,如圖6所示,提取模塊51的實現結構包括:第一確定單元 511、第二確定單元512、驗證單元513和提取單元514。
[0110] 第一確定單元511,用于從互聯網數據中確定用戶訪問數據。
[0111] 第二確定單元512,與第一確定單元511連接,用于從第一確定單元511所確定的 用戶訪問數據中確定均值突變率大于第一突變率門限且短期突變率大于第二突變率門限 的候選用戶訪問數據。
[0112] 驗證單元513,與第二確定單元512連接,用于對第二確定單元512所確定的候選 用戶訪問數據的真實性進行驗證。
[0113] 提取單元514,與驗證單元513連接,用于將通過驗證單元513的真實性驗證的候 選用戶訪問數據作為描述熱點事件的熱點數據。
[0114] 其中,上述均值突變率用于表征用戶訪問數據從第一時間點到當前一段時間內的 訪問量的變化趨勢;上述短期突變率用于表征所述用戶訪問數據自第二時間點到當前一段 時間內的訪問量的變化趨勢,第一時間點早于第二時間點。
[0115] 在一可選實施方式中,如圖6所示,該設備還可以包括:獲取模塊61和第一計算模 塊62。
[0116] 獲取模塊61,用于在第二確定單元512從用戶訪問數據中確定均值突變率大于第 一突變率門限且短期突變率大于第二突變率門限的候選用戶訪問數據之前,獲取用戶訪問 數據自第一時間點到當前的第一平均訪問量、用戶訪問數據自第二時間點到當前的第二平 均訪問量、以及用戶訪問數據當前的訪問量。
[0117] 第一計算模塊62,與獲取模塊61連接,用于用獲取模塊61獲取的用戶訪問數據當 前的訪問量除以獲取模塊61獲取的第一平均訪問量,獲得均值突變率,并用獲取模塊61獲 取的用戶訪問數據當前的訪問量除以獲取模塊61獲取的第二平均訪問量,獲得短期突變 率。
[0118] 第一計算模塊62還與第二確定單元512連接,用于向第二確定單元512提供均值 突變率和短期突變率。
[0119] 在一可選實施方式中,驗證單元513具體可用于判斷候選用戶訪問數據是否出現 在新聞標題的切詞片段中;如果判斷結果為是,確定候選用戶訪問數據通過真實性驗證; 如果判斷結果為否,確定候選用戶訪問數據未通過真實性驗證。
[0120] 在一可選實施方式中,分析模塊具體可用于對于每種業務數據,確定該業務數據 對應的價格走勢和每個熱點數據對應的訪問量走勢之間的相似度,并確定該業務數據對應 的關鍵詞在每個熱點數據所屬的用戶訪問數據中的共現次數,如果存在相似度滿足預設的 相似度條件、且共現次數大于預設的共現量門限的熱點數據,則建立該業務數據和所述存 在的熱點數據之間的對應關系,并確定該業務數據和所述存在的熱點數據分別作為候選業 務數據和候選熱點數據。
[0121] 在一可選實施方式中,如圖6所示,合并模塊53的實現結構包括:第三確定單元 531、比較單元532、合并單元533和獲得單元534。
[0122] 第三確定單元531,與分析模塊52連接,用于根據分析模塊52獲得的候選熱點數 據與候選業務數據的對應關系,確定每個候選熱點數據對應的候選業務數據。
[0123] 比較單元532,與第三確定單元531連接,用于將候選熱點數據兩兩進行比較,以 判斷每兩個候選熱點數據對應的候選業務數據中是否存在相同的候選業務數據且相同的 候選業務數據的數量滿足預設的重疊條件。
[0124] 合并單元533,與比較單元532連接,用于在比較單元532的判斷結果為是時,將兩 個候選熱點數據進行合并作為新的候選熱點數據,并將兩個候選熱點數據對應的候選業務 數據進行合并作為新的候選熱點數據對應的候選業務數據,并觸發比較單元532繼續執行 將候選熱點數據兩兩進行比較,以判斷每兩個候選熱點數據對應的候選業務數據中是否存 在相同的候選業務數據且相同的候選業務數據的數量滿足預設的重疊條件的操作。
[0125] 獲得單元534,與比較單元532連接,用于在比較單元532的所有判斷結果均為否 時,獲得目標熱點數據和目標熱點數據對應的目標業務數據。
[0126] 在一可選實施方式中,如圖6所示,該設備還可以包括:第二計算模塊63和輸出模 塊64。
[0127] 第二計算模塊63,與獲得單元534連接,用于在獲得單元534獲得目標熱點數據 和目標熱點數據對應的目標業務數據之后,計算獲得單元534獲得的目標熱點數據的熱度 值。
[0128] 輸出模塊64,與獲得單元534和第二計算模塊63連接,用于輸出獲得單元534獲 得的目標熱點數據、獲得單元634獲得的目標熱點數據對應的目標業務數據以及第二計算 模塊63計算出的目標熱點數據的熱度值。
[0129] 本實施例提供的熱點信息分析設備,將互聯網數據與業務市場中的業務數據有機 結合用以分析業務市場中熱點信息,不再依賴用戶的業務經驗,而且采用的是互聯網數據 及整個業務市場中與業務交易相關的業務數據,數據量較大,因此與現有技術相比,提高了 分析出的熱點信息的準確度。
[0130] 所屬領域的技術人員可以清楚地了解到,為描述的方便和簡潔,上述描述的系統, 裝置和單元的具體工作過程,可以參考前述方法實施例中的對應過程,在此不再贅述。
[0131] 在本發明所提供的幾個實施例中,應該理解到,所揭露的系統,裝置和方法,可以 通過其它的方式實現。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的 劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,例如多個單元或組件 可以結合或者可以集成到另一個系統,或一些特征可以忽略,或不執行。另一點,所顯示或 討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦 合或通信連接,可以是電性,機械或其它的形式。
[0132] 所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯 示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個 網絡單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目 的。
[0133] 另外,在本發明各個實施例中的各功能單元可以集成在一個處理單元中,也可以 是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單 元既可以采用硬件的形式實現,也可以采用硬件加軟件功能單元的形式實現。
[0134] 上述以軟件功能單元的形式實現的集成的單元,可以存儲在一個計算機可讀取存 儲介質中。上述軟件功能單元存儲在一個存儲介質中,包括若干指令用以使得一臺計算 機設備(可以是個人計算機,服務器,或者網絡設備等)或處理器(processor)執行本發 明各個實施例所述方法的部分步驟。而前述的存儲介質包括:U盤、移動硬盤、只讀存儲器 (Read-Only Memory, ROM)、隨機存取存儲器(Random Access Memory, RAM)、磁碟或者光盤 等各種可以存儲程序代碼的介質。
[0135] 最后應說明的是:以上實施例僅用以說明本發明的技術方案,而非對其限制;盡 管參照前述實施例對本發明進行了詳細的說明,本領域的普通技術人員應當理解:其依然 可以對前述各實施例所記載的技術方案進行修改,或者對其中部分技術特征進行等同替 換;而這些修改或者替換,并不使相應技術方案的本質脫離本發明各實施例技術方案的精 神和范圍。
【權利要求】
1. 一種熱點信息分析方法,其特征在于,包括: 從互聯網數據中提取描述熱點事件的熱點數據; 對整個業務市場中與業務交易有關的業務數據與所述熱點數據進行關聯分析,獲得候 選熱點數據與候選業務數據的對應關系,所述候選熱點數據是指所述熱點數據中與業務交 易有關的熱點數據,所述候選業務數據是指所述業務數據中與熱點事件有關的業務數據; 根據所述候選熱點數據與候選業務數據的對應關系,對所述候選熱點數據進行合并處 理,獲得目標熱點數據和所述目標熱點數據對應的目標業務數據。
2. 根據權利要求1所述的方法,其特征在于,所述從互聯網數據中提取描述當天熱點 事件的熱點數據,包括: 從所述互聯網數據中確定用戶訪問數據; 從所述用戶訪問數據中確定均值突變率大于第一突變率門限且短期突變率大于第二 突變率門限的候選用戶訪問數據; 對所述候選用戶訪問數據的真實性進行驗證,將通過真實性驗證的所述候選用戶訪問 數據作為描述熱點事件的所述熱點數據; 其中,所述均值突變率用于表征所述用戶訪問數據從第一時間點到當前一段時間內的 訪問量的變化趨勢;所述短期突變率用于表征所述用戶訪問數據自第二時間點到當前一段 時間內的訪問量的變化趨勢,所述第一時間點早于所述第二時間點。
3. 根據權利要求2所述的方法,其特征在于,所述從所述用戶訪問數據中確定均值突 變率大于第一突變率門限且短期突變率大于第二突變率門限的候選用戶訪問數據之前,還 包括: 獲取所述用戶訪問數據自所述第一時間點到當前的第一平均訪問量、所述用戶訪問數 據自所述第二時間點到當前的第二平均訪問量、以及所述用戶訪問數據當前的訪問量; 用所述用戶訪問數據當前的訪問量除以所述第一平均訪問量,獲得所述均值突變率; 用所述用戶訪問數據當前的訪問量除以所述第二平均訪問量,獲得短期突變率。
4. 根據權利要求2或3所述的方法,其特征在于,所述對所述候選用戶訪問數據的真實 性進行驗證,包括: 判斷所述候選用戶訪問數據是否出現在新聞標題的切詞片段中; 如果判斷結果為是,確定所述候選用戶訪問數據通過真實性驗證;如果判斷結果為否, 確定所述候選用戶訪問數據未通過真實性驗證。
5. 根據權利要求1所述的方法,其特征在于,所述對整個業務市場中與業務交易有關 的業務數據與所述熱點數據進行關聯分析,獲得候選熱點數據與候選業務數據的對應關 系,包括: 對于每種所述業務數據,確定所述業務數據對應的價格走勢和每個所述熱點數據對應 的訪問量走勢之間的相似度,并確定所述業務數據對應的關鍵詞在每個所述熱點數據所屬 的用戶訪問數據中的共現次數,如果存在相似度滿足預設的相似度條件、且共現次數大于 預設的共現量門限的熱點數據,則建立所述業務數據和所述存在的熱點數據之間的對應關 系,并確定所述業務數據和所述存在的熱點數據分別作為所述候選業務數據和所述候選熱 點數據。
6. 根據權利要求1所述的方法,其特征在于,所述根據所述候選熱點數據與候選業務 數據的對應關系,對所述候選熱點數據進行合并處理,獲得目標熱點數據和所述目標熱點 數據對應的目標業務數據,包括: 根據所述候選熱點數據與候選業務數據的對應關系,確定每個所述候選熱點數據對應 的候選業務數據; 將所述候選熱點數據兩兩進行比較,以判斷每兩個所述候選熱點數據對應的候選業務 數據中是否存在相同的候選業務數據且所述相同的候選業務數據的數量滿足預設的重疊 條件; 如果判斷結果為是,則將所述兩個候選熱點數據進行合并作為新的候選熱點數據,并 將所述兩個候選熱點數據對應的候選業務數據進行合并作為所述新的候選熱點數據對應 的候選業務數據,并返回執行將所述候選熱點數據兩兩進行比較,以判斷每兩個所述候選 熱點數據對應的候選業務數據中是否存在相同的候選業務數據且所述相同的候選業務數 據的數量滿足預設的重疊條件的操作,直到所有判斷結果均為否,獲得所述目標熱點數據 和所述目標熱點數據對應的目標業務數據。
7. 根據權利要求1、2、3、5或6所述的方法,其特征在于,在獲得目標熱點數據和所述目 標熱點數據對應的目標業務數據之后,還包括: 計算所述目標熱點數據的熱度值; 輸出所述目標熱點數據、所述目標熱點數據對應的目標業務數據以及所述目標熱點數 據的熱度值。
8. -種熱點信息分析設備,其特征在于,包括: 提取模塊,用于從互聯網數據中提取描述熱點事件的熱點數據; 分析模塊,用于對整個業務市場中與業務交易有關的業務數據與所述熱點數據進行關 聯分析,獲得候選熱點數據與候選業務數據的對應關系,所述候選熱點數據是指所述熱點 數據中與業務交易有關的熱點數據,所述候選業務數據是指所述業務數據中與熱點事件有 關的業務數據; 合并模塊,用于根據所述候選熱點數據與候選業務數據的對應關系,對所述候選熱點 數據進行合并處理,獲得目標熱點數據和所述目標熱點數據對應的目標業務數據。
9. 根據權利要求8所述的設備,其特征在于,所述提取模塊包括: 第一確定單元,用于從所述互聯網數據中確定用戶訪問數據; 第二確定單元,用于從所述用戶訪問數據中確定均值突變率大于第一突變率門限且短 期突變率大于第二突變率門限的候選用戶訪問數據; 驗證單元,用于對所述候選用戶訪問數據的真實性進行驗證; 提取單元,用于將通過真實性驗證的所述候選用戶訪問數據作為描述熱點事件的所述 熱點數據; 其中,所述均值突變率用于表征所述用戶訪問數據從第一時間點到當前一段時間內的 訪問量的變化趨勢;所述短期突變率用于表征所述用戶訪問數據自第二時間點到當前一段 時間內的訪問量的變化趨勢,所述第一時間點早于所述第二時間點。
10. 根據權利要求9所述的設備,其特征在于,還包括: 獲取模塊,用于獲取所述用戶訪問數據自所述第一時間點到當前的第一平均訪問量、 所述用戶訪問數據自所述第二時間點到當前的第二平均訪問量、以及所述用戶訪問數據當 前的訪問量; 第一計算模塊,用于用所述用戶訪問數據當前的訪問量除以所述第一平均訪問量,獲 得所述均值突變率,并用所述用戶訪問數據當前的訪問量除以所述第二平均訪問量,獲得 短期突變率。
11. 根據權利要求9或10所述的設備,其特征在于,所述驗證單元具體用于判斷所述候 選用戶訪問數據是否出現在新聞標題的切詞片段中;如果判斷結果為是,確定所述候選用 戶訪問數據通過真實性驗證;如果判斷結果為否,確定所述候選用戶訪問數據未通過真實 性驗證。
12. 根據權利要求8所述的設備,其特征在于,所述分析模塊具體用于對于每種所述業 務數據,確定所述業務數據對應的價格走勢和每個所述熱點數據對應的訪問量走勢之間的 相似度,并確定所述業務數據對應的關鍵詞在每個所述熱點數據所屬的用戶訪問數據中的 共現次數,如果存在相似度滿足預設的相似度條件、且共現次數大于預設的共現量門限的 熱點數據,則建立所述業務數據和所述存在的熱點數據之間的對應關系,并確定所述業務 數據和所述存在的熱點數據分別作為所述候選業務數據和所述候選熱點數據。
13. 根據權利要求8所述的設備,其特征在于,所述合并模塊包括: 第三確定單元,用于根據所述候選熱點數據與候選業務數據的對應關系,確定每個所 述候選熱點數據對應的候選業務數據; 比較單元,用于將所述候選熱點數據兩兩進行比較,以判斷每兩個所述候選熱點數據 對應的候選業務數據中是否存在相同的候選業務數據且所述相同的候選業務數據的數量 滿足預設的重疊條件; 合并單元,用于在所述比較單元的判斷結果為是時,將所述兩個候選熱點數據進行合 并作為新的候選熱點數據,并將所述兩個候選熱點數據對應的候選業務數據進行合并作為 所述新的候選熱點數據對應的候選業務數據,并觸發所述比較單元繼續執行將所述候選熱 點數據兩兩進行比較,以判斷每兩個所述候選熱點數據對應的候選業務數據中是否存在相 同的候選業務數據且所述相同的候選業務數據的數量滿足預設的重疊條件的操作; 獲得單元,用于在所述比較單元的所有判斷結果均為否時,獲得所述目標熱點數據和 所述目標熱點數據對應的目標業務數據。
14. 根據權利要求8、9、10、12或13所述的設備,其特征在于,還包括: 第二計算模塊,用于計算所述目標熱點數據的熱度值; 輸出模塊,用于輸出所述目標熱點數據、所述目標熱點數據對應的目標業務數據以及 所述目標熱點數據的熱度值。
【文檔編號】G06F17/30GK104063450SQ201410283286
【公開日】2014年9月24日 申請日期:2014年6月23日 優先權日:2014年6月23日
【發明者】王曉元, 陳承澤, 裘皓萍, 王楊, 湯金華 申請人:百度在線網絡技術(北京)有限公司