文本內容的篩選方法及裝置制造方法
【專利摘要】本發明公開了一種文本內容的篩選方法及裝置。其中,文本內容的篩選方法包括:獲取網頁頁面的文本內容;添加篩選條件至目標詞包,其中,目標詞包為包括目標對象和關聯對象的詞包,目標對象為文本內容中的待篩選對象,關聯對象為與目標對象具有關聯關系的對象;利用具有篩選條件的目標詞包對文本內容進行篩選,得到目標對象的目標內容。通過本發明,解決了現有技術中篩選的文本內容不夠準確的問題,進而達到了提高篩選的文本內容準確性的效果。
【專利說明】文本內容的篩選方法及裝置
【技術領域】
[0001] 本發明涉及文本內容處理領域,具體而言,涉及一種文本內容的篩選方法及裝置。
【背景技術】
[0002] 現有的輿情監測系統能夠基于一個對象來進行對該對象的多維度觀察和分析,例 如對象是可口可樂歌詞瓶,輿情監測系統可以讓使用者觀察到在互聯網中,網民對可口可 樂歌詞瓶的情緒態度是怎樣的,例如:網民說了什么關于可樂歌詞瓶的話、可樂歌詞瓶活動 在互聯網的口碑變化趨勢等等。上述情緒態度的結果都是根據圍繞"可口可樂歌詞瓶"這 個詞語篩選出的相關內容分析得出的,然而在互聯網中,不僅只有"可口可樂歌詞瓶"代表 可口可樂歌詞瓶,類似的"cola歌詞瓶" "coca cola歌詞瓶"等詞語同樣代表著可口可樂, 所以輿情監測系統加入了一個詞包的概念,即將"cola歌詞瓶" "coca cola歌詞瓶" "可口 可樂歌詞瓶"等詞打包放入可口可樂歌詞瓶的詞包中,互聯網上凡是提到"cola歌詞瓶"、 "coca cola歌詞瓶"或者"可口可樂歌詞瓶"都指代可口可樂歌詞瓶,相關內容也都可以被 篩選出來。
[0003] 因為互聯網上文字內容的多樣性特點,雖然在輿情監測系統中加入了詞包的方 式,但通過增加詞包內包含的詞語篩選到的結果始終不能比較全面的覆蓋所有情況。例如: 輿情監測系統進行監測的對象是可樂歌詞瓶,當文本內容為"我今天買可樂,發現一個歌詞 與瓶子組合的活動,還挺不錯的"和"這個笑話可樂壞了我,笑話里面的歌詞真實幽默,笑得 我喝水把瓶子都打翻了"時,這兩句話都會被篩選出來。雖然上述文本內容上面兩句話都同 時提到了"可樂"、"歌詞"、和"瓶"這三個詞,但可以發現第一句話需要篩選出來的內容,而 第二句話完全是干擾,不應該被篩選出來。若篩選出來的信息不夠準確,會導致輿情監測系 統后續基于篩選的信息進行分析的分析結果有誤。
[0004] 針對現有技術中篩選的文本內容不夠準確的問題,目前尚未提出有效的解決方 案。
【發明內容】
[0005] 本發明的主要目的在于提供一種文本內容的篩選方法及裝置,以解決現有技術中 篩選的文本內容不夠準確的問題。
[0006] 為了實現上述目的,根據本發明實施例的一個方面,提供了一種文本內容的篩選 方法。
[0007] 根據本發明的文本內容的篩選方法包括:獲取網頁頁面的文本內容;添加篩選條 件至目標詞包,其中,所述目標詞包為包括目標對象和關聯對象的詞包,所述目標對象為所 述文本內容中的待篩選對象,所述關聯對象為與所述目標對象具有關聯關系的對象;以及 利用具有所述篩選條件的所述目標詞包對所述文本內容進行篩選,得到所述目標對象的目 標內容。
[0008] 進一步地,添加篩選條件至目標詞包包括:利用所述篩選條件關聯所述目標對象 和所述關聯對象。
[0009] 進一步地,所述關聯對象的數量為多個,所述篩選條件包括第一子條件和第二子 條件,添加篩選條件至目標詞包包括:分別利用所述第一子條件關聯每個所述關聯對象和 所述目標對象,得到多個詞包元素;以及利用所述第二子條件關聯多個所述詞包元素,得到 具有所述篩選條件的所述目標詞包。
[0010] 進一步地,所述關聯對象的數量為多個,所述篩選條件包括第一子條件和第二子 條件,添加篩選條件至目標詞包包括:利用所述第一子條件關聯至少一個所述關聯對象和 所述目標對象,得到至少一個第一詞包元素;利用所述第一子條件關聯第一關聯對象和第 二關聯對象,得到第二詞包元素,其中,所述第一關聯對象和所述第二關聯對象均為多個所 述關聯對象中的對象;以及利用所述第二子條件關聯所述至少一個第一詞包元素和所述第 二詞包元素,得到具有所述篩選條件的所述目標詞包。
[0011] 進一步地,在獲取網頁頁面的文本內容之前,所述篩選方法還包括:接收選擇指 令,所述選擇指令用于確定獲取范圍,其中,獲取網頁頁面的文本內容包括:在所述獲取范 圍內獲取所述文本內容。
[0012] 為了實現上述目的,根據本發明實施例的另一方面,提供了一種文本內容的篩選 裝直。
[0013] 根據本發明的文本內容的篩選裝置包括:獲取單元,用于獲取網頁頁面的文本內 容;添加單元,用于添加篩選條件至目標詞包,其中,所述目標詞包為包括目標對象和關聯 對象的詞包,所述目標對象為所述文本內容中的待篩選對象,所述關聯對象為與所述目標 對象具有關聯關系的對象;以及篩選單元,用于利用具有所述篩選條件的所述目標詞包對 所述文本內容進行篩選,得到所述目標對象的目標內容。
[0014] 進一步地,所述添加單元包括:第一關聯模塊,用于利用所述篩選條件關聯所述目 標對象和所述關聯對象。
[0015] 進一步地,所述關聯對象的數量為多個,所述篩選條件包括第一子條件和第二子 條件,所述添加單元還包括:第二關聯模塊,用于分別利用所述第一子條件關聯每個所述關 聯對象和所述目標對象,得到多個詞包元素;以及第三關聯模塊,用于利用所述第二子條件 關聯多個所述詞包元素,得到具有所述篩選條件的所述目標詞包。
[0016] 進一步地,所述關聯對象的數量為多個,所述篩選條件包括第一子條件和第二子 條件,所述添加單元還包括:第四關聯模塊,用于利用所述第一子條件關聯至少一個所述關 聯對象和所述目標對象,得到至少一個第一詞包元素;第五關聯模塊,用于利用所述第一子 條件關聯第一關聯對象和第二關聯對象,得到第二詞包元素,其中,所述第一關聯對象和所 述第二關聯對象均為多個所述關聯對象中的對象;以及第六關聯模塊,用于利用所述第二 子條件關聯所述至少一個第一詞包元素和所述第二詞包元素,得到具有所述篩選條件的所 述目標詞包。
[0017] 進一步地,所述篩選裝置還包括:接收單元,用于在獲取網頁頁面的文本內容之 前,接收選擇指令,所述選擇指令用于確定獲取范圍,其中,所述獲取單元包括獲取模塊,用 于在所述獲取范圍內獲取所述文本內容。
[0018] 根據發明實施例,采用獲取網頁頁面的文本內容;添加篩選條件至目標詞包,其 中,目標詞包為包括目標對象和關聯對象的詞包,目標對象為文本內容中的待篩選對象,關 聯對象為與目標對象具有關聯關系的對象;以及利用具有篩選條件的目標詞包對文本內 容進行篩選,得到目標對象的目標內容。通過利用篩選條件將目標對象和關聯對象進行關 聯得到目標詞包,實現了目標詞包中不僅包含目標對象和關聯對象,而且還包含篩選條件, 進而利用目標詞包對獲取的文本內容進行篩選的篩選方式,實現了不僅要包含目標對象和 關聯對象,并且要同時滿足篩選條件的文本內容才會被篩選出來,被篩選出來的文本內容 即為目標內容,相比較于現有技術中利用只包含目標對象和關聯對象,而不包含篩選條件 的詞包對文本內容進行篩選的篩選方式,解決了現有技術中篩選的文本內容不夠準確的問 題,進而達到了提高篩選的文本內容準確性的效果。
【專利附圖】
【附圖說明】
[0019] 構成本申請的一部分的附圖用來提供對本發明的進一步理解,本發明的示意性實 施例及其說明用于解釋本發明,并不構成對本發明的不當限定。在附圖中:
[0020] 圖1是根據本發明實施例的文本內容的篩選方法的流程圖;
[0021] 圖2是根據本發明實施例的文本內容的篩選方法的另一流程圖;以及
[0022] 圖3是根據本發明實施例的文本內容的篩選裝置的示意圖。
【具體實施方式】
[0023] 為了使本【技術領域】的人員更好地理解本發明方案,下面將結合本發明實施例中的 附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是 本發明一部分的實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術 人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都應當屬于本發明保護的范 圍。
[0024] 需要說明的是,本發明的說明書和權利要求書及上述附圖中的術語"第一"、"第 二"等是用于區別類似的對象,而不必用于描述特定的順序或先后次序。應該理解這樣使用 的數據在適當情況下可以互換,以便這里描述的本發明的實施例能夠以除了在這里圖示或 描述的那些以外的順序實施。此外,術語"包括"和"具有"以及他們的任何變形,意圖在于 覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統、產品或設備不必限 于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或對于這些過程、方法、產 品或設備固有的其它步驟或單元。
[0025] 實施例1
[0026] 根據本發明實施例,提供了一種可以用于實施本申請裝置實施例的方法實施例, 需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計算機可執行指令的計算機系 統中執行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處 的順序執行所示出或描述的步驟。
[0027] 根據本發明實施例,提供了一種文本內容的篩選方法,圖1是根據本發明實施例 的文本內容的篩選方法的流程圖,如圖1所示,該方法包括如下的步驟S102至步驟S106 :
[0028] S102 :獲取網頁頁面的文本內容,具體地,可以通過網絡爬蟲獲取網頁頁面的文本 內容,文本內容包括網頁頁面的網址和文字信息。
[0029] S104 :添加篩選條件至目標詞包,其中,目標詞包為包括目標對象和關聯對象的詞 包,目標對象為文本內容中的待篩選對象,關聯對象為與目標對象具有關聯關系的對象。具 體地,目標對象和關聯對象具體可以根據需求通過接收輸入指令確定,輸入指令可以通過 鍵盤等硬件設備輸入,并且關聯對象的數量至少為一個。在本步驟中,通過將篩選條件添加 至目標詞包,使目標詞包中不僅包含目標對象和關聯對象,而且還包含篩選條件。例如:目 標對象為可口可樂,關聯對象可以為雪碧等。
[0030] S106 :利用具有篩選條件的目標詞包對文本內容進行篩選,得到目標對象的目標 內容,即,滿足目標詞包中的篩選條件,被篩選出來的文本內容為目標內容。具體地,逐句判 斷文本內容是否符合目標詞包中的篩選條件,在判斷出文本內容中存在符合目標詞包中的 篩選條件的語句的情況下,該語句就會被篩選出來,該語句即為得到的目標內容。
[0031] 在本發明實施列中,通過利用篩選條件將目標對象和關聯對象進行關聯得到目標 詞包,實現了目標詞包中不僅包含目標對象和關聯對象,而且還包含篩選條件;進而利用目 標詞包對獲取的文本內容進行篩選的篩選方式,實現了不僅要包含目標對象和關聯對象, 并且要同時滿足篩選條件的文本內容才會被篩選出來,被篩選出來的文本內容即為目標內 容,相比較于現有技術中利用只包含目標對象和關聯對象,而不包含篩選條件的詞包對文 本內容進行篩選的篩選方式,解決了現有技術中篩選的文本內容不夠準確的問題,進而達 到了提高篩選的文本內容準確性的效果。
[0032] 具體地,在本發明實施例中,添加篩選條件至目標詞包的具體添加方式,可以是利 用篩選條件關聯目標對象和關聯對象,即,通過篩選條件使目標對象和關聯對象之間具有 關聯關系,而非目標對象和關聯對象獨立存在于目標詞包中。
[0033] 在本發明實施例中,通過利用篩選條件將目標對象和關聯對象進行關聯,得到目 標詞包,利用該目標詞包對獲取的文本內容進行篩選,提高了文本內容篩選的準確性,為后 續的數據分析,提供了良好的基礎。
[0034] 具體地,篩選條件的種類如下表1所示,可以根據需求選擇具體的篩選條件。
[0035]表一
【權利要求】
1. 一種文本內容的篩選方法,其特征在于,包括: 獲取網頁頁面的文本內容; 添加篩選條件至目標詞包,其中,所述目標詞包為包括目標對象和關聯對象的詞包,所 述目標對象為所述文本內容中的待篩選對象,所述關聯對象為與所述目標對象具有關聯關 系的對象;以及 利用具有所述篩選條件的所述目標詞包對所述文本內容進行篩選,得到所述目標對象 的目標內容。
2. 根據權利要求1所述的篩選方法,其特征在于,添加篩選條件至目標詞包包括: 利用所述篩選條件關聯所述目標對象和所述關聯對象。
3. 根據權利要求2所述的篩選方法,其特征在于,所述關聯對象的數量為多個,所述篩 選條件包括第一子條件和第二子條件,添加篩選條件至目標詞包包括: 分別利用所述第一子條件關聯每個所述關聯對象和所述目標對象,得到多個詞包元 素;以及 利用所述第二子條件關聯多個所述詞包元素,得到具有所述篩選條件的所述目標詞 包。
4. 根據權利要求2所述的篩選方法,其特征在于,所述關聯對象的數量為多個,所述篩 選條件包括第一子條件和第二子條件,添加篩選條件至目標詞包包括: 利用所述第一子條件關聯至少一個所述關聯對象和所述目標對象,得到至少一個第一 詞包元素; 利用所述第一子條件關聯第一關聯對象和第二關聯對象,得到第二詞包元素,其中,所 述第一關聯對象和所述第二關聯對象均為多個所述關聯對象中的對象;以及 利用所述第二子條件關聯所述至少一個第一詞包元素和所述第二詞包元素,得到具有 所述篩選條件的所述目標詞包。
5. 根據權利要求1所述的篩選方法,其特征在于,在獲取網頁頁面的文本內容之前,所 述篩選方法還包括: 接收選擇指令,所述選擇指令用于確定獲取范圍, 其中,獲取網頁頁面的文本內容包括:在所述獲取范圍內獲取所述文本內容。
6. -種文本內容的篩選裝置,其特征在于,包括: 獲取單元,用于獲取網頁頁面的文本內容; 添加單元,用于添加篩選條件至目標詞包,其中,所述目標詞包為包括目標對象和關聯 對象的詞包,所述目標對象為所述文本內容中的待篩選對象,所述關聯對象為與所述目標 對象具有關聯關系的對象;以及 篩選單元,用于利用具有所述篩選條件的所述目標詞包對所述文本內容進行篩選,得 到所述目標對象的目標內容。
7. 根據權利要求6所述的篩選裝置,其特征在于,所述添加單元包括: 第一關聯模塊,用于利用所述篩選條件關聯所述目標對象和所述關聯對象。
8. 根據權利要求7所述的篩選裝置,其特征在于,所述關聯對象的數量為多個,所述篩 選條件包括第一子條件和第二子條件,所述添加單元還包括: 第二關聯模塊,用于分別利用所述第一子條件關聯每個所述關聯對象和所述目標對 象,得到多個詞包元素;以及 第三關聯模塊,用于利用所述第二子條件關聯多個所述詞包元素,得到具有所述篩選 條件的所述目標詞包。
9. 根據權利要求7所述的篩選裝置,其特征在于,所述關聯對象的數量為多個,所述篩 選條件包括第一子條件和第二子條件,所述添加單元還包括: 第四關聯模塊,用于利用所述第一子條件關聯至少一個所述關聯對象和所述目標對 象,得到至少一個第一詞包元素; 第五關聯模塊,用于利用所述第一子條件關聯第一關聯對象和第二關聯對象,得到第 二詞包元素,其中,所述第一關聯對象和所述第二關聯對象均為多個所述關聯對象中的對 象;以及 第六關聯模塊,用于利用所述第二子條件關聯所述至少一個第一詞包元素和所述第二 詞包元素,得到具有所述篩選條件的所述目標詞包。
10. 根據權利要求6所述的篩選裝置,其特征在于,所述篩選裝置還包括: 接收單元,用于在獲取網頁頁面的文本內容之前,接收選擇指令,所述選擇指令用于確 定獲取范圍, 其中,所述獲取單元包括獲取模塊,用于在所述獲取范圍內獲取所述文本內容。
【文檔編號】G06F17/30GK104408103SQ201410666150
【公開日】2015年3月11日 申請日期:2014年11月19日 優先權日:2014年11月19日
【發明者】楊韜, 陳俊宏, 余德樂, 趙冬玲 申請人:北京國雙科技有限公司