一種基于情緒傾向性的新聞分類方法及系統的制作方法
【技術領域】
[0001] 本發明涉及自然語言處理及模式識別技術領域,尤其涉及一種基于情緒傾向性的 新聞分類方法及系統。
【背景技術】
[0002] 目前,用戶可以通過多種網絡對新聞中的人物、事件和現象等表達自己的觀點和 態度。在用戶的活動中,用戶對事或者物的態度往往與用戶的情緒傾向是緊密聯系的,也就 是說可以從用戶的情緒傾向觀察到用戶對事物的觀點傾向。其中,情緒傾向是指用戶內在 的心理反應與感受的傾向性,即積極情緒傾向或消極情緒傾向。
[0003] 所謂基于情緒傾向性的新聞分類,是指借助計算機幫助用戶快速獲取、整理和分 析相關情緒傾向信息,對新聞的新聞內容和評論內容進行分析、處理、歸納和推理的過程。 按情緒傾向劃分新聞就是將新聞標記為某種情緒傾向類別的新聞。而現有技術中并不存在 基于情緒傾向對新聞進行分類的技術方案。
[0004] 另外,現有技術通常是利用主題分類技術對新聞進行分類、管理和檢索的,例如基 于新聞的主題(如體育、經濟、娛樂、政治等)對新聞進行分類、管理和檢索。而針對不同主 題的新聞,用戶產生的情緒傾向也會不同。
[0005] 綜上所述可以看出,如何基于情緒傾向性對新聞進行分類,從而改善用戶瀏覽新 聞時的用戶體驗是目前亟待解決的問題。
【發明內容】
[0006] 有鑒于此,本發明的目的是提供一種基于情緒傾向性的新聞分類方法及系統,實 現了基于情緒傾向性對新聞進行分類的目的,從而改善了用戶瀏覽新聞時的用戶體驗。其 具體方案如下:
[0007] 一種基于情緒傾向性的新聞分類方法,包括:
[0008] 利用預先構建的與多種內容一一對應的多個基分類器,分別對待分類新聞的相應 內容進行分類,得到每個所述基分類器的分類結果;
[0009] 將每個所述基分類器的分類結果依據情緒傾向類別相應地進行融合,得到最終分 類結果;
[0010] 根據所述最終分類結果,對所述待分類新聞進行情緒傾向判定,得到所述待分類 新聞含有的情緒傾向類別;其中,所述情緒傾向判定為,判定所述待分類新聞是否含有用戶 看到所述待分類新聞時產生的情緒傾向。
[0011] 優選的,每個所述基分類器的分類結果均包括與兩個情緒傾向類別對應的后驗概 率;其中,與任一情緒傾向類別對應的后驗概率為所述待分類新聞含有該情緒傾向類別的 后驗概率;
[0012] 所述將每個所述基分類器的分類結果依據情緒傾向類別相應地進行融合,得到最 終分類結果的過程包括:
[0013] 將每個所述基分類器的分類結果中與同一情緒傾向類別對應的后驗概率分別相 加,相應地得到每一情緒傾向類別對應的最終后驗概率;
[0014] 所述根據所述最終分類結果,對所述待分類新聞進行情緒傾向判定,得到所述待 分類新聞含有的情緒傾向類別的過程包括:
[0015] 比較兩種情緒傾向類別對應的最終后驗概率的大小;當某種情緒傾向類別對應的 最終后驗概率最大時,則判定該情緒傾向類別為所述待分類新聞含有的情緒傾向類別,否 貝1J,判定另一種情緒傾向類別為所述待分類新聞含有的情緒傾向類別。
[0016] 優選的,所述多個基分類器的構建過程包括:
[0017] 采集已獲知情緒傾向類別的預設數量的新聞;
[0018] 從所述預設數量的新聞中,將新聞的所述多種內容分開,分別得到只含有同一種 內容的新聞集;
[0019] 分別將所述預設數量的新聞中只含有同一種內容的新聞集作為一個基分類器的 訓練集合;
[0020] 采用機器學習分類方法對所述訓練集合進行分類,得到相應的基分類器。
[0021] 優選的,所述多種內容包括新聞內容和評論內容;
[0022] 所述從所述預設數量的新聞中,將新聞的所述多種內容分開,分別得到只含有同 一種內容的新聞集的過程包括:
[0023] 從所述預設數量的新聞中,將含有新聞內容和評論內容的新聞進行分開處理,分 別得到只含有新聞內容的新聞集和只含有評論內容的新聞集。
[0024] 優選的,所述機器學習分類方法為樸素貝葉斯分類方法。
[0025] 本發明還公開了一種基于情緒傾向性的新聞分類系統,包括:
[0026] 構建模塊,用于預先構建與多種內容 對應的多個基分類器;
[0027] 分類模塊,用于利用預先構建的所述多個基分類器,分別對待分類新聞的相應內 容進行分類,得到每個所述基分類器的分類結果;
[0028] 融合模塊,用于將每個所述基分類器的分類結果依據情緒傾向類別相應地進行融 合,得到最終分類結果;
[0029] 判定模塊,用于根據所述最終分類結果,對所述待分類新聞進行情緒傾向判定,得 到所述待分類新聞含有的情緒傾向類別;其中,所述情緒傾向判定為,判定所述待分類新聞 是否含有用戶看到所述待分類新聞時產生的情緒傾向。
[0030] 優選的,每個所述基分類器的分類結果均包括與兩個情緒傾向類別對應的后驗概 率;其中,與任一情緒傾向類別對應的后驗概率為所述待分類新聞含有該情緒傾向類別的 后驗概率;
[0031] 所述融合模塊包括:
[0032] 求和單元,用于將每個所述基分類器的分類結果中與同一情緒傾向類別對應的后 驗概率分別相加,相應地得到每一情緒傾向類別對應的最終后驗概率;
[0033] 所述判定模塊包括:
[0034] 比較單元,用于比較兩種情緒傾向類別對應的最終后驗概率的大小;
[0035] 判定單元,用于當某種情緒傾向類別對應的最終后驗概率最大時,則判定該情緒 傾向類別為所述待分類新聞含有的情緒傾向類別,否則,判定另一種情緒傾向類別為所述 待分類新聞含有的情緒傾向類別。
[0036] 優選的,所述構建模塊包括:
[0037] 采集單元,用于采集已獲知情緒傾向類別的預設數量的新聞;
[0038] 第一獲取單元,用于從所述預設數量的新聞中,將新聞的所述多種內容分開,分別 得到只含有同一種內容的新聞集;
[0039] 第二獲取單元,用于分別將所述預設數量的新聞中只含有同一種內容的新聞集作 為一個基分類器的訓練集合;
[0040] 分類單元,用于采用機器學習分類方法對所述訓練集合進行分類,得到相應的基 分類器。
[0041] 優選的,所述多種內容包括新聞內容和評論內容;
[0042] 所述第一獲取單元具體用于從所述預設數量的新聞中,將含有新聞內容和評論內 容的新聞進行分開處理,分別得到只含有新聞內容的新聞集和只含有評論內容的新聞集。
[0043] 優選的,所述機器學習分類方法為樸素貝葉斯分類方法。
[0044] 在本發明中,使用預先構建的基分類器對待分類新聞的相應內容進行分類,得到 每個基分類器的分類結果,將每個基分類器的分類結果依據情緒傾向類別相應地進行融 合,得到最終分類結果,再根據最終分類結果,分別對待分類新聞進行情緒傾向判定,得到 判定結果。由于情緒傾向判定是指判定待分類新聞是否含有用戶看到待分類新聞時產生的 情緒傾向,判定結果表明待分類新聞含有的情緒傾向,所以使用判定結果,即可以得到待分 類新聞含有的情緒傾向類別。當獲知待分類新聞含有的情緒傾向類別后,可以將待分類新 聞劃分到其含有的情緒傾向類別對應的新聞中,實現了基于情緒傾向性對新聞進行分類的 目的,從而改善了用戶瀏覽新聞時的用戶體驗。
[0045] 當然,本申請提供的新聞分類方法還可以應用到新聞推薦系統中,在依據情緒傾 向對待分類新聞進行劃分后,進一步依據不同情緒傾向推薦新聞,使推薦給用戶的新聞更 能滿足用戶當前的需求。
【附圖說明】
[0046] 為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現 有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發明的實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據 提供的附圖獲得其他的附圖。
[0047] 圖1為本發明實施例公開的一種基于情緒傾向性的新聞分類方法流程圖;
[0048] 圖2為本發明實施例公開的一種基于情緒傾向性的新聞分類方法的子流程圖;
[0049] 圖3為本發明實施例公開的一種基于情緒傾向性的新聞分類系統結構示意圖;
[0050] 圖4為本發明實施例公開的一種基于情緒傾向性的新聞分類系統中構建模塊的 結構示意圖。
【具體實施方式】
[0051] 下面將結合本發明實