本申請涉及文本處理領域,具體而言,涉及一種語句情感的確定方法及裝置。
背景技術:
隨著互聯網上的文本信息越來越豐富,對這些文本信息進行情感分析就顯得尤其重要,利用情感分析這項技術,可以應用在輿情能夠幫助公司或者機構根據客戶的情感反饋及時調整市場方向或改進產品。文本情感判斷的一個基礎是基于語句的情感判斷,語句級的情感判斷是在介于詞語級和篇章級中間的,在計算語句的情感時,一方面語句情感是建立在詞語情感的基礎上,一方面語句情感又是計算篇章情感的基礎。因此語句處于一個承上啟下的地位,對于語句的情感判斷就顯得十分重要。因此語句情感判斷準確率的高低對于文本情感判斷具有很重要的作用。
相關技術中基于支持向量機(Vector Space Model,簡稱VSM)的語句情感傾向判斷方法,在情感判斷的機器學習中,選擇一些特征參數,基本是根據情感詞語的情感特征以及情感詞語的相鄰詞語的特征,進行學習,進而判斷語句情感的正負。然而基于語料特征的SVM情感判斷,參數選擇上,基本是以情感詞以及情感詞左右出現的詞語為特征,這些詞語通常為否定詞或程度詞,都是從詞語之間的語義關系進行情感判斷。然而相關技術中忽略了漢語語句在表達情緒時的一些特征,沒有考慮到句末的情感詞對一句話的情感判斷起著非常重要的影響。
針對相關技術中判斷語句情感的準確率較低的問題,目前尚未提出有效的解決方案。
技術實現要素:
本申請的主要目的在于提供一種語句情感的確定方法及裝置,以解決相關技術中判斷語句情感的準確率較低的問題。
為了實現上述目的,根據本申請的一個方面,提供了一種語句情感的確定方法。該方法包括:獲取目標語料;從目標語料中篩選關鍵詞為情感詞的語句,得到多個目標語句,其中,關鍵詞為在目標語料包含的語句中預設位置上的詞語;分別計算多個目標語句中每個目標語句的關鍵詞的置信度,得到每個關鍵詞的置信度,其中,每個關鍵詞的置信度為每個關鍵詞對判斷每個目標語句的語句情感的置信度;以及分別根 據每個關鍵詞的置信度確定多個目標語句中每個目標語句的語句情感。
進一步地,分別計算多個目標語句中每個目標語句的關鍵詞的置信度,得到每個關鍵詞的置信度包括:按照預設方法確定每個目標語句的初始情感;分別統計每個目標語句的關鍵詞在多個目標語句中出現的頻次,得到每個關鍵詞頻次;以及根據每個關鍵詞頻次和每個目標語句的初始情感計算每個關鍵詞的置信度。
進一步地,分別計算多個目標語句中每個目標語句的關鍵詞的置信度,得到每個關鍵詞的置信度包括:確定多個目標語句中出現的所有情感詞,得到多個情感詞;分別計算多個情感詞中每個情感詞的置信度,得到每個情感詞的置信度;以及從每個情感詞的置信度中提取每個關鍵詞的置信度。
進一步地,從目標語料中篩選關鍵詞為情感詞的語句,得到多個目標語句包括:對目標語料中的語句進行詞語切分處理,得到多個詞語;從多個詞語中篩選為情感詞的詞語,得到多個情感詞;從多個情感詞中篩選位于語句中預設位置上的情感詞,得到多個關鍵詞;以及分別確定多個關鍵詞中每個關鍵詞所在的語句,并將每個關鍵詞所在的語句作為目標語句。
進一步地,預設位置包括語句末尾位置,從目標語料中篩選關鍵詞為情感詞的語句,得到多個目標語句包括:確定目標語料中語句的末尾詞,得到多個末尾詞;從多個末尾詞中篩選為情感詞的末尾詞;以及提取目標語料的語句中末尾詞為情感詞的語句,得到多個目標語句。
為了實現上述目的,根據本申請的另一方面,提供了一種語句情感的確定裝置。該裝置包括:獲取單元,用于獲取目標語料;篩選單元,用于從目標語料中篩選關鍵詞為情感詞的語句,得到多個目標語句,其中,關鍵詞為在目標語料包含的語句中預設位置上的詞語;計算單元,用于分別計算多個目標語句中每個目標語句的關鍵詞的置信度,得到每個關鍵詞的置信度,其中,每個關鍵詞的置信度為每個關鍵詞對判斷每個目標語句的語句情感的置信度;以及確定單元,用于分別根據每個關鍵詞的置信度確定多個目標語句中每個目標語句的語句情感。
進一步地,計算單元包括:第一確定模塊,用于按照預設方法確定每個目標語句的初始情感;統計模塊,用于分別統計每個目標語句的關鍵詞在多個目標語句中出現的頻次,得到每個關鍵詞頻次;以及第一計算模塊,用于根據每個關鍵詞頻次和每個目標語句的初始情感計算每個關鍵詞的置信度。
進一步地,計算單元包括:第二確定模塊,用于確定多個目標語句中出現的所有情感詞,得到多個情感詞;第二計算模塊,用于分別計算多個情感詞中每個情感詞的置信度,得到每個情感詞的置信度;以及第一提取模塊,用于從每個情感詞的置信度 中提取每個關鍵詞的置信度。
進一步地,篩選單元包括:處理模塊,用于對目標語料中的語句進行詞語切分處理,得到多個詞語;第一篩選模塊,用于從多個詞語中篩選為情感詞的詞語,得到多個情感詞;第二篩選模塊,用于從多個情感詞中篩選位于語句中預設位置上的情感詞,得到多個關鍵詞;以及第三確定模塊,用于分別確定多個關鍵詞中每個關鍵詞所在的語句,并將每個關鍵詞所在的語句作為目標語句。
進一步地,預設位置包括語句末尾位置,篩選單元包括:第四確定模塊,用于確定目標語料中語句的末尾詞,得到多個末尾詞;第三篩選模塊,用于從多個末尾詞中篩選為情感詞的末尾詞;以及第二提取模塊,用于提取目標語料的語句中末尾詞為情感詞的語句,得到多個目標語句。
通過本申請,采用以下步驟:獲取目標語料;從目標語料中篩選關鍵詞為情感詞的語句,得到多個目標語句,其中,關鍵詞為在目標語料包含的語句中預設位置上的詞語;分別計算多個目標語句中每個目標語句的關鍵詞的置信度,得到每個關鍵詞的置信度,其中,每個關鍵詞的置信度為每個關鍵詞對判斷每個目標語句的語句情感的置信度;以及分別根據每個關鍵詞的置信度確定多個目標語句中每個目標語句的語句情感,解決了相關技術中判斷語句情感的準確率較低的問題,進而達到了提升判斷語句情感的準確率的效果。
附圖說明
構成本申請的一部分的附圖用來提供對本申請的進一步理解,本申請的示意性實施例及其說明用于解釋本申請,并不構成對本申請的不當限定。在附圖中:
圖1是根據本申請實施例的語句情感的確定方法的流程圖;以及
圖2是根據本申請實施例的語句情感的確定裝置的示意圖。
具體實施方式
需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。下面將參考附圖并結合實施例來詳細說明本申請。
為了使本技術領域的人員更好地理解本申請方案,下面將結合本申請實施例中的附圖,對本申請實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分的實施例,而不是全部的實施例。基于本申請中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都應當屬于 本申請保護的范圍。
需要說明的是,本申請的說明書和權利要求書及上述附圖中的術語“第一”、“第二”等是用于區別類似的對象,而不必用于描述特定的順序或先后次序。應該理解這樣使用的數據在適當情況下可以互換,以便這里描述的本申請的實施例。此外,術語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統、產品或設備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或對于這些過程、方法、產品或設備固有的其它步驟或單元。
根據本申請的實施例,提供了一種語句情感的確定方法。
圖1是根據本申請實施例的語句情感的確定方法的流程圖。如圖1所示,該方法包括以下步驟:
步驟S101,獲取目標語料。
將大量需要處理的文本組成目標語料,獲取目標語料。目標語料可以來自資料和文件,也可以是來自互聯網中的網頁中的文本。
步驟S102,從目標語料中篩選關鍵詞為情感詞的語句,得到多個目標語句,其中,關鍵詞為在目標語料包含的語句中預設位置上的詞語。
在本申請中的情感詞為表達情緒的詞語。例如:糟糕、開心、歡樂等等表達情緒的詞語為本申請中提到的情感詞。
可選地,在本申請實施例提供的語句情感的確定方法中,從目標語料中篩選關鍵詞為情感詞的語句,得到多個目標語句包括:對目標語料中的語句進行詞語切分處理,得到多個詞語;從多個詞語中篩選為情感詞的詞語,得到多個情感詞;從多個情感詞中篩選位于語句中預設位置上的情感詞,得到多個關鍵詞;以及分別確定多個關鍵詞中每個關鍵詞所在的語句,并將每個關鍵詞所在的語句作為目標語句。
上述的詞語切分處理是將目標語料切分為多個詞語的過程,此處的詞語用于表示目標語料的某處特點。例如情感特點等,從多個詞語中篩選為情感詞的詞語,得到多個情感詞;從多個情感詞中篩選位于語句中預設位置上的情感詞,得到多個關鍵詞,在本申請中的預設位置,可以為每個語句的末尾位置,也可以為每個語句后半句的位置。分別確定多個關鍵詞中每個關鍵詞所在的語句,并將每個關鍵詞所在的語句作為目標語句。通過以上步驟,在目標語料的多個語句中篩選出目標語句,從而在后續的處理中是針對目標語句提升判斷其情感的準確率。
可選地,在本申請實施例提供的語句情感的確定方法中,預設位置包括語句末尾 位置,從目標語料中篩選關鍵詞為情感詞的語句,得到多個目標語句包括:確定目標語料中語句的末尾詞,得到多個末尾詞;從多個末尾詞中篩選為情感詞的末尾詞;以及提取目標語料的語句中末尾詞為情感詞的語句,得到多個目標語句。
通過大量統計得知語句情感可能是由句式末尾的情感詞決定。因此在確定目標語句時,通過從多個語句的末尾詞中篩選為情感詞的末尾詞;以及提取目標語料的語句中末尾詞為情感詞的語句,得到多個目標語句,從而在后續的處理中是針對末尾詞為情感詞的目標語句提升判斷其情感的準確率。
步驟S103,分別計算多個目標語句中每個目標語句的關鍵詞的置信度,得到每個關鍵詞的置信度,其中,每個關鍵詞的置信度為每個關鍵詞對判斷每個目標語句的語句情感的置信度。
可選地,在本申請實施例提供的語句情感的確定方法中,分別計算多個目標語句中每個目標語句的關鍵詞的置信度,得到每個關鍵詞的置信度包括:按照預設方法確定每個目標語句的初始情感;分別統計每個目標語句的關鍵詞在多個目標語句中出現的頻次,得到每個關鍵詞頻次;以及根據每個關鍵詞頻次和每個目標語句的初始情感計算每個關鍵詞的置信度。
在本申請中的預設方法可以是人工對語句情感進行標注,例如,標注的語句情感為:正面的情緒、負面的情緒、中性的情緒。也可以是系統自動根據語句中的一些特定詞對語句情感進行標注,在本申請中不限定其具體方式。統計在語句中預設位置上的詞語在多個目標語句中出現的次數,得到每個關鍵詞頻次,再計算出每個關鍵詞對判斷每個目標語句的語句情感的置信度。如果關鍵詞為目標語句的末尾詞,即計算出末尾詞對判斷其對應的目標語句的語句情感的置信度。例如,某個目標語句的末尾詞為喜樂,喜樂的置信度為(正:80%;中:30%;負:20%)。
可選地,在本申請實施例提供的語句情感的確定方法中,分別計算多個目標語句中每個目標語句的關鍵詞的置信度,得到每個關鍵詞的置信度包括:確定多個目標語句中出現的所有情感詞,得到多個情感詞;分別計算多個情感詞中每個情感詞的置信度,得到每個情感詞的置信度;以及從每個情感詞的置信度中提取每個關鍵詞的置信度。
通過計算出多個目標語句中所有情感詞的置信度,再從中篩選關鍵詞的置信度,獲取到關鍵詞的置信度,從而提升了獲取關鍵詞的置信度的效率。
步驟S104,分別根據每個關鍵詞的置信度確定多個目標語句中每個目標語句的語句情感。
無論是在單句,還是遞進、轉折關系等復句,由于語句情感可能是由語句中的預 設位置的詞語的情感決定。在本申請中,通過在目標語句中的預設位置的詞語的置信度來確定目標語句的情感,從而達到提升判斷語句情感的準確率的效果。
例如,某個目標語句的末尾詞為喜樂,喜樂的置信度為(正:80%;中:50%;負:20%),即根據喜樂的置信度確定其對應的目標語句的情感為正。
本申請實施例提供的語句情感的確定方法,通過獲取目標語料;從目標語料中篩選關鍵詞為情感詞的語句,得到多個目標語句,其中,關鍵詞為在目標語料包含的語句中預設位置上的詞語;分別計算多個目標語句中每個目標語句的關鍵詞的置信度,得到每個關鍵詞的置信度,其中,每個關鍵詞的置信度為每個關鍵詞對判斷每個目標語句的語句情感的置信度;以及分別根據每個關鍵詞的置信度確定多個目標語句中每個目標語句的語句情感,解決了相關技術中判斷語句情感的準確率較低的問題,進而達到了提升判斷語句情感的準確率的效果。
需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計算機可執行指令的計算機系統中執行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執行所示出或描述的步驟。
本申請實施例還提供了一種語句情感的確定裝置,需要說明的是,本申請實施例的語句情感的確定裝置可以用于執行本申請實施例所提供的用于語句情感的確定方法。以下對本申請實施例提供的語句情感的確定裝置進行介紹。
圖2是根據本申請實施例的語句情感的確定裝置的示意圖。如圖2所示,該裝置包括:獲取單元10、篩選單元20、計算單元30和確定單元40。
獲取單元10,用于獲取目標語料。
篩選單元20,用于從目標語料中篩選關鍵詞為情感詞的語句,得到多個目標語句,其中,關鍵詞為在目標語料包含的語句中預設位置上的詞語。
計算單元30,用于分別計算多個目標語句中每個目標語句的關鍵詞的置信度,得到每個關鍵詞的置信度,其中,每個關鍵詞的置信度為每個關鍵詞對判斷每個目標語句的語句情感的置信度。
確定單元40,用于分別根據每個關鍵詞的置信度確定多個目標語句中每個目標語句的語句情感。
本申請實施例提供的語句情感的確定裝置,通過獲取單元10獲取目標語料;篩選單元20從目標語料中篩選關鍵詞為情感詞的語句,得到多個目標語句,其中,關鍵詞為在目標語料包含的語句中預設位置上的詞語;計算單元30分別計算多個目標語句中每個目標語句的關鍵詞的置信度,得到每個關鍵詞的置信度,其中,每個關鍵詞的置 信度為每個關鍵詞對判斷每個目標語句的語句情感的置信度;以及確定單元40分別根據每個關鍵詞的置信度確定多個目標語句中每個目標語句的語句情感,解決了相關技術中判斷語句情感的準確率較低的問題,進而達到了提升判斷語句情感的準確率的效果。
可選地,在本申請實施例提供的語句情感的確定裝置中,計算單元30包括:第一確定模塊,用于按照預設方法確定每個目標語句的初始情感;統計模塊,用于分別統計每個目標語句的關鍵詞在多個目標語句中出現的頻次,得到每個關鍵詞頻次;以及第一計算模塊,用于根據每個關鍵詞頻次和每個目標語句的初始情感計算每個關鍵詞的置信度。
可選地,在本申請實施例提供的語句情感的確定裝置中,計算單元30包括:第二確定模塊,用于確定多個目標語句中出現的所有情感詞,得到多個情感詞;第二計算模塊,用于分別計算多個情感詞中每個情感詞的置信度,得到每個情感詞的置信度;以及第一提取模塊,用于從每個情感詞的置信度中提取每個關鍵詞的置信度。
可選地,在本申請實施例提供的語句情感的確定裝置中,篩選單元20包括:處理模塊,用于對目標語料中的語句進行詞語切分處理,得到多個詞語;第一篩選模塊,用于從多個詞語中篩選為情感詞的詞語,得到多個情感詞;第二篩選模塊,用于從多個情感詞中篩選位于語句中預設位置上的情感詞,得到多個關鍵詞;以及第三確定模塊,用于分別確定多個關鍵詞中每個關鍵詞所在的語句,并將每個關鍵詞所在的語句作為目標語句。
可選地,在本申請實施例提供的語句情感的確定裝置中,預設位置包括語句末尾位置,篩選單元20包括:第四確定模塊,用于確定目標語料中語句的末尾詞,得到多個末尾詞;第三篩選模塊,用于從多個末尾詞中篩選為情感詞的末尾詞;以及第二提取模塊,用于提取目標語料的語句中末尾詞為情感詞的語句,得到多個目標語句。
所述語句情感的確定裝置包括處理器和存儲器,上述獲取單元、篩選單元、計算單元和確定單元等均作為程序單元存儲在存儲器中,由處理器執行存儲在存儲器中的上述程序單元實現相應功能。上述預設方法都可以存儲在存儲器中。
處理器中包含內核,由內核去存儲器中調取相應的程序單元。內核可以設置一個或以上,通過調整內核參數確定的語句情感。
存儲器可能包括計算機可讀介質中的非永久性存儲器,隨機存取存儲器(RAM)和/或非易失性內存等形式,如只讀存儲器(ROM)或閃存(flash RAM),存儲器包括至少一個存儲芯片。
本申請還提供了一種計算機程序產品的實施例,當在數據處理設備上執行時,適 于執行初始化有如下方法步驟的程序代碼:獲取目標語料;從目標語料中篩選關鍵詞為情感詞的語句,得到多個目標語句,其中,關鍵詞為在目標語料包含的語句中預設位置上的詞語;分別計算多個目標語句中每個目標語句的關鍵詞的置信度,得到每個關鍵詞的置信度,其中,每個關鍵詞的置信度為每個關鍵詞對判斷每個目標語句的語句情感的置信度;以及分別根據每個關鍵詞的置信度確定多個目標語句中每個目標語句的語句情感。
需要說明的是,對于前述的各方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本申請并不受所描述的動作順序的限制,因為依據本申請,某些步驟可以采用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬于優選實施例,所涉及的動作和模塊并不一定是本申請所必須的。
在上述實施例中,對各個實施例的描述都各有側重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關描述。
在本申請所提供的幾個實施例中,應該理解到,所揭露的裝置,可通過其它的方式實現。例如,以上所描述的裝置實施例僅僅是示意性的,例如所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,例如多個單元或組件可以結合或者可以集成到另一個系統,或一些特征可以忽略,或不執行。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網絡單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。
另外,在本申請各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現,也可以采用軟件功能單元的形式實現。
顯然,本領域的技術人員應該明白,上述的本申請的各模塊或各步驟可以用通用的計算裝置來實現,它們可以集中在單個的計算裝置上,或者分布在多個計算裝置所組成的網絡上,可選地,它們可以用計算裝置可執行的程序代碼來實現,從而,可以將它們存儲在存儲裝置中由計算裝置來執行,或者將它們分別制作成各個集成電路模塊,或者將它們中的多個模塊或步驟制作成單個集成電路模塊來實現。這樣,本申請不限制于任何特定的硬件和軟件結合。
以上所述僅為本申請的優選實施例,并不用于限制本申請,對于本領域的技術人員來說,本申請可以有各種更改和變化。凡在本申請的精神和原則之內,所作的任何 修改、等同替換、改進等,均應包含在本申請的保護范圍之內。