專利名稱:對話文本主題的自動提取方法
技術領域:
本發明涉及計算機及通信技術領域,尤其涉及一種對話文本主題的 自動提取方法。
背景技術:
網絡通訊如今已成為了人們日常溝通的重要方式,為人們的交流提 供了巨大的便利。同時,即時通信軟件、網絡留言板、電子郵件、網絡 會議等交流方式生成了大量的網絡信息數據,這些數據與網頁類型的數 據有著本質的區別,它們以對話模式存在,其內容中蘊含著兩個或多個 參與者的觀點和態度。因此網絡對話數據中含有豐富的信息,能夠給人 們的工作和學習帶來很大的幫助。例如,可以用于協助警察偵查疑犯的 想法和行動,幫助心理醫生了解病人的思考方式和輔助人類學家探究人 類的行為模式等。但在海量數據中尋找有用數據需要相當大量的人力和 時間,研究者希望結合計算機人工智能領域的一些方法,在海量對話數 據中高效準確地獲取重要的信息,因此基于對話文本的主題提取成為了 近年來關注的熱點。
對話文本作為一種全新的信息資源,屬于自然語言處理范疇。早期
渡而來。然而由于其在語言上的特點,用在普通文本的主題提取方法對 對話文本發揮不了較好的效果。普通文本一般由一個作者編寫,是具有 邏輯合理、思維縝密、措辭得當、語句通順、上下文聯系緊密和主題脈
絡清晰等特點的書面語;對話一般由兩個或多個參與者共同完成,是具 有指代不明、語句缺省、大量問答句式存在和主題脈絡混亂特點的口語。 對于兩種語言特點差異很大的語料,不能將普通文本的主題提取方法直接應用于對話文本的主題提取。
目前,國內外針對對話文本的主題提取方法包括
1、 基于機器學習的主題提取方法。機器學習的方法對選取特征集、 訓練集大小等都有一定的要求,需要多次測試比較,選擇合適的模型、 特征集、訓練樣本等。
2、 基于語義理解的主題提取方法。先提取出對話文本的句子中的名 詞或動詞,依賴于WordNet知識庫,找出它們在知識庫里對應的相克念集, 計算句子間的語義相似度,在此基礎上對對話文本中的句子進行排序, 從而將排名靠前的句子視為主題句。該方法依賴于WordNet有一定的局 限性,WordNet中的詞語畢竟也是有限的。特別是針對對話文本,其中 包含的大部分是口語詞匯,WordNeU艮難全部嚢括。
3、 融合語義和機器學習的主題提取方法。選取一些語義特征、詞網、 語料結構特征和詞頻等作為特征,從訓練集中提取這些特征放入模型進 4亍訓練。
4、 基于統計的主題提取方法。將用于書面語文本的主題提取方法 tf4df統計方法做一些擴展,用于對話文本的主題提取。對對話文本中的 詞匯進行統計,從而對詞進4亍評分,提取代表主題的詞。這種簡單的統 計方法適合處理實時對話信息,其處理的速度較快。
5、 基于知識理解的主題提取方法。基于一個限定領域的知識理解系 統對文本的語義進行"理解",從而生成主題句。其應用于對話文本的 主題提取的不足之處在于有領域限制,而網絡上的對話文本是開放領域 的,需要人工編制大量的知識理解系統,可^f亍性不高。
但由于網絡通訊對話文本的特點,對話中語句之間的詞語相似度比 較低,口語詞匯很多,主題交織且組織結構混亂,導致應用以上幾種方 法提取出的主題詞準確度不高。
發明內容
有鑒于此,本發明的目的在于提供一種對話文本主題的自動提取方 法,用于在對話文本中實現對話主題的自動提取。
本發明的實施例提供了一種對話文本主題的自動提取方法,包括 對對話文本進行數據預處理,對預處理后的對話文本進行問答對探
測;
對所述對話文本進行主題切分,并對主題切分后的語塊組進行聚類, 從聚類后的語塊組中抽取出主題句。
本發明實施例對對話文本,特別是針對網絡通訊的對話文本,首先 進行切詞、詞性標注等一系列數據預處理后,再從對話文本中找出所有 的問答對,并將問句與相應的答句合并為同一句話;然后對對話文本進 行主題切分,將屬于不同主題且相鄰的對話語句切分為不同的語塊;最 后對相鄰且屬于不同主題的語塊組進行聚類,針對每個不同的主題從聚 類后的語塊組中抽取出主題句,使得提取出的主題具有較高的準確性。
圖1是本實施例提供的對話文本主題自動提取的方法流程圖2是本發明實施例中問句探測的原理圖3是本發明實施例中問句探測方法的流程圖4是本發明實施例中答句探測的原理圖5是本發明實施例中答句探測方法的流程圖6是本發明實施例中對對話文本進行主題切分的原理圖7是本發明實施例中相鄰句子間相似性計算的示意圖8是本發明實施例中主題切分的可能結果示意圖9是本發明實施例中構建的主題樹示意圖。
8
具體實施例方式
本發明實施例著重針對網絡聊天對話形式的對話文本,總結出其有
別于書面語文本的三個顯著特點對話文本中含有大量的問-答句式,不 同主題的對話之間邊界模糊,主題交織且組織結構混亂。針對這三個特 點,本發明實施例對對話文本進行切詞、詞性標注等一系列數據預處理 后,再從對話文本中找出所有的問答對,并將問句與相應的答句合并為 同一句話;然后對對話文本進行主題切分,將屬于不同主題且相鄰的對 話語句切分為不同的語塊;最后對相鄰且屬于不同主題的語塊組進行聚 類,針對每個不同的主題從聚類后的語塊組中抽取出主題句,使得提取 出的主題具有較高的準確性。
為使本發明的目的、技術方案和優點更加清楚,下面結合附圖對本 發明作進一步的詳細描述。
圖1是本實施例提供的對話文本主題自動提取的方法流程圖,該流 程包括以下步驟
步驟101、對對話文本進行數據預處理。該數據預處理是指對聊天 對話文本進行切詞、詞性標注、二次切分處理以及停用詞處理的一系列 工作。該對話文本是指用戶雙方的一次聊天對話內容,即用戶從打開聊 天窗口開始聊天到本次聊天結束關閉聊天窗口 。. (1 )對對話文本進行切詞處理與詞性標注。
在切詞處理中,對中文和英文的切詞有4艮大的區別,英文切詞可以 直接通過空格完成,而中文是緊湊排列的,需要通過專門的切詞器進行 切分。本實施例實現中文切詞與詞性標注功能采用的是中科院計算所研 發的漢語詞法分析系統ICTCLAS。
(2)對對話文本的二次切分處理。
經過中文切詞與詞性標注后,句子^^皮切分成了一個詞集,由許多不同詞性的詞組成。如短語"自然語言理解"就會被切分為"自然/語言/ 理解"這三個詞,但是這個短語所表達的意思與被切分為三個詞后表達 的意思是不一樣的。
按照VSM (vector-space model,向量空間模型)理論,句子可以表 示成n維空間向量,n維表示的是對話語句的詞條項數目,用tPidf來計 算對話語句在向量空間各個維度上的權重。如果將短語"自然語言理解" 劃分為"自然/語言/理解"三個詞,就要用向量空間的3個維度表示, 若一個句子中同時出現短語"自然語言理解"和"理解" 一詞的時候,
詞條"理解"的權重就明顯變高,但事實上"理解,,這個詞在該句子中 的權重應該與短語"自然語言理解,,等同。
為了避免上述情況的發生,采取的方法是在進行完切詞處理后,再 對句子進行二次切分處理。采用的方法是基于統計的方法,選取對話記 錄方面的語料庫,統計兩個詞連續出現的共現概率,選取共現概率較高 的詞存入共存詞集。在切詞結束后,掃描一次共存詞集,有匹配的詞將 其劃歸為短-i吾。
針對網絡對話記錄,會經常出現一些比較流行的短語。定期更新已 有的共存詞集,添加一些新出現的短語,可以使句子的切分達到更好的 效果。
(3)停用詞處理。
本實施例中所謂的停用詞,指的是沒有實意的虛詞、類別色彩不強 的詞以及出現頻率高但沒有表意的詞。編輯一個停用詞表,對二次切分 處理后的字詞進行掃描,若判斷為停用表里存在的字詞,就對其標注為 停用詞。
步驟102、對預處理后的文本進行問答對探測。找出對話文本中的 每個問句和其相應的答句,并將它們合并為同一句話。
通過對對話文本進行分析,發現其含有大量的問-答對,且問-答對
10里面的內容包含著重要的交流信息。對話模式中往往通過多輪回的問答 模式,對話雙方對一個或多個主題進行深入的探討。所以本實施例中有 一個關鍵的環節就是探測到對話文本中存在的問-答對,提取出的主題句 信息中也會包含問-答對合并后的句子。
本實施例針對數據預處理后的對話文本,利用機器學習的方法尋找 出文本中存在的所有問句和可能存在的其相對應的答句,目的是將找出 的每個問句和其對應的答句合并為一個句子,從而在提取主題句的時候 可以將其整體提取出來,增強提取出主題句的可讀性和全面性。
本實施例采用的探測問答對的方法為 步驟1021、探測出對話文本中的問句。
問句進行分析,.先選定適合判斷問句的一些特征;然后對.準備用于訓練 集的句子手動標識句子類別,將從訓練集句子中提取出的代表問句特征 的特征值序列和人工標識的句子類別共同放入分類模型進行訓練;再對 作為測試集的句子手工標識句子類別,將從測試集中提取出的代表問句 特征的特征值序列和手工標識的句子類別共同放入分類模型,從而得到 分類模型輸出結果的準確率,以便對選定的訓練集、分類器和特征做相 應的調整;最后對輸入的新對話語句提取特征值,按照訓練集提取特征 的格式輸入分類器,從而獲得輸出的分類結果。圖2是問句探測的原理 圖。
具體來說,本實施例采用的問句探測方法如圖3所示,包括如下步
驟
步驟10211、選擇識別問句的特征。
對對話文本中問句的探測,分為兩個層面。淺層的探測可以通過一 些簡單的特征來實現,如問號、疑問詞、語氣助詞等,可以通過這些簡 單的特征判斷出一些問句。但是網絡聊天中是手寫的對話文本,問號往往會被忽略。隨機抽取1000條對話語料,有37°/0省略了問號,11%的句 子沒有答句,還有7%用陳述句的句型來表達問句。所以只用淺層探測 方法是不充分的,需要使用其他特征識別問句。深層的探測是選擇一些 問句具有的隱性特征,如對話語句中詞語的個數、語句前段和后段的詞 性順序等。根據對話文本的特點,本實施例選擇了如下特征作為分類問 句的評判標準
(1 )高標識特征,如問號、語氣助詞、問句lt問詞、問句標識詞(如 "是不是"、"怎么樣,,等);
(2)輸入的對話語句中詞的個數;
(3 )句子中最前面的五個詞的詞性和句子中最后面的五個詞的詞性。
步驟10212、對準備用于訓練集的句子進行人工手動標識句子類別。 主要是標識經過數據預處理的訓練集的句子是否為問句,從而將標識結 果與訓練集一起作為分類器的輸入,對分類器進行訓練。
步驟10213、基于步驟10211所選擇的識別問句的特征,對用于訓 練集的句子的屬性進行標識記錄。首先判斷句子中是否包含高標識特征, 如果是的話,將高標識項對應的值置l,不是則置0;記錄句子中詞的個 數,即通過步驟101的數據預處理切詞后,記錄下切分得到的句子中詞 的個數;記錄下句子中前5個詞和后5個詞的詞性標注。這樣,就得到 了訓練集中的每個句子的特征值序列,每個特征值序列中包含12項特征 在句中對應的值是否包含高標識特征、句子中詞的個數、前5個詞和 后5個詞的詞性。
步驟10214、將訓練集的每個句子的特征值序列和人工標識句子類 別共同作為分類器的輸入,對分類器進行訓練。本實施例采用的分類器 是樸素貝葉斯分類器,其功能就是將輸入的句子分類為問句和非問句。 在對分類器進行測試和正式的使用前,需要先對分類器進行訓練,從而提高分類器的精度。訓練集就是專門針對訓練分類器而定義的句子樣本 集,對分類器的訓練就是將訓練集的每個句子的特征值序列和人工標識 的句子類別共同作為分類器的輸入,分類器通過對給與的輸入和輸出不 斷地學習,不斷地完善分類器中的模型和參數,并通過測試集作為輸入 得到分類器輸出結果的準確率,根據準確率的高低,再對選定的訓練集、 分類器和特征進行相應的調整。通過多次的訓練和測試,來提高分類器 的分類精確度。
步驟10215、將測試集中對話語句按步驟10213的方法,記錄下代 表其問句特征的特征值序列,將測試集句子的屬性值序列和人工標識的
句子類別共同作為分類器的輸入,對分類器分類結果的準確率進行評估。 通過訓練集對分類器進行訓練和測試集對分類器進行評估后,就要對待 處理的對話文本進行問句的探測了 。
步驟10216、將待處理的對話文本中抽取出的特征值序列作為分類 器的輸入,得到輸出的分類結果。
步驟1022、通過問句在對話文本中的位置,將兩個問句之間的陳述 語句列為答句候選集。
步驟1023、在答句候選集中探測出對話文本中的每個問句相對應的 答句。
答句檢測也是使用機器學習的方法,每個問句相對應的答句所存在 的范圍是當前問句和下 一 個問句之間的所有陳述句。答句探測的方法與 問句探測相類似,圖4是其原理圖。
答句探測的方法如圖5所示,包括
步驟10231、選擇識別最佳答句的特征。
根據對話文本的特點以及問句和對應答句的關聯性,本實施例選擇 了如下特征作為判別答句的特征
(1)答句候選集中前五個詞的詞性標注和后五個詞的詞性標注;
13(2) 答句候選集中的句子個數;
(3) 答句候選集中的答句與問句的距離;
(4) 答句候選集中的答句與問句的相似度。采用余弦相似度算法:
步驟10232、從選定的訓練集對話語句中抽取出代表答句特征的特 征值序列。
與問句探測一樣,答句探測同樣釆用訓練集對分類器先進行訓練, 然后采用測試集來衡量分類器的分類準確性。最后對待處理對話文本進 行分類的方法。根據前一步驟選定的識別答句的特征,將經過預處理的 訓練集對話語句輸入,提取出每個特征所對應的特征值。每句對話語句 都對應一個相應的特征值序列,特征值序列中包含13項,分別是該對話 語句中前五個詞和后五個詞的詞性、該句子所在的答句候選集中所包含 的句子個數、該句子與問句的距離、該句子與問句的相似度。
步驟10233、將訓練集中每個對話語句代表答句特征的特征值序列 和人工標識的句子類別一同作為分類器的輸入,對分類器進行訓練。本 實施例采用的分類器是C4.5決策樹分類器,其功能就是將輸入的句子分 類為答句或非答句。
步驟10234、將測試集中的對話語句按步驟10231抽取出代表答句 特征的特征值序列。并將測試集抽取出的特征值序列和人工標識的測試 集句子類別作為分類器的輸入,可獲得分類器輸出結果的準確率,從而 對選定的訓練集、分類器和特征進行相應的調整,使得分類器的分類準 確度提高。
步驟10235、將待處理的答句候選集作為分類器的輸入,可得到在 答句候選集中與問句較適合的答句。步驟10236、將尋找出的每個問句和其相對應的答句合并到同一個 對話語句,并做出一定的標記。
步驟103、對對話文本進行主題切分。
針對網絡聊天的對話文本具有主題交織出現,各個主題之間邊界模 糊,組織結構混亂的特點,在抽取主題句之前,先對對話文本按照不同 的主題進行切分,判別語句之間是否已經發生對話主題的偏移,識別出 語義塊邊界,以便于對對話語句按主題進行聚類,可以更加精準的抽取 主題句。
將基于概率的主題模型思想應用于本實施例處理的對話文本,將對 話文本看做是多個主題的隨機組合,每個主題可以由詞匯的概率分布來 體現。基于這個思想,需要計算詞匯在各個對話語句中的概率分布,從 而計算各個相鄰句子間的語義相似度,最后比較各相鄰句間語義相似度
與給定閾值的大小,從而確定主題切分點。
圖6是對對話文本進行主題切分的原理圖,該方法包括
步驟1031、將對話語句集作為輸入,通過隱含語義概率模型計算得 到詞匯在對話文本中各個對話語句中的概率分布戶(叫S,),其中的隱含語 義概率模型可以使用現有的潛在語義分析模型PLSA、 LDA進行實現。
步驟1032、根據詞匯在對話文本中各個對話語句中的概率分布 P(W|S,),計算相鄰句子間的語義相似度,采用計算相似度的算法為
5V附 = we[K
"+/p(氛)2 V帳『 V帳『
圖7是相鄰句子間相似性計算的示意圖。
步驟1033、比較各個相鄰句子間的語義相似度和給定的閾值范圍, ^t人而判定相鄰的兩個句子間是否為不同主題的切分點。 步驟104、對主題切分后的語塊組進行聚類。
在對話文本中可能存在這樣的情況聊天一方想對前一個話題進行一定的補充,在結束完當前話題后又去討論前一個話題。但在這種情況 下,若只對對話文本進行主題切分處理,對話文本會被切分為三個屬于 不同主題的語塊,但事實上第一個主題和第三個主題同屬一個主題,如
圖8所示。主題切分處理的不足在于只能將對話文本中相鄰對話語句切 分為不同主題,但不能確定非相鄰語塊為同 一主題的情況。
為了避免上述情況的發生,本實施例對主題切分處理進行了后續處 理,使得屬于同一主題的語塊能盡量聚類到一個對話文本組,從而提高 抽取出的主題句的準確度。本實施例使用了一種融入語言特征的聚類算 法對主題切分后的語塊進行聚類處理。因為通過對大量對話文本的分析 得知,在相鄰兩個語塊之間存在著一些潛在的關聯語言規則,選取關聯 語言特征融入聚類算法,能使聚類算法更加適用于對話文本。本實施例 中融入的一個語言特征是指代特征,因為 一般對話語句中代詞的出現說 明當前語句仍在討論之前對話語句中說過的人或事。本實施例采用的聚 類方法如下
步驟1041、確定使用的聚類算法。
假定存在兩個語塊是Seg'和Seg"融入的語言特征用條件概率表示就 是P(T(Segj,Segj)ISeg,PPL,SegjPPF)。對于給與的兩個語塊S^和Seg』,定義一
個函數T(Seg"Segj): T(Seg,,Segj"(:
如果Segj和Segj屬于同一個主題,計算式值為1;否則,計算式值為0。
根據貝葉斯公式<formula>formula see original document page 16</formula>計算式右邊的參數估計是通過對訓練數據做最大似然估計。 Sim(Seg, T) = max「=1cos(Seg, Seg,) * P(T(Seg,,Segj)| Seg,PPL, SegjPPF)
該計算式是計算語塊與建立的樹之間的相似性函數。 步驟1042、根據相似性函數生成主題線索樹。主題線索樹是一種表 示每一個對話語塊歸屬的樹形數據結構。
通過語塊與樹之間的相似性函數作為判斷當前語塊是不是屬于已建 立的主題線索樹或者一棵新樹根節點的標準。以下是構建主題線索樹的 具體步驟
步驟10421、將已進行主題切分的語塊按照時間順序進行排列。按 時間排序的原因是對話主題的發展是一個時間延續的過程,從而可以判 斷后續語塊是前面某個語塊的順承。
步驟10422、第一個語塊內.容Segl形成樹的根節點,同時也形成樹T'。
步驟10423、處理第二個語塊內容Seg2,計算它與第一個樹T'的相 似度Sim(Seg2,T,)。若Sim(Seg2,T,)>預定門限值k,將Seg2加入樹1;否則,
語塊內容Seg2新建一個樹72 。
步驟10424、處理第三個語塊內容Seg3,分別計算它與前兩棵樹的 相似度Sim(Seg3,T,)和Sim(Seg3,T2), 若Sim(Seg3,T;) < Sim(Seg3,T2)且
Sim(SegH)〉預定門限值k (k值根據實驗結果選定),則將語塊內容加 入樹丁2;若Sim(Seg3,T, )〈Sim(Seg3,T2)且Sim(Seg3,T2)〈預定門限值k,則由
第三個語塊內容Seg3新建一個樹13。依照max[^os(Seg,Seg,),可計算得 到在當前語塊所屬的樹下與當前語塊相似度最大的語塊SegX,則當前語 塊Seg3為SegX的葉子節點。
步驟10425、之后的語塊內容按照步驟10424中描述的方法分別進 ^f亍處理,直至處理完文本中的所有語塊。
17圖9為按照以上方法構建的主題線索樹。
步驟105、從聚類后的語塊組中抽取出主題句。
從構造的主題線索樹的結構來看,已經將以時間序列排序的語塊組 劃分為一個個的主題線索樹。針對每一個主題線索樹,可以將該樹包含 的所有語塊組的對話語句看作為一個主題單元,從每個主題單元中抽取 出最具代表性的一些句子作為主題句。具體方法包括
步驟1051、確定每個主題單元提取主題句的個數。
計算式中w自表示第i個主題線索樹中包含的節點個數;tv,表示的
是第i個主題單元中需要提取的主題句個數。
步驟1052、計算句子在主題單元中的貢獻度。
若主題單元中的一個句子與其他一些句子反映的是相同內容,則句 子與其他句子的相似度高,若其與其他句子反映不同內容,則與其他句
子的相似度低,則其對主題單元的貢獻度大。假設每個主題單元里含有 s個.句子,計算主題線索樹中當前句子k對主題單元的貢獻度 C, = ItJSim(Sk,S')-ll
步驟1053、通過計算式計算出每個句子對其所在的主題單元的貢獻 度,按照由大到小的順序進行排序,取排名靠前的^個句子作為主題句。
步驟1054、將每個主題單元中分布的合并問答句都提取出來,作為 一部分主題句。
最后,用戶可以從提取出來的主題句中檢索或發現感興趣的對話記 錄,提高用戶的體驗。
總之,以上所述僅為本發明的較佳實施例而已,并非用于限定本發 明的保護范圍。
權利要求
1、一種對話文本主題的自動提取方法,其特征在于,包括對對話文本進行數據預處理,對預處理后的對話文本進行問答對探測;對所述對話文本進行主題切分,并對主題切分后的語塊組進行聚類,從聚類后的語塊組中抽取出主題句。
2、 根據權利要求l所述的方法,其特征在于,所述對對話進行數據 預處理包括對對話文本進行切詞處理、詞性標注、二次切分處理以及停用詞處理。
3、 根據權利要求1或2所述的方法,其特征在于,所述對對話文本進行問答對探測具體包括探測出對話文本中的問句;通過問 句在對話文本中的位置,將兩個問句之間的陳述語句列為答 句候選集;在答句候選集中探測出對話文本中的每個問句相對應的答句。
4、 根據權利要求3所述的方法,其特征在于,所述探測出對話文本中的問句具體包括選擇識別問句的特征;對準備用于訓練集的句子進行人工手動標識句子類別; 基于所述選擇的識別問句的特征,對用做訓練集的句子提取出代表各個特征的值,記錄下每個句子對應的特征值序列;將訓練集的每個句子的特征值序列和人工標識的句子類別共同作為分類器的輸入,對分類器進行訓練;對準備用于測試集的句子進行人工手動標識句子類別; 根據所述訓練集句子特征值的提取方法,記錄下代表測試集每個句子的特征值序列;將測試集中抽取出的特征值序列和人工標識的句子類別共同作為分類器的輸入,對分類器輸出的分類結果的準確率進行評估,從而對選定的訓練集、分類器和特征做相應的調整;根據所述訓練集句子特征值的提取方法,記錄下代表待處理對話文本每個句子的特征值序列;將待處理對話文本抽取出的特征值序列作為分類器的輸入,得到輸 出的分類結果。
5、 根據權利要求4所述的方法,其特征在于,所述識別問句的特征 具體包括問句的高標識特征、輸入的對話語句中詞的個數,及句子中最前面 的五個詞的詞性和句子中最后面的五個詞的詞性。
6、 根據權利要求4或5所述的方法,其特征在于,所述探測對話文 本中的每個問句相對應的答句的方法具體包括選擇識別答句的特征;對準備用于訓練集的句子進行人工手動標識句子類別;從選定的訓練集對話語句中抽取出代表答句特征的特征值序列;將訓練集中每個對話語句代表答句特征的特征值序列和人工標識的句子類別一同作為分類器的輸入,對分類器進行訓練; 對作為測試集的句子進行人工手動標識句子類別; 從作為測試集的對話語句中抽取出代表答句特征的特征值序列; 將測試集抽取出的特征值序列和人工標識的句子類別共同作為分類器的輸入,對分類器輸出的分類結果的準確率進行評估,從而對選定的訓練集、分類器和特征做相應的調整;根據所述訓練集句子特征值的提取方法,記錄下代表待處理對話文本每個句子的特征值序列;將待處理對話文本抽取出的特征值序列作為分類器的輸入,得到輸 出的分類結果。將探測出的每個問句及其相對應的答句合并到同一個對話語句,并 進行標記。
7、 根據權利要求6所述的方法,其特征在于,所述答句的特征具體包括答句候選集中前五個詞的詞性標注和后五個詞的詞性標注;答句候選集中的句子個數;答句候選集中的答句與問句的距離;答句候選集中的答句與問句的相似度。
8、 根據權利要求1或2所述的方法,其特征在于,所述對對話文本 進行主題切分具體包括將對話語句集作為輸入,通過隱含語義概率模型獲取詞匯在對話文 本中各個對話語句中的概率分布;根據所述概率分布,獲取相鄰句子間的語義相似度; 比較各個相鄰句子間的語義相似度和預設定的閾值范圍,判定相鄰的兩個句子間是否為不同主題的切分點。
9、 根據權利要求1或2所述的方法,其特征在于,所述對語塊組進行聚類包括確定使用的聚類算法,根據相似性函數生成主題線索樹; 其中,所述生成主題線索樹的方法具體包括 將已進行主題切分的語塊按照時間順序進行排列; 第一個語塊內容Segl形成樹的根節點,同時也形成樹T^ 獲取第二個語塊內容Seg2與第一個樹^的相似度Sim(Seg2,7,),若Sim(SegS,i;)〉預定門限值k,將Seg2加入樹T!;否則,語塊內容Seg2新建一個樹12;獲取第三個語塊內容Seg3與前兩棵樹的相似度Sim(Seg^)和 Sim(Seg3,T2),若Sim(Seg3,T;) 〈 Sim(Seg3,T2)且Sim(Seg3,T2)〉預定門限值k,則將語塊內容Seg3加入樹T2;若Sim(Seg3,T,) < Sim(Seg3,T2)且Sim(Seg3,T2)〈預定門限值k,則由第三個語塊內容Seg3新建一個樹T3;并按相同方法 處理對話文本中的所有語塊。
10、根據權利要求9所述的方法,其特征在于,所述抽取出主題句具體包括確定每個主題單元提取主題句的個數; 獲取句子在主題單元中的貢獻度;根據所述每個句子在主題單元中的貢獻度,按照由大到小的順序進行排序,取排名靠前的W'個句子作為主題句;將每個主題單元中合并的問答句提取出來,作為主題句。
全文摘要
本發明公開了一種對話文本主題的自動提取方法,包括對對話文本進行數據預處理,對預處理后的對話文本進行問答對探測;對所述對話文本進行主題切分,并對主題切分后的語塊組進行聚類,從聚類后的語塊組中抽取出主題句。采用本發明方法提取的對話文本主題更為準確,用戶可以從提取出來的主題句中檢索或發現感興趣的對話記錄,提高用戶的體驗。
文檔編號G06F17/30GK101599071SQ20091006311
公開日2009年12月9日 申請日期2009年7月10日 優先權日2009年7月10日
發明者杰 溫, 廣 胡, 黃本雄, 黃毅青 申請人:華中科技大學