專利名稱::基于眼球跟蹤的英文文本自動摘要方法
技術領域:
:本發明屬于計算機信息檢索與人機界面領域,涉及一種基于眼球跟蹤的個性化英文文本自動摘要方法。技術背景當前在計算機英文文本自動摘要的問題上己經做出了大量的研究工作和成果,包括對通用文檔以及對某個特定知識領域文檔的自動摘要。例如理査德奧特曼(RichardAlterman)等人于1986年在《認知科學進展》("AdvancesinCognitiveScience")上提出的"細節處的自動摘要,,("Su腿arizati冊intheSmall"),于1992年在《人工智能百科全書》("EncyclopediaofArtificialIntelligence")上提出的"文本自云力摘要"("TextSu腿arization");克洛斯澤奇內(KlausZechner)于2001年在SIGIR2001會議上提出的"在非嚴格領域中口語對話簡明摘要的自動生成,,("AutomaticGenerationofConciseSummariesofSpokenDialoguesinUnrestrictedDomains");祖旺(LZuang)等人于2006年在CIKM2006會議上提出的"電影評論的挖掘與自動摘要"("MovieReviewMiningandSummarization");王(Wong)等人于2008年在Coling2008會議上提出的"使用監督式與半監督式學習的自動摘要提取"("ExtractiveSummarizationUsingSupervisedandSemi-SupervisedLearning")等論文。雷德夫(Radev)等人于2003年開發的MEAD摘要系統;由美國密歇根大學的CLAIR研究小組于2007年開發的GIN系統。以上方法均沒有針對不同讀者產生個性化的文本摘要,不能滿足讀者的需求。
發明內容本發明的目的是克服現有技術的不足,提供一種基于眼球跟蹤的個性化英文文本自動摘要方法。本發明方法包括以下步驟步驟l)獲取用戶在閱讀電子文檔時對文中所有詞的關注時間,具體方法是(a)將文中所有詞的用戶關注時間初始化為0。(b)每間隔0.1秒,通過眼球跟蹤儀或攝像頭獲取到用戶眼球在屏幕上的聚焦位置(X,y)。利用眼球跟蹤儀或攝像頭獲取到用戶眼球在屏幕上聚焦位置為成熟的現有方法。(C)文中的每個詞W在當前屏幕上的位置為^i,^'人則該詞在間隔時刻后,其用戶關注時間的增加量力7Y^為其中Ax和分別是文中每個詞在屏幕上的平均寬度和平均高度,J7Y『W單位為秒。(d)重復步驟(b)和(c)至用戶閱讀完該電子文檔,獲得文中每個詞的用戶關注時間。步驟2)基于文本相似度預測文中所有句子的用戶興趣度,具體步驟是(e)計算文中任意兩個詞『i和心之間的語義相似度67^『";該相似度是一個取值范圍在/""W之間的實數。具體的計算方法采用由李(Y.Li)等人在2003年IEEE知識與數據工程學報(IEEETransactionsonKnowledgeandDataEngineering)上提出的"一種利用多種信息源衡量單詞語義相似度白勺方^去,,("Anapproachformeasuringsemanticsimilaritybetweenwordsusingmultipleinformationsources")。(f)對文本中的任意詞w,挑選出文本中與其相似度最大的k個詞,k取值為則'77^Q/7人其中n是文本中所有不同詞的個數;設挑選出的k個詞為『《…,i,通過式(1)預測詞W的用戶興趣度Jo)=-其中r為常量,用來控制57歷(^的值占多的比重;f為正整數常量,用來防止式(1)的分母為0;函數《CJ用來去除相似度低的文本,定義為。,、fl^&m7(iv,.,w)>0.01(g)文本中的任意句子s中所有不同單詞的用戶興趣度之和為該句子的用戶興趣度/^入步驟3)利用用戶興趣度結合文本自動摘要算法生成個性化的自動摘要結果,具體方法是(h)設用戶需要的文本摘要長度為文本長度的為c劣,利用基于語義分析的文本自動摘要算法得到壓縮率為c劣的文本摘要結果。其中基于語義分析的文本自動摘要算法采用現有的成熟方法,如WordAutoSummarize或者MEAD。(i)對文本中的每個句子s,計算其用戶興趣度的偏移量^,J^:其中/r5"為句子w的用戶興趣度,w,s《…,,為文本中所有的句子,歷為文本中的句子總數。如果句子s出現在步驟(h)所得到的摘要結果中,則J^^取值為1;如果句子S未出現在步驟(h)所得到的摘要結果中,則義(V取值為0。k為自由參數,取值范圍為01。(j)計算文本中的每個句子S調整后的用戶興趣度7—:L,(力二,")+4,")(k)對文本中的所有句子S按其調整后的用戶興趣度從高到低選出前C呢的句子作為該文本的摘要結果。本發明方法有效地將用戶的喜好結合在英文文本自動摘要的過程中,使得最終的文本摘要結果更加接近用戶期待的摘要內容,從而使得自動摘要軟件能為用戶提供更好的個性化服務。圖1是本發明方法具體實施方式的流程圖。具體實施例方式如圖l,基于眼球跟蹤的英文文本自動摘要方法包括以下模塊眼球跟蹤裝置IO、用戶關注時間樣本采集20、用戶興趣度預測30、傳統文本自動摘要方法40、用戶興趣度調整50、文本自動摘要結果60,具體步驟如下步驟l)獲取用戶在閱讀電子文檔時對文中所有詞的關注時間,具體方法是(a)將文中所有詞的用戶關注時間初始化為0。.(b)每間隔0.1秒,通過眼球跟蹤裝置獲取到用戶眼球在屏幕上的聚焦位置(義,力。眼球跟蹤裝置采用普通攝像頭(LogitechQuickCamNotebookPr。)搭配開源眼球跟蹤系統。pengazer組裝而成。(C)文中的每個詞W在當前屏幕上的位置為"i,/",則該詞在間隔時刻后,其用戶關注時間的增加量J7Y^'」為歸)二o.ie鄰(一"—)2—廣)-Y少其中h和^F分別是文中每個詞在屏幕上的平均寬度和平均高度,^r6^單位為秒。(d)重復步驟(b)和(c)至用戶閱讀完該電子文檔,獲得文中每個詞的用戶關注時間。模塊用戶關注時間樣本采集20,將眼球跟蹤系統獲取到的每--時刻眼球聚焦位置記錄下來,并累加文本中各個詞的用戶關注時間。歩驟2)基于文本相似度預測文中所有句子的用戶興趣度,具體歩驟曰疋(e)計算文中任意兩個詞^'和^/之間的語義相似度5"^76f力^人具體的計算方法采用由李(Y.Li)等人在2003年IEEE知識與數據工程學報(IEEETransactionsonKnowledgeandDataEngineering)上提出的"一種利用多種信息源衡量單詞語義相似度的方法"("Anapproachformeasuringsemanticsimilaritybetweenwordsusingmultipleinformationsources")o(f)對文本中的任意詞w,挑選出文本中與其相似度最大的k個詞,k取值為甜^^^W,其中n是文本中所有不同詞的個數;設挑選出的k個詞為f《…,『A,通過式(1)預測詞W的用戶興趣度<formula>formulaseeoriginaldocumentpage8</formula>其中r為常量,用來控制57邁(^的值占多的比重;f為正整數常量,用來防止式(1)的分母為0;函數6(:卩用來去除相似度低的文本,定義為<formula>formulaseeoriginaldocumentpage8</formula>(g)文本中的任意句子s中所有不同單詞的用戶興趣度之和為該句子的用戶興趣度/^人步驟3)利用用戶興趣度結合文本自動摘要算法生成個性化的自動摘要結果,具體方法是(h)設用戶需要的文本摘要長度為文本長度的為c劣,利用MEAD英文文本自動摘要方法得到壓縮率為cy。的文本摘要結果。(i)對文本中的每個句子s,計算其用戶興趣度的偏移量d"(":<formula>formulaseeoriginaldocumentpage8</formula>其中I(si)為句子si的用戶興趣度,sl,s2,…,sm為文本中所有的句子,m為文本中的句子總數。k是一個可由用戶自定義的取值在[O,l]間的參數,代表了從眼球跟蹤裝置獲取的用戶關注時間的信息在自動摘要結果中所占的比例;若bl,則摘要結果完全由用戶關注時間決定;若k^,則摘要結果完全與用戶關注時間無關,等價于直接使用MEAD系統。如果句子S出現在步驟(h)所得到的摘要結果中,則入(S)取值為1;如果句子S未出現在步驟(h)所得到的摘要結果中,則A(s)取值為0。k為自由參數,取值范圍為01,預設值為0.5。(j)計算文本中的每個句子S調整后的用戶興趣度7#"):""W")十/咖,(s)(k)對文本中的所有句子s按其調整后的用戶興趣度從高到低選出前c。/。的句子作為該文本的摘要結果。利用本實施例對刊登在《科學》電子文檔上的60篇科技類文章的自動摘要結果與兩個采用傳統自動摘要方法的系統MSWordAutoSimraiarize和MEAD得到的摘要結果的性能分別在壓縮率為10%、20%、30%時的查全率(Recall)、查準率(Precision)和F比率(F-rate)進行如下對比<table>tableseeoriginaldocumentpage9</column></row><table>可以看出本發明方法相對于現有方法在三種壓縮率下性能均有所提高。權利要求1、基于眼球跟蹤的英文文本自動摘要方法,其特征在于該方法的具體步驟是步驟1)獲取用戶在閱讀電子文檔時對文中所有詞的關注時間,具體方法是(a)將文中所有詞的用戶關注時間初始化為0;(b)每間隔0.1秒,通過眼球跟蹤儀或攝像頭獲取到用戶眼球在屏幕上的聚焦位置(x,y);(c)文中的每個詞wi在當前屏幕上的位置為(xi,yi),則該詞在間隔時刻后,其用戶關注時間的增加量AT(wi)為<mathsid="math0001"num="0001"><math><![CDATA[<mrow><mi>AT</mi><mrow><mo>(</mo><msub><mi>w</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mn>0.1</mn><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mfrac><msup><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>-</mo><mi>x</mi><mo>)</mo></mrow><mn>2</mn></msup><mrow><mn>2</mn><msup><msub><mi>k</mi><mi>x</mi></msub><mn>2</mn></msup></mrow></mfrac><mo>-</mo><mfrac><msup><mrow><mo>(</mo><msub><mi>y</mi><mi>i</mi></msub><mo>-</mo><mi>y</mi><mo>)</mo></mrow><mn>2</mn></msup><mrow><mn>2</mn><msup><msub><mi>k</mi><mi>y</mi></msub><mn>2</mn></msup></mrow></mfrac><mo>)</mo></mrow></mrow>]]></math></maths>其中kx和ky分別是文中每個詞在屏幕上的平均寬度和平均高度;(d)重復步驟(b)和(c)至用戶閱讀完該電子文檔,獲得文中每個詞的用戶關注時間;步驟2)基于文本相似度預測文中所有句子的用戶興趣度,具體方法是(e)計算文中任意兩個詞wi和wj之間的語義相似度Sim(wi,wj);該相似度是一個取值范圍在之間的實數;(f)對文檔中的任意詞w,挑選出文檔中與其相似度最大的k個詞,k取值為min(10,n),其中n是文檔中所有不同詞的個數;設挑選出的k個詞為w1,w2,…,wk,通過式(1)預測詞w的用戶興趣度<mathsid="math0002"num="0002"><math><![CDATA[<mrow><mi>I</mi><mrow><mo>(</mo><mi>w</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msubsup><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>k</mi></msubsup><mrow><mo>(</mo><mi>AT</mi><mrow><mo>(</mo><msub><mi>w</mi><mi>i</mi></msub><mo>)</mo></mrow><msup><mi>Sim</mi><mi>γ</mi></msup><mrow><mo>(</mo><msub><mi>w</mi><mi>i</mi></msub><mo>,</mo><mi>w</mi><mo>)</mo></mrow><mi>δ</mi><mrow><mo>(</mo><msub><mi>w</mi><mi>i</mi></msub><mo>,</mo><mi>w</mi><mo>)</mo></mrow><mo>)</mo></mrow></mrow><mrow><msubsup><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>k</mi></msubsup><mrow><mo>(</mo><msup><mi>Sim</mi><mi>γ</mi></msup><mrow><mo>(</mo><msub><mi>w</mi><mi>i</mi></msub><mo>,</mo><mi>w</mi><mo>)</mo></mrow><mi>δ</mi><mrow><mo>(</mo><msub><mi>w</mi><mi>i</mi></msub><mo>,</mo><mi>w</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>+</mo><mi>ϵ</mi></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>]]></math></maths>其中γ為常量、ε為正整數常量,函數δ(,)定義為<mathsid="math0003"num="0003"><math><![CDATA[<mrow><mi>δ</mi><mrow><mo>(</mo><msub><mi>w</mi><mi>i</mi></msub><mo>,</mo><mi>w</mi><mo>)</mo></mrow><mo>=</mo><mfencedopen='{'close=''><mtable><mtr><mtd><mn>1</mn></mtd><mtd><mi>If</mi><msup><mi>Sim</mi><mi>γ</mi></msup><mrow><mo>(</mo><msub><mi>w</mi><mi>i</mi></msub><mo>,</mo><mi>w</mi><mo>)</mo></mrow><mo>></mo><mn>0.01</mn></mtd></mtr><mtr><mtd><mn>0</mn></mtd><mtd><mi>Otherwise</mi></mtd></mtr></mtable></mfenced></mrow>]]></math></maths>(g)文檔中的任意句子s中所有不同單詞的用戶興趣度之和為該句子的用戶興趣度I(s);步驟3)利用用戶興趣度結合文本自動摘要算法生成個性化的自動摘要結果,具體方法是(h)設用戶需要的文本摘要長度為文檔長度的為c%,利用基于語義分析的文本自動摘要算法得到壓縮率為c%的文本摘要結果;(i)對文檔中的每個句子s,計算其用戶興趣度的偏移量Ioffset(s)<mathsid="math0004"num="0004"><math><![CDATA[<mrow><msub><mi>I</mi><mi>offset</mi></msub><mrow><mo>(</mo><mi>s</mi><mo>)</mo></mrow><mo>=</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mi>k</mi><mo>)</mo></mrow><msubsup><mi>max</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></msubsup><mo>{</mo><mi>I</mi><mrow><mo>(</mo><msub><mi>s</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>}</mo><mi>λ</mi><mrow><mo>(</mo><mi>s</mi><mo>)</mo></mrow></mrow>]]></math></maths>其中I(si)為句子si的用戶興趣度,s1,s2,…,sm為文檔中所有的句子,m為文檔中的句子總數;如果句子s出現在步驟(h)所得到的摘要結果中,則λ(s)取值為1;如果句子s未出現在步驟(h)所得到的摘要結果中,則λ(s)取值為0;k為自由參數,取值范圍為0~1;(j)計算文檔中的每個句子s調整后的用戶興趣度Iadj(s)Iadj(s)=I(s)+Ioffset(s)(k)對文檔中的所有句子s按其調整后的用戶興趣度從高到低選出前c%的句子作為該文檔的摘要結果。全文摘要本發明涉及基于眼球跟蹤的英文文本自動摘要方法。現有方法均不能針對不同讀者產生個性化的文本摘要。本發明方法的步驟是利用眼球跟蹤儀或攝像頭獲取用戶在閱讀電子文檔時對文中所有詞的關注時間;基于文本相似度預測文中所有句子的用戶興趣度;利用用戶興趣度結合文本自動摘要算法生成個性化的自動摘要結果。本發明方法有效地將用戶的喜好結合在英文文本自動摘要的過程中,使得最終的文本摘要結果更加接近用戶期待的摘要內容,從而使得自動摘要軟件能為用戶提供更好的個性化服務。文檔編號G06F17/30GK101567004SQ200910096060公開日2009年10月28日申請日期2009年2月6日優先權日2009年2月6日發明者劉智滿,徐頌華,浩江申請人:浙江大學