一種基于可讀性指標的信息檢索方法
【技術領域】
[0001] 本發明設及一種信息檢索方法,尤其設及一種基于可讀性指標的信息檢索方法。
【背景技術】
[0002] 信息檢索是指從一個信息資源集中獲取與信息需求相關信息資源的活動。在現代 社會中,信息檢索已成為人們發現與獲取知識和信息的重要途徑。針對傳統信息檢索而言, 用戶在向檢索系統提交一系列查詢之后,檢索系統根據文檔與查詢之間的"相關性"和超鏈 接結構的"重要性"返回結果列表供用戶挑選閱讀,具體過程如圖1所示,圖中展示了傳統信 息檢索交互過程,當用戶提交查詢給捜索引擎后,捜素引擎根據相關技術,比如有向量空間 模型計算文本相似度,根據化geRank算法計算文檔權重等來計算出對應于用戶提交查詢應 該返回的對應文檔集,然后返回捜索結果給用戶。
[0003] 近來,可讀性作為一項新興指標在文檔相關性W、質量W和實用性W評價中占據 重要地位。隨著網絡資源地爆炸式增長W及用戶多樣化,如何為用戶提供既與查詢相關又 可讀的文檔已成為亟需解決的問題。用戶因教育背景、閱讀動機、身體狀況等因素,形成了 一定程度的閱讀能力差異。如圖2所示,基于對用戶閱讀能力的考慮,我們根據個體的差異 程度對個體進行聚類形成個體組,圖形中用不同的紋理來體現用戶之間的差異性,從開始 沒有用戶進行聚類,到按照用戶個體間差異聚類后,將用戶聚類成不同的個體組,基于運種 差異能夠對個體進行相關聚類,并且聚類之后依舊存在一定程度群體差異,即相同的文本 對于不同個體類而言具有不同的可讀性。
[0004] 由此可見,為提高用戶檢索體驗,將可讀性融入到信息檢索過程具有重要意義。具 體地,針對于捜索引擎初次返回的結果列表,既可W基于文本可讀性進行重排序,又可W通 過具體可讀性標示予W體現,例如:可讀性顏色指示(不同顏色代表不同可讀性),或者分值 界定(根據一些可讀性指標計算得到的可讀性分值)等。
[0005] 針對可讀性指標已有數十年歷史,一些經典的指標已經被廣泛接受并利用,例如: 金凱德等級水平(Flesch-Kincaid Grade Level)、迷霧指數(FOG Index)、自動可讀性指標 (Automated Readability 1]1(1糾)等[4]。基于平均字長、平均句長、難詞比例等詞匯表面基 本特征,運些經典的方法具有一定的有效性。近來,為提高可讀性計算方法的準確性,一些 可讀性方法嘗試使用機器學習的思想將可讀性計算問題轉化成分類和預測問題,例如使用 支持向量機(Support Vector Machine)"]、回歸(Regression)[6]、插值預測 (Inte巧olation Prediction)[7]等,然而運些方法卻難W支持無監督的可讀性在線預測。
[0006] 截至目前,捜索引擎并沒有顯示標示檢索結果相對于用戶可讀性的功能。
[0007] [參考文獻]
[0008] [IJZhang Y,Zhang J,Lease M,et al.Multidimensional relevance modeling via psychometrics and crowdsourcing.Proceedings of the 37th international ACM SIGIR conference on Research&development in information retrieval.ACM,2014: 435-444.
[0009] [2]Bendersky Μ,Croft W B,Diao Υ.Quality-biased ranking of web documents. Proceedings of the fourth ACM international conference on Web search and data mining.ACM,2011:95-104.
[0010] [3]Yilmaz E,Verma M,Craswell N,et al.Relevance and effort:an analysis of document utility.Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management.ACM,2014:91-100.
[0011] [4]Chall J S,Dale E.Readability revisited:The new Dale-Chall re曰(lability formul曰.Brookline Books, 1995.
[0012] [5]Petersen S E,0stendorf M.A machine learning approach to reading level assessment.Computer speech&language,2009,23(1):89-106.
[0013] [6]Crossley S A,Dufty D F,McCarthy P M,et al.Toward a new readability:A mixed model approach.Proceedings of the 29th annual conference of the Cognitive Science Society.2007:197-202.
[0014] [7]Pitler E,Nenkova A.Revisiting readability:A unified framework for predicting text qu曰lity.Proceedings of the Conference on Empiric曰1 Methods in Natural Language Processing.Association for Computational Linguistics ,2008: 186-195.
【發明內容】
[0015] 針對現有技術中存在的問題,本發明提出一種基于可讀性指標的信息檢索方法, 綜合了用戶可讀性評價技術W及在線更新數據技術,另外,針對一些特殊群體用戶可W自 己定做屬于自己可讀性評價水平的接口。
[0016] 本發明中所提及到的文本可讀性是指:用戶在理解并且領會一段文本或者一篇文 檔內容過程中的難易程度。
[0017] 為了解決上述技術問題,本發明提出的一種基于可讀性指標的信息檢索方法,包 括W下步驟:
[0018] 步驟一、當用戶使用捜索引擎W希望查詢的關鍵字進行捜索時,捜索引擎從索引 中檢索出符合捜索條件的文檔;
[0019] 步驟二、捜索引擎在捜索過程中,對符合捜索條件的文檔按照其與查詢的關鍵字 的相關度進行排序,同時進行文本可讀性得分的計算,將符合捜索條件的文檔、相關度排序 和可讀性得分組織成頁面返回給用戶;其中可讀性得分按照如下方法計算:
[0020] 文本可讀性=MX (NX中文平均筆畫數+(1-N) X中文難詞頻度) + (l-M) X (PX英 文平均字符數+(1-P) X英文難詞頻度)
[0021] 式中,對于文檔中同時出現英文W及中文的情況下,可調參數Μ負責調整對于該文 檔中中英文可讀性的權重配比;可調參數Ν,負責調整文檔中中文部分的中文平均筆畫數指 標W及中文難詞頻度指標之間的權重配比;可調參數Ρ,負責調整文檔中英文部分的英文平 均字符數指標和英文難詞頻度指標之間的權重配比。
[0022] 進一步講,步驟2中,可調參數Μ的值域為[0,1],當文檔著重于中文可讀性的情況 下,Μ值大于0.5 ;當文檔著重于英文可讀性的情況下,Μ的值小于0.5 ;可調參數Ν的值域為
[0,1 ],當文檔著重于中文平均筆畫數的情況下,N值大于ο. 5;當文檔著重于中文難詞頻度 的情況下,N的值小于0.5;可調參數P的值域為[0,1 ],當文檔著重于英文平均字符數的情況 下,P值大于0.5;當文檔著重于英文難詞頻度的情況下,P的值小于0.5。
[0023] 另外,本發明針對有一定能力并且對自身認知程度有一定程度了解的用戶,開放 了文本可讀性可自定義的接口。從而可讓用戶可W根據自身需求動態調整計算方法。
[0024] 與現有技術相比,本發明的有益效果是:
[0025] 本發明可W作為捜索引擎展現方式的一部分,W及用戶可定制捜索引擎的一部 分。通過檢索后返回文檔的可讀性得分,用戶便于快速提取相關度較高文檔中對于自身而 言較為可讀的部分,增加檢索效率。同時,可W根據自身情況來調節對于捜索結果可讀性的 評價算法進而更加貼合用戶自身需求。
[0026] 例1:假設群體A為計算機相關群體,群體B為金融相關群體,那么根據當前捜索引 擎的返回結果,當兩群體在其他捜索條件完全相同的情況下捜索相同關鍵詞,如果返回的 某條文本中包含Python關鍵字,那么該條文本對于群體A的可讀性更強,對于群體B可讀性 相對較低。
[0027] 例2:假設群體A經常捜索中文關鍵字,群體B經常捜索英文關鍵字,那么根據當前 捜索引擎的返回結果,當兩群體在其他捜索條件完全相同的情況下捜索相同關鍵詞,如果 返回的某條文本只包含英文,那么該條文本對于群體B的可讀性更強,對于群體A可讀性相 對較低
【附圖說明】
[0028] 圖1是傳統信息檢索交互流程圖;
[0029] 圖2是基于用戶閱讀能力的相關聚類示意圖;
[0030] 圖3是一種基于可讀性指標的檢索方法交互流程圖;
[0031 ]圖4使用用戶自定義算法之前系統檢索結果圖;
[0032] 圖5使用用戶自定義算法之后系統檢索結果圖;
[0033] 圖6是用戶自定義算法界面圖;
[0034] 圖7是本發明基于可讀性指標的檢索方法的主體框架圖。
【具體實施方式】
[0035] 下面結合附圖和具體實施例對本發明技術方案作進一步詳細描述,所描述的具體 實施例僅對本發明進行解釋說明,并不用W限制本發明。
[0036] 本發明提出的一種基于可讀性指標的信息檢索方法,包括W下步驟:
[0037] 步驟一、當用戶使用捜索引擎W希望查詢的關鍵字進行捜索時,捜索引擎從索引 中檢索出符合捜索條件的文檔;
[0038] 步驟二、捜索引擎在捜索過程中,對符合捜索條件的文檔按照其與查詢的關鍵字 的相關度進行排序,同時進行文本可讀性得分的計算,將符合捜索條件的文檔、相關度排序 和可讀性得分組織成頁面返回給用戶;目前國內捜索引擎W中文和英文內容為主要捜索結 果,因此本發明主要考慮對中文W及英文內容可讀性的處理。其中,中文W字為單位,英文 W詞為單位,中英文的單位不同導致其對可讀性計算方式過程中存在差異。
[0039] 對于中文,一句話中筆畫數越多認知難度相對越高(從直觀上對漢字的認識是由 易到難的,而相比于難字,易字的筆畫數相比要少一些)。對于英文,一句話中每個單詞所含 有的英文字母越少,其可讀性就更好。運里將中文中單位字W及英文中的單位詞統稱為字, 那么定義中英文句子中字的難易程度指標如公式(1):
[0040] (1)
[0041] 對于中英文中字的具體評價方式,僅僅使用字難易程度指