專利名稱:基于時(shí)間信息的關(guān)鍵子話題提取方法
技術(shù)領(lǐng)域:
本發(fā)明屬于文本分析技術(shù)領(lǐng)域,具體涉及一種網(wǎng)絡(luò)文本信息分析方法,尤其涉及一種從一系列具有時(shí)間相關(guān)信息的文本數(shù)據(jù)集中提取關(guān)鍵子話題的數(shù)據(jù)分析方法。
背景技術(shù):
互聯(lián)網(wǎng)目前已經(jīng)成為一種新聞報(bào)道的主要途徑,被公認(rèn)為是繼報(bào)紙、廣播、電視之后的“第四媒體”。每天都有大量的各種方面的新聞報(bào)道在網(wǎng)絡(luò)上傳播,各種網(wǎng)站、BBS(電子公告服務(wù))、博客、RSS(聚合新聞)、搜索引擎等網(wǎng)絡(luò)信息載體成為了人們獲取新聞信息的主要載體。這些新聞報(bào)道信息的駐留空間存儲(chǔ)了與社會(huì)經(jīng)濟(jì)政治等相關(guān)的許多話題,并且對(duì)于一些熱點(diǎn)話題能夠進(jìn)行連續(xù)跟蹤報(bào)道。每種話題在不同時(shí)間都會(huì)有不同的內(nèi)容偏向和不同的熱衷度,通過這種熱衷度的變化,可以分析出當(dāng)時(shí)社會(huì)生活中,哪些事件是人們所關(guān)注的焦點(diǎn),能夠從側(cè)面反映人們的精神生活和社會(huì)生活的狀態(tài)。實(shí)現(xiàn)對(duì)這些新聞報(bào)道的相關(guān)文本信息的計(jì)算機(jī)自動(dòng)分析,能夠了解社會(huì)上的熱點(diǎn)話題和人們的反應(yīng)。
雖然人們提出了許多針對(duì)文本信息的分析技術(shù)與方法,但是在解決從一系列的新聞報(bào)道文本信息中發(fā)現(xiàn)關(guān)鍵子話題這一個(gè)重要需求上,這些方法仍存在問題,主要有 1.在文本特征選擇上以關(guān)鍵詞為主,這些關(guān)鍵詞通常是文本中具有較強(qiáng)辨別能力的一些詞語,因此在處理文本分類、文本聚類等需求上比較有效,而難于刻畫和描述關(guān)鍵子話題。
2.有的方法雖然提出了在話題分析提取中引入時(shí)間信息,但是時(shí)間信息只是作為事件發(fā)展變化的一個(gè)維度,而缺乏對(duì)不同時(shí)間點(diǎn)上的事件之間的分析,因此仍然缺乏關(guān)鍵子話題提取的方法。
3.目前話題提取方法采用各種數(shù)據(jù)聚類算法,根據(jù)聚類結(jié)果中類的大小等來判斷話題的重要性。但是由于聚類算法受聚類個(gè)數(shù)、相似度閾值等人為設(shè)定的參數(shù)影響大,實(shí)際得到的聚類結(jié)果只能在粒度較粗的層面上反映話題的重要性,因此難于具體分析子話題的重要性。
由此可見,實(shí)現(xiàn)對(duì)新聞報(bào)道等相關(guān)文本信息的計(jì)算機(jī)自動(dòng)分析對(duì)于許多應(yīng)用而言是非常重要的,而現(xiàn)有方法在特征選擇、算法設(shè)計(jì)上存在著不足,尚無法滿足關(guān)鍵子話題提取分析的要求。
發(fā)明內(nèi)容
本發(fā)明的目的是針對(duì)現(xiàn)有各種話題提取方法在從具有時(shí)間相關(guān)信息的文本數(shù)據(jù)中提取關(guān)鍵子話題時(shí)所存在的不足,提出一種基于時(shí)間信息的關(guān)鍵子話題提取方法。
本發(fā)明提出的基于時(shí)間信息的關(guān)鍵子話題的提取方法,是通過提取文本數(shù)據(jù)中的各種時(shí)間信息,根據(jù)提取的時(shí)間點(diǎn)識(shí)別對(duì)應(yīng)的子話題,構(gòu)造話題中各種子話題在時(shí)間上的關(guān)系,形成子話題的時(shí)間引用網(wǎng)絡(luò),基于這種網(wǎng)絡(luò)運(yùn)用相關(guān)數(shù)學(xué)方法計(jì)算網(wǎng)絡(luò)中各個(gè)節(jié)點(diǎn)的重要性,從而提取出重要的時(shí)間節(jié)點(diǎn),并運(yùn)用現(xiàn)有的話題提取方法從該節(jié)點(diǎn)對(duì)應(yīng)的文本數(shù)據(jù)集中提取話題信息,從而實(shí)現(xiàn)關(guān)鍵子話題的提取。
本發(fā)明方法具體步驟如下 (1)針對(duì)連續(xù)的跟蹤報(bào)道,從互聯(lián)網(wǎng)上下載相應(yīng)的新聞報(bào)道文本信息記錄[1],從而構(gòu)成一個(gè)包含時(shí)間信息的事件文本數(shù)據(jù)集。
(2)從新聞報(bào)道文本中提取時(shí)間點(diǎn),針對(duì)各個(gè)文本記錄,從文本中尋找并提取事件的基本時(shí)間和引用時(shí)間。這里,基本時(shí)間是指新聞報(bào)道該事件的第一時(shí)間點(diǎn),引用時(shí)間是指以基本時(shí)間為參考點(diǎn)的其它位置出現(xiàn)的時(shí)間點(diǎn)。時(shí)間的表達(dá)方法一般有相對(duì)時(shí)間和絕對(duì)時(shí)間兩種。在時(shí)間點(diǎn)的提取過程中,主要采用模式匹配的方法獲取絕對(duì)時(shí)間點(diǎn);相對(duì)時(shí)間點(diǎn)的提取則根據(jù)漢語的習(xí)慣表達(dá)的各種方式進(jìn)行處理。例如,通過搜索文本中的時(shí)間相對(duì)詞,獲取相對(duì)時(shí)間點(diǎn),并根據(jù)相對(duì)時(shí)間數(shù)字轉(zhuǎn)換表,將相對(duì)時(shí)間轉(zhuǎn)換為絕對(duì)時(shí)間。
(3)在時(shí)間點(diǎn)提取的基礎(chǔ)上,根據(jù)各個(gè)報(bào)道的絕對(duì)時(shí)間對(duì)文本集中相同基本時(shí)間的文本記錄,采用聚類方法[2]進(jìn)行話題識(shí)別,得到與某個(gè)絕對(duì)時(shí)間對(duì)應(yīng)的子話題描述。根據(jù)不同的基本時(shí)間,得到一系列子話題。
(4)針對(duì)子話題與時(shí)間的對(duì)應(yīng)關(guān)系,包括基本時(shí)間和引用時(shí)間,構(gòu)造各個(gè)事件在不同時(shí)間點(diǎn)上的引用網(wǎng)絡(luò),這是一個(gè)含權(quán)的有向網(wǎng)絡(luò)。其中,網(wǎng)絡(luò)節(jié)點(diǎn)表示與某個(gè)時(shí)間相關(guān)聯(lián)的話題,網(wǎng)絡(luò),節(jié)點(diǎn)之間的連接及方向表示引用關(guān)系,網(wǎng)絡(luò)邊的權(quán)重表示引用的數(shù)量。
(5)定義并計(jì)算時(shí)間引用網(wǎng)絡(luò)的節(jié)點(diǎn)關(guān)注度,關(guān)注度的定義是節(jié)點(diǎn)的被引用數(shù)。
(6)定義并計(jì)算關(guān)注度突變系數(shù)。一般而言,關(guān)鍵子話題是那些關(guān)注度高且有跳躍增加的子話題。
(7)根據(jù)突變系數(shù)與閾值的比較,確定關(guān)鍵子話題。
圖1為本發(fā)明的流程圖示。
本發(fā)明具有實(shí)質(zhì)性特點(diǎn)和顯著進(jìn)步(1)改變傳統(tǒng)基于關(guān)鍵特征詞的話題提取方法,采用以事件時(shí)間作為前導(dǎo)特征,充分利用新聞事件報(bào)道的時(shí)間要素及主線,使得關(guān)鍵子話題的提取更加切合實(shí)際;(2)充分利用文本信息中隱藏的時(shí)間信息,構(gòu)造事件的時(shí)間引用網(wǎng)絡(luò),直觀地反映了一個(gè)事件的所有相關(guān)文本中,子話題之間的關(guān)系;(3)定義了節(jié)點(diǎn)的關(guān)注度及其突變系數(shù),從而使得子話題的特征具有量化計(jì)算的依據(jù),為提取關(guān)鍵子話題提供了依據(jù)。
本發(fā)明提出的以時(shí)間作為關(guān)鍵子話題提取的主要要素,充分利用文本信息中所包含的時(shí)間信息,并構(gòu)造便于直觀分析和量化計(jì)算的時(shí)間引用網(wǎng)絡(luò)。定義了節(jié)點(diǎn)關(guān)注度及其突變系數(shù),從而尋找關(guān)鍵子話題。本發(fā)明有效地克服了目前基于關(guān)鍵詞識(shí)別話題的各種方法所存在的問題,為準(zhǔn)確確定關(guān)鍵子話題提供了一種有效的方法,適應(yīng)于各種具有時(shí)間信息的文本集的計(jì)算機(jī)自動(dòng)分析要求。
圖1為本發(fā)明的流程圖示。
圖2為實(shí)例中的關(guān)注度圖示。
圖3為實(shí)例中突變系數(shù)圖示。
具體實(shí)施例方式 實(shí)施例 (1)從互聯(lián)網(wǎng)上下載跟蹤報(bào)道的文本信息,構(gòu)成包含時(shí)間信息的文本數(shù)據(jù)集。具體方法如下 根據(jù)事先設(shè)定的事件關(guān)鍵詞組合,從搜索引擎中查找相關(guān)的事件報(bào)道文本,并通過基于HTTP(超文本傳輸協(xié)議)協(xié)議的數(shù)據(jù)分析得到搜索的所有查詢記錄,提取記錄中所包含的URL(統(tǒng)一資源定位),并利用網(wǎng)絡(luò)爬蟲技術(shù)自動(dòng)將該URL對(duì)應(yīng)的文本下載到本地,經(jīng)過正文信息提取,從而得到報(bào)道信息的文本集合。方法詳見[1]。
(2)提取文本信息中的時(shí)間點(diǎn) 為了以時(shí)間點(diǎn)作為切分話題的基準(zhǔn),必須先從話題文檔中提取各種時(shí)間點(diǎn)。但是文本中時(shí)間點(diǎn)的描述復(fù)雜多樣,尤其是中文的時(shí)間描述。簡(jiǎn)單的模式匹配能夠識(shí)別一部分簡(jiǎn)單的時(shí)間點(diǎn)描述,如基本時(shí)間點(diǎn)。因此,必須分析新聞文檔中的時(shí)間習(xí)慣用語,在一定的語義上識(shí)別并提取時(shí)間點(diǎn)。具體方法如下 時(shí)間點(diǎn)的基本結(jié)構(gòu)表示為T={年,月,日}。時(shí)間點(diǎn)按照在新聞報(bào)道中的時(shí)間位置分為基本時(shí)間和引用時(shí)間,通過對(duì)新聞報(bào)道的觀察,一般新聞報(bào)道中第一個(gè)時(shí)間點(diǎn)為報(bào)道時(shí)間,定義報(bào)道的第一個(gè)時(shí)間點(diǎn)為“基本時(shí)間”,文章中其他位置出現(xiàn)的時(shí)間皆以這個(gè)基本時(shí)間為參考點(diǎn),定義為“引用時(shí)間”。例如“2008年12月29日XXX報(bào)道,昨日……”,這個(gè)“12月29日”為基本時(shí)間,則“昨日”可以參照這個(gè)基本時(shí)間,可以追溯到“12月28日”。
時(shí)間點(diǎn)按表述方式可以分為絕對(duì)時(shí)間點(diǎn)和相對(duì)時(shí)間點(diǎn),絕對(duì)時(shí)間點(diǎn)是能夠確定具體日期的時(shí)間描述,例如“2008年1月1日”,“2月12日”,“元月3日”等,在新聞報(bào)道中的表示一般為“Y年|M月|D日”,可以通過模式匹配獲取這些時(shí)間點(diǎn),YMD為數(shù)字或文字,例如“元”,“一”,“二”等等,如果時(shí)間表述不全,例如只有“日”或者“月”,可以通過基本時(shí)間獲取其他時(shí)間單位表述;相對(duì)時(shí)間為相對(duì)其他時(shí)間的時(shí)間描述,必須有一個(gè)參照時(shí)間點(diǎn),在新聞報(bào)道中一般基本時(shí)間為報(bào)道中其他相對(duì)時(shí)間的參照時(shí)間點(diǎn),例如“去年”,“昨天”,“3天前”等等。時(shí)間點(diǎn)的描述方式有數(shù)字,漢字,習(xí)慣用語。必須將一些漢字和習(xí)慣用語轉(zhuǎn)換成具體的數(shù)字,對(duì)于絕對(duì)時(shí)間的習(xí)慣描述有“元”,星期的表示,天干地支表示,對(duì)于相對(duì)時(shí)間一般都在時(shí)間單位前后有些關(guān)鍵詞(前后綴),如表1,括號(hào)中的數(shù)字表示相對(duì)值,例如“昨日”,則當(dāng)發(fā)現(xiàn)“日”時(shí),查找之前的描述,如果為數(shù)字,則先視為絕對(duì)時(shí)間,如果為漢字,則查找中文描述表,轉(zhuǎn)換成相對(duì)值,然后與基本時(shí)間進(jìn)行比較;如果數(shù)字表示的時(shí)間則繼續(xù)觀察上下文是否有“前”“后”等時(shí)間序列的描述,如果存在則視為相對(duì)時(shí)間。
表1相對(duì)時(shí)間數(shù)字轉(zhuǎn)換表 (3)提取子話題 在時(shí)間提取的基礎(chǔ)上,根據(jù)各個(gè)報(bào)道的絕對(duì)時(shí)間對(duì)文本集中的記錄進(jìn)行話題識(shí)別,得到與某個(gè)絕對(duì)時(shí)間對(duì)應(yīng)的事件描述。具體實(shí)現(xiàn)方法如下從文本集中,選擇基本時(shí)間相同的所有文本記錄,這些文本記錄包含了這個(gè)絕對(duì)時(shí)間點(diǎn)上所發(fā)生的事件對(duì)應(yīng)的子話題。接著,采用現(xiàn)有的話題提取流程提取子話題,即經(jīng)過分詞、特征詞選擇、文本特征向量的構(gòu)造后,采用諸如基于特征向量空間的聚類算法,從聚類結(jié)果中獲得較大的類的特征及相應(yīng)的權(quán)重,從而得到子話題的描述。方法詳見[2]。根據(jù)不同的基本時(shí)間,得到一系列子話題,記為Tpk. (4)構(gòu)造時(shí)間引用網(wǎng)絡(luò) 通過時(shí)間點(diǎn)提取算法提取出新聞報(bào)道中涉及的時(shí)間點(diǎn),并摘取對(duì)應(yīng)事件,形成子話題列表TP={Tp1,TP2,…,Tpk,…}。一篇報(bào)道經(jīng)常引用到其他時(shí)間點(diǎn)的事件,報(bào)道時(shí)間與文檔內(nèi)部時(shí)間存在這一定的引用關(guān)系。所以通過這種引用關(guān)系建立一個(gè)時(shí)間點(diǎn)引用網(wǎng)絡(luò)。
本發(fā)明中,該引用網(wǎng)絡(luò)采用有向圖的形式,即時(shí)間點(diǎn)引用網(wǎng)為一個(gè)有向圖G={E,V},V為圖中節(jié)點(diǎn),對(duì)應(yīng)為所識(shí)別出的各個(gè)時(shí)間點(diǎn)的子話題,E為節(jié)點(diǎn)之間的有向邊,對(duì)應(yīng)為根據(jù)文本中的“引用時(shí)間”確定的引用關(guān)系,邊的權(quán)值為引用數(shù)量。例如在“2008年4月13日”的報(bào)道中,引用到了“2008年2月18日”的時(shí)間點(diǎn)3次,“2008年1月4日”2次,同時(shí),“2008年2月18日”的新聞報(bào)道中,引用到“2008年1月5日”1次。則對(duì)應(yīng)時(shí)間點(diǎn)引用圖中,“2008年4月13日”對(duì)應(yīng)的子話題指向“2008年2月18日”對(duì)應(yīng)的子話題,權(quán)重是3;“2008年4月13日”對(duì)應(yīng)的子話題指向“2008年1月4日”對(duì)應(yīng)的子話題,權(quán)重是2;“2008年2月18日”對(duì)應(yīng)的子話題指向“2008年1月5日”對(duì)應(yīng)的子話題,權(quán)重是1。
(5)定義及計(jì)算節(jié)點(diǎn)關(guān)注度 節(jié)點(diǎn)入度表示時(shí)間點(diǎn)被其他時(shí)間點(diǎn)報(bào)道引用的關(guān)系,入度的數(shù)量表示了這個(gè)時(shí)間點(diǎn)對(duì)應(yīng)事件的關(guān)注度。通過分析有向邊起始節(jié)點(diǎn)的時(shí)間范圍,可以分析被引用節(jié)點(diǎn)事件的影響度,有向邊的權(quán)值為節(jié)點(diǎn)被同一節(jié)點(diǎn)引用的次數(shù),可以表示兩個(gè)時(shí)間點(diǎn)的關(guān)聯(lián)度。
新聞報(bào)道中,有些報(bào)道會(huì)對(duì)某個(gè)時(shí)間點(diǎn)重復(fù)引用,這樣,入度值會(huì)隱藏時(shí)間點(diǎn)的重要性。所以子話題的關(guān)注度I應(yīng)由子話題時(shí)間點(diǎn)在引用網(wǎng)中的入度值IC和引用文章數(shù)D決定,在入度值相等的情況下,引用文章數(shù)越多,則該時(shí)間點(diǎn)事件的關(guān)注度I越大;在引用文章數(shù)相同情況下,入度值越大,則關(guān)注度也越大。
一個(gè)話題在不同時(shí)期會(huì)有不同的關(guān)注度,當(dāng)某一個(gè)時(shí)間點(diǎn)的子話題內(nèi)容比較敏感或者與話題的演化發(fā)展密切相關(guān)時(shí),這個(gè)子話題的關(guān)注度會(huì)增加,通過關(guān)注度的觀察,可以很容易辨認(rèn)主要子話題,即話題發(fā)展中的主要階段標(biāo)志。某個(gè)話題的新聞報(bào)道中,如果某個(gè)時(shí)間點(diǎn)的事件如果很重要,則會(huì)被該話題不同時(shí)期的一系列報(bào)道多次引用,可見,被引用次數(shù)與子話題的重要度密切相關(guān)。但如果一個(gè)子話題只在少數(shù)幾篇文章中多次引用,則被引用次數(shù)不能夠準(zhǔn)確反應(yīng)重要度,所以需要對(duì)被引用次數(shù)進(jìn)行修正。被引用次數(shù)越大,同時(shí)引用的文章數(shù)越大,則該時(shí)間點(diǎn)事件的重要度越大,通過類似TFIDF(詞頻-逆向文檔頻率,詳見[3])公式[3]計(jì)算時(shí)間點(diǎn)子話題的關(guān)注度I,時(shí)間點(diǎn)x的關(guān)注度為 ,其中IC(x)時(shí)間點(diǎn)x的引用度(即入度),|D|為新聞報(bào)道總數(shù),D(x)為包含時(shí)間點(diǎn)x的新聞報(bào)道數(shù)。
(6)定義及計(jì)算節(jié)點(diǎn)關(guān)注度的突變系數(shù) 在具有時(shí)間信息的文本中,如新聞報(bào)道,關(guān)鍵子話題通常具有這樣的特征,即它受到較大的關(guān)注,得到其他相關(guān)報(bào)道的引用多。基于這個(gè)特征,針對(duì)那些關(guān)注度高且有跳躍增加的子話題,按照時(shí)間發(fā)展順序?qū)㈥P(guān)注度進(jìn)行排序,定義突變系數(shù)a(x) ,其中∑I(y)/n為時(shí)間點(diǎn)x時(shí)間序列上前n個(gè)時(shí)間點(diǎn)子話題關(guān)注度I值的平均值。
(7)提取基于突變系數(shù)的關(guān)鍵子話題 在突變系數(shù)的基礎(chǔ)上,根據(jù)關(guān)鍵子話題的特征,就可以簡(jiǎn)單地給出關(guān)鍵子話題的提取方法,即當(dāng)突變系數(shù)a(x)大于一個(gè)閾值時(shí),視為關(guān)注度突變,則該時(shí)間點(diǎn)子話題為主要關(guān)鍵子話題。該閾值的選擇是基于以下的方法將每個(gè)時(shí)間點(diǎn)x對(duì)應(yīng)的a(x)構(gòu)成一個(gè)時(shí)間序列,計(jì)算該序列的均值y1與方差y2,突變系數(shù)的閾值設(shè)定為y1+y2。閾值的數(shù)值也可根據(jù)提取關(guān)鍵子話題數(shù)量和計(jì)算經(jīng)驗(yàn)確定。
從上述實(shí)施過程可以看出,本發(fā)明采用基于時(shí)間點(diǎn)的時(shí)間引用網(wǎng)絡(luò),并在自定義關(guān)注度及突變系數(shù)的基礎(chǔ)上提取關(guān)鍵子話題。本發(fā)明所提出并采用的基于時(shí)間信息的關(guān)鍵子話題識(shí)別方法能較好地適應(yīng)諸如新聞報(bào)道之類含有時(shí)間信息的文本的關(guān)鍵子話題提取,所提取的子話題具有實(shí)際含義,為關(guān)鍵子話題的計(jì)算機(jī)自動(dòng)分析處理提供了可靠的方法。
具體例子 通過網(wǎng)絡(luò)爬蟲從搜索引擎檢索一個(gè)連續(xù)新聞報(bào)道,具體信息如表2所示 表2數(shù)據(jù)集 新聞報(bào)道中時(shí)間點(diǎn)的描述大部分都是具有一定的格式的,因此通過前述的時(shí)間點(diǎn)提取方法可以提取大部分的時(shí)間點(diǎn),總共得到108個(gè)時(shí)間點(diǎn)。
通過聚類算法得到102個(gè)子話題。根據(jù)各個(gè)子話題中的各個(gè)報(bào)道文檔所包含的時(shí)間上的引用關(guān)系,構(gòu)造時(shí)間引用網(wǎng)絡(luò),并計(jì)算各個(gè)子話題的關(guān)注度及其突變系數(shù),結(jié)果分別見圖2、圖3。按照關(guān)鍵子話題提取的判據(jù),最后得到的關(guān)鍵子話題概括出了劉翔備戰(zhàn)奧運(yùn),奧運(yùn)開幕,腿傷退賽,奧運(yùn)閉幕,和成功手術(shù)等方面,子話題具體的描述見表3所示。
表3主要子話題表
參考文獻(xiàn)徐遠(yuǎn)超,劉江華,劉麗珍,關(guān)永.基于Web的網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn).微計(jì)算機(jī)信息,2007,23(21)119-121D.Pelleg,A.W.Moore.X-meansExtending K-means with Efficient Estimation of the Number of Clusters.In proceedings of 17th International Conference on Machine Learning,727-734,2000.Salton,G..,McGill,M.Introduction to Modern Information Retrieval.New YorkMcGraw-Hill.1983..
權(quán)利要求
1.基于時(shí)間信息的關(guān)鍵子話題提取方法,其特征在于具備具體步驟如下
(1)針對(duì)連續(xù)的跟蹤報(bào)道,從互聯(lián)網(wǎng)上下載相應(yīng)的新聞報(bào)道文本信息記錄,從而構(gòu)成一個(gè)包含時(shí)間信息的事件文本數(shù)據(jù)集;
(2)從新聞報(bào)道文本中提取時(shí)間點(diǎn)
針對(duì)各個(gè)文本記錄,從文本中尋找并提取事件的基本時(shí)間和引用時(shí)間;這里,基本時(shí)間是指新聞報(bào)道該事件的第一時(shí)間點(diǎn),引用時(shí)間是指以基本時(shí)間為參考點(diǎn)的其它位置出現(xiàn)的時(shí)間點(diǎn);時(shí)間的表達(dá)方法分為相對(duì)時(shí)間和絕對(duì)時(shí)間兩種;在時(shí)間點(diǎn)的提取過程中,采用模式匹配的方法獲取絕對(duì)時(shí)間點(diǎn);根據(jù)漢語的習(xí)慣表達(dá)的各種方式獲取相對(duì)時(shí)間點(diǎn),并根據(jù)相對(duì)時(shí)間數(shù)字轉(zhuǎn)換表,將相對(duì)時(shí)間轉(zhuǎn)換為絕對(duì)時(shí)間;
(3)在時(shí)間點(diǎn)提取的基礎(chǔ)上,根據(jù)各個(gè)報(bào)道的絕對(duì)時(shí)間對(duì)文本集中相同基本時(shí)間的文本記錄,采用聚類方法進(jìn)行話題識(shí)別,得到與某個(gè)絕對(duì)時(shí)間對(duì)應(yīng)的子話題描述;根據(jù)不同的基本時(shí)間,得到一系列子話題;
(4)針對(duì)子話題與時(shí)間的對(duì)應(yīng)關(guān)系,包括基本時(shí)間和引用時(shí)間,構(gòu)造各個(gè)事件在不同時(shí)間點(diǎn)上的引用網(wǎng)絡(luò),這是一個(gè)含權(quán)的有向網(wǎng)絡(luò);網(wǎng)絡(luò)節(jié)點(diǎn)表示與某個(gè)時(shí)間相關(guān)聯(lián)的話題,網(wǎng)絡(luò),節(jié)點(diǎn)之間的連接及方向表示引用關(guān)系,網(wǎng)絡(luò)邊的權(quán)重表示引用的數(shù)量;
(5)定義并計(jì)算時(shí)間引用網(wǎng)絡(luò)的節(jié)點(diǎn)關(guān)注度,關(guān)注度的定義是節(jié)點(diǎn)的被引用數(shù);
(6)定義并計(jì)算關(guān)注度突變系數(shù);
(7)根據(jù)突變系數(shù)與閾值的比較,確定關(guān)鍵子話題。
2.如權(quán)利要求1所述的基于時(shí)間信息的關(guān)鍵子話題提取方法,其特征在于所述構(gòu)造子話題的時(shí)間引用網(wǎng)絡(luò),采用有向圖G={E,V}形式,V為圖中節(jié)點(diǎn),對(duì)應(yīng)為所識(shí)別出的各個(gè)時(shí)間點(diǎn)的子話題,E為節(jié)點(diǎn)之間的有向邊,對(duì)應(yīng)為根據(jù)文本中的“引用時(shí)間”確定的引用關(guān)系,邊的權(quán)值為引用數(shù)量。
3.如權(quán)利要求2所述的基于時(shí)間信息的關(guān)鍵子話題提取方法,其特征在于子話題關(guān)注度的計(jì)算公式為
其中IC(x)時(shí)間點(diǎn)x的入度,|D|為新聞報(bào)道總數(shù),D(x)為包含時(shí)間點(diǎn)x的新聞報(bào)道數(shù)。
4.如權(quán)利要求中所述的基于時(shí)間信息的關(guān)鍵子話題提取方法,其特征在于子話題關(guān)注度的突變系數(shù)計(jì)算公式為
其中I(x)為關(guān)注度,∑I(y)/n為時(shí)間點(diǎn)x之前的n個(gè)時(shí)間點(diǎn)子話題關(guān)注度I值的平均值。
5.如權(quán)利要求4所述的基于時(shí)間信息的關(guān)鍵子話題提取方法,其特征在于,在提取關(guān)鍵子話題步驟中,當(dāng)子話題的關(guān)注度突變系數(shù)a(x)大于一個(gè)閾值時(shí),則將該時(shí)間點(diǎn)子話題確定為關(guān)鍵子話題。
全文摘要
本發(fā)明屬于文本分析技術(shù)領(lǐng)域,具體是一種網(wǎng)絡(luò)文本信息分析方法,尤其涉及一種基于時(shí)間信息的關(guān)鍵子話題提取方法。其步驟是,下載文本信息記錄,提取其中的時(shí)間信息,再對(duì)相同時(shí)間點(diǎn)的文本的話題進(jìn)行識(shí)別,然后定義并計(jì)算時(shí)間引用網(wǎng)絡(luò)的節(jié)點(diǎn)關(guān)注度和關(guān)注度突變系數(shù),最后根據(jù)突變系數(shù)與閾值的比較,確定關(guān)鍵子話題。本發(fā)明克服了目前基于關(guān)鍵詞識(shí)別話題的各種方法所存在的問題,為準(zhǔn)確確定關(guān)鍵子話題提供了一種有效的方法,適應(yīng)于各種具有時(shí)間信息的文本集的計(jì)算機(jī)自動(dòng)分析要求。
文檔編號(hào)G06F17/30GK101609445SQ200910054888
公開日2009年12月23日 申請(qǐng)日期2009年7月16日 優(yōu)先權(quán)日2009年7月16日
發(fā)明者吳承榮, 曾劍平, 巍 王 申請(qǐng)人:復(fù)旦大學(xué)