專利名稱:推定裝置、推定方法及程序的制作方法
技術領域:
本發明涉及推定裝置、推定方法及程序,尤其是涉及使用收集的博客的特征詞,來推定廣播博客提及的節目的廣播電臺或其節目的技術。
背景技術:
由于因特網或博客的廣泛普及,極其普通的用戶在自己的博客網站中實時地實況敘述廣播中的電視節目等逐漸流行。尤其是能夠投稿、閱覽140字左右的短評論的這種微博,出于能夠從手機投稿的簡便性,這種節目的實況敘述的利用急速發展。另外,本說明書中的“博客”定義為個人向網站投稿的評論或記事。從這種背景出發,存在通過將用戶當前收聽收看的電視節目的節目信息向用戶展現,而進行與該節目關聯的博客記事或評論的制作支援的發明等(參照專利文獻I)。 另外,作為相反的途徑,也逐漸考慮了根據博客記事的內容來推定實況敘述的是哪個節目的方法。關于這種博客提及的節目的推定,作為使用了字幕文本的方法,列舉有“字幕f 7卜Θ利用J: 3 口夕'' T引用$札t f '番組Θ推定(基于字幕文本的利用的在博客中引用的電視節目的推定)”(參照非專利文獻I)。這是從EPG (ElectricProgram Guide :電子節目向導)或字幕文本中抽取特征詞,與博客內的單詞進行比較,由此來決定電視臺制約、頻道制約,進而根據時態特征詞來抽取時間制約,進行記分,推定博客所提及的節目。在先技術文獻專利文獻專利文獻I日本特開2008-124861號公報非專利文獻非專利文獻I及川孝德外4名,“字幕亍U卜Θ利用(二 J石7' 口夕''T引用 Xltzr V匕'番組Q 推定” [online][平成 23 年 9 月 9 日檢索],因特網〈URL http //db-event. jpn. org/deim2010/proceedings/files/D6-4. pdf> 另一方面,現實的博客主(寫博客的人)不是僅將電視節目進行365天實況敘述,而是將自己的平時的生活的一個片斷或書籍的感想等混雜記載于I個博客網站中。作為這種博客主的行為模式,作為這樣混雜的各個內容的附箋,確立了標注標簽名的方法。例如,分成日常、書籍、電視等類別而標注#dairy、#b00kS、#tv等標簽。而且,對于經常收聽收看的節目,也經常標注固有的標簽。例如,以連續劇A — SrendoraA等的省略語為基準的情況很多。然而,在上述的提案方法中,關于未附帶字幕文本的節目,雖然未從最初開始處理(即使評價也全部除外),但現實情況是一半的節目未附帶字幕文本,不實用。而且,對于收音機等原本不存在字幕文本的廣播而言,難以適用。而且,現實的字幕文本是遵照劇本或廣播邏輯規定的正確的日語。另一方面,用戶邊觀看電視邊向博客輸入時,容易變成使用較多省略語、俗語、標簽的非正式的日語。尤其是演員名或節目名等容易形成為省略語,因此無法得到如愿的推定精度。作為解決這種情況的已知的技術,也考慮了通過制作正確的日語與省略語、俗語、標簽的近義詞詞典來提高推定精度的方法,但對日益出現的未知的單詞的近義詞詞典進行維護會導致高成本。另外,作為博客主的行為模式,標注標簽的情況的確較多,但該標簽并不是廣播電臺指定的標簽,而是自然而然決定的,出現頻率也存在變動,難以與節目信息結合。
發明內容
因此,本發明目的在于不用從EPG或字幕文本抽取特征詞或對近義詞詞典等進行維護,就能夠高精度地推定博客等的社會化媒體所提及的節目。為了實現上述目的,本發明的ー個方式是推定裝置。該裝置包括標簽抽取部,經由網絡收集包括個人向網站寫入的文字列和寫入該文字列的時刻信息在內的博客,抽取在所述博客的文字列中出現的標簽,將所述博客與抽取的標簽建立對應而存儲在標簽出現數 據庫中;暫定廣播電臺推定部,以出現在所述博客的文字列中的特征詞為基礎,推定對在所述博客中提及的節目進行廣播的廣播電臺,將推定到的廣播電臺作為暫定廣播電臺,與所述博客建立對應而存儲在博客數據庫中;廣播電臺確定部,在所述標簽出現數據庫中存儲的博客亦即在規定的時刻范圍內被寫入的博客的文字列中出現的標簽的個數超過了規定的閾值時,參照所述博客數據庫而對文字列中包含所述標簽的博客所提及的節目的暫定廣播電臺進行累計,以累計結果為基礎,確定對所述博客所提及的節目進行廣播的廣播電臺。本發明的另一形態是推定方法。該方法使處理器執行如下步驟經由網絡收集包括個人向網站寫入的文字列和寫入該文字列的時刻信息在內的博客,抽取在所述博客的文字列中出現的標簽,將所述博客與抽取的標簽建立對應而存儲在標簽出現數據庫中的步驟;以出現在所述博客的文字列中的特征詞為基礎,推定對在所述博客中提及的節目進行廣播的廣播電臺,將推定到的廣播電臺作為暫定廣播電臺,與所述博客建立對應而存儲在博客數據庫中的步驟;在所述標簽出現數據庫中存儲的博客亦即在規定的時刻范圍內被寫入的博客的文字列中出現的標簽的個數超過了規定的閾值時,參照所述博客數據庫而對文字列中包含所述標簽的博客所提及的節目的暫定廣播電臺進行累計,以累計結果為基礎,確定對所述博客所提及的節目進行廣播的廣播電臺的步驟。發明效果根據本發明,能夠推定對博客等社會化媒體所提及的節目進行廣播的廣播電臺。
圖I是本發明的實施方式I的推定裝置的框圖。圖2是本發明的實施方式I的流程圖。圖3是本發明的實施方式I的博客DB數據結構的例子(節目推定前)。圖4是本發明的實施方式I的博客DB數據結構的例子(節目推定后)。圖5是本發明的實施方式I的標簽出現DB數據結構的例子。圖6是本發明的實施方式I的標簽節目DB數據結構的例子(節目推定前)。圖7是本發明的實施方式I的標簽節目DB數據結構的例子(節目推定后)。
圖8是本發明的實施方式I的特征詞數據的例子。圖9是本發明的實施方式2的推定裝置的框圖。圖10是本發明的實施方式2的流程圖。
具體實施例方式以下,參照附圖,詳細說明本發明的實施方式。(實施方式I)圖I是本發明的實施方式I的推定裝置的框圖。而且,圖2是本發明的實施方式I的流程圖。
推定裝置100的博客收集部101通過因特網等網絡200來收集博客記事(SI),向 圖3所示的博客DB (DataBase ;數據庫)102登記投稿固有ID、正文、投稿時刻(S2)。另外,在該時刻,由于后述的暫定廣播電臺或確定廣播電臺、節目信息(標題、廣播電臺名、節目詳細等)不明,因此保持為空的狀態。另外,本說明書中的“博客”以個人向網站投稿(寫入)I次的評論或記事為I個單位,包含構成該投稿的評論或記事的文章信息(文字列)和投稿該評論或記事的時刻信息。在此,投稿固有ID是各個博客記事特有的ID(IDentification)。在本發明中,并不特別限定投稿固有ID的格式。而且,關于收集博客記事的博客網站也并未特別限定。接下來,標簽抽取部103從博客的正文抽取任意標簽(S3)。在本實施例中,將如toendoraA這種從“#”開始的字母數字作為標簽提取,但關于該標簽的格式,在本發明中并未特別限定,按照預先決定的規則,能夠機械性地自動抽取,只要是博客固有的格式(由HTML標簽中的特定的格式包圍的文本等)或按照用戶的行為模式的格式即可,可以為任何格式。接下來,標簽抽取部103將抽取的標簽與博客的投稿固有ID及投稿時刻建立對應而登記在標簽出現DB104中(S4)。標簽出現DB104具有圖5所示的數據結構。另外,在圖5中,示出了推定后述的暫定的廣播電臺名時使用的特征詞數據除外的例子。此外,標簽抽取部103判斷抽取的標簽是否為還未登記到表示標簽與從該標簽推定出的節目信息建立了關聯的標簽節目DB 105中的新的標簽(S5),若為新的標簽,則登記到標簽節目DB105中(S6)。標簽節目DB105具有圖6所示的數據結構。另外,在該時刻下,由于確定時刻(決定了標簽與節目信息建立關聯的時刻)、節目信息及后述的確定廣播電臺不明,因此為空。另ー方面,暫定廣播電臺推定部106根據博客收集部101收集到的博客的正文來推定暫定的廣播電臺(S7),并將推定到的暫定廣播電臺暫時保存在博客DB102中(S8)。在本發明的實施方式中,在該暫定廣播電臺的推定中使用圖8例示的按照每個廣播電臺預先準備的特征詞數據。該特征詞數據是博客正文中出現的用詞,未必限定為上述的標簽。在特征詞數據中預定了優先度得分。例如,在圖3的投稿固有ID=06565406541中,由于僅與博客正文的“B電視臺”這樣的文字列進行匹配,因此將“廣播電臺B”推定為暫定廣播電臺。該方法無需現有技術那樣對EPG或字幕文本進行詞素解析而抽取特征詞,從而能夠大幅度抑制推定花費的計算成本。為了提高推定暫定廣播電臺的精度,也可以如圖8所示那樣按照每個特征詞數據來進行優先度的打分,暫時保持于博客DB102的暫定廣播電臺,在一個博客正文與多個廣播電臺的特征詞數據匹配時(例如“快觀看廣播電臺A的衛星廣播”這樣的博客正文與廣播電臺A和廣播電臺A的衛星廣播這兩者匹配),按照每個廣播電臺進行合計,將暫定總得分最高的廣播電臺推定為暫定廣播電臺。該優先度得分也與特征詞同樣地是預定的值,是面向各廣播電臺一次設定的靜態數據。匹配的暫定總得分暫時保存于博客DB102的規定的欄。該階段的暫定廣播電臺只不過是暫定的廣播電臺,匹配的暫定廣播電臺也可以為多個,或者也可以是ー個也未匹配而暫定廣播電臺不明。例如,在圖3的投稿固有ID=06565406567中,由于無法從博客正文推定廣播電臺,因此對應的暫定廣播電臺的欄保持為「?(不明)」的狀態。接下來,如圖5所示,廣播電臺確定部107定期地通過預定的規定的時刻范圍Ra(例如10分鐘前 當前時刻等)來劃分標簽出現DB 104,在該時刻范圍Ra內,判斷任意的標簽T是否出現預定的閾值P次(例如50次等)以上(S9),在標簽T出現P次以上時,通 過后述的方法來確定廣播電臺。在此,規定的時刻范圍Ra是指求出標簽與廣播電臺的對應關系時作為基準的廣播電臺推定基準時刻范圍。而且,閾值P是為了決定標簽與廣播電臺是否建立對應而參照的廣播電臺決定基準值。另外,在本實施例中,為了簡化說明,說明將上述規定的時刻范圍固定為10分鐘的例子,但也可以定期地監視時刻,根據當前廣播中的節目信息,抽取節目的開始時刻和結束時刻,在當前時刻與結束時刻重合的時刻,決定時刻范圍Ra,由此使時刻范圍可變。在此,在當前時刻22 :05下,在圖5所示的規定的時刻范圍Ra (21:55:00 - 22:05 :00)的區間內,#progl這ー標簽T出現了 P次以上。廣播電臺確定部107以記錄在標簽出現DB104中的投稿固有ID為基礎從博客DB102取得包含#progl這ー標簽的最早的投稿時刻(20 50 22)到最晚的投稿時刻(22 02 :20)為止的時刻范圍Rb內的博客ー覽表Lb (S 10)。廣播電臺確定部107接下來從該博客ー覽表Lb累計暫定廣播電臺的出現次數而制作排名,將出現次數最多的暫定廣播電臺確定為#progl所示的確定廣播電臺(SII)。另外,在本實施例中,博客DB102存儲博客收集部101收集到的過去I周期間的博客,此前的博客刪除。而且,為了簡化說明,將包含標簽T的最早的投稿時刻直接采用在時刻范圍Rb內,但也可以添加最早的時刻與最晚的投稿時刻為相同的日期和時間這樣的限制,來應對同一節目在不同的地方臺錯開日期和時間廣播這樣的節目編排。以下表示更多的例子。例如,在時刻范圍Rb (20 50 22 -22 05 00)的區間內存在整體包含305件的標簽T的投稿,每個暫定廣播電臺的累計結果為第I位廣播電臺A=296件(總得分485. 0)第2位廣播電臺E=6件(總得分8. 5)第3位廣播電臺F=I件(總得分2. 0) 不明=2件(不明率0. 7%)時,將“廣播電臺A”作為確定廣播電臺。通過該方法,能夠抑制從ー個個博客記事推定的暫定廣播電臺的變動或誤差,能夠格外地提高推定精度。另外,在本實施例中,為了簡化說明而必須確定廣播電臺,但為了進ー步提高精度,也可以統計性地判定暫定廣播電臺的分布,在與放棄條件一致(在此,放棄條件例如是指在第I位和第2位的總計優先度得分幾乎沒有差別的情況、不明率相對于整體的投稿件數顯著増大(例如不明率為30%以上等)的情況)時,判斷標簽T不是表示特定的廣播電臺或節目信息的標簽,不用于節目信息的推定。若通過上述的方法將確定廣播電臺確定,則接下來節目推定部108從節目信息DB109取得與所述時刻范圍Rb對應的確定廣播電臺的全部的節目候補(S12)。在此,節目信息DB109是至少存儲廣播電臺名、廣播時間、標題、節目詳細等的信息的數據庫,但關于這些信息的取得部,在本發明中并未特別限定。可以是經由網絡取得的信息,也可以是從廣播電波中包含的電子節目數據取得的信息,還可以是通過其他的方法取得的信息。在前面的例子中,作為與所述時刻范圍Rb (20 50 :22_22 05 00)對應的廣播電臺A的節目候補,能得到20 45-21 :00廣播的“節目5”、21 :00-22 :00廣播的“節目6”、22 00-22 45廣播的“節目I”這3個節目。此外,當以所述博客ー覽表Lb的投稿時刻為基礎,累計各個節目廣播時間中的投 稿件數時,根據用戶實時地實況敘述節目這樣的行為模式,如下所示,關于特定的節目的投稿件數變得非常大。“廣播電臺名廣播電臺A標題節目5廣播時間2045-21 00所述博客ー覽表Lb中的投稿件數I件”,“廣播電臺名廣播電臺A標題節目6廣播時間2100-22 00所述博客ー覽表Lb中的投稿件數5件”,“廣播電臺名廣播電臺A標題節目I廣播時間2200-22 45所述博客ー覽表Lb中的投稿件數299件”。根據該結果,節目推定部108將所述博客ー覽表Lb中的投稿件數最多的“節目I”推定作為標簽#progl所示的對應節目(S13)。在此,通過抑制與多個節目關聯的博客的變動或誤差,來提高推定精度。在能夠推定標簽T所示的節目的時刻,節目推定部108將從節目信息DB109取得的與“節目I”相關的信息登記在標簽節目DB105中作為節目信息,登記當前時刻的22 05作為確定時刻,從而完成標簽T與節目信息的關聯(S14)。最后,節目信息改寫部110關于所述博客ー覽表Lb中的節目信息為空的情況,以推定的節目信息為基礎,而改寫博客DB102的節目信息及確定廣播電臺(S15)。由此,在S7階段中的不明的節目信息或錯誤推定的確定廣播電臺也成為正確的信息。例如,圖3所示的投稿固有ID=06565406567無法由博客正文推定暫定廣播電臺,但通過所述方法,如圖4所示能確定廣播電臺。而且,圖4及圖7同樣地表示確定了節目信息的狀態。
圖4的投稿固有ID=06565406542雖然含有#dairy這樣的標簽,但無法得到該標簽與特定的節目建立了關聯的結果,因此能夠判別為不是引用節目的博客。如以上所述,根據實施方式1,能夠得到不用從EPG或字幕文本抽取特征詞或維護近義詞詞典等,就能夠高精度地推定博客等的社會化媒體所提及的節目這樣的效果。(實施方式2)圖9是本發明的實施方式2的推定裝置的框圖。而且,圖10是本發明的實施方式2的流程圖。成為在實施方式I的推定裝置100添加了節目信息設定部111的框圖結構。在圖10的流程圖中,從步驟SI到步驟S4、及從步驟S6 到步驟S15與實施例I同樣,因此省略說明。標簽抽取部103判斷是否為還未登記到表示標簽與由該標簽推定出的節目信息建立了關聯的標簽節目DB105中的新的標簽(S5),若為新的標簽,則登記到標簽節目DB105中(S6)。在是已經登記到標簽節目DB105中的標簽時,節目信息設定部111判斷是否為與該標簽建立關聯的節目信息(S16),在為節目信息時,判斷博客的投稿時刻是否為標簽節目DB105中的確定時刻+閾值Y以內(S17),若為范圍內則推定為標簽表示同一節目信息,對博客DB102的節目信息及廣播電臺一覽表進行改寫(S18)。在此,閾值Y是求出標簽與節目信息的對應關系時作為基準的節目推定基準時刻范圍。例如,在預定的閾值Y =2小時的情況下,在圖3所示的投稿固有ID=06565406721中,雖然根據博客正文與特征詞數據的匹配無法得到暫定廣播電臺,但由于包含標簽#progl,且投稿時刻22 43 20處于標簽#progl的確定時刻22 05 :00+閾值y (2小時)以內,因此通過節目信息設定部111,直接推定為“節目I”。其結果是,如圖4所示,設定了投稿固有ID=06565406721的節目信息及廣播電臺。確定時刻+閾值Y的限制是在同一節目由不同的廣播電臺在不同的時間廣播時,用于不強制早的關聯的節目信息的限制。例如,廣播電臺F和廣播電臺G有時將同一節目在不同的時間段進行廣播。然而,由于廣播電臺名不同,因此節目信息并不完全一致。此時,相對于后廣播的節目,為了與新的節目信息建立關聯而需要這種限制。如此,閾值Y的值只要考慮各臺廣播的節目信息而通過實驗決定即可。另外,出于同樣的考慮,也可以定期地確認標簽節目DB105,刪除確定時刻為當前時刻-閾值Y以前的標簽,由此將標簽與節目信息的關聯更新為新的關聯。如以上所述,根據實施方式2,設定與節目關聯的標簽T,但能夠得到推定從已知的特征詞表無法推定暫定的廣播電臺的博客文本(即,以往未被活用而被舍棄的博客文本)的節目的效果。以上,以實施方式為基礎說明了本發明。實施方式是例示,上述各結構要素或各處理過程的組合存在各種變形例,而且這樣的變形例也屬于本發明的范圍這一點對于本領域技術人員來說是不言自明的。(變形例I)在上述的說明中,說明了廣播電臺確定部107以記錄在標簽出現DB104中的投稿固有ID為基礎,從博客DB102取得與特定的標簽相關的博客ー覽表Lb,從取得的博客ー覽表Lb累計暫定廣播電臺的出現次數而制作排名,將出現次數最多的暫定廣播電臺確定為該標簽表示的確定廣播電臺的情況。基于廣播電臺確定部107的標簽與廣播電臺的對應的建立方法并不限定為基于出現次數的最大值的方法。廣播電臺確定部107在求出確定廣播電臺時,不僅將出現于博客ー覽表Lb的暫定廣播電臺的出現次數進行累計,也可以對該累計結果進ー步解析來求出確定廣播電臺。以下,說明基于廣播電臺確定部107的標簽與廣播電臺建立對應的另一例。廣播電臺確定部107首先算出從博客ー覽表Lb推定的各暫定廣播電臺的個數的時序變化。時序變化例如通過以時刻為橫軸且以在各時刻從投稿的博客推定的暫定廣播電臺的個數為縱軸的圖表來表現。接下來,廣播電臺確定部107將算出的時序變化的時間微分算出,將具有微分值的極大值最大的圖表的暫定廣播電臺作為與該標簽對應的廣播電臺。如此求出時序變化的微分值的情況相當于評價博客中的瞬間的氣氛熱烈。由此,能夠將某節目的開始時刻或節目中的受歡迎專題的放映過程中等與節目的進展狀況對應的氣氛熱烈的變化反映在該廣播電臺的決定中。(變形例2)在上述的說明中,說明了節目推定部108將博客ー覽表Lb中的投稿件數最多的“節目”推定為標簽表示的對應節目的情況。節目推定部108將標簽與節目建立對應的方法并不限定為基于投稿件數的最大值的方法。以下,說明節目推定部108將標簽與節目建立對應的另一例。節目推定部108也可以對博客ー覽表Lb中的投稿的節目的個數進行累計,以將該個數以節目的廣播時間進行了規格化的規格化節目數為基礎,將標簽與節目建立對應。更具體而言,節目推定部108將累計的節目的個數除以該節目的廣播時間,求出每單位廣播時間的節目數。考慮到通常廣播時間長的節目與廣播時間短的節目相比,向博客投稿的個數增加。例如,考慮到在廣播時間為10分鐘的節目之后將廣播時間為3小時的節目進行廣播時,向博客投稿的個數的總和為廣播時間為3小時的節目較多。因此,節目推定部108以每單位廣播時間的節目數為基礎,將標簽與節目建立對應,由此能夠減少廣播時間導致的投稿數的不同,而提高節目推定精度。標號說明100推定裝置,101博客收集部,102博客DB,103標簽抽取部,104標簽出現DB,105標簽節目DB,106暫定廣播電臺推定部,107廣播電臺確定部,108節目推定部,109節目信息DB,110節目信息改寫部,111節目信息設定部,200網絡。エ業實用性本發明涉及推定裝置、推定方法以及程序,尤其能夠用于使用收集的博客的特征詞來推定廣播博客所提及的節目的廣播電臺或其節目的技木。
權利要求
1.一種推定裝置,其特征在于,包括 標簽抽取部,經由網絡收集包括個人向網站寫入的文字列和寫入該文字列的時刻信息在內的博客,抽取在所述博客的文字列中出現的標簽,將所述博客與抽取的標簽建立對應而存儲在標簽出現數據庫中; 暫定廣播電臺推定部,以出現在所述博客的文字列中的特征詞為基礎,推定對在所述博客中提及的節目進行廣播的廣播電臺,將推定到的廣播電臺作為暫定廣播電臺,與所述博客建立對應而存儲在博客數據庫中;以及 廣播電臺確定部,在所述標簽出現數據庫中存儲的博客亦即在規定的時刻范圍內被寫入的博客的文字列中出現的標簽的個數超過了規定的閾值時,參照所述博客數據庫而對文字列中包含所述標簽的博客所提及的節目的暫定廣播電臺進行累計,以累計結果為基礎,確定對所述博客所提及的節目進行廣播的廣播電臺。
2.根據權利要求I所述的推定裝置,其特征在于, 還包括節目推定部,參照存儲有各廣播電臺廣播的節目的廣播時間段的節目信息數據庫,在所述廣播電臺確定部確定的廣播電臺廣播的節目中,以在所述節目的廣播時間段中被寫入的所述博客的文字列中出現的所述標簽的個數為基礎,推定所述標簽所示的節目,將所述標簽與推定出的節目建立對應而存儲在標簽節目數據庫中。
3.根據權利要求2所述的推定裝置,其特征在于, 還包括節目信息改寫部,該節目信息改寫部將存儲在所述標簽出現數據庫中的博客亦即在規定的時刻范圍內被寫入的博客中的、包含所述節目推定部推定了節目的標簽的博客與所述節目及所述廣播電臺確定部確定了的廣播電臺建立對應,存儲在所述博客數據庫中。
4.根據權利要求2或3所述的推定裝置,其特征在于, 還包括節目信息設定部,該節目信息設定部在經由網絡收集到的博客的文字列中包含所述節目推定部與節目建立了對應的標簽時,以所述博客被寫入的時刻處于標簽的規定的時刻范圍的情況為條件,將與所述標簽建立了對應的節目及廣播所述節目的廣播電臺與所述博客建立對應,存儲在所述博客數據庫中。
5.一種推定方法,其特征在于,使處理器執行如下步驟 經由網絡收集包括個人向網站寫入的文字列和寫入該文字列的時刻信息在內的博客,抽取在所述博客的文字列中出現的標簽,將所述博客與抽取的標簽建立對應而存儲在標簽出現數據庫中的步驟; 以出現在所述博客的文字列中的特征詞為基礎,推定對在所述博客中提及的節目進行廣播的廣播電臺,將推定到的廣播電臺作為暫定廣播電臺,與所述博客建立對應而存儲在博客數據庫中的步驟;以及 在所述標簽出現數據庫中存儲的博客亦即在規定的時刻范圍內被寫入的博客的文字列中出現的標簽的個數超過了規定的閾值時,參照所述博客數據庫而對文字列中包含所述標簽的博客所提及的節目的暫定廣播電臺進行累計,以累計結果為基礎,確定對所述博客所提及的節目進行廣播的廣播電臺的步驟。
6.一種程序,其特征在于,使計算機實現如下功能 經由網絡收集包括個人向網站寫入的文字列和寫入該文字列的時刻信息在內的博客,抽取在所述博客的文字列中出現的標簽,將所述博客與抽取的標簽建立對應而存儲在標簽出現數據庫中的功能; 以出現在所述博客的文字列中的特征詞為基礎,推定對在所述博客中提及的節目進行廣播的廣播電臺,將推定到的廣播電臺作為暫定廣播電臺,與所述博客建立對應而存儲在博客數據庫中的功能;以及 在所述標簽出現數據庫中存儲的博客亦即在規定的時刻范圍內被寫入的博客的文字列中出現的標簽的個數超過了規定的閾值時,參照所述博客數據庫而對文字列中包含所述標簽的博客所提及的節目的暫定廣播電臺進行累計,以累計結果為基礎,確定對所述博客所提及的節目進行廣播的廣播電臺的功能。
全文摘要
標簽抽取部(103)經由網絡收集包括文字列和寫入該文字列的時刻信息在內的博客,抽取在該文字列中出現的標簽,將博客與抽取的標簽建立對應而存儲在標簽出現數據庫(104)中。暫定廣播電臺推定部(106)以出現在博客的文字列中的特征詞為基礎,推定對在博客中提及的節目進行廣播的廣播電臺,作為暫定廣播電臺,與博客建立對應而存儲在博客數據庫(102)中。廣播電臺確定部(107)在標簽出現數據庫(104)中存儲的、在規定的時刻范圍內被寫入的博客的文字列中出現的標簽的個數超過了規定的閾值時,參照博客數據庫(102)而對文字列中包含標簽的博客所提及的節目的暫定廣播電臺進行累計,確定對該節目進行廣播的廣播電臺。
文檔編號G06F13/00GK102822821SQ20118001583
公開日2012年12月12日 申請日期2011年10月13日 優先權日2010年11月24日
發明者吉田健二, 藤井毅也 申請人:Jvc建伍株式會社