本發明涉及技術新聞數據內容特征提取領域,具體地,涉及新聞數據內容特征獲取系統及應用系統。
背景技術:
隨著融合媒體時代的到來,廣播電視事業也在朝著數字化、網絡化、智能化方向不斷發展,新聞媒體的生產模式和內容的表現形式也變得多種多樣。新聞節目采編、制作、播出等環節對節目資料的檢索查詢和再利用的需求越來越高,傳統新聞的組織管理模式已無法適應目前的信息增長速度,媒資管理系統的信息維護也變得更加困難,系統的可擴展能力差已成為是傳統新聞節目丞待解決的問題。同時,傳統的電視臺新聞節目受到了互聯網各大新聞門戶網站的沖激,觀眾流失現象嚴重,使收視率及政府的輿論引導都相應受到一定的影響,傳統新聞的組織模式已不適應多樣化的新聞閱讀形式和個性化的閱讀推薦。互聯網新聞媒體受到越來越多的關注,逐漸成為用戶獲取新聞的主要方式,但大部分門戶新聞網站也缺乏統一的新聞存儲管理標準,資訊內容大爆炸引來的信息過載問題越來越嚴重。
新聞內容的數據蘊含著大量的信息,既包括新聞生產制作過程的采編播信息,又涉及傳播過程的用戶行為反饋信息,有效利用新聞大數據,通過對新聞內容數據的全面分析,對傳統新聞與互聯網新聞實現高效生產、有效管理、資源共享及精準傳播等都有著十分重要的意義和作用。
技術實現要素:
本發明的目的在于,針對上述問題,提出一種新聞數據內容特征獲取系統及包括該系統的應用系統,幫助采編工作者全面獲取素材并且敏銳地捕捉到新聞熱點與焦點,提高電視臺與網站的管理效率,幫助政府準確把握百姓輿情、有效傳播國家政策的主導思想,分析和提升新聞的推薦準確性,解決信息過載問題
為實現上述目的,本發明采用的技術方案是:一種新聞數據內容特征獲取系統,主要包括:
標簽管理系統和媒資管理管理系統通過網絡接口連接,所述標簽管理系統包括數據獲取模塊和標簽提取模塊,所述數據獲取模塊獲取電影內容信息,所述標簽提取模塊新聞視頻、音頻和文本標簽,而后進行中文分詞,標簽清洗,最后標簽入庫,得到標簽庫;
所述提取新聞標簽具體為,首先將電影內容數據按照電視新聞節目內容和互聯網新聞節目內容進行類別劃分;而后按照各類別進行級別劃分,對級別劃分的數據內容進行詳細的數據采集,形成數據采集標簽;
所述電視新聞節目內容包括節目基本信息、節目制作信息和節目類型信息三個級別,所述互聯網新聞節目內容包括互聯網新聞基本信息、互聯網新聞題材信息、互聯網用戶信息和互聯網用戶來源信息四個級別。
進一步地,電視新聞節目中的節目基本信息用于對新聞節目進行全面客觀分析,了解新聞節目的市場情況與發展狀況,發掘熱點話題;
按照節目基本信息數據進行詳細的數據采集,具體包括采集節目名稱信息、節目曾用名、播出頻道信息、節目類型信息、節目題材信息、節目摘要信息、節目關鍵詞信息、節目內容、節目圖片、節目視頻、節目視頻、節目時長、節目播出時間、節目頻次、節目收視率、節目在線播放平臺、節目彈幕、用戶評論信息、合作伙伴信息、鳴謝信息、特別鳴謝信息、播出狀態信息、發行時間信息和獲獎記錄信息,最終形成相應的數據采集標簽。
進一步地,所述節目制作信息給新聞節目的策劃、制作和播出提供指導數據;
按照節目制作信息數據進行詳細數據采集,具體包括采編組信息、編輯組信息、播音組信息、嘉賓組信息、制片組信息、導播組信息、燈光組信息、服裝造型組信息、后期制作組信息、聲音制作組信息和策劃監制組信息;
對采編組信息的采集包括采集節目通訊員信息、特約撰稿人、文字記者、出鏡記者、攝像記者、攝影記者和錄音記者數據信息形成7個數據信息采集標簽;
對編輯組信息的采集包括采集主編、執行主編、選題編輯、策劃編輯、約稿編輯和責任編輯數據信息,形成6個數據采集標簽。
對播音組信息的采集包括采集固定主持、代班主持、外景主持、解說播音員數據信息,形成4個數據采集標簽;
對嘉賓組信息的采集包括采集現場邀請嘉賓、電話連續嘉賓、外景采訪嘉賓數據信息,形成相應數據采集標簽;
對制片組信息的采集包括采集總制片、制片、執行制片數據信息,形成相應的數據采集標簽;
對導播組信息的采集包括采集編輯部導播、制作部導播、導播助理數據信息,形成相應地數據采集標簽;
對燈光組信息的采集包括采集燈光指導、燈光師、燈光助理、燈光編程和燈光維修員數據信息,形成相應地數據采集標簽;
對服裝造型組信息的采集包括采集化妝師、化妝助理、造型師和服裝師數據信息,形成相應地數據采集標簽;
對后期制作組信息的采集包括采集后期剪輯、美術編輯、美工、動畫特效、視覺包裝、字幕制作和技術審定數據信息,并形成相應的數據采集標簽;
對聲音制作組信息的采集包括采集錄音師、錄音指導、錄音助理、音頻編輯、同期聲處理、配音指導、背景音樂制作數據信息,形成相應的數據采集標簽;
對策劃監制組信息的采集包括采集總策劃、策劃、聯合策劃、總監制、監制、執行監制、監制助理、聯合監制和行政監制數據信息,形成對應的數據采集標簽。
進一步地,通過節目類型信息深入了解各類新聞節目之間的聯系與區別,為新聞節目的策劃服務;
按照節目類型信息數據進行詳細的數據采集,包括采集新聞資訊類數據、專題報道類數據、連續報道類數據、新聞評論類數據、訪談類數據、脫口秀類數據和國際新聞類數據;
所述采集專題報道類數據具體包括,采集調查式專題數據信息、專訪式專題數據信息、綜述式專題數據信息和深度專題數據信息,最終形成相應的數據采集標簽;
所述采集連續報道類數據具體包括,采集重大事件連續報道數據信息和系列報道數據信息,最終形成相應的數據采集標簽;
所述采集新聞評論類數據信息具體包括,采集新聞述評數據信息、電視辯論信息、深度分析信息和主持人評論信息,最終形成相應的數據采集標簽;
所述采集訪談類數據信息具體包括,采集人物專訪信息和談話節目信息,最終形成相應的數據采集標簽,最終形成相應的數據采集標簽;
所述采集國際新聞類數據信息具體包括,采集國際新聞節目信息和對外新聞節目信息,最終形成相應的數據采集標簽。
進一步地,通過對新聞基本信息數據的分析,建立資源之間的關聯,生成新聞話題;
對互聯網新聞基本信息進行采集,具體包括采集,時間、標題、來源網站、被轉載量、題材、內容提要、關鍵字、新聞內容、背景鏈接、相關新聞或延伸閱讀信息、采編記者信息、攝影記者信息、主編信息、文字編輯信息、圖表編輯信息、管理編輯信息、責任編輯信息、圖片、視頻、瀏覽量、點贊數、轉發量、評論量和新聞評論數據信息,最終形成相應的數據采集標簽。
進一步地,通過將互聯網新聞題材信息與新聞基本信息相關聯,為網絡新聞資源的管理、索引及推薦提供幫助;
所述對互聯網新聞題材信息的采集包括,采集政治題材信息、軍事題材信息、經濟、法制、社會民主、體育、娛樂、農業、科技、教育、安全、醫療衛生、健康、旅游、文化藝術和歷史地理題材信息,形成相應的數據采集標簽。
進一步地,通過采集互聯網用戶數據,分析用戶的行為,挖掘用戶需求以及用戶與資源之間的關聯,實現個性化推薦;
對互聯網用戶信息采集包括用戶名、用戶來源、用戶性別、用戶年齡、用戶職業、用戶所在地區、用戶學歷、用戶偏好、關注量、粉絲量、在線時長、瀏覽記錄和發表言論信息;
通過采集互聯網用戶來源信息以用戶為紐帶,實現互聯網知識共享,同時綜合了解網絡用戶在各大網站的分布情況,分析網絡新聞門戶網站的發展;
對互聯網用戶來源信息包括各個新聞門戶網站信息。
基于所述獲取系統的應用系統,還包括后臺管理模塊和新聞數據內容標簽分析應用模塊,所述后臺管理模塊對用戶、消息、內容和標簽進行管理;所述新聞數據內容標簽分析應用模塊包括新聞素材篩選模塊、新聞編排模塊、新聞播出形式模塊、新聞花絮生成模塊和輿情分析模塊;
所述新聞素材分篩選模塊,對搜集的大量新聞素材進行初步篩選,對具體事實有宏觀觀照,在全局形勢下做出準確判斷;同時,以數據分析內容,用數據采集標簽準確定位,挖掘新聞選題搶占獨家報道或尋找新聞佐證以拓展報道深度;發揮庫存資料的作用,編輯配發背景新聞,增加報道深度;
所述新聞編排模塊,將體現同一主題的相關新聞集合編排,豐富新聞的信息量,使內容更加飽滿,主題更加深化;同時,從新聞主題出發,貼近當地生活,編排能夠凸顯地域風情和文化內涵的新聞內容,發揮“異質”的競爭優勢;
所述播出形式模塊包括滾動式播出模塊和多重播式播出模塊,具體為,所述播出形式模塊以大數據分析用戶收視習慣的服務,調整新聞播出形式;同時為滿足不同收視習慣的用戶需求,達到新聞傳播宣傳的最大化效果,實行滾動式多次播放的方式;對于突發事件和持續追蹤事件,重播時滾動編排記者采回來的和互聯網最新發布的最新消息,及時插入播出;
所述花絮生成模塊,對每日的節目內容進行分時段收視分析,提取收視高峰時段的內容標簽,生成摘要,花絮;
所述用戶輿情分析模塊,對節目播后的用戶評論反饋,進行情感標簽分析,評論熱點分析,了解民眾需求;挖掘預測輿論的熱點話題,對百姓關心的標識性熱點事件進行深度報道,為老百姓釋疑解惑。
一種標簽庫,將新聞數據采集標簽內容進行存儲,具體包括,
新聞內數據分類表,對各級分類名進行存儲,并以分類id作為主鍵;
新聞節目基本信息表,存儲節目基本信息,并以節目id作為主鍵;
互聯網新聞信息表,存儲互聯網新聞基本信息,并以新聞id作為主鍵;
新聞節目類型信息表,存儲節目類型信息,并以類型id作為主鍵;
新聞題材信息表,存儲新聞題材信息,并以題材id作為主鍵
互聯網用戶基本信息表,存儲用戶信息,并以用戶id作為主鍵
互聯網用戶來源信息表,存儲用戶來源門戶網站信息,以網站id作為主鍵。
本發明,通過對新聞數據內容特征的定義和獲取,幫助新聞工作者全面獲取素材并且敏銳地捕捉到新聞熱點與焦點,提高電視臺與網站的生產效率與管理效率,提升對用戶的推薦準確率,解決信息過載問題,幫助政府準確把握百姓輿情、有效傳播國家政策的主導思想。
同時。本發明是一個新聞數據內容特征獲取及應用系統,將新聞數據分為電視新聞節目和互聯網門戶網站新聞信息兩大類,共分為7個級別,包括新聞節目基本信息、節目制作信息、節目類型信息、互聯網新聞基本信息、新聞題材信息、互聯網用戶信息、用戶來源門戶網站信息,共涉及采集指標200余個。為實現新聞內容數據的存儲和分析,設計了適用于新聞數據錄入和存儲的數據庫結構,開發應用系統實現對新聞數據的存儲和應用。
本發明的其它特征和優點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發明而了解。
下面通過附圖和實施例,對本發明的技術方案做進一步的詳細描述。
附圖說明
附圖用來提供對本發明的進一步理解,并且構成說明書的一部分,與本發明的實施例一起用于解釋本發明,并不構成對本發明的限制。在附圖中:
圖1是本發明的新聞內容數據分類方法圖;
圖2是本發明的新聞節目基本信息內容特征圖;
圖3是本發明的新聞節目制作信息內容特征圖;
圖4是本發明的新聞節目類型信息內容特征圖;
圖5是本發明的互聯網新聞基本信息內容特征圖;
圖6是本發明的新聞題材信息內容特征圖;
圖7是本發明的用戶基本信息內容特征圖;
圖8是本發明的網絡用戶來源網站信息內容特征圖;
圖9是本發明的新聞節目基本信息e-r圖;
圖10是本發明的互聯網新聞基本信息e-r圖;
圖11是本發明的用戶基本信息e-r圖;
圖12是本發明的新聞內容數據分類表;
圖13是本發明的新聞節目基本信息表;
圖14是本發明的互聯網新聞基本信息表;
圖15是本發明的新聞節目類型信息表;
圖16是本發明的新聞題材信息表;
圖17是本發明的用戶基本信息表;
圖18是本發明的用戶來源信息表;
圖19是本發明新聞數據內容特征獲取及應用系統整體架構圖;
圖20是本發明的系統實際應用流程圖;
具體實施方式
以下結合附圖對本發明的優選實施例進行說明,應當理解,此處所描述的優選實施例僅用于說明和解釋本發明,并不用于限定本發明。
本發明是一個新聞數據內容特征獲取及應用系統,將新聞數據分為電視新聞節目和互聯網門戶網站新聞信息兩大類,共分為7個級別,包括新聞節目基本信息、節目制作信息、節目類型信息、互聯網新聞基本信息、新聞題材信息、互聯網用戶信息、用戶來源門戶網站信息,共涉及采集指標200余個。為實現新聞內容數據的存儲和分析,設計了適用于新聞數據錄入和存儲的數據庫結構,開發應用系統實現對新聞數據的存儲和應用。
本發明是一個新聞數據內容特征獲取及應用系統。形成統一的數據存儲標準,實現新聞數據的內容特征獲取及應用,分別提供面向廣播電視、互聯網、移動網絡客戶端的跨平臺、跨媒體的開放數據接口,使其嵌入到相應的媒資管理系統中得以應用,實現新聞的存儲、管理、生產、傳播。將新聞數據按照電視新聞節目與互聯網新聞分為兩大類別,共7個組別,包括新聞節目基本信息、節目制作信息、節目類型信息、互聯網新聞基本信息、新聞題材信息、互聯網用戶信息、用戶來源門戶網站信息,共涉及采集指標200余個。針對新聞數據內容的研究,采用人工和自動爬取相結合的方式,主要采集各大電視臺的典型新聞節目及各大新聞門戶網站的新聞信息。目前已人工錄入2016年度湖南新聞聯播內容數據及自動爬取新浪、搜狐、網易、中國新聞網、央視網、千龍網、新華網、人民網等十余個主要門戶網站的近500條新聞數據的提取和分析。對幫助提高新聞生產效率,提升新聞質量、實現新聞有效管理、推薦,有助政府掌控和引導社會輿情等都有著至關重要的作用。
新聞數據內容特征的獲取可以幫助采編工作者全面獲取素材并且敏銳地捕捉到新聞熱點與焦點,提高電視臺與網站的管理效率,幫助政府準確把握百姓輿情、有效傳播國家政策的主導思想,分析和提升新聞的推薦準確性,解決信息過載問題。為了全面的描述新聞的內容特征,其特征是:將數據分為兩大類別,共分為七個級別,每個級別下細分新聞數據組別,定義和統計的指標共有200余個。
實現新聞數據的存儲和分析,設計了適用于新聞數據指標錄入和存儲的數據庫結構,并依據數據庫搭建應用系統。
一、新聞數據內容特征獲取
結合附圖1的新聞數據分類方法圖,對采集的新聞內容數據具體介紹如下:
1.電視新聞節目類
(1)節目基本信息
新聞節目基本信息包括節目類型、節目內容、節目時長、節目收視率等近20個指標,其中數據定義的具體信息如圖2所示。通過新聞基本信息的獲取,可以對新聞節目進行全面客觀分析,了解新聞節目的市場情況與發展狀況,發掘熱點話題。
(2)節目制作信息
對新聞節目制作流程中的各個環節信息進行獲取和分析,從節目制作端出發,將新聞節目按生產流程分為11個組別,包括采編、編輯、播音、嘉賓、制片、導播、燈光、服裝造型、后期制作、聲音制作、策劃監制,近60個指標,如圖3所示。可以對一檔新聞節目的策劃、制作、播出提供技術性指導。
(3)節目類型信息
節目類型信息包括新聞資訊類、專題報道類、連續報道類、新聞評論類、訪談類、脫口秀7大類型,近15個細化類型,具體如圖4所示。對不同的新聞節目細化,將其與具體的節目信息將關聯,有助于深入了解各類新聞節目之間的聯系與區別,可以為新聞節目的策劃服務。
2.互聯網新聞類
(1)新聞基本信息
新聞基本信息包括新聞內容、關鍵詞、題材、記者、責編、圖片、視頻、轉載量等近30個指標,如圖5所示,通過對新聞基本信息數據的分析,可以建立資源之間的關聯,生成新聞話題等。
(2)新聞題材信息
新聞題材包括軍事、政治、經濟等13個類型,如圖6所示,將其與新聞基本信息相關聯,為網絡新聞資源的管理、索引及推薦都可以提供一定幫助。
(3)用戶基本信息
用戶基本信息包括用戶年齡、性別、偏好、瀏覽歷史、發表言論等13個指標,通過采集用戶數據,分析用戶的行為,挖掘用戶需求以及用戶與資源之間的關聯,實現個性化推薦。
(4)用戶來源信息
用戶來源信息包括新浪、網易、騰訊、新華網、央視網、千龍網等16個新聞門戶網站,可以以用戶為紐帶,實現互聯網知識共享,同時綜合了解網絡用戶在各大網站的分布情況,分析網絡新聞門戶網站的發展。
為能對本發明的數據內容進行存儲和分析,對新聞內容數據庫的邏輯結構設計情況如下:
圖9是本發明的新聞節目基本信息e-r圖,顯示了新聞節目和其他實體間的聯系。
圖10是本發明的互聯網新聞基本信息e-r圖,顯示了門戶網站新聞資源和其他實體間的聯系。
圖11是本發明的用戶基本信息e-r圖,顯示了用戶和其他實體間的聯系。
圖12為本發明的新聞內容數據分類表,對各級分類名進行存儲,以分類id作為主鍵。
圖13是本發明的新聞節目基本信息表,用來存儲節目基本信息,以節目id作為主鍵。
圖14是本發明的互聯網新聞信息表,用來存儲互聯網新聞基本信息,以新聞id作為主鍵。
圖15是本發明的新聞節目類型信息表,用來存儲節目類型信息,以類型id作為主鍵。
圖16是本發明的新聞題材信息表,用來存儲新聞題材信息,以題材id作為主鍵。
圖17是本發明的用戶基本信息表,用來存儲用戶信息,以用戶id作為主鍵。
圖18是本發明的用戶來源信息表,用來存儲用戶來源門戶網站信息,以網站id作為主鍵。
應用系統的整體架構如圖19所示,該系統按照新聞數據內容特征獲取標準,將新聞數據統一存儲管理,對數據進行挖掘分析,可進一步實現新聞素材篩選、新聞集合編排、新聞節目播出形式調整、花絮片段生成及用戶輿情分析等實際應用,系統的實際操作流程圖如圖20所示。
1.新聞素材篩選(針對采集記者服務)
對搜集的大量新聞素材進行初步篩選,對具體事實有宏觀觀照,在全局形勢下做出準確判斷。
以數據分析內容,用標簽準確定位,挖掘新聞選題搶占獨家報道或尋找新聞佐證以拓展報道深度。
發揮庫存資料的作用,編輯配發背景新聞,增加報道深度。
2.新聞集合編排(針對編輯服務)
將體現同一主題的相關新聞集合編排,豐富新聞的信息量,使內容更加飽滿,主題更加深化。
從新聞主題出發,貼近當地生活,編排能夠凸顯地域風情和文化內涵的新聞內容,發揮“異質”的競爭優勢。
3.新聞播出形式——滾動式、多重播
提供以大數據分析用戶收視習慣的服務,調整新聞播出形式
為滿足不同收視習慣的用戶需求,達到新聞傳播宣傳的最大化效果,可以實行滾動式多次播放的方式。
對于突發事件和持續追蹤事件,重播時可以滾動編排記者采回來的和互聯網最新發布的最新消息,及時插入播出。
4.花絮片段生成
對每日的節目內容進行分時段收視分析,提取收視高峰時段的內容標簽,生成摘要,花絮。
5.用戶輿情分析
對節目播后的用戶評論反饋,進行情感標簽分析,評論熱點分析,了解民眾需求。
挖掘預測輿論的熱點話題,對百姓關心的標識性熱點事件進行深度報道,為老百姓釋疑解惑。
至少可以達到以下有益效果:
新聞數據內容特征獲取及應用系統是一個具有良好擴展性、穩定性和高效率的新聞數據管理與應用平臺,同時從新聞的制作及用戶角度考慮,以多維的指標獲取新聞內容的特征,提供一種新的更加有效的資源整合方式,實現有效管理新聞數據資源,促進融合媒體的發展。信息資源管理全面自動化,提高媒體行業節目制作過程的工作效率,使信息維護和發布更容易,減少二次開發成本,帶來明顯的經濟效益和社會效益,提高傳統廣電應對信息變化的能力,同時使互聯網發布信息的有效性、規范性等質量要求得到了有力保障,使三網在業務上的融合得到技術突破,順應現今的信息資源傳播規律和新興媒體發展規律,強化互聯網思維,堅持傳統媒體和新興媒體優勢互補、一體發展,推動傳統媒體和新興媒體在內容、渠道、平臺、經營、管理等方面的深度融合,打造一批形態多樣、手段先進、具有競爭力的新型主流媒體,提升傳播力和綜合競爭力。
實現新聞素材的自動篩選,節約人力物力,避免重復采拍,減少選擇新聞的工作量,同時有效避免有價值的新聞事件被遺漏,從而選取編輯出既結合當地實際,又面向全國收視用戶的有指導性、借鑒意義的新聞。
實現新聞集合編排,制作適宜當地的節目編排,最大限度地貼近生活,從主題出發,對地方熱點政策資訊和解析,地方文化藝術,地方事件深度報道,精準目標受眾定位,建立認同感,體現原創性和接近性,推動當地經濟、政治、文化等全面發展的同時,以小見大,引起全國關注,打造自己的品牌化新聞觀點和報道模式。
實現新聞播出形式的有效調整,使更多的用戶同時接收到最新的新聞信息,提高新聞傳播的影響力和穿透力。
實現新聞花絮片段生存,提高新聞優勢,增加關注度,更加深入了解收視觀眾的關注點集中部分,可以對一些受關注的特定事件提供后續報道,甚至開展專題報道,對今后的新聞內容選擇有一定的參考價值,更好地體現新聞的價值,形成良性循環
實現用戶輿情分析,增加用戶粘度性,使收視率和節目影響力同時得到提升,更重要的是通過對關系民心向背的熱點事件的報道分析,引導輿論導向,推動中國民風建設和法制建設。
最后應說明的是:以上所述僅為本發明的優選實施例而已,并不用于限制本發明,盡管參照前述實施例對本發明進行了詳細的說明,對于本領域的技術人員來說,其依然可以對前述各實施例所記載的技術方案進行修改,或者對其中部分技術特征進行等同替換。凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護范圍之內。