一種數據標示方法和管理系統的制作方法
【技術領域】
[0001]本發明涉及數據加工處理領域,尤其涉及一種數據標示方法和管理系統。
【背景技術】
[0002]如今,人們已經習慣于從互聯網上獲取信息,而對數據進行標示處理,使人們在標示的指引下,快速的獲得有用的信息,受到了廣大用戶的歡迎,也得到了技術人員的廣泛關注和研究。
[0003]目前,數據標示處理技術主要是通過人工的方式進行,技術人員通過閱讀、理解數據內容后,再根據自身的理解,歸納、整理出能夠代表數據內容的標簽,完成對數據的標示。
[0004]但是,該過程對技術人員的要求高,且由于人工處理效率低,因此需要的技術人員的數量多,從而使得對數據進行標示處理的成本高;尤其當互聯網上具有大量的數據時,采用上述技術對其進行標示處理成本就會更高。
【發明內容】
[0005]本發明的目的之一在于提供一種數據標示方法,本發明的目的之二在于提供一種數據表示管理系統,通過利用服務器的初次標示后,再經過人工簡單的校正和調整,完成對數據內容的標示,從而解決現有技術中存在的前述問題。
[0006]為了實現上述目的,本發明采用的技術方案如下:
[0007]—種數據標示方法,包括如下步驟:
[0008]S1,服務器提取待標示的數據的標題分詞和/或正文的高詞頻分詞和/或關鍵詞匯;
[0009]S2,服務器將所述標題分詞和/或所述正文的高詞頻分詞和/或關鍵詞匯與所述數據的標簽庫進行對比,獲取對比結果中匹配度大于90%的所述標題分詞和/或所述正文的高詞頻分詞和/或關鍵詞匯,作為標示所述數據的第一位標簽;所述第一位標簽寫入所述標簽庫;
[0010]S3,人工讀取所述數據的標題內容,用與所述標題內容匹配度大于90%的第一位標簽對所述數據進行標示。
[0011]進一步地,步驟S2和步驟S3之間,還包括用戶自定義標簽的步驟,所述用戶自定義標簽達到或超過規定數量時,在用戶視圖界面上,將所述用戶自定義標簽的位置提前,所述用戶自定義標簽的數量越大,其位置越靠前;所述用戶自定義標簽達到或超過規定數量時,所述用戶自定義標簽寫入所述標簽庫。
[0012]優選地,所述與所述標題內容匹配度大于90%的第一位標簽按照所述匹配度大小進行倒排序顯示在用戶視圖界面上。
[0013]優選地,步驟S2中,所述第一位標簽的數量達到設定值時,則繼續;否則,用第二位標簽進行補充,直到達到所述設定值,則繼續;在用戶視圖界面上,所述第二位標簽位于所述第一位標簽的后面;所述第二位標簽為所述標題分詞;所述第二位標簽寫入所述標簽庫。
[0014]具體地,所述設定值為5-20。
[0015]具體地,所述用第二位標簽進行補充,具體為,所述標題分詞按照分值大小倒排序進行補充,所述標題分詞的所述分值按照如下方法獲得:
[0016]為所有所述標題分詞設定相同的初始分值;
[0017]所述標題分詞與所述正文的高詞頻分詞和/或關鍵詞匯相匹配,匹配度達到90%以上時,為所述標題分詞的分值加分,匹配度越高,加分值越大;
[0018]將所述初始分值與所述加分值求和,得到所述標題分詞的分值。
[0019]優選地,所述用第二位標簽進行補充后,所述第一位標簽和所述第二位標簽的總量未達到所述設定值時,則用第三位標簽進行補充,直到達到所述設定值,則繼續;在用戶視圖界面上,所述第三位標簽位于所述第二位標簽的后面;所述第三位標簽為所述正文的高詞頻分詞和/或關鍵詞匯;所述第三位標簽寫入所述標簽庫。
[0020]具體地,所述用第三位標簽進行補充,具體為,所述正文的高詞頻分詞和/或關鍵詞匯按照分值大小倒排序進行補充,所述正文的高詞頻分詞和/或關鍵詞匯的詞頻越高,其所述分值越大。
[0021]一種數據標示管理系統,包括:
[0022]標簽樹模塊:用于以樹形結構呈現分類之間的層級和邏輯關系,且在每個層級分類下預置標簽;
[0023]標簽查詢模塊:用于對某一時間段內的標簽進行查詢,可以實現自定義(模糊)查詢及條件查詢;
[0024]標簽庫模塊:用于建立標簽庫;
[0025]服務器標示模塊:用于提取待標示的數據的標題分詞和/或正文的高詞頻分詞和/或關鍵詞匯,并與所述數據的標簽庫進行對比,獲取對比結果中匹配度大于90%的所述標題分詞和/或所述正文的高詞頻分詞和/或關鍵詞匯,作為標示所述數據的第一位標簽;
[0026]人工標示模塊:用于與所述標題內容匹配度大于90%的第一位標簽對所述數據進行標示。
[0027]進一步地,所述數據標示管理系統,還包括:
[0028]用戶標示模塊:用于用戶自定義標簽。
[0029]本發明的有益效果是:
[0030]與現有技術中,完全靠人工的方式完成數據標示的技術相比,本發明中,采用服務器標示和人工標示相結合的方式,在保證標示準確性的基礎上,提高了工作效率,降低了對人員的要求,從而降低了對數據標示處理的成本,尤其針對大量數據時,標示處理成本得到了極大的降低。
[0031 ] 由于現有技術中,需要技術人員閱讀、理解數據內容后,再根據自身的理解,歸納、整理出能夠代表數據內容的標簽,完成對數據的標示。因此,要求技術人員具有較高的閱讀、分析和理解能力,一般為具有碩士研究生學歷的人員,這樣,每個技術人員的成本就比較高。同時,每個人處理一篇文章的時間大概為5-10分鐘,因此,每個人每天能夠處理的文章大概是200篇,當數據庫中有十萬甚至百萬數量級的數據時,對其進行標示,需要的人員量是很大的,從而數據加工成本會大大的增加。
[0032]而本發明中,首先利用服務器的搜索、檢索、分詞等技術,獲取對數據進行標示的標簽,之后進行人工修整和調整時,只需要讀取所述數據的標題內容即可,而不需要對整篇文章進行閱讀和分析、理解,因此,采用本發明提供的技術方案,可以降低對技術人員的要求,從而降低人工成本,同時,由于人工需要完成的工作量小且任務簡單,工作效率會得到極大的提升,每個人每天能夠處理的文章至少為1200-2000篇,因此,當數據庫中有十萬甚至百萬數量級的數據時,對其進行標示,需要的人員量則不會很大的,從而數據加工成本會大大的降低。
【附圖說明】
[0033]圖1是本發明實施例提供的數據標示方法的流程示意圖;
[0034]圖2是本發明實施例提供的數據標示管理系統框架示意圖。
【具體實施方式】
[0035]為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖,對本發明進行進一步詳細說明。應當理解,此處所描述的【具體實施方式】僅僅用以解釋本發明,并不用于限定本發明。
[0036]如圖1所示,一種數據標示方法,包括如下步驟:
[0037]S1,服務器提取待標示的數據的標題分詞和/或正文的高詞頻分詞和/或關鍵詞匯。
[0038]S2,服務器將所述標題分詞和/或所述正文的高詞頻分詞和/或關鍵詞匯與所述數據的標簽庫進行對比,獲取對比結果中匹配度大于90%的所述標題分詞和/或所述正文的高詞頻分詞和/或關鍵詞匯,作為標示所述數據的第一位標簽;所述第一位標簽寫入所述標簽庫。
[0039]S3,人工讀取所述數據的標題內容,用與所述標題內容匹配度大于90%的第一位標簽對所述數據進行標示。
[0040]服務器首先利用搜索、檢索、分詞等技術提取待標示的數據的標題分詞和/或正文的高詞頻分詞和/或關鍵詞匯;工作效率高,處理大量數據需要的時間短。由于待標示的數據文字內容是隸屬于各個分類的,因此把分類細化,最好將分類細化至3-4級,同時為每個細化的分類進行標簽的預置定義,這樣,可以加大標簽庫中的初始標簽的數量,也可以增加利用標簽庫對數據內容進行標示的精準度。對于移動互聯網中的信息而言,標簽庫中的標簽均為當前社會熱詞和重點詞。開始階段,對數據內容進行的標示,服務器會將所述標題分詞和/或所述正文的高詞頻分詞和/或關鍵詞匯與所述數據的標簽庫中的初始標簽進行對比,隨著標簽庫中的標簽的添加、刪除或修改,標簽庫不斷的更新,則服務器會將所述標題分詞和/或所述正文的高詞頻分詞和/或關鍵詞匯與所述數據的標簽庫中的更新的標簽進行對比。
[0041]將所述標題分詞和/或所述正文的高詞頻分詞和/或關鍵詞匯與所述數據的標簽庫進行對比后,對比結果中匹配度越大,利用所述標題分詞和/或所述正文的高詞頻分詞和/或關鍵詞匯對數據內容進行標示的精準度越高。但是,有時也存在不相符的狀況,比如標題雖然大多數時候是對全文的概述及歸納,認為標題的分詞更加精確,但是為了標題黨卻不能表示文章的大意;比如雖然正文的高詞頻分詞和/或關鍵詞匯在正文中出現的頻度很高,但是這些詞卻不能表示數據的大意。因此,為了保證對數據標示的準確性,本發明在利用服務器對內容進行標示之后,進一步進行了人工的校正和調整,但是,本發明中,只需人工讀取所述數據的標題內容,而不需要讀取整篇文章,也不需要對文章進行理解和歸納整理,只需在服務器標示的基礎上,通過將服務器的標示內容與所述標題內容進行匹配,并找到匹配度大于90%的第一位標簽即可。因此,采用本發明的技術方案,在保證標示準確性的基礎上,提高了工作效率,降低了對人員的要求,從而降低了數據加工成本。
[0042]在本發明的一個實施例中,在步驟S2和步驟S3之間,還包括用戶自定義標簽的步驟,所述用戶自定義標簽達到或超過規定數量時,在用戶視圖界面上,將所述用戶自定義標簽的位置提前,所述用戶自定義標簽的數量越大,其位置越靠前;所述用戶自定義標簽達到或超過規定數量時,所述用戶自定義標簽寫入所述標簽庫。
[0043]當用戶自定義標簽達到或超過規定數量時,更能代表數據內容的大意,更能貼近用戶對內容的理解,因此,可以根據其數量的大小,選擇其作為標簽的位置,數量越大,其位置越靠前,甚至可以位于第一位標簽的前面。這樣,對數據內容設置的標簽會更加符合數據內容的意思,同時也更貼近用戶,且符合用戶對數據內容的理解。其中,用戶自定義標簽的數量,本領域技術人員可以根據實際情況進行設定。
[0044]服務器對數據內容進行標示屬于自動的標簽化操作,與用戶