本發明涉及文本信息處理,具體而言,涉及一種拓展式文本標注方法及系統。
背景技術:
1、隨著自然語言處理和人工智能技術的發展,文本標注已經成為數據處理和知識提取中的重要環節。文本標注不僅包括對文本中出現的實體、實體屬性、實體間關系及事件等信息的標注,而且這些標注的數據為訓練網絡模型和構建知識圖譜等提供了重要的數據支持。當前,已經出現了一些用于文本標注的工具,如brat、doccano、labe?l?studio、chinese-annotator和iepy等,這些工具在實體和關系標注方面都展現出了優越的性能。
2、然而,盡管這些工具在實體和關系標注方面表現優異,但在實體屬性標注功能方面存在較大的局限性。具體來說,chinese-annotator和doccano均不具備實體屬性的標注功能,這使得它們無法滿足一些復雜文本標注任務的需求。而i?epy雖然專注于關系提取,但在實體屬性標注方面并未提供專門的支持。而brat雖然具有實體屬性的標注功能,但其屬性值必須為預設的固定選項,無法將文本中的部分內容直接標記為屬性。這種限制在很多實際應用中是無法接受的,因為許多實體屬性的值是來自于文本本身,而不是預先設定的固定選項。此類限制大大降低了標注工具的靈活性和適用性,不能滿足很多文本標記的要求。
3、因此,急需一種能夠靈活標注實體屬性且不局限于預設固定選項的文本標注工具,用于解決現有技術中各文本標注存在的功能不全面,且限制較多問題。
技術實現思路
1、鑒于此,本發明提出了一種拓展式文本標注方法及系統,旨在解決當前技術中各文本標注存在的功能不全面,且限制較多問題。
2、本發明提出了一種拓展式文本標注方法,包括:
3、獲取待標注的文本文件和待標注需求;
4、根據所述待標注需求,確定標注模式,其中,所述標注模式包括:實體標注模式、實體屬性標注模式和實體關系標注模式;
5、根據確定的所述標注模式,對所述文本文件中的文本信息進行標注。
6、進一步的,根據確定的所述標注模式后,對所述文本文件中的文本信息進行標注時,包括:
7、獲取所述文本信息的標注目標,并根據所述標注模式對所述標注目標進行標注,其中:
8、根據所述實體標注模式對所述標注目標進行實體標注;
9、獲取標注后的實體,并根據所述實體屬性標注模式對所述實體進行實體屬性的標注;
10、獲取標注后的所述實體,并根據所述實體關系標注模式對所述實體進行實體關系標注。
11、進一步的,根據所述實體標注模式對所述標注目標進行實體標注時,包括:
12、獲取所述標注目標待標注的實體類型,并根據所述實體類型與數據庫中存儲的各所述實體類型記錄文件之間進行匹配,其中:
13、若所述實體類型與存儲的任一所述實體類型記錄文件相一致,則獲取該實體類型記錄文件中實體的位置突出文本和所述實體的類型,并根據所述實體的位置突出文本和所述實體的類型建立實體類型集;
14、若所述實體類型與存儲的各所述實體類型記錄文件均不一致,則根據所述標注目標的待標注的實體類型,建立所述實體類型集;
15、根據所述標注目標的文字信息與所述實體類型集中的各實體類型之間進行匹配,其中:
16、若所述文字信息與各所述實體類型均不匹配,則刪除所述標注目標的實體類型標注,以及在各所述實體類型記錄文件中的記錄信息;
17、若所述文字信息與任一所述實體類型相匹配,則根據所述實體類型確定為所述標注目標的實體類型,并進行突出顯示,且記錄所述標注目標的位置和實體類型;
18、獲取所述標注目標的實體類型,并根據所述實體類型位于所述實體類型集的數量,確定是否建立新的所述實體類型記錄文件,其中:
19、若所述實體類型位于所述實體類型集的數量為1,則確定建立新的所述實體類型記錄文件;
20、判斷所述文本信息中各標注目標是否標注為實體,其中:
21、若各所述標注目標均標注為實體,則判斷標注完成;
22、若各所述標注目標中任一所述標注目標為標注為實體,則重新對所述標注目標的文字信息進行所述實體類型匹配,直至各所述標注目標均標注為實體為止。
23、進一步的,獲取標注后的實體,并根據所述實體屬性標注模式對所述實體進行實體屬性的標注時,包括:
24、獲取標注后的實體的屬性類型,并根據所述屬性類型與數據庫中存儲的各所述實體屬性記錄文件之間進行匹配,其中:
25、若所述實體類型與存儲的任一所述實體屬性記錄文件相一致,則獲取該實體屬性記錄文件中標注的實體以及所述實體的屬性類型,并建立實體合集;
26、若所述實體類型與存儲的各所述實體類型記錄文件均不一致,則根據所述標注目標的待標注的實體屬性類型,建立所述實體類型集;
27、獲取所述實體類型集中的實體數量,其中:
28、若所述實體類型集中的實體數量為0,則判斷標注后的所述實體屬性為無,并刪除所述實體屬性記錄文件中的信息,判斷標注后所述實體的屬性標注完成;
29、若所述實體類型集中的實體數量不為0,則獲取所述實體類型集中實體和實體對應的屬性,以及所述屬性的類型;
30、獲取標注后所述實體的文字信息,并根據所述文字信息與所述實體類型集之間的關系,確定所述實體的屬性,其中:
31、若所述文字信息與所述實體類型集中各實體的屬性類型均不一致,則確定所述標注后的實體沒有標注屬性,并判斷標注后所述實體的屬性標注完成;
32、若所述文字信息與所述實體類型集任一實體的屬性類型一致,則確定相一致的所述實體的屬性類型為標注后所述實體的屬性類型;
33、獲取標注后所述實體的屬性類型位于所述實體類型集中的數量,其中:
34、若所述實體的屬性類型位于所述實體類型集中的數量為最小值時,則完成該屬性所述的實體標注,并刪除所述實體屬性記錄文件中的信息,判斷標注后所述實體的屬性標注完成;
35、若所述實體的屬性類型位于所述實體類型集中的數量不為最小值時,則獲取所述實體類型集中各實體類型中的屬性類型,并根據各所述屬性類型建立屬性類型集;
36、設定標注后所述實體的文字信息的屬性類型,獲取所述實體類型集中各實體屬性集,并根據所述文字信息的屬性類型位于所述實體類型集中各實體屬性集中的數量,確定是否對所述實體類型集中的各實體屬性集進行修增,其中:
37、若所述文字信息的屬性類型位于所述實體類型集中各實體屬性集中的數量為最小值,則對所述實體類型集中的各實體屬性集進行修增;
38、若所述文字信息的屬性類型位于所述實體類型集中各實體屬性集中的數量不為最小值,則不對所述實體類型集中的各實體屬性集進行修增;
39、根據所述文字信息的屬性類型,確定為標注后所述實體的屬性類型,并記錄標注后所述實體的位置,以及屬性類型,并確定標注后所述實體的屬性標注完成。
40、進一步的,獲取標注后的所述實體,并根據所述實體關系標注模式對所述實體進行實體關系標注時,包括:
41、獲取標注后的所述實體,并根據所述實體與數據庫中存儲的實體關系記錄文件之間進行匹配,其中:
42、若所述實體與各所述實體關系記錄文件中的任一實體相一致,則提取所述實體關系記錄文件中各所述實體和各所述實體的屬性類型,并根據所述各所述實體和各所述實體的屬性類型,建立實體合集;
43、若實體與所述實體關系記錄文件中的實體均不一致,則建立新的實體關系記錄文件,并提取新的所述實體關系記錄文件中的實體以及實體的屬性類型,建立實體合集;
44、獲取所述實體合集中實體的數量,其中:
45、若所述實體的數量為0,則確定標注后所述實體為無關系標注的實體,并判定標注后所述實體完成實體關系的標注;
46、若所述實體的數量不為0,則讀取實體關系記錄文件,并突出顯示實體關系所對應的實體、實體類型和關系類型;
47、選擇關系待標注關系的兩所述實體,并根據兩所述實體的數量,確定是否存在關系,其中:
48、若兩所述實體均為所述實體合集的數量最小值時,則刪除兩所述實體之間的連接標記及關系類別標注,以及位于實體關系記錄文件中的信息;
49、若兩所述實體均不為或任一為所述實體合集的數量最小值時,則獲取兩所述實體的類型,以及兩所述實體之間的關系類型;
50、獲取所述實體合集中兩所述實體之間的關系類型,并建立關系類型集,其中:
51、若兩所述實體之間的關系類型為所述關系類型集的關系類型數量最小值時,則將兩所述實體之間的關系類型修增至所述關系類型集中,并判定標注后所述實體完成實體關系的標注;
52、若兩所述實體之間的關系類型不為所述關系類型集的關系類型數量最小值時,則將兩所述實體之間的關系類型記錄至所述實體關系記錄文件中,并對兩所述實體之間進行實體關系標注;
53、根據標注后的所述實體的實體關系標注,判斷實體關系標注是否完成,其中:
54、若標注后的所述實體均完成實體關系標注,則判斷標注完成;
55、若標注后的所述實體任一所述實體為完成實體關系標注,則重新選擇關系待標注關系的實體,直至實體關系標注完成。
56、與現有技術相比,本發明的有益效果在于:通過獲取待標注的文本文件和具體的標注需求,確保標注過程的針對性和目標明確性。用戶可以根據實際需求,對文本中需要標注的實體、屬性和關系進行詳細的定義和說明,這樣不僅能夠使標注過程更有方向性,還能確保標注結果更符合實際應用的需要。其次,通過將標注模式細分為實體標注模式、實體屬性標注模式和實體關系標注模式,可以分別針對不同類型的標注任務進行優化處理。實體標注模式側重于標注文本中的實體信息,如人名、地名、組織名等;實體屬性標注模式則注重標注實體的具體屬性信息,如人物的出生日期、地點的地理位置等;而實體關系標注模式則用于標注實體之間的關系,如“所在”、“擁有”等。這樣的分類不僅使標注過程更具系統性和條理性,還能根據具體情況靈活應用,提升標注的精度和效率。最后,根據確定的標注模式,對文本文件中的文本信息進行標注。通過這種方式,可以充分利用不同標注模式的優勢,針對性地處理文本中的各種信息,提高標注結果的準確性和完整性。此外,這種拓展式的文本標注方法也具備良好的擴展性和適應性,能夠根據未來的新需求和新技術發展,靈活調整和擴展標注功能,確保其在不斷變化的應用場景中保持高效和實用。
57、另一方面,本技術還提供了一種拓展式文本標注系統,包括:
58、獲取模塊,用于獲取待標注的文本文件和待標注需求;
59、標注模塊,與所述獲取模塊電連接,所述分析模塊用于根據所述待標注需求,確定標注模式,其中,所述標注模式包括:實體標注模式、實體屬性標注模式和實體關系標注模式;
60、所述標注模塊還用于根據確定的所述標注模式,對所述文本文件中的文本信息進行標注。
61、進一步的,所述標注模塊還用于根據確定的所述標注模式,對所述文本文件中的文本信息進行標注時,包括:
62、所述標注模塊還用于獲取所述文本信息的標注目標,并根據所述標注模式對所述標注目標進行標注,其中:
63、所述標注模塊還用于根據所述實體標注模式對所述標注目標進行實體標注;
64、所述標注模塊還用于獲取標注后的實體,并根據所述實體屬性標注模式對所述實體進行實體屬性的標注;
65、所述標注模塊還用于獲取標注后的所述實體,并根據所述實體關系標注模式對所述實體進行實體關系標注。
66、進一步的,所述標注模塊還用于根據所述實體標注模式對所述標注目標進行實體標注時,包括:
67、所述標注模塊還用于獲取所述標注目標待標注的實體類型,并根據所述實體類型與數據庫中存儲的各所述實體類型記錄文件之間進行匹配,其中:
68、若所述實體類型與存儲的任一所述實體類型記錄文件相一致,所述標注模塊則獲取該實體類型記錄文件中實體的位置突出文本和所述實體的類型,并根據所述實體的位置突出文本和所述實體的類型建立實體類型集;
69、若所述實體類型與存儲的各所述實體類型記錄文件均不一致,所述標注模塊則根據所述標注目標的待標注的實體類型,建立所述實體類型集;
70、所述標注模塊還用于根據所述標注目標的文字信息與所述實體類型集中的各實體類型之間進行匹配,其中:
71、若所述文字信息與各所述實體類型均不匹配,所述標注模塊則刪除所述標注目標的實體類型標注,以及在各所述實體類型記錄文件中的記錄信息;
72、若所述文字信息與任一所述實體類型相匹配,所述標注模塊則根據所述實體類型確定為所述標注目標的實體類型,并進行突出顯示,且記錄所述標注目標的位置和實體類型;
73、所述標注模塊還用于獲取所述標注目標的實體類型,并根據所述實體類型位于所述實體類型集的數量,確定是否建立新的所述實體類型記錄文件,其中:
74、若所述實體類型位于所述實體類型集的數量為1,所述標注模塊則確定建立新的所述實體類型記錄文件;
75、所述標注模塊還用于判斷所述文本信息中各標注目標是否標注為實體,其中:
76、若各所述標注目標均標注為實體,所述標注模塊則判斷標注完成;
77、若各所述標注目標中任一所述標注目標為標注為實體,所述標注模塊則重新對所述標注目標的文字信息進行所述實體類型匹配,直至各所述標注目標均標注為實體為止。
78、進一步的,所述標注模塊還用于獲取標注后的實體,并根據所述實體屬性標注模式對所述實體進行實體屬性的標注時,包括:
79、所述標注模塊還用于獲取標注后的實體的屬性類型,并根據所述屬性類型與數據庫中存儲的各所述實體屬性記錄文件之間進行匹配,其中:
80、若所述實體類型與存儲的任一所述實體屬性記錄文件相一致,所述標注模塊則獲取該實體屬性記錄文件中標注的實體以及所述實體的屬性類型,并建立實體合集;
81、若所述實體類型與存儲的各所述實體類型記錄文件均不一致,所述標注模塊則根據所述標注目標的待標注的實體屬性類型,建立所述實體類型集;
82、所述標注模塊還用于獲取所述實體類型集中的實體數量,其中:
83、若所述實體類型集中的實體數量為0,所述標注模塊則判斷標注后的所述實體屬性為無,并刪除所述實體屬性記錄文件中的信息,判斷標注后所述實體的屬性標注完成;
84、若所述實體類型集中的實體數量不為0,所述標注模塊則獲取所述實體類型集中實體和實體對應的屬性,以及所述屬性的類型;
85、所述標注模塊還用于獲取標注后所述實體的文字信息,并根據所述文字信息與所述實體類型集之間的關系,確定所述實體的屬性,其中:
86、若所述文字信息與所述實體類型集中各實體的屬性類型均不一致,所述標注模塊則確定所述標注后的實體沒有標注屬性,并判斷標注后所述實體的屬性標注完成;
87、若所述文字信息與所述實體類型集任一實體的屬性類型一致,所述標注模塊則確定相一致的所述實體的屬性類型為標注后所述實體的屬性類型;
88、所述標注模塊還用于獲取標注后所述實體的屬性類型位于所述實體類型集中的數量,其中:
89、若所述實體的屬性類型位于所述實體類型集中的數量為最小值時,所述標注模塊則完成該屬性所述的實體標注,并刪除所述實體屬性記錄文件中的信息,判斷標注后所述實體的屬性標注完成;
90、若所述實體的屬性類型位于所述實體類型集中的數量不為最小值時,所述標注模塊則獲取所述實體類型集中各實體類型中的屬性類型,并根據各所述屬性類型建立屬性類型集;
91、所述標注模塊還用于設定標注后所述實體的文字信息的屬性類型,獲取所述實體類型集中各實體屬性集,并根據所述文字信息的屬性類型位于所述實體類型集中各實體屬性集中的數量,確定是否對所述實體類型集中的各實體屬性集進行修增,其中:
92、若所述文字信息的屬性類型位于所述實體類型集中各實體屬性集中的數量為最小值,所述標注模塊則對所述實體類型集中的各實體屬性集進行修增;
93、若所述文字信息的屬性類型位于所述實體類型集中各實體屬性集中的數量不為最小值,所述標注模塊則不對所述實體類型集中的各實體屬性集進行修增;
94、所述標注模塊還用于根據所述文字信息的屬性類型,確定為標注后所述實體的屬性類型,并記錄標注后所述實體的位置,以及屬性類型,并確定標注后所述實體的屬性標注完成。
95、進一步的,所述標注模塊還用于獲取標注后的所述實體,并根據所述實體關系標注模式對所述實體進行實體關系標注時,包括:
96、所述標注模塊還用于獲取標注后的所述實體,并根據所述實體與數據庫中存儲的實體關系記錄文件之間進行匹配,其中:
97、若所述實體與各所述實體關系記錄文件中的任一實體相一致,所述標注模塊則提取所述實體關系記錄文件中各所述實體和各所述實體的屬性類型,并根據所述各所述實體和各所述實體的屬性類型,建立實體合集;
98、若實體與所述實體關系記錄文件中的實體均不一致,所述標注模塊則建立新的實體關系記錄文件,并提取新的所述實體關系記錄文件中的實體以及實體的屬性類型,建立實體合集;
99、所述標注模塊還用于獲取所述實體合集中實體的數量,其中:
100、若所述實體的數量為0,所述標注模塊則確定標注后所述實體為無關系標注的實體,并判定標注后所述實體完成實體關系的標注;
101、若所述實體的數量不為0,所述標注模塊則讀取實體關系記錄文件,并突出顯示實體關系所對應的實體、實體類型和關系類型;
102、所述標注模塊還用于選擇關系待標注關系的兩所述實體,并根據兩所述實體的數量,確定是否存在關系,其中:
103、若兩所述實體均為所述實體合集的數量最小值時,所述標注模塊則刪除兩所述實體之間的連接標記及關系類別標注,以及位于實體關系記錄文件中的信息;
104、若兩所述實體均不為或任一為所述實體合集的數量最小值時,所述標注模塊則獲取兩所述實體的類型,以及兩所述實體之間的關系類型;
105、所述標注模塊還用于獲取所述實體合集中兩所述實體之間的關系類型,并建立關系類型集,其中:
106、若兩所述實體之間的關系類型為所述關系類型集的關系類型數量最小值時,所述標注模塊則將兩所述實體之間的關系類型修增至所述關系類型集中,并判定標注后所述實體完成實體關系的標注
107、若兩所述實體之間的關系類型不為所述關系類型集的關系類型數量最小值時,所述標注模塊則將兩所述實體之間的關系類型記錄至所述實體關系記錄文件中,并對兩所述實體之間進行實體關系標注;
108、所述標注模塊還用于根據標注后的所述實體的實體關系標注,判斷實體關系標注是否完成,其中:
109、若標注后的所述實體均完成實體關系標注,所述標注模塊則判斷標注完成;
110、若標注后的所述實體任一所述實體未完成實體關系標注,所述標注模塊則重新選擇關系待標注關系的實體,直至實體關系標注完成。
111、可以理解的是,本發明各實施例中的一種拓展式文本標注方法及系統,具有相同的有益效果,不再贅述。