背景技術(shù):
1、中文語法糾錯(cuò)是自然語言處理中的重要課題,其核心目標(biāo)在于偵測并修正中文文本內(nèi)的語法不規(guī)范之處。這類不規(guī)范可能涉及詞語順序的錯(cuò)誤、詞性搭配不當(dāng)或句子構(gòu)造的問題,這些錯(cuò)誤會(huì)顯著影響文本的明確性和可讀性。因此,對(duì)于中文語法校正技術(shù)的需求正逐步上升。
2、在追求提升中文語法糾錯(cuò)的精確度與效率方面,構(gòu)建高效的糾錯(cuò)模型顯得極為重要。這些模型能夠自動(dòng)化地檢測并修復(fù)文本中的語法問題。同時(shí),鑒于中文文本在眾多領(lǐng)域及不同應(yīng)用場景中的普及,糾錯(cuò)模型也必須能夠適應(yīng)各種專業(yè)背景和使用情境,以迎合不同用戶和場景的具體需求。
3、中文語法錯(cuò)誤的識(shí)別涉及自動(dòng)判斷自然語言句子中的不準(zhǔn)確之處,例如成分的遺漏或多余、不適當(dāng)?shù)恼Z序等。這一任務(wù)通常包括確認(rèn)錯(cuò)誤的有無、分類以及精確定位。恰當(dāng)利用語法檢測技術(shù)可以顯著增強(qiáng)糾錯(cuò)的效果。
4、綜上所述,可以看出中文語法糾錯(cuò)技術(shù)對(duì)于提高文本的整體質(zhì)量、優(yōu)化用戶體驗(yàn)以及滿足多樣化應(yīng)用的要求具有不可替代的作用。語法檢測技術(shù),作為達(dá)到這一目標(biāo)的核心,不僅確保了文本的準(zhǔn)確性與專業(yè)性,也減少了誤解和交流的障礙。此外,它還能助力非母語者提升寫作技能,促進(jìn)語言教育。在自然語言處理的領(lǐng)域中,它同樣提升了機(jī)器翻譯、語音識(shí)別等技術(shù)的準(zhǔn)確性。展望未來,隨著技術(shù)的不斷演進(jìn),語法檢測技術(shù)將持續(xù)引領(lǐng)中文語法糾錯(cuò)領(lǐng)域的創(chuàng)新發(fā)展。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供了一種基于檢測和拼音聯(lián)合增強(qiáng)的中文語法糾錯(cuò)方法,以解決中文語法糾錯(cuò)精確率較低的問題,本發(fā)明在mucgec數(shù)據(jù)集上和中文語法糾錯(cuò)任務(wù)上取得了優(yōu)異的實(shí)驗(yàn)結(jié)果。
2、本發(fā)明的技術(shù)方案是:一種基于檢測和拼音聯(lián)合增強(qiáng)的中文語法糾錯(cuò)方法,所述方法的具體步驟如下:
3、step1、選取預(yù)訓(xùn)練模型bart作為基礎(chǔ)模型架構(gòu),該模型適合本任務(wù)的需求。在選取后,對(duì)基礎(chǔ)模型進(jìn)行效果測試。為了確保模型的性能,我們特別采用中文語法糾錯(cuò)數(shù)據(jù)集作為訓(xùn)練集、驗(yàn)證集和測試集,以全面評(píng)估模型的準(zhǔn)確性和魯棒性;
4、step2、綜合搜集并整理所有的中文拼音,構(gòu)建一個(gè)全面包含所有拼音信息的中文拼音字典。該字典的構(gòu)建旨在為后續(xù)模型提供準(zhǔn)確的拼音數(shù)據(jù)支持。;
5、step3、對(duì)基礎(chǔ)模型框架進(jìn)行優(yōu)化整理,在此基礎(chǔ)上新增一個(gè)拼音編碼模塊。該模塊的設(shè)計(jì)目的是使模型能夠有效學(xué)習(xí)并理解拼音信息,從而提高模型的整體性能;
6、step4、在拼音編碼模塊之后,引入交叉注意力機(jī)制,該機(jī)制負(fù)責(zé)融合拼音信息與文本信息。同時(shí),為了提升信息處理的純凈度,本發(fā)明增加了自適應(yīng)門控機(jī)制,用于過濾掉融合后文本信息中可能存在的有害信息;
7、step5、對(duì)整合了拼音編碼和自適應(yīng)門控機(jī)制的模型進(jìn)行綜合訓(xùn)練和優(yōu)化。通過在文本編碼端添加檢測層聯(lián)合優(yōu)化與調(diào)整模型參數(shù),以達(dá)到最佳的性能指標(biāo)。
8、作為本發(fā)明的進(jìn)一步方案,所述step1的具體步驟如下:
9、step1.1、首先獲取開源且預(yù)先訓(xùn)練好的中文bart-large模型,該模型采用編碼端到解碼端的架構(gòu)設(shè)計(jì),適用于中文文本的處理;
10、step1.2、接著,收集并獲取開放訪問的數(shù)據(jù)集,包括lang8數(shù)據(jù)集、hsk數(shù)據(jù)集和nlpcc2018數(shù)據(jù)集,這些數(shù)據(jù)集將用于訓(xùn)練和評(píng)估模型;
11、step1.3、對(duì)lang8數(shù)據(jù)集和hsk數(shù)據(jù)集進(jìn)行預(yù)處理,移除數(shù)據(jù)集中的重復(fù)數(shù)據(jù)以及含有過多噪聲的數(shù)據(jù),以保證數(shù)據(jù)質(zhì)量。此外,將hsk數(shù)據(jù)集重復(fù)五次融入lang8數(shù)據(jù)集中,以此構(gòu)建最終的訓(xùn)練語料庫,增強(qiáng)訓(xùn)練數(shù)據(jù)的多樣性和模型的泛化能力。
12、step1.4、以bart架構(gòu)為基礎(chǔ)模型,對(duì)其進(jìn)行在mucgec數(shù)據(jù)集上進(jìn)行初步測試,以獲取模型的基準(zhǔn)性能結(jié)果。
13、作為本發(fā)明的進(jìn)一步方案,所述step2包括如下:
14、step2.1、從互聯(lián)網(wǎng)上廣泛搜集所有可能存在的中文拼音表示,構(gòu)建一個(gè)基礎(chǔ)的拼音字典vp1。該字典包含所有可能的拼音,為后續(xù)處理提供全面的拼音數(shù)據(jù)支持;
15、step2.2、利用公開的拼音轉(zhuǎn)換工具pypinyin,將訓(xùn)練集中的所有中文字符轉(zhuǎn)換為對(duì)應(yīng)的拼音表示p。通過對(duì)訓(xùn)練語料中的拼音表示進(jìn)行去重處理,并與步驟2.1中構(gòu)建的基礎(chǔ)拼音字典pv1合并,最終得到一個(gè)包含所有拼音的完整字典pv。
16、step2.3、對(duì)最終構(gòu)建的拼音字典pv中的所有拼音表示進(jìn)行排序。根據(jù)拼音的相似性,將相近的拼音放置在字典中的鄰近位置,以增強(qiáng)模型對(duì)相似拼音的學(xué)習(xí)和區(qū)分能力。
17、作為本發(fā)明的進(jìn)一步方案,所述step3的具體步驟如下:
18、step3.1、對(duì)于輸入句子x,首先實(shí)驗(yàn)原始bart字典進(jìn)行分詞,隨后通過pypinyin將輸入句子中的每一個(gè)字符xi轉(zhuǎn)化成相應(yīng)拼音id表示pi;
19、step3.2、在基礎(chǔ)模型上增加拼音嵌入層,利用拼音嵌入層將稀疏的拼音id表示pi映射為稠密的拼音向量表示
20、step3.3、將上一步得到的稠密拼音向量作為私有的長短時(shí)記憶網(wǎng)絡(luò)的輸入,經(jīng)過私有長短時(shí)記憶網(wǎng)絡(luò)編碼獲取拼音上下文相關(guān)字表示
21、作為本發(fā)明的進(jìn)一步方案,所述step4的具體步驟如下:
22、step4.1、當(dāng)獲取step3.3的拼音上下文相關(guān)字表示后,通過將基礎(chǔ)模型中的文本編碼端的輸出與拼音上下文相關(guān)字表示作為多頭注意力機(jī)制的輸入,通過融合拼音信息與文本信息,并獲取帶有大量拼音信息的文本表示
23、step4.2、將上一步得到的帶有大量拼音信息的文本表示通過自適應(yīng)門控,過濾其中存在的有害信息,得到最終的帶有拼音信息的文本表示hi。通過使用最終的文本信息表示hi作為解碼端輸入,提升語法糾錯(cuò)模型對(duì)拼音信息利用能力。
24、作為本發(fā)明的進(jìn)一步方案,所述step5的具體步驟如下:
25、step5.1、將基礎(chǔ)模型中的文本編碼端的輸出經(jīng)過正則化與線性變化,減少模型過擬合率,得到離散文本表示
26、step5.2、離散文本表示作為私有的雙向長短時(shí)記憶網(wǎng)絡(luò)的輸入,通過私有的雙向長短時(shí)記憶網(wǎng)絡(luò)捕獲文本信息之間可能存在的錯(cuò)誤信息,并得到帶有檢測信息的向量表示
27、step5.3、帶有錯(cuò)誤信息的向量表示經(jīng)過分類層后,將稠密的向量表示映射成稀疏的檢測信息
28、step5.4、嘗試使用條件隨機(jī)場對(duì)檢測信息建模,通過條件隨機(jī)場計(jì)算負(fù)對(duì)數(shù)似然函數(shù)優(yōu)化文本編碼端。
29、本發(fā)明的有益效果是:
30、1、本發(fā)明首先利用原始一種預(yù)訓(xùn)練語言模型bart模型構(gòu)建了一個(gè)端到端的語法糾錯(cuò)基礎(chǔ)模型,該模型能夠利用bart模型強(qiáng)大的語言表征能力來提升糾錯(cuò)性能。
31、2、在bart模型的編碼階段結(jié)束后,增加了一個(gè)錯(cuò)誤檢測層,此檢測層旨在通過精確地識(shí)別錯(cuò)誤來減輕模型過度校正的問題。同時(shí)本發(fā)明使用私有拼音編碼器來學(xué)習(xí)字符的拼音信息表示,并將這一表示與文本信息表示通過交叉注意力機(jī)制相結(jié)合,進(jìn)而獲得融合了拼音信息的文本表示。
32、3、采用自適應(yīng)性門控機(jī)制來過濾掉拼音信息中的有害成分,確保最終得到的文本信息表示的準(zhǔn)確性和可靠性。
33、4、本發(fā)明將拼音信息融入了語法糾錯(cuò)模型中提升了模型對(duì)拼音的理解能力;本發(fā)明使用通過動(dòng)態(tài)規(guī)劃算法構(gòu)造了中文語法檢測數(shù)據(jù)集;本發(fā)明利用檢測模型緩解了模型過度糾正的問題;本發(fā)明利用拼音信息與檢測任務(wù)輔助模型糾錯(cuò),有效提升了模型糾正問題的準(zhǔn)確率。