一種語句訓練裝置、方法和信息提取系統(tǒng)的制作方法
【技術領域】
[0001]本發(fā)明涉及計算機應用技術領域,特別涉及一種語句訓練裝置、方法和信息提取系統(tǒng)。
【背景技術】
[0002]隨著互聯(lián)網(wǎng)使用的越加頻繁,從互聯(lián)網(wǎng)大數(shù)據(jù)中獲取信息已成為人們獲取信息的主要途徑。目前,從互聯(lián)網(wǎng)大數(shù)據(jù)中獲取信息的主要方式:用戶通過手動輸入關鍵詞,通過關鍵詞來查找包含有關鍵詞的信息如文章等,并通過人工的方式從這些包含有關鍵詞的信息中篩選出用戶需要的信息,但是,由于關鍵詞往往具有其他的表述方式或者具有同義詞,同時包含有關鍵詞的信息常常包含大量的干擾信息,造成獲取信息的準確性較低。
【發(fā)明內容】
[0003]本發(fā)明實施例提供了一種語句訓練裝置、方法和信息提取系統(tǒng),能夠有效地提高獲取信息的準確性。
[0004]一種語句訓練裝置,包括:
[0005]接收單元,用于接收至少一個訓練語料;
[0006]篩選單元,用于對所述接收單元接收到的至少一個訓練語料進行分詞,獲取各個詞組,并從各個詞組中篩選出各個主詞和各個從詞;
[0007]融合單元,用于將所述篩選單元篩選出的主詞和從詞進行順序匹配,生成至少一個語義語句;
[0008]提供單元,用于將所述融合單元生成的語義語句發(fā)送給外設的信息提取設備。
[0009]優(yōu)選地,上述語句訓練裝置,進一步包括:設置單元,其中,
[0010]所述設置單元,用于設置主詞閾值和從詞閾值;
[0011 ] 所述篩選單元,進一步用于構建主詞表和從詞表,統(tǒng)計所述各個主詞和各個從詞出現(xiàn)的頻率,當所述各個主詞中當前主詞出現(xiàn)的頻率大于所述設置單元設置的主詞閾值時,將所述當前主詞存儲到所述主詞表;當所述各個主從詞中當前從詞出現(xiàn)的頻率大于所述設置單元設置的從詞閾值時,將所述當前從詞存儲到所述從詞表;
[0012]所述融合單元,用于將所述主詞表中的主詞和所述從詞表中的從詞進行匹配,生成至少一個語義語句。
[0013]優(yōu)選地,所述篩選單元,用于根據(jù)所述當前主詞出現(xiàn)的頻率,確定所述當前主詞在所述主詞表中的存儲順序,并按照該存儲順序在所述主詞表中存儲所述主詞;根據(jù)所述當前從詞出現(xiàn)的頻率,確定所述當前從詞在所述從詞表中的存儲順序,并按照該存儲順序在所述從詞表中存儲所述從詞。
[0014]優(yōu)選地,所述融合單元,進一步用于確定所述接收單元接收到的至少一個訓練語料,通過所述至少一個訓練語料對所述生成的至少一個語義語句進行語句訓練,篩選出符合所述至少一個訓練語料的目標語義語句;
[0015]所述提供單元,用于將所述融合單元篩選出的目標語義語句發(fā)送給外設的信息提取設備。
[0016]一種語句訓練方法,包括:
[0017]接收至少一個訓練語料;
[0018]對所述接收到的至少一個訓練語料進行分詞,獲取各個詞組,并從各個詞組中篩選出各個主詞和各個從詞;
[0019]將所述篩選出的主詞和從詞進行順序匹配,生成至少一個語義語句;
[0020]將所述生成的語義語句發(fā)送給外設的信息提取設備。
[0021]優(yōu)選地,上述語句訓練方法,進一步包括:設置主詞閾值和從詞閾值,并構建主詞表和從詞表;
[0022]在所述從各個詞組中篩選出各個主詞和各個從詞之后,在所述將所述篩選出的主詞和從詞進行順序匹配之前,進一步包括:
[0023]統(tǒng)計所述各個主詞和各個從詞出現(xiàn)的頻率;
[0024]當所述各個主詞中當前主詞出現(xiàn)的頻率大于所述主詞閾值時,將所述當前主詞存儲到所述主詞表;
[0025]當所述各個從詞中當前從詞出現(xiàn)的頻率大于所述從詞閾值時,將所述當前從詞存儲到所述從詞表;
[0026]所述將所述篩選出的主詞和從詞進行順序匹配,包括:將所述主詞表中的主詞和所述從詞表中的從詞進行匹配。
[0027]優(yōu)選地,所述將所述當前主詞存儲到所述主詞表,包括:根據(jù)所述當前主詞出現(xiàn)的頻率,確定所述當前主詞在所述主詞表中的存儲順序,并按照該存儲順序在所述主詞表中存儲所述主詞;
[0028]所述將所述當前從詞存儲到所述從詞表,包括:根據(jù)所述當前從詞出現(xiàn)的頻率,確定所述當前從詞在所述從詞表中的存儲順序,并按照該存儲順序在所述從詞表中存儲所述從詞。
[0029]優(yōu)選地,在所述生成至少一個語義語句之后,在所述將所述生成的語義語句發(fā)送給外設的信息提取設備之前,進一步包括:確定所述至少一個訓練語料,通過所述至少一個訓練語料對所述至少一個語義語句進行語句訓練,篩選出符合所述至少一個訓練語料的目標語義語句;
[0030]所述將所述生成的語義語句發(fā)送給外設的信息提取設備,包括:將篩選出的目標語義語句發(fā)送給外設的信息提取設備。
[0031]—種基于上述任意一種語句訓練裝置實現(xiàn)的信息提取系統(tǒng),包括:上述任意一種語句訓練裝置和信息提取設備;其中,
[0032]所述信息提取設備,用于接收所述語句訓練裝置發(fā)送的語義語句,并根據(jù)所述語義語句提取目標信息。
[0033]優(yōu)選地,所述語句訓練裝置,用于確定至少一個訓練語料,通過所述至少一個訓練語料對生成的至少一個語義語句進行語句訓練,篩選出符合所述至少一個訓練語料的目標語義語句,并將該目標語義語句發(fā)送給所述信息提取設備;
[0034]所述信息提取設備,用于接收所述目標語義語句,并根據(jù)所述目標語義語句提取目標信息。
[0035]本發(fā)明實施例提供了一種語句訓練裝置、方法和信息提取系統(tǒng),該語句訓練裝置,包括:接收單元,用于接收至少一個訓練語料;篩選單元,用于對所述接收單元接收到的至少一個訓練語料進行分詞,獲取各個詞組,并從各個詞組中篩選出各個主詞和各個從詞;融合單元,用于將所述篩選單元篩選出的主詞和從詞進行順序匹配,生成至少一個語義語句;提供單元,用于將所述融合單元生成的語義語句發(fā)送給外設的信息提取設備,通過該語句訓練裝置能夠將詞組進行組合,形成語義語句,與通過關鍵詞提取信息相比,通過語義語句提取信息,將有效的減少干擾信息的出現(xiàn),更加準確地定位出信息的范圍,從而提高了獲取信息的準確性。
【附圖說明】
[0036]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0037]圖1是本發(fā)明一個實施例提供的一種語句訓練裝置的結構示意圖;
[0038]圖2是本發(fā)明一個實施例提供的一種語句訓練方法的流程圖;
[0039]圖3是本發(fā)明另一個實施例提供的一種語句訓練方法的流程圖;
[0040]圖4是本發(fā)明一個實施例提供的信息提取系統(tǒng)的結構示意圖。
【具體實施方式】
[0041]為使本發(fā)明實施例的目的、技術方案和優(yōu)點更加清楚,下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例,基于本發(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動的前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0042]如圖1所示,本發(fā)明實施例提供了一種語句訓練裝置,該語句訓練裝置包括:
[0043]接收單元101,用于接收至少一個訓練語料;
[0044]篩選單元102,用于對接收單元101接收到的至少一個訓練語料進行分詞,獲取各個詞組,并從各個詞組中篩選出各個主詞和各個從詞;
[0045]融合單元103,用于將篩選單元102篩選出的主詞和從詞進行順序匹配,生成至少一個語義語句;
[0046]提供單元104,用于將融合單元103生成的語義語句發(fā)送給外設的信息