利用網(wǎng)絡(luò)的信息檢索方法及相應(yīng)的語音對(duì)話方法
【專利摘要】本發(fā)明提供了一種利用網(wǎng)絡(luò)的信息檢索方法和使用該檢索方法的語音對(duì)話方法,包括:基于提供的用戶查詢和語言分析結(jié)果中的至少一個(gè)生成基礎(chǔ)詞矢量;在矢量空間數(shù)據(jù)庫中檢索與基礎(chǔ)詞矢量相對(duì)應(yīng)的矢量空間;當(dāng)基礎(chǔ)詞矢量和檢索到的矢量空間之間的相似度低于預(yù)置的參考值時(shí),使用擴(kuò)展詞矢量在矢量空間數(shù)據(jù)庫中檢索與該擴(kuò)展詞矢量相應(yīng)的矢量空間,所述擴(kuò)展詞矢量基于使用用戶查詢和語言分析結(jié)果中的至少一個(gè)執(zhí)行的網(wǎng)絡(luò)檢索結(jié)果而生成;基于基礎(chǔ)檢索步驟或者擴(kuò)展檢索步驟中檢索到的矢量空間,檢索知識(shí)信息。如此,提供了針對(duì)用戶查詢的改進(jìn)檢索結(jié)果。
【專利說明】利用網(wǎng)絡(luò)的信息檢索方法及相應(yīng)的語音對(duì)話方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明實(shí)施例涉及信息檢索,更具體地,涉及一種利用網(wǎng)絡(luò)的信息檢索方法以及一種利用所述信息檢索方法的語音對(duì)話方法,所述信息檢索方法能夠利用網(wǎng)絡(luò)有效地執(zhí)行信息檢索。
【背景技術(shù)】
[0002]信息檢索是基于特定的知識(shí)和信息針對(duì)用戶的查詢而提供合適響應(yīng)的過程。例如,當(dāng)在智能電視系統(tǒng)中輸入查詢專用程序的請(qǐng)求時(shí),通過訪問存儲(chǔ)有電視程序的知識(shí)信息數(shù)據(jù)庫而進(jìn)行的信息檢索,向用戶提供查詢結(jié)果。然而,用于傳統(tǒng)信息檢索方法中的知識(shí)信息數(shù)據(jù)庫是關(guān)系數(shù)據(jù)庫,此時(shí)問題在于:當(dāng)提交的查詢的格式與存儲(chǔ)在數(shù)據(jù)庫中信息的格式不一致時(shí),檢索不到合適的信息。當(dāng)查詢具有復(fù)雜的需要語義推理才能被理解的格式時(shí),同樣存在合適的響應(yīng)不能被檢索的問題。例如,當(dāng)向一個(gè)小型電視系統(tǒng)提出“讓我們看一場樸智星的足球比賽”的查詢時(shí),我們無法獲得“亞洲杯”的查詢結(jié)果。其原因在于,“亞洲杯”并不包含“樸智星”相關(guān)的信息。為了能夠正確執(zhí)行上述查詢,樸智星參與亞洲杯的信息需要額外的附加。雖然本體論提供了一種考慮上述語義事件的解決方案,但是構(gòu)建和管理本體是一項(xiàng)非常困難的工作,為了推理相關(guān)知識(shí)信息的請(qǐng)求而構(gòu)建如此多的本體也是不可能的。此外,對(duì)于實(shí)時(shí)改變的信息進(jìn)行反映也存在著限制。
【發(fā)明內(nèi)容】
[0003]【技術(shù)問題】
[0004]相應(yīng)地,本發(fā)明的實(shí)施例 實(shí)質(zhì)上解決了相關(guān)技術(shù)中的局限和缺點(diǎn)所帶來的問題。
[0005]本發(fā)明實(shí)施例提供了一種利用網(wǎng)絡(luò)的信息檢索方法,其通過利用網(wǎng)絡(luò)進(jìn)行信息檢索,從而向用戶提供增強(qiáng)的響應(yīng)。
[0006]本發(fā)明實(shí)施例還提供了一種語音對(duì)話方法,所述語音對(duì)話方法使用上述利用網(wǎng)絡(luò)的信息檢索方法,利用網(wǎng)絡(luò)進(jìn)行信息檢索,從而針對(duì)用戶的語音查詢提供增加的語音響應(yīng)。
[0007]【技術(shù)方案】
[0008]在一些實(shí)施例中,一種利用網(wǎng)絡(luò)的信息檢索方法,包括:生成與提供的用戶查詢和/或語言分析結(jié)果相關(guān)的基礎(chǔ)詞矢量,并使用至少一個(gè)基礎(chǔ)詞矢量在矢量空間數(shù)據(jù)庫中檢索與基礎(chǔ)詞矢量相應(yīng)的矢量空間;確定基礎(chǔ)詞矢量與檢索到的矢量空間之間的相似度;當(dāng)所述相似度等于或者小于閾值時(shí),基于使用提供的用戶查詢和/或語言分析結(jié)果而執(zhí)行的網(wǎng)絡(luò)檢索結(jié)果,生成擴(kuò)展詞矢量,并使用所述擴(kuò)展詞矢量在矢量空間數(shù)據(jù)庫中檢索與所述擴(kuò)展詞矢量相應(yīng)的矢量空間;基于在基礎(chǔ)檢索步驟或者擴(kuò)展檢索步驟中檢索到的矢量空間,檢索知識(shí)信息。
[0009]其中,所述基礎(chǔ)詞矢量、所述擴(kuò)展詞矢量和存儲(chǔ)在所述矢量空間數(shù)據(jù)庫中的矢量空間包括至少一個(gè)詞、所述詞的權(quán)重信息和所述詞的結(jié)構(gòu)信息。
[0010]其中,所述矢量空間數(shù)據(jù)庫進(jìn)一步包括基礎(chǔ)矢量空間數(shù)據(jù)庫和擴(kuò)展矢量空間數(shù)據(jù)庫,所述基礎(chǔ)矢量數(shù)據(jù)庫中的矢量空間由知識(shí)信息形成,所述擴(kuò)展矢量空間數(shù)據(jù)庫中的矢量空間基于使用知識(shí)信息執(zhí)行的網(wǎng)絡(luò)檢索結(jié)果而形成。
[0011]其中,檢索知識(shí)信息的步驟進(jìn)一步包括:基于所述擴(kuò)展詞矢量和檢索到的至少一個(gè)矢量空間計(jì)算擴(kuò)展檢索分值,并根據(jù)所述擴(kuò)展檢索分值進(jìn)行排序。
[0012]另外,在計(jì)算所述擴(kuò)展檢索分值時(shí),根據(jù)從提供的用戶查詢或者語言分析結(jié)果生成的擴(kuò)展詞矢量以及存儲(chǔ)在基礎(chǔ)矢量空間數(shù)據(jù)庫和擴(kuò)展矢量空間數(shù)據(jù)庫中的矢量空間,對(duì)權(quán)重值進(jìn)行調(diào)整。
[0013]另外,當(dāng)從語言分析結(jié)果生成的擴(kuò)展詞矢量對(duì)應(yīng)于存儲(chǔ)在基礎(chǔ)矢量空間數(shù)據(jù)庫中的矢量空間或者從用戶查詢生成的擴(kuò)展詞矢量對(duì)應(yīng)于存儲(chǔ)在基礎(chǔ)矢量空間數(shù)據(jù)庫中的矢量空間時(shí),權(quán)重值配置為比當(dāng)從語言分析結(jié)果生成的擴(kuò)展詞矢量對(duì)應(yīng)于存儲(chǔ)在擴(kuò)展矢量空間數(shù)據(jù)庫中的矢量空間或者從用戶查詢生成的擴(kuò)展詞矢量對(duì)應(yīng)于存儲(chǔ)于擴(kuò)展矢量空間數(shù)據(jù)庫中的矢量空間時(shí)的權(quán)重值具有更大數(shù)值。
[0014]另外,當(dāng)從語言分析結(jié)果生成的擴(kuò)展詞矢量對(duì)應(yīng)于存儲(chǔ)于基礎(chǔ)矢量空間數(shù)據(jù)庫中的矢量空間時(shí)的權(quán)重值大于當(dāng)從用戶查詢生成的擴(kuò)展詞矢量對(duì)應(yīng)于存儲(chǔ)在基礎(chǔ)矢量空間數(shù)據(jù)庫中的矢量空間時(shí)的權(quán)重值,同樣的,當(dāng)從語言分析結(jié)果生成的擴(kuò)展詞矢量對(duì)應(yīng)于存儲(chǔ)在擴(kuò)展矢量空間數(shù)據(jù)庫中的矢量空間時(shí)的權(quán)重值大于當(dāng)從用戶查詢生成的擴(kuò)展詞矢量對(duì)應(yīng)于存儲(chǔ)在擴(kuò)展矢量空間數(shù)據(jù)庫中的矢量空間時(shí)的權(quán)重值。
[0015]在本發(fā)明的其它實(shí)施例中,一種基于利用網(wǎng)絡(luò)的信息檢索方法的語音對(duì)話方法,包括:針對(duì)用戶語音查詢執(zhí)行語音識(shí)別,從而將所述用戶語音查詢轉(zhuǎn)換為用戶查詢文本;針對(duì)轉(zhuǎn)換為用戶查詢文本的所述用戶語音查詢執(zhí)行語言分析;生成有關(guān)用戶查詢文本和/或語言分析結(jié)果的基礎(chǔ)詞矢量,使用所述基礎(chǔ)詞矢量在矢量空間數(shù)據(jù)庫中檢索與所述基礎(chǔ)詞矢量對(duì)應(yīng)的矢量空間,確定所述基礎(chǔ)詞矢量和檢索到的矢量空間之間的相似度,當(dāng)所述相似度等于或者小于閾值時(shí),基于使用用戶查詢文本和/或語言分析結(jié)果執(zhí)行的網(wǎng)絡(luò)檢索結(jié)果,生成擴(kuò)展詞矢量,并使用擴(kuò)展詞矢量在矢量空間數(shù)據(jù)庫中檢索與所述擴(kuò)展詞矢量相應(yīng)的矢量空間,并基于檢索到對(duì)應(yīng)于基礎(chǔ)詞矢量或擴(kuò)展詞矢量的矢量空間,檢索知識(shí)信息;將所述知識(shí)信息轉(zhuǎn)換為與用戶查詢相應(yīng)的響應(yīng);針對(duì)所述響應(yīng)執(zhí)行語音合成,從而將所述響應(yīng)轉(zhuǎn)換為語音。
[0016]其中,所述基礎(chǔ)詞矢量、所述擴(kuò)展詞矢量和存儲(chǔ)在所述矢量空間數(shù)據(jù)庫中的矢量空間包括至少一個(gè)詞、所述詞的權(quán)重信息和所述詞的結(jié)構(gòu)信息。
[0017]其中,所述矢量空間數(shù)據(jù)庫進(jìn)一步包括基礎(chǔ)矢量空間數(shù)據(jù)庫和擴(kuò)展矢量空間數(shù)據(jù)庫,所述基礎(chǔ)矢量數(shù)據(jù)庫中的矢量空間由所述知識(shí)信息形成,所述擴(kuò)展矢量空間數(shù)據(jù)庫中的矢量空間基于使用所述知識(shí)信息執(zhí)行的網(wǎng)絡(luò)檢索結(jié)果而形成。
[0018]其中,檢索知識(shí)信息的步驟進(jìn)一步包括:基于所述擴(kuò)展詞矢量和檢索到的矢量空間計(jì)算擴(kuò)展檢索分值,并根據(jù)所述擴(kuò)展檢索分值進(jìn)行排序。
[0019]其中,在計(jì)算所述擴(kuò)展檢索分值時(shí),根據(jù)從所提供的用戶查詢或者語言分析結(jié)果生成的擴(kuò)展詞矢量以及存儲(chǔ)在基礎(chǔ)矢量空間數(shù)據(jù)庫和擴(kuò)展矢量空間數(shù)據(jù)庫中的矢量空間,對(duì)權(quán)重值進(jìn)行調(diào)整。
[0020]其中,當(dāng)從語言分析結(jié)果生成的擴(kuò)展詞矢量對(duì)應(yīng)于存儲(chǔ)在基礎(chǔ)矢量空間數(shù)據(jù)中的矢量空間或者從用戶查詢生成的擴(kuò)展詞矢量對(duì)應(yīng)于存儲(chǔ)在基礎(chǔ)矢量空間數(shù)據(jù)庫中的矢量空間時(shí)的權(quán)重值大于當(dāng)從語言分析結(jié)果生成的擴(kuò)展詞矢量對(duì)應(yīng)于存儲(chǔ)在擴(kuò)展矢量空間數(shù)據(jù)庫中的矢量空間或者從用戶查詢生成的擴(kuò)展詞矢量對(duì)應(yīng)于存儲(chǔ)在擴(kuò)展矢量空間數(shù)據(jù)庫中的矢量空間時(shí)的權(quán)重值。
[0021]其中,當(dāng)從語言分析結(jié)果生成的擴(kuò)展詞矢量對(duì)應(yīng)于存儲(chǔ)于基礎(chǔ)矢量空間數(shù)據(jù)庫中的矢量空間時(shí)的權(quán)重值大于當(dāng)從用戶查詢生成的擴(kuò)展詞矢量對(duì)應(yīng)于存儲(chǔ)在基礎(chǔ)矢量空間數(shù)據(jù)庫中的矢量空間時(shí)的權(quán)重值,同樣的,當(dāng)從語言分析結(jié)果生成的擴(kuò)展詞矢量對(duì)應(yīng)于存儲(chǔ)在擴(kuò)展矢量空間數(shù)據(jù)庫中的矢量空間時(shí)的權(quán)重值大于當(dāng)從用戶查詢生成的擴(kuò)展詞矢量對(duì)應(yīng)于存儲(chǔ)在擴(kuò)展矢量空間數(shù)據(jù)庫中的矢量空間時(shí)的權(quán)重值。 [0022]【有益效果】
[0023]在前面描述的根據(jù)本發(fā)明的利用網(wǎng)絡(luò)的信息檢索方法和相應(yīng)的語音對(duì)話方法中,通過在網(wǎng)絡(luò)檢索中擴(kuò)展知識(shí)信息和用戶查詢信息,可以向用戶提供更好的檢索結(jié)果。
[0024]此外,通過網(wǎng)絡(luò)執(zhí)行信息檢索,不需要進(jìn)行人工處理,傳統(tǒng)的矢量空間模型仍然可用。當(dāng)今,信息檢索中存在大量的信息,諸如問答信息和社會(huì)網(wǎng)絡(luò)信息,這使得執(zhí)行推理和推薦變得可行并成為迫切需要。
【專利附圖】
【附圖說明】
[0025]圖1表示根據(jù)本發(fā)明實(shí)施例的基于利用網(wǎng)絡(luò)的信息檢索方法的語音對(duì)話方法的示意圖;
[0026]圖2表示本發(fā)明實(shí)施例的利用網(wǎng)絡(luò)的信息檢索方法的流程圖;
[0027]圖3表示根據(jù)本發(fā)明實(shí)施例的信息檢索方法的基本檢索過程的流程圖;
[0028]圖4表示根據(jù)本發(fā)明實(shí)施例的利用網(wǎng)絡(luò)的信息檢索方法的擴(kuò)展檢索過程的流程圖;
[0029]圖5表示根據(jù)本發(fā)明實(shí)施例的利用網(wǎng)絡(luò)的信息檢索方法的構(gòu)建矢量空間數(shù)據(jù)庫的過程的流程圖。
【具體實(shí)施方式】
[0030]本說明書公開了本發(fā)明的實(shí)施例,然而此處公開的特殊的結(jié)構(gòu)和功能性細(xì)節(jié)只是本發(fā)明實(shí)施例的代表性描述,本發(fā)明實(shí)施例還有作多種變形,并不局限于本說明書所描述的實(shí)施例。
[0031]相應(yīng)地,由于發(fā)明容易受到改進(jìn)和替換形式的影響,附圖中只是給出了特定的實(shí)施例,以下將會(huì)對(duì)特定的實(shí)施例作詳細(xì)的介紹。這樣做的目的并不是要將發(fā)明限定在所公開的特殊形式,相反地,本發(fā)明涵蓋了在不脫離本發(fā)明原理的前提下所有修飾、替換和等同方案。在附圖中相同的標(biāo)號(hào)表不相同的部件。
[0032]此處使用的術(shù)語用于描述特定的實(shí)施例,而非用于限制本發(fā)明。例如,除非上下文明確排除,本申請(qǐng)中所使用的單數(shù)形式也適用復(fù)數(shù)形式。本申請(qǐng)中所使用的“包含”,“包括”指定了存在的規(guī)定特征、整數(shù)、步驟、操作、元素、和/或部件,但其不排除一個(gè)或多個(gè)其它特征、整數(shù)、步驟、操作、元素、部件、和/或它們之間組合的出現(xiàn)或者添加。
[0033]除非另作申明,本申請(qǐng)所使用的術(shù)語(包括技術(shù)術(shù)語和科學(xué)術(shù)語)為本發(fā)明所屬領(lǐng)域普通技術(shù)人員所理解的常見含義。還應(yīng)當(dāng)理解,例如定義在常用字典中的術(shù)語應(yīng)理解為具有與相關(guān)領(lǐng)域中的上下文一致的含義,而不應(yīng)被理解為理想化或者過于正式,除非文中明確定義。
[0034]在本發(fā)明的實(shí)施例中,利用網(wǎng)絡(luò)的信息檢索方法以及使用該方法的語音對(duì)話方法可以實(shí)現(xiàn)為包括至少一個(gè)服務(wù)器的系統(tǒng),該系統(tǒng)可以包括至少一個(gè)服務(wù)器和多個(gè)用戶終端。
[0035]在以下的描述中,將利用網(wǎng)絡(luò)的信息檢索方法和使用該方法的語音對(duì)話方法稱為“信息檢索系統(tǒng)”。
[0036]服務(wù)器和用戶終端之間可以彼此直接連接,或者通過至少一個(gè)無線或者有線通信網(wǎng)絡(luò)連接。此外,所述服務(wù)器可以是網(wǎng)絡(luò)服務(wù)器,所述用戶終端可以是多種具備與服務(wù)器通信功能和具有信息處理功能的終端裝置中的一種,例如,便攜式多媒體播放器,筆記本電腦,智能電話,智能電視等。
[0037]圖1表示根據(jù)本發(fā)明實(shí)施例的基于利用網(wǎng)絡(luò)的信息檢索方法的語音對(duì)話方法的示意圖。
[0038]通過圖1可見,所述語音對(duì)話方法包括以下步驟:步驟S100,提供用戶語音查詢;步驟S200,語音識(shí)別,將所述用戶語音查詢轉(zhuǎn)換為用戶查詢文本;步驟S300,對(duì)轉(zhuǎn)換為用戶查詢文本的用戶查詢執(zhí)行語言分析;步驟S400,基于用戶查詢和/或語言分析結(jié)果利用網(wǎng)絡(luò)執(zhí)行信息檢索;步驟S500,將步驟S400中的檢索結(jié)果轉(zhuǎn)換為響應(yīng),從而產(chǎn)生對(duì)應(yīng)于用戶查詢的響應(yīng);步驟S600,對(duì)所述響應(yīng)執(zhí)行語音合成,以便將所述響應(yīng)轉(zhuǎn)換為語音。
[0039]步驟S400中利用網(wǎng)絡(luò)進(jìn)行信息檢索將在下文中詳細(xì)介紹。
[0040]圖2表示本發(fā)明實(shí)施例的利用網(wǎng)絡(luò)的信息檢索方法的流程圖,圖3表示根據(jù)本發(fā)明實(shí)施例的信息檢索方法的基本檢索過程的流程圖,圖4表示根據(jù)本發(fā)明實(shí)施例的利用網(wǎng)絡(luò)的信息檢索方法的擴(kuò)展檢索過程的流程圖,圖5表示根據(jù)本發(fā)明實(shí)施例的利用網(wǎng)絡(luò)的信息檢索方法的構(gòu)建矢量空間數(shù)據(jù)庫的過程的流程圖。
[0041]由圖2至圖5可見,在步驟S400中,通過對(duì)存儲(chǔ)在知識(shí)信息數(shù)據(jù)庫1000中的知識(shí)信息進(jìn)行檢索,基于用戶查詢和/或用戶查詢的語言分析結(jié)果提供針對(duì)用戶查詢的響應(yīng)。
[0042]上述語言分析可以是多種語言分析技術(shù)中的一種,例如,語素分析、語句結(jié)構(gòu)分析、語義分析。
[0043]語言分析結(jié)果可包括言語行為、主體行為和結(jié)構(gòu)信息。所述言語行為不會(huì)總是和用戶查詢的語句格式相匹配,但是可以大概的表示語句類型一一陳述句,疑問句,請(qǐng)求句。所述主體行為可以表述用戶所希望的行為的警示信息,例如,開/關(guān)電視機(jī),查找程序。所述結(jié)構(gòu)信息可以表示用戶查詢中出現(xiàn)的實(shí)體名稱的信息,例如,節(jié)目的類型,節(jié)目的標(biāo)題,頻道的名稱,節(jié)目的起始時(shí)間,節(jié)目的演員。另外,用戶查詢可以是文本類型的慣用語(語法,語音),或者是作為輸入慣用語轉(zhuǎn)換結(jié)果的用戶查詢文本。
[0044]如圖2所示,在利用網(wǎng)絡(luò)進(jìn)行信息檢索的方法的步驟S410中,可以提供用戶查詢和語言分析結(jié)果中的至少一個(gè)。
[0045]在利用網(wǎng)絡(luò)進(jìn)行信息檢索的方法的步驟S420中,基于用戶查詢和語言分析結(jié)果中的至少一個(gè)產(chǎn)生基礎(chǔ)詞矢量,執(zhí)行基礎(chǔ)檢索,以便在矢量空間數(shù)據(jù)庫2000中檢索對(duì)應(yīng)于基礎(chǔ)詞矢量的矢量空間。
[0046]在步驟S430中,確定在矢量空間數(shù)據(jù)庫2000中是否存在對(duì)應(yīng)于基礎(chǔ)詞矢量的檢索結(jié)果,或者基礎(chǔ)檢索分值是否等于或者小于預(yù)置的閾值分值。
[0047]根據(jù)判斷的結(jié)果,當(dāng)矢量空間數(shù)據(jù)庫2000中不存在與基礎(chǔ)詞矢量相應(yīng)的檢索結(jié)果或者基礎(chǔ)檢索分值等于或者小于預(yù)置的閾值分值時(shí),在步驟S440中執(zhí)行擴(kuò)展檢索。
[0048]在執(zhí)行擴(kuò)展檢索的步驟S440中,通過使用基于用戶查詢和/或語言分析結(jié)果生成的檢索關(guān)鍵詞執(zhí)行網(wǎng)絡(luò)檢索并生成對(duì)應(yīng)于檢索到的網(wǎng)絡(luò)文檔的擴(kuò)展詞矢量,可以在矢量空間數(shù)據(jù)庫2000中檢索到對(duì)應(yīng)于擴(kuò)展詞矢量的矢量空間。
[0049]存儲(chǔ)在知識(shí)信息數(shù)據(jù)庫1000中的與上述基礎(chǔ)檢索和擴(kuò)展檢索中檢索到的矢量空間相對(duì)應(yīng)的知識(shí)信息,可以作為檢索結(jié)果輸出。
[0050]此外,利用網(wǎng)絡(luò)進(jìn)行信息檢索的方法的步驟S400還可進(jìn)一步包括步驟S450:產(chǎn)生與存儲(chǔ)在知識(shí)信息數(shù)據(jù)庫1000中的知識(shí)信息相對(duì)應(yīng)的矢量空間,并將所述產(chǎn)生的矢量空間存儲(chǔ)至矢量空間數(shù)據(jù)庫2000中。 [0051]其中,產(chǎn)生與知識(shí)信息相對(duì)應(yīng)的矢量空間的步驟可以優(yōu)選地在基礎(chǔ)檢索和擴(kuò)展檢索之前執(zhí)行。但是,上述步驟的執(zhí)行順序并不限于以上的情況。也就是說,上述產(chǎn)生與知識(shí)信息相關(guān)的矢量空間的步驟可以獨(dú)立于步驟S410至步驟S440在任何時(shí)間執(zhí)行。
[0052]基礎(chǔ)詞矢量可以是對(duì)應(yīng)于用戶查詢和/或語言分析結(jié)果的矢量空間,擴(kuò)展詞矢量可以是使用基于用戶查詢和/或語言分析結(jié)果而生成的檢索關(guān)鍵詞并通過網(wǎng)絡(luò)檢索而檢索到的網(wǎng)絡(luò)文檔中包含的單詞所對(duì)應(yīng)于矢量空間。
[0053]此外,本說明書中包含的“單詞”或“詞”可以指單個(gè)單詞、關(guān)鍵詞或短語。根據(jù)本發(fā)明應(yīng)用的領(lǐng)域,“單詞”或“詞”可以有所不同。
[0054]提供用戶查詢和語言分析結(jié)果的步驟S410可以是提供文本形式的用戶查詢以及包括前面所述的言語行為、主體行為和結(jié)構(gòu)信息的語言分析結(jié)果。
[0055]如圖3所示,基礎(chǔ)檢索步驟S420進(jìn)一步包括:步驟S421,產(chǎn)生與用戶查詢和/或語言分析結(jié)果相對(duì)應(yīng)的基礎(chǔ)詞矢量;步驟S422,在矢量空間數(shù)據(jù)庫2000中檢索與所述基礎(chǔ)詞矢量相對(duì)應(yīng)的矢量空間。所述基礎(chǔ)詞矢量可以指使用用戶查詢和/或語言分析結(jié)果所形成的矢量空間。
[0056]在判斷步驟S430中,對(duì)矢量空間數(shù)據(jù)庫2000中是否存在與基礎(chǔ)詞矢量相對(duì)應(yīng)的矢量空間或者基礎(chǔ)檢索分值是否等于或者小于預(yù)置的閾值分值進(jìn)行判斷。此外,由于擴(kuò)展檢索執(zhí)行網(wǎng)絡(luò)檢索,所以擴(kuò)展檢索相對(duì)于基礎(chǔ)檢索具有相對(duì)滯后的響應(yīng)時(shí)間,從而在步驟S430中可以執(zhí)行這樣的功能,即判斷是否僅能執(zhí)行基礎(chǔ)檢索?;A(chǔ)檢索分值可以是表示基礎(chǔ)詞矢量和存儲(chǔ)在矢量空間數(shù)據(jù)庫2000中的矢量空間之間相關(guān)度的數(shù)值,并可以通過使用例如余弦相似度的各種計(jì)算方法進(jìn)行計(jì)算。例如,所述余弦相似度可以通過以下公式I獲得。
[0057]【公式I】
Α.Β
[0058]在5 = PIPPI上述公式I中,S表示余弦相似度,A和B表示矢量空間,| |Α| |和
IB I I表示矢量空間A和B的絕對(duì)值。
[0059]此外,根據(jù)語言分析結(jié)果中顯示的基礎(chǔ)詞矢量和矢量空間數(shù)據(jù)庫2000中存儲(chǔ)的矢量空間的結(jié)構(gòu)信息是否相同而調(diào)整的權(quán)重值可以用于計(jì)算。
[0060]例如,假設(shè)用戶查詢是“觀看亞洲杯足球賽”。當(dāng)用戶查詢的語言分析結(jié)果為“標(biāo)題:亞洲杯,足球賽”,基礎(chǔ)詞矢量產(chǎn)生的格式如下:< (標(biāo)題:亞洲杯,0.5) >, < (標(biāo)題:足球賽,0.5) >。另外,假設(shè)存儲(chǔ)在矢量空間數(shù)據(jù)庫2000中的矢量空間的字段為〈(標(biāo)題:亞洲杯,0.2)>,〈(種類:足球賽,0.3)>,如果將余弦相似度用于計(jì)算此分值,則基礎(chǔ)檢索分值可計(jì)算為:(0.5X0.2+0.5X0.3)/(0.707+0.361)=0.234。然而,如果針對(duì)相同結(jié)構(gòu)信息的權(quán)重值取0.7,而針對(duì)不同結(jié)構(gòu)信息的權(quán)重值取0.3時(shí),考慮到上述結(jié)構(gòu)信息,所述基礎(chǔ)檢索分值如下:(0.5X0.2X0.7+0.5X0.3X0.3)/(0.707+0.361)=0.108。
[0061]當(dāng)矢量空間數(shù)據(jù)庫2000中不存在與基礎(chǔ)詞矢量相應(yīng)的矢量空間或者基礎(chǔ)檢索分值等于或者小于預(yù)置閾值時(shí),可以執(zhí)行擴(kuò)展檢索步驟S440。步驟S440可進(jìn)一步包括:步驟S441,產(chǎn)生與用戶查詢和/或語言分析結(jié)果相關(guān)的檢索關(guān)鍵詞;步驟S443,執(zhí)行網(wǎng)絡(luò)檢索;步驟S444,產(chǎn)生與檢索到的網(wǎng)絡(luò)文檔對(duì)應(yīng)的擴(kuò)展詞矢量;步驟S445,在存儲(chǔ)在矢量空間數(shù)據(jù)庫2000中的矢量空間之中檢索與擴(kuò)展詞矢量對(duì)應(yīng)的矢量空間。對(duì)于檢索關(guān)鍵詞,可以使用用戶查詢和語言分析結(jié)果的至少一個(gè)重要字段,并可以根據(jù)哪個(gè)字段是用戶經(jīng)常檢索的字段或者哪個(gè)字段具有典型屬性來確定用于檢索關(guān)鍵詞的字段,或者還可以使用試探法進(jìn)行確定。這里,在產(chǎn)生檢索關(guān)鍵詞時(shí)考慮用戶查詢的原因是考慮到了這種情況,即關(guān)鍵詞沒有在語言分析結(jié)果中表示出來。例如,假設(shè)用戶查詢?yōu)椤翱磮鲇腥さ碾娪啊?,盡管“有趣”是重要的詞,在用戶查詢的語言分析結(jié)果中也可能不會(huì)表示出來。
[0062]使用檢索關(guān)鍵詞的網(wǎng)絡(luò)檢索可在步驟S443中執(zhí)行,與通過網(wǎng)絡(luò)檢索而檢索到的網(wǎng)絡(luò)文檔對(duì)應(yīng)的擴(kuò)展詞矢量在步驟S444中產(chǎn)生。所述擴(kuò)展詞矢量可以是對(duì)應(yīng)于檢索到的網(wǎng)絡(luò)文檔中所包含的各個(gè)單詞而產(chǎn)生的矢量空間。對(duì)應(yīng)于擴(kuò)展詞矢量的矢量空間可以使用擴(kuò)展的矢量空間在存儲(chǔ)在矢量空間數(shù)據(jù)庫2000中的矢量空間中進(jìn)行檢索。根據(jù)擴(kuò)展檢索分值是否等于或者大于所述預(yù)置的閾值,確定哪個(gè)矢量空間與擴(kuò)展詞矢量相對(duì)應(yīng),并且,檢索到的矢量空間以每個(gè)檢索到的矢量空間的擴(kuò)展檢索分值的升序進(jìn)行排序。
[0063]擴(kuò)展檢索分值可以作為擴(kuò)展詞矢量和存儲(chǔ)在矢量空間數(shù)據(jù)庫2000中的矢量空間之間的相似度計(jì)算,并且,根據(jù)擴(kuò)展詞矢量和存儲(chǔ)在矢量空間數(shù)據(jù)庫中的矢量空間的生成方式的不同而調(diào)整的權(quán)重值可`用于此計(jì)算。
[0064]特別地,所述擴(kuò)展檢索分值可以按照公式2計(jì)算得到。
[0065]【公式2】
【權(quán)利要求】
1.一種利用網(wǎng)絡(luò)的信息檢索方法,包括: 生成與所提供的用戶查詢和/或語言分析結(jié)果相關(guān)的基礎(chǔ)詞矢量,并使用至少一個(gè)基礎(chǔ)詞矢量在矢量空間數(shù)據(jù)庫中檢索與基礎(chǔ)詞矢量相應(yīng)的矢量空間; 確定基礎(chǔ)詞矢量與檢索到的矢量空間之間的相似度; 當(dāng)所述相似度等于或者小于閾值時(shí),基于使用所提供的用戶查詢和/或語言分析結(jié)果而執(zhí)行的網(wǎng)絡(luò)檢索結(jié)果,生成擴(kuò)展詞矢量,并使用所述擴(kuò)展詞矢量在矢量空間數(shù)據(jù)庫中檢索與所述擴(kuò)展詞矢量相應(yīng)的矢量空間; 基于在基礎(chǔ)檢索步驟或者擴(kuò)展檢索步驟中檢索到的矢量空間,檢索知識(shí)信息。
2.如權(quán)利要求1所述的方法,其中所述基礎(chǔ)詞矢量、所述擴(kuò)展詞矢量和存儲(chǔ)在所述矢量空間數(shù)據(jù)庫中的矢量空間包括至少一個(gè)詞、所述詞的權(quán)重信息和所述詞的結(jié)構(gòu)信息。
3.如權(quán)利要求1所述的方法,其中所述矢量空間數(shù)據(jù)庫進(jìn)一步包括基礎(chǔ)矢量空間數(shù)據(jù)庫和擴(kuò)展矢量空間數(shù)據(jù)庫,所述基礎(chǔ)矢量數(shù)據(jù)庫中的矢量空間由知識(shí)信息形成,所述擴(kuò)展矢量空間數(shù)據(jù)庫中的矢量空間基于使用知識(shí)信息執(zhí)行的網(wǎng)絡(luò)檢索結(jié)果而形成。
4.如權(quán)利要求1所述的方法,其中檢索知識(shí)信息的步驟進(jìn)一步包括:基于所述擴(kuò)展詞矢量和檢索到的至少一個(gè)矢量空間計(jì)算擴(kuò)展檢索分值,并根據(jù)所述擴(kuò)展檢索分值進(jìn)行排序。
5.如權(quán)利要求4所述的方法,其中,在計(jì)算所述擴(kuò)展檢索分值時(shí),根據(jù)從所提供的用戶查詢或者語言分析結(jié)果生成的擴(kuò)展詞矢量以及存儲(chǔ)在基礎(chǔ)矢量空間數(shù)據(jù)庫和擴(kuò)展矢量空間數(shù)據(jù)庫中的矢量空間,對(duì)權(quán)重值進(jìn)行調(diào)整。
6.如權(quán)利要求5所述的方法,其中,當(dāng)從語言分析結(jié)果生成的擴(kuò)展詞矢量對(duì)應(yīng)于存儲(chǔ)在基礎(chǔ)矢量空間數(shù)據(jù)庫中的矢量空間或者從用戶查詢生成的擴(kuò)展詞矢量對(duì)應(yīng)于存儲(chǔ)在基礎(chǔ)矢量空間數(shù)據(jù)庫中的矢量空間時(shí),權(quán)重值比當(dāng)從語言分析結(jié)果生成的擴(kuò)展詞矢量對(duì)應(yīng)于存儲(chǔ)在擴(kuò)展矢量空間數(shù)據(jù)庫中的矢量空間或者從用戶查詢生成的擴(kuò)展詞矢量對(duì)應(yīng)于存儲(chǔ)于擴(kuò)展矢量空間數(shù)據(jù)庫中的矢量空間時(shí)的權(quán)重值具有更大數(shù)值。
7.如權(quán)利要求5所述的方法,其中, 當(dāng)從語言分析結(jié)果生成的擴(kuò)展詞矢量對(duì)應(yīng)于存儲(chǔ)于基礎(chǔ)矢量空間數(shù)據(jù)庫中的矢量空間時(shí)的權(quán)重值大于當(dāng)從用戶查詢生成的擴(kuò)展詞矢量對(duì)應(yīng)于存儲(chǔ)在基礎(chǔ)矢量空間數(shù)據(jù)庫中的矢量空間時(shí)的權(quán)重值,并且, 當(dāng)從語言分析結(jié)果生成的擴(kuò)展詞矢量對(duì)應(yīng)于存儲(chǔ)在擴(kuò)展矢量空間數(shù)據(jù)庫中的矢量空間時(shí)的權(quán)重值大于當(dāng)從用戶查詢生成的擴(kuò)展詞矢量對(duì)應(yīng)于存儲(chǔ)在擴(kuò)展矢量空間數(shù)據(jù)庫中的矢量空間時(shí)的權(quán)重值。
8.一種基于利用網(wǎng)絡(luò)的信息檢索方法的語音對(duì)話方法,包括: 針對(duì)用戶語音查詢執(zhí)行語音識(shí)別,從而將所述用戶語音查詢轉(zhuǎn)換為用戶查詢文本; 針對(duì)轉(zhuǎn)換為用戶查詢文本的所述用戶語音查詢執(zhí)行語言分析; 生成有關(guān)用戶查詢文本和/或語言分析結(jié)果的基礎(chǔ)詞矢量,使用所述基礎(chǔ)詞矢量在矢量空間數(shù)據(jù)庫中檢索與所述基礎(chǔ)詞矢量對(duì)應(yīng)的矢量空間,確定所述基礎(chǔ)詞矢量和檢索到的矢量空間之間的相似度, 當(dāng)所述相似度等于或者小于閾值時(shí),基于使用用戶查詢文本和/或語言分析結(jié)果執(zhí)行的網(wǎng)絡(luò)檢索結(jié)果,生成擴(kuò)展詞矢量,并使用擴(kuò)展詞矢量在矢量空間數(shù)據(jù)庫中檢索與所述擴(kuò)展詞矢量相應(yīng)的矢量空間,并基于檢索到對(duì)應(yīng)于基礎(chǔ)詞矢量或擴(kuò)展詞矢量的矢量空間,檢索知識(shí)信息; 將所述知識(shí)信息轉(zhuǎn)換為與用戶查詢相應(yīng)的響應(yīng); 針對(duì)所述響應(yīng)執(zhí)行語音合成,從而將所述響應(yīng)轉(zhuǎn)換為語音。
9.如權(quán)利要求8所述的語音對(duì)話方法,其中所述基礎(chǔ)詞矢量、所述擴(kuò)展詞矢量和存儲(chǔ)在所述矢量空間數(shù)據(jù)庫中的矢量空間包括至少一個(gè)詞、所述詞的權(quán)重信息和所述詞的結(jié)構(gòu)信息。
10.如權(quán)利要求8所述的語音對(duì)話方法,其中所述矢量空間數(shù)據(jù)庫進(jìn)一步包括基礎(chǔ)矢量空間數(shù)據(jù)庫和擴(kuò)展矢量空間數(shù)據(jù)庫,所述基礎(chǔ)矢量數(shù)據(jù)庫中的矢量空間由所述知識(shí)信息形成,所述擴(kuò)展矢量空間數(shù)據(jù)庫中的矢量空間基于使用所述知識(shí)信息執(zhí)行的網(wǎng)絡(luò)檢索結(jié)果而形成。
11.如權(quán)利要求8所述的語音對(duì)話方法,其中檢索知識(shí)信息的步驟進(jìn)一步包括:基于所述擴(kuò)展詞矢量和檢索到的矢量空間計(jì)算擴(kuò)展檢索分值,并根據(jù)所述擴(kuò)展檢索分值進(jìn)行排序。
12.如權(quán)利要求9所述的語音對(duì)話方法,其中,在計(jì)算所述擴(kuò)展檢索分值時(shí),根據(jù)從所提供的用戶查詢或者語言分析結(jié)果生成的擴(kuò)展詞矢量以及存儲(chǔ)在基礎(chǔ)矢量空間數(shù)據(jù)庫和擴(kuò)展矢量空間數(shù)據(jù)庫中的矢量空間,對(duì)權(quán)重值進(jìn)行調(diào)整。
13.如權(quán)利要求12所述的語音對(duì)話方法,其中,當(dāng)從語言分析結(jié)果生成的擴(kuò)展詞矢量對(duì)應(yīng)于存儲(chǔ)在基礎(chǔ)矢量空間數(shù)據(jù)中的矢量空間或者從用戶查詢生成的擴(kuò)展詞矢量對(duì)應(yīng)于存儲(chǔ)在基礎(chǔ)矢量空間數(shù)據(jù)庫中的矢量空間時(shí),權(quán)重值大于當(dāng)從語言分析結(jié)果生成的擴(kuò)展詞矢量對(duì)應(yīng)于存儲(chǔ)在擴(kuò)展矢量空間數(shù)據(jù)庫中的矢量空間或者從用戶查詢生成的擴(kuò)展詞矢量對(duì)應(yīng)于存儲(chǔ)在擴(kuò)展矢量空間數(shù)據(jù)庫中的矢量空間時(shí)的權(quán)重值。
14.如權(quán)利要求12所述的語音對(duì)話方法,其中, 當(dāng)從語言分析結(jié)果生成的擴(kuò)展詞矢量對(duì)應(yīng)于存儲(chǔ)于基礎(chǔ)矢量空間數(shù)據(jù)庫中的矢量空間時(shí)的權(quán)重值大于當(dāng)從用戶查詢生成的擴(kuò)展詞矢量對(duì)應(yīng)于存儲(chǔ)在基礎(chǔ)矢量空間數(shù)據(jù)庫中的矢量空間時(shí)的權(quán)重值,并且 當(dāng)從語言分析結(jié)果生成的擴(kuò)展詞矢量對(duì)應(yīng)于存儲(chǔ)在擴(kuò)展矢量空間數(shù)據(jù)庫中的矢量空間時(shí)的權(quán)重值大于當(dāng)從用戶查詢生成的擴(kuò)展詞矢量對(duì)應(yīng)于存儲(chǔ)在擴(kuò)展矢量空間數(shù)據(jù)庫中的矢量空間時(shí)的權(quán)重值。
【文檔編號(hào)】G10L15/26GK103562919SQ201280026904
【公開日】2014年2月5日 申請(qǐng)日期:2012年6月4日 優(yōu)先權(quán)日:2011年6月2日
【發(fā)明者】李根培, 金石煥, 金京德, 李東賢, 崔俊輝 申請(qǐng)人:浦項(xiàng)工科大學(xué)校產(chǎn)學(xué)協(xié)力團(tuán)