專利名稱:多級關聯存儲結構及其存儲方法
技術領域:
本發明涉及存儲結構和存儲方法,更具體地說,涉及一種用于以符合語義的方式保存中文語句的多級關聯存儲結構及其存儲方法。
背景技術:
眾所周知,中文是使用人口數量極大的語言,因此,使用中文的地區的計算機使用量也是十分巨大的。當使用計算機時,人們總是希望使用自己的習慣的語言,比如母語來進行計算機的操作。于是,在計算機上顯示、輸入并處理中文成為了一項重要的內容。
目前,計算機上所使用的主要的操作系統和軟件都是基于英語進行開發的,比如進行語言輸入時,輸入工具,比如鍵盤可以直接用來輸入英文字母組成英文單詞,而對于中文輸入,必須采用一定的輸入法才能實現輸入。為了提高輸入的速度和效率,在進行語言輸入時常常會采用一定的輸入法,輸入法會與某個語言模型相關,語言模型中記錄了使用該種語言的習慣,比如常用的詞匯、詞組、短語、句式等等。在用戶從輸入設備進行輸入時,輸入法會根據已經輸入的內容在相關的語言模型中進行搜索,以推測用戶接下來準備要輸入的內容,如果輸入法根據語言模型的數據判斷用戶接下來將要輸入某個特定字的可能性高于一預定值,輸入法會將該字直接顯示在屏幕上,從而節省用戶輸入的時間。
對于英語輸入,相對比較容易實現,因為每一個英文字母都有對應的ASCII代碼,對于檢索和匹配都比較容易。比如,用戶首先輸入字母“I”,之后又輸入“a”,此時,輸入法會在相關的語言模型的數據庫中搜尋與“a”相關的單詞以及與“I”相關的句式,比如,最后的結果是句式“I am...”出現的可能性最高并且高于預定的值,那么該輸入法會在用戶進行下一步輸入之前首先在字母“a”后面顯示“m”,如果這正是用戶想要輸入的,就可以節省用戶的時間,提高輸入的效率。
由此可見,輸入法根據語言模型來預測后一個將要輸入的字母的方法的目的是用來提高輸入的效率和速度,因此,它必須要符合兩個要求1)具有足夠的檢索速度,至少要在用戶輸入下一個字母之前成功得到檢索的結果,否則就達不到提高輸入速度的目的;2)具有足夠的檢索準確度,如果輸入法選擇的字母經常出現錯誤,那么用戶還需要將其刪除并重新輸入,這反而會降低輸入的效率。據有足夠檢索準確度的前提是具有足夠大的數據庫供檢索并且,最好該數據庫是可以擴展的,以應對新詞匯、新句式出現的可能性。
對于上述兩個要求,中文輸入就有些難以做到了。中文和英文的語法結構和字結構都不相同。中文字不是由字母組合而成,更加沒有現成的類似ASCII代碼的代碼來表示中文字,因此,對于中文字的檢索比英文字母的檢索要困難地多。然而,更大的困難來自于如何預測下一個要輸入的字是什么,中文語句通過語義分割來使得中文語句具有特定的含義,有時,同樣的一些中文字,將它們以不同的短語組合會具有不同的意思,這就給建立語言模型和根據語言模型進行搜索帶來了很大的困難。要實現相對比較準確地預測,就需要很大容量的中文語言數據庫,但是,對于龐大的中文語言數據庫進行檢索是十分耗時的。由于上述的原因,目前的中文輸入法尚未達到上述的兩個要求,難以做到兼顧檢索的速度和準確度。
考慮到計算機處理數據的方式和中文語句的特點,本發明旨在提供一種新的保存與中文語句及語言庫相關的信息的方法,使得檢索和匹配中文字或者句子的速度和準確率都得到提高,從而提高中文輸入的速度和效率。
發明內容
本發明旨在提供一種適用于保存中文語言庫信息的存儲結構和存儲方法,使得中文輸入的速度和效率都得到提高。
根據本發明的第一方面,提供一種多級關聯存儲結構,包括一級以上的存儲結構,每一級存儲結構與至少一級其他存儲結構相關聯。每一級存儲結構可包括子結構,子結構用于實現不同級的存儲結構之間的關聯。子結構可以包括下列的內容標示子結構,作為存儲結構的標識符;關聯子結構,建立與其他級的存儲結構之間的關聯;內容子結構,存儲內容數據。
根據本發明的第二方面,提供一種多級關聯存儲結構,包括一級以上的存儲結構,每一級存儲結構包括至少一個存儲單元,存儲單元至少與一個其他級存儲結構中的存儲單元相關聯。同樣的,每一級存儲結構中的存儲單元也包括子結構,子結構用于實現不同級的存儲結構中的存儲單元之間的關聯。每一級存儲結構中的存儲單元可包括標識子結構,作為存儲結構的標識符;關聯子結構,建立與其他級的存儲結構之間的關聯;內容子結構,存儲內容數據。
特別的,針對中文語言庫的應用,本發明提供一種四級存儲結構,每一級存儲結構與與之相鄰的一級存儲結構相關聯;存儲結構中的每一級包括至少一個存儲單元,每一級中的存儲單元與與之相鄰的一級存儲結構中的存儲單元相關聯。該四級存儲結構存儲中文語句,其中,第一級存儲結構存儲語言庫數據;第二級存儲結構存儲句子數據;第三級存儲結構存儲詞組數據;第四級存儲結構存儲字數據。這樣,一中文語句包括由位于不同級的存儲結構中的存儲單元保存。具體而言,第一級存儲結構中的存儲單元包括,語言庫標識子結構,標識該第一級存儲結構中的存儲單元;語言庫內容子結構,保存與一中文語句相關的語言庫數據;第二級存儲結構中的存儲單元包括,句子標識子結構,標識該第二級存儲結構中的存儲單元;語言庫關聯子結構,保存該第二級存儲結構中的存儲單元相關聯的第一級存儲結構中的存儲單元的信息;句子內容子結構,保存與一中文語句相關的句子數據;第三級存儲結構中的存儲單元包括,詞組標識子結構,標識該第三級存儲結構中的存儲單元;句子關聯子結構,保存該第三級存儲結構中的存儲單元相關聯的第二級存儲結構中的存儲單元的信息;字關聯字結構,保存該第三級存儲結構中的存儲單元相關聯的第四級存儲結構中的存儲單元的信息;詞組內容子結構,保存與一中文語句相關的詞組數據;第四級存儲結構中的存儲單元包括,字標識子結構,標識該第四級存儲結構中的存儲單元;字內容子結構,保存與一中文語句相關的字數據。
根據本發明的第三方面,提供一種數據存儲方法,存儲數據于多級關聯存儲結構中,該方法包括建立一級以上的存儲結構;以及將每一級存儲結構與至少一級其他存儲結構相關聯。其中,該方法在所述每一級存儲結構中建立子結構;并通過存儲結構中的子結構實現不同級的存儲結構之間的關聯。在每一級存儲結構中建立的子結構可包括建立標示子結構,作為所述存儲結構的標識符;建立關聯子結構,并通過所述關聯子結構建立與其他級的存儲結構之間的關聯;建立內容子結構,存儲內容數據。
根據本發明的第四方面,提供一種數據存儲方法,存儲數據于多級關聯存儲結構中,該方法包括建立一級以上的存儲結構;在每一級存儲結構建立至少一個存儲單元;將存儲單元至少與一個其他級存儲結構中的存儲單元相關聯。其中,該方法在每一級存儲結構中的存儲單元中建立子結構;并通過子結構實現不同級的存儲結構中的存儲單元之間的關聯。在每一級存儲結構中的存儲單元中建立的子結構可包括建立標識子結構,作為所述存儲結構的標識符;建立關聯子結構,并通過所述關聯子結構建立與其他級的存儲結構之間的關聯;建立內容子結構,存儲內容數據。
特別的,針對中文語言庫的應用,本發明的方法包括建立四級存儲結構;在存儲結構中的每一級建立至少一個存儲單元;在所述每一級存儲結構中的存儲單元中建立子結構;將每一級中的存儲單元與與之相鄰的一級存儲結構中的存儲單元相關聯。該四級存儲結構存儲中文語句,其中,第一級存儲結構存儲語言庫數據;第二級存儲結構存儲句子數據;第三級存儲結構存儲詞組數據;第四級存儲結構存儲字數據。由此,將一中文語句用位于不同級的存儲結構中的存儲單元保存。具體而言,在第一級存儲結構中的存儲單元中建立如下結構語言庫標識子結構,標識該第一級存儲結構中的存儲單元;語言庫內容子結構,保存與一中文語句相關的語言庫數據;在第二級存儲結構中的存儲單元中建立如下結構句子標識子結構,標識該第二級存儲結構中的存儲單元;語言庫關聯子結構,保存該第二級存儲結構中的存儲單元相關聯的第一級存儲結構中的存儲單元的信息;句子內容子結構,保存與一中文語句相關的句子數據;在第三級存儲結構中的存儲單元中建立如下結構詞組標識子結構,標識該第三級存儲結構中的存儲單元;句子關聯子結構,保存該第三級存儲結構中的存儲單元相關聯的第二級存儲結構中的存儲單元的信息;字關聯字結構,保存該第三級存儲結構中的存儲單元相關聯的第四級存儲結構中的存儲單元的信息;詞組內容子結構,保存與一中文語句相關的詞組數據;在第四級存儲結構中的存儲單元中建立如下結構,字標識子結構,標識該第四級存儲結構中的存儲單元;字內容子結構,保存與一中文語句相關的字數據。
采用了上述的技術方案,可將中文的語句按照語義進行分割,并且以存儲單元的形式相互關聯地保存在多級的存儲結構中,這些存儲結構或者存儲單元具有標示符,在檢索時,可以根據標示符進行快速的檢索,并且,根據存儲結構和存儲單元之間的關聯關系,可以獲得和所檢索的字相關的不同等級的中文語言相關信息,從而提高檢索的準確性。此外,本發明所提供的多級存儲結構和存儲方法是可擴展的,可以添加新的存儲單元或者是新的存儲級來擴充存儲數據的容量,進一步提高檢索的性能。
本發明上述的以及其他的特征、性質和優勢將通過下面結合附圖和實施例的詳細描述而變得更加明顯,在附圖中,相同的附圖標記始終表示相同的特征,其中圖1是可應用本發明的計算機環境的一個示例;圖2A是根據本發明的一實施例的多級關聯存儲結構的結構框圖;圖2B是根據本發明的一實施例的擴展的多級關聯存儲結構的結構框圖;圖3是根據本發明的一實施例的用于保存中文語句的多級關聯存儲結構的結構框圖;圖4A-D是根據本發明的一實施例的用于保存中文語句的多級關聯存儲結構的各個級的存儲結構的結構框圖;
圖4E是圖4A-D的四級存儲結構相互關聯的示意圖;圖5是根據本發明的一實施例的采用多級關聯存儲結構保存數據的存儲方法的流程圖;圖6是根據本發明的一實施例的采用多級關聯存儲結構保存中文語言數據的存儲方法的流程圖。
具體實施例方式
適當的計算環境圖1說明了適當的計算系統環境100的一例。計算系統環境100僅是適當的計算環境的一例并且并非意圖限制本發明的使用范圍或功能。計算環境100不應被解釋為具有與示例性操作環境100中所述的組件的任一或組合有關的從屬性或要求。
本領域的技術人員可以理解,計算機或其它客戶機或服務器設備可以作為部分計算機網絡而采用,或者用于分布式計算環境中。在這點上,本發明屬于具有任意數量內存或存儲單元的任意計算機系統,以及發生在任意數量存儲單元或容量上的任意數量的應用程序和過程,它們可以與本發明一起使用。本發明可以應用于在網絡環境或分布式計算環境中采用服務器計算機和客戶機計算機的環境。本發明還可以用于獨立計算設備,具有編程語言功能、以及與遠程或本地服務一起產生、接收和發射信息的解譯和執行能力。
本發明可以用多種其它通用或專用計算系統環境或配置來操作。可以適合與本發明一起使用的公知計算系統、環境和/或配置的示例包括、但不限于個人計算機、服務器計算機、手提或便攜式設備、多處理器系統、基于微處理器的系統、機頂盒、可編程用戶電子設備、網絡PC、小型計算機、大型計算機、包括任一上述系統的分布式計算環境等等。
本發明可以用計算機可執行指令的一般上下文來描述,譬如由計算機執行的程序模塊。一般而言,程序模塊包括例程、程序、對象、組件、數據結構等,它們執行特定任務或實現特定的抽象數據類型。本發明還可以實際用于分布式計算環境中,其中由通過通信網絡或其它數據傳輸媒質連接的遠程處理設備來執行任務。在分布式計算環境中,程序模塊及其它數據可以位于本地和遠程存儲媒質中,包括內存存儲設備。分布式計算通過計算設備和系統間的直接交換便于共享計算機資源和服務。這些資源和服務包括信息、高速緩存、及文件磁盤存儲的交換。分布式計算利用網絡連接性,允許用戶機發揮它們的集體功效來有利于整個公司。在這點上,多種設備可以具有應用程序、對象或資源,它們可以利用本發明的技術。
參考圖1,用于實現本發明的示例性系統包括形式為計算機110的通用計算設備。計算機110的組件可以包括、但不限于處理單元120、系統內存130、及把包括系統內存在內的各種系統組件耦合至處理單元120的系統總線121。系統總線121可以是多種類型總線結構的任一種,包括內存總線或內存控制器、外圍設備總線、及使用任一多種總線結構的本地總線。通過示例但非限制,這種結構包括工業標準結構(ISA)總線、微通道結構(MCA)總線、增強型ISA(EISA)總線、視頻電子標準聯盟(VESA)本地總線、及外圍組件互連(PCI)總線(也稱為Mezzanine總線)。
計算機110一般包括各種計算機可讀媒質。計算機可讀媒質可以是能由計算機110訪問的任何可用媒質并包括易失性和非易失性的媒質、可移動和不可移動媒質。通過示例但非限制,計算機可讀媒質可以包括計算機存儲媒質和通信媒質。計算機存儲媒質包括易失性和非易失性、可移動和不可移動媒質,它們以用于存儲諸如計算機可讀指令、數據結構、程序模塊或其它數據這樣的信息的任意方法或技術來實現。計算機存儲媒質包括、但不限于RAM、ROM、EEPROM、閃存或其它存儲技術、CDROM、數字化通用光盤(DVD)或其它光盤存儲器、磁帶盒、磁帶、磁盤存儲器或其它磁性存儲設備、或用于存儲期望信息并能由計算機1 10訪問的任意其它媒質。通信媒質一般在諸如載波或其它傳輸機制這樣的已調數據信號中包含計算機可讀指令、數據結構、程序模塊或其它數據,并且包括任意信息傳遞媒質。術語“已調數據信號”意指其一個或多個特性以對信號內信息進行編碼的方式被設置或改變的信號。通過示例但非限制,通信媒質包括諸如有線網絡或直接線連接這樣的有線媒質、以及諸如聲音、RF、紅外這樣的無線媒質及其它無線媒質。上述的任意組合應該包含在計算機可讀媒質的范圍內。
系統內存130包括計算機存儲媒質,其形式為易失性和/或非易失性內存,譬如只讀內存(ROM)131和隨機存取內存(RAM)132。基本輸入/輸出系統133(BIOS)一般存儲在ROM 131內,它包含例如啟動期間幫助在計算機110內的組件間傳輸信息的基本例程。RAM 132一般包含數據和/或程序模塊,它們可以立即訪問并且/或者當前由處理單元120在其上操作。通過示例但非限制,圖1說明了操作系統134、應用程序135、其它程序模塊136和程序數據137。
計算機110還可以包括其它可移動/不可移動、易失性/非易失性計算機存儲媒質。僅僅通過示例,圖1說明了對不可移動、非易失性磁性媒質進行讀寫的硬盤驅動器141、對可移動、非易失性磁盤152進行讀寫的磁盤驅動器151、以及對可移動、非易失性光盤156進行讀寫的光盤驅動器155,譬如CD ROM或其它光學媒質。示例性操作環境中可用的其它可移動/不可移動、易失性/非易失性計算存儲媒質包括、但不限于磁帶盒、閃存卡、數字通用盤、數字視頻磁帶、固態RAM、固態ROM等等。硬盤驅動器141一般通過如接口140這樣的不可移動存儲器接口與系統總線121相連,且磁盤驅動器151和光盤驅動器155一般用如接口150這樣的可移動存儲器接口與系統總線121相連。
上面討論并在圖1中說明的驅動器和它們的相關計算機存儲媒質為計算機110提供了計算機可讀指令、數據結構、程序模塊和其它數據的存儲。在圖1中,例如,所述硬盤驅動器141存儲操作系統144、應用程序145、其它程序模塊146和程序數據147。注意到這些組件或者可與操作系統134、應用程序135、其它程序模塊136和程序數據137相同,或者與它們不同。這里為操作系統144、應用程序145、其它程序模塊146和程序數據147給出不同數字以說明它們至少是不同的副本。用戶可以通過諸如鍵盤162和指示設備161這樣的輸入設備把命令和信息輸入到計算機110中,輸入設備通常稱為鼠標、軌跡球或觸板。其它輸入設備(未示出)可以包括麥克風、游戲桿、游戲板、衛星式轉盤、掃描儀等等。這些和其它輸入設備經常通過與系統總線121耦合的用戶輸入接口160與處理單元120相連,但也可以用其它接口和總線結構連接,譬如并行端口、游戲端口或通用串行總線(USB)。監視器191或其它類型的顯示設備也通過諸如視頻接口190這樣的接口與系統總線121相連。除了監視器191之外,計算機還可以包括其它外部設備,如揚聲器197和打印機196,它們可以通過輸出外設接口190連接。
計算機110可以工作在聯網環境中,該環境使用與諸如遠程計算機180這樣的一個或多個遠程計算機之間的邏輯連接。遠程計算機1 80可以是個人計算機、服務器、路由器、網絡PC、對等設備或其它公共網絡節點,并且一般包括上述與計算機110有關的許多或全部元件,盡管圖1中僅說明了內存存儲設備181。圖1所述的邏輯連接包括局域網(LAN)171和廣域網(WAN)173,但可以還包括其它網絡。這種聯網環境在辦公室、企業范圍計算機網絡、企業內聯網和互聯網中是常見的。
當用于LAN聯網環境中時,計算機110通過網絡接口或適配器170與LAN 171相連。當用于WAN聯網環境中時,計算機110一般包括用于在諸如互聯網這樣的WAN 173上建立通信的調制解調器172或其它裝置。調制解調器172可以是內部或外部的,它可以通過用戶輸入接口160或其它適當機制與系統總線121相連。在網絡化環境中,關于計算機110所述的程序模塊或其部分可以存儲在遠程內存存儲設備中。通過示例但非限制,圖1說明了駐留在內存設備181上的遠程應用程序185。可以理解,所示網絡連接是示例性的,也可以使用在計算機間建立通信連接的其它裝置。
多級關聯存儲結構首先,本發明提供一種多級關聯存儲結構,包括一級以上的存儲結構,每一級存儲結構與至少一級其他存儲結構相關聯。根據本發明的一實施例,每一級存儲結構包括子結構,存儲結構中的子結構實現不同級的存儲結構之間的關聯。
比如,在一個實施例中,每一級存儲結構至少包括下列之一標示子結構,作為存儲結構的標識符;關聯子結構,建立與其他級的存儲結構之間的關聯;以及內容子結構,存儲內容數據。
參考圖2A,圖2A是根據本發明的一實施例的多級關聯存儲結構的結構框圖,該結構200A包括第一級存儲結構201,其具有標示子結構210、關聯子結構211和內容子結構212,其中的關聯子結構211中記錄了與之關聯的第二級存儲結構202的信息,由此建立了第一級存儲結構201和第二級存儲結構202之間的關聯(在圖中用箭頭表示關聯關系)。此處需要說明,建立關聯時,有幾種方式,比如單向關聯的方式,就如此處所示的,當建立第一級存儲結構201和第二級存儲結構202的關聯時,僅僅在其中的一個存儲結構(第一級存儲結構201和第二級存儲結構202)中的關聯子結構中記錄關聯信息,比如在該實施例中是記錄在第一級存儲結構201的關聯子結構211中,而在另一級存儲結構中不再記錄。該種方式比較節省資源,但是相對而言,可靠性較低。另一種方式是雙向關聯,即在兩級存儲結構中都保存表示關聯信息的數據,該種方式比較可靠,但是比較耗費資源。無論采用哪一種關聯方式,或者,本領域的技術人員采用其他的在本領域中所熟知的關聯方式,都不超出本發明的范圍。
繼續回到圖2A,該結構200A還包括,第二級存儲結構202,其具有標示子結構220、關聯子結構221和內容子結構222,其中的關聯子結構221中記錄了與之關聯的第三級存儲結構203的信息,由于該實施例中采用的是單向關聯的方式,因此在第二級存儲結構202的關聯子結構221中不再記錄和第一級存儲結構201相關聯的信息。
第三級存儲結構203,其具有標示子結構230、關聯子結構231和內容子結構232,第三級存儲結構203的關聯子結構231中不記載信息。
作為對上述結構的一種擴展,可以在同一級的存儲結構中設置多個存儲單元,從而形成具有多個存儲單元的多級關聯存儲結構。即,一種多級關聯存儲結構,包括一級以上的存儲結構,每一級存儲結構包括至少一個存儲單元,存儲單元至少與一個其他級存儲結構中的存儲單元相關聯。每一級存儲結構中的存儲單元包括子結構,子結構實現不同級的存儲結構中的存儲單元之間的關聯。每一級存儲結構中的存儲單元至少包括下列之一的子結構標識子結構,作為存儲結構的標識符;關聯子結構,建立與其他級的存儲結構之間的關聯;內容子結構,存儲內容數據。
參考圖2B所示的結構200B,圖2B是根據本發明的一實施例的擴展的多級關聯存儲結構的結構框圖,結構200B包括第一級存儲結構204,其具有多個存儲單元204A、204B(雖然圖示了2個存儲單元,但是對于本領域的技術人員來說可以理解任何數量的存儲單元都是可能的)。每一個存儲單元204A、204B包括標示子結構240、關聯子結構241和內容子結構242,其中的關聯子結構241中記錄了與之關聯的其他級存儲結構中的存儲單元的信息,由此建立了第一級存儲結構204的存儲單元和其他級存儲結構之間的關聯(在圖中用箭頭表示關聯關系)。此處需要說明,建立關聯時,同樣可以是單向關聯或者雙向關聯的方式,單向關聯和雙向關聯的方式和上面的描述相同,這里不再重復。對于一級的存儲結構中具有數個存儲單元的應用,如結構200B,還需要說明的是,并非相鄰的級的存儲結構中的存儲單元必須要關聯,可以越過一級或者數級的存儲結構進行關聯,或者不與相鄰級的存儲結構中的存儲單元相關聯。比如,結構200B中第一級存儲結構204的存儲單元204A與第二級存儲結構205的存儲單元205A關聯,而第一級存儲結構204的存儲單元204B則越過第二級存儲結構205,直接與第三級存儲結構206中的存儲單元206B關聯。
繼續回到圖2B,該結構200B還包括,第二級存儲結構205,其具有多個存儲單元205A、205B(雖然圖示了2個存儲單元,但是對于本領域的技術人員來說可以理解任何數量的存儲單元都是可能的),每一個存儲單元205A、205B具有標示子結構250、關聯子結構251和內容子結構252。對于關聯子結構記錄的關聯信息,和前面所描述的實施例相似,這里不再重復,存儲單元205A關聯第一級存儲結構204中的存儲單元204A以及第三級存儲結構206中的存儲單元206A,而存儲單元205B則只關聯第三級存儲結構206中的存儲單元206C。
第三級存儲結構206,其包括存儲單元206A、206B和206C(雖然圖示了3個存儲單元,但是對于本領域的技術人員來說可以理解任何數量的存儲單元都是可能的)。每一個存儲單元具有標示子結構260、關聯子結構261和內容子結構262。
用于保存中文語句的多級關聯存儲結構對于中文語句的保存,本發明提供如下的多級關聯存儲結構考慮到中文語句是根據語義分割來具有含義的,因此對于一個中文語句來說,本發明考慮將其分割成4個層次語言庫、句子、詞組和字。據此,本發明提供一四級關聯存儲結構來存儲中文語句。
參考圖3,圖3是根據本發明的一實施例的用于保存中文語句的多級關聯存儲結構的結構框圖,該結構300是四級存儲結構,每一級存儲結構與與之相鄰的一級存儲結構相關聯;存儲結構300中的每一級包括至少一個存儲單元,每一級中的存儲單元與與之相鄰的一級存儲結構中的存儲單元相關聯。下面的實施例中將以每級存儲結構包含一個存儲單元的情況為例,需要說明的是,每一級的存儲結構可以包括數個存儲單元,并且,該實施例中,每一個存儲單元與與之相鄰的級的存儲結構中的存儲單元都相連,但是在實際的應用中,這些存儲單元并不需要全部相連,可以只具有其中的3個或者2個級的存儲結構的存儲單元。
繼續參考圖3,該結構300包括第一級存儲結構301,其中示出了一個存儲單元301A,第一級存儲結構301用于存儲語言庫數據;
第二級存儲結構302,其中示出了一個存儲單元302A,第二級存儲結構302用于存儲句子數據;第三級存儲結構303,其中示出了一個存儲單元303A,第三級存儲結構303用于存儲詞組數據;第四級存儲結構304,其中示出了一個存儲單元304A,第四級存儲結構304用于存儲字數據。
結構300可以根據前面描述的結構200A和200B的方式進行擴展應用。
繼續參考圖3,上述的四級關聯存儲結構各個級的存儲單元之間的關聯關系如下第一級存儲結構301中的存儲單元301A包括,語言庫標識子結構310,標識該第一級存儲結構中的存儲單元;以及語言庫內容子結構311,保存與一中文語句相關的語言庫數據。
第二級存儲結構302中的存儲單元302A包括,句子標識子結構320,標識該第二級存儲結構中的存儲單元;語言庫關聯子結構321,保存該第二級存儲結構中的存儲單元相關聯的第一級存儲結構中的存儲單元301A的信息,該實施例同樣采用單向標識的方式,因此第一級和第二級存儲結構的存儲單元之間的關聯僅僅在第二輯存儲結構的存儲單元302A的語言庫關聯子結構321中保存;句子內容子結構322,保存與一中文語句相關的句子數據。
第三級存儲結構303中的存儲單元303A包括,詞組標識子結構330,標識該第三級存儲結構中的存儲單元;句子關聯子結構331,保存該第三級存儲結構中的存儲單元相關聯的第二級存儲結構中的存儲單元302A的信息,同樣,由于是采用單向關聯的方式,該信息只保存一次;字關聯字結構332,保存該第三級存儲結構中的存儲單元相關聯的第四級存儲結構中的存儲單元304A的信息;詞組內容子結構333,保存與一中文語句相關的詞組數據。
第四級存儲結構304中的存儲單元304A包括,字標識子結構340,標識該第四級存儲結構中的存儲單元;字內容子結構341,保存與一中文語句相關的字數據。
在實際的應用中,上述存儲單元301A-304A的內容子結構,包括語言庫內容子結構311、句子內容子結構322、詞組內容子結構333、字內容子結構341可以包括數個字段,比如在下面的圖4A-D中詳細示出的,這些字段可以根據實際的應用進行調整,因此這些字段在此列出僅僅是為了說明。
參考圖4A-D,圖4A-D是根據本發明的一實施例的用于保存中文語句的多級關聯存儲結構的各個級的存儲結構的結構框圖。其中,圖4A是第一級存儲結構301中的存儲單元301 A的結構框圖,其中語言庫標識子結構310由字段CID實現,用于標識該第一級存儲結構中的存儲單元;語言庫內容子結構311包括字段Page、Pubdate、Hotline、Subhotline、Contents,這些字段用于保存與一中文語句相關的語言庫數據。
圖4B是第二級存儲結構302中的存儲單元302A的結構框圖,其中句子標識子結構320由字段SID實現,用于標識該第二級存儲結構中的存儲單元;其中的語言庫關聯子結構321由字段CID實現,用于保存該第二級存儲結構中的存儲單元相關聯的第一級存儲結構中的存儲單元301A的信息;句子內容子結構322包括字段Scount、Sisdone、FirstscreenFID、LastscreenFID、Sstring、Source、Pubdate、Status、ReviewerID、Length、lswordbreak、Submitorder、Lastupdate,這些字段用于保存與一中文語句相關的句子數據。
圖4C是第三級存儲結構303中的存儲單元303A的結構框圖,其中詞組標識子結構330由字段EID實現,標識該第三級存儲結構中的存儲單元;句子關聯子結構331由字段ESID實現,保存該第三級存儲結構中的存儲單元相關聯的第二級存儲結構中的存儲單元302A的信息;字關聯字結構332由字段EWID實現,保存該第三級存儲結構中的存儲單元相關聯的第四級存儲結構中的存儲單元304A的信息;詞組內容子結構333包括字段Espos、Length、Status,用于保存與一中文語句相關的詞組數據。
圖4D是第四級存儲結構304中的存儲單元304A的結構框圖,其中的字標識子結構340由字段WID實現,標識該第四級存儲結構中的存儲單元;字內容子結構341包括字段ID、Wstring、Wreading、Wcount、Lexname、Length、Type、lsdone、Wrcou nt、AddbyUID、Status,用于保存與一中文語句相關的字數據。
圖4E是上述圖4A-D的四級存儲結構相互關聯的示意圖。
采用上述的存儲結構,一中文語句就可由位于不同級的存儲結構中的存儲單元保存。
例如,對于下列的中文語句“微軟董事長既總執行長蓋茨也不落人后,”,將其分割成四個層次語言庫層次,可占用一個存儲單元,用于記錄整句“微軟董事長既總執行長蓋茨也不落人后,”。該存儲單元的語言庫標識子結構310,比如CI D字段可以為0001,而語言庫內容子結構311可以記錄內容“微軟董事長既總執行長蓋茨也不落人后,”,對于字段Page、Pubdate、Hotline、Subhotline、Contents,可以根據需要進行選用。
句子層次,可以占用兩個存儲單元,其中一個存儲單元用于記錄句子“微軟董事長既總執行長蓋茨”,該存儲單元的句子標識子結構320,比如字段SID可以為0010;語言庫關聯子結構321,比如字段CID可以為0001,表示與第一級存儲結構中的CID為0001的存儲單元相關聯;句子內容子結構322可以記錄內容“微軟董事長既總執行長蓋茨”,同樣,對于字段Scount、Sisdone、FirstscreenFID、LastscreenFID、Sstring、Source、Pubdate、Status、ReviewerID、Length、lswordbreak、Submitorder、Lastupdate,可以根據需要進行選用。另一個存儲單元用于記錄句子“蓋茨也不落人后”,該存儲單元的句子標識子結構320,比如字段SID可以為0011;語言庫關聯子結構321,比如字段CID可以為0001,表示也與第一級存儲結構中的CID為0001的存儲單元相關聯;句子內容子結構322可以記錄內容“蓋茨也不落人后”,同樣,對于字段Scount、Sisdone、FirstscreenFID、LastscreenFID、Sstring、Source、Pubdate、Status、ReviewerID、Length、lswordbreak、Submitorder、Lastupdate,可以根據需要進行選用。
詞組層次,可以占用四個存儲單元,分別用于保存詞組“微軟”、“董事長”、“執行長”、“不落人后”。這些存儲單元的詞組標識子結構330,比如字段EID可以分別為0100、0101、0110、0111;句子關聯子結構331,比如字段ESID都為0010,表示這些存儲單元均與第二級存儲結構中的字段SID為0010的存儲單元相關;字關聯字結構332,比如字段EWID可以分別與后面的字層次存儲單元相關聯;這些存儲單元的詞組內容子結構333分別用于保存詞組“微軟”、“董事長”、“執行長”、“不落人后”,對于字段Espos、Length、Status,則可以根據需要選用。
字層次,需要說明的是,這里的字層次是指在句子“微軟董事長兼總執行長蓋茨也不落人后”所出現的單個的字,在該實施例中可采用5個,分別為“既”、“總”、“蓋”、“茨”和“也”。其中的字標識子結構340,比如字段WID可以分別為1000、1001、1010、1011、1100,字內容子結構341分別為“既”、“總”、“蓋”、“茨”和“也”,對于字段ID、Wstring、Wreading、Wcount、Lexname、Length、Type、lsdone、Wrcount、AddbyUID、Status則可以根據需要選用。
采用了上述的多級關聯存儲結構,可以將中文語句以分層次的方式進行保存,從而建立中文語言庫,并可根據該中文語言庫建立語言模型,供中文輸入法使用。同樣,上述的句子,在中文語言庫中可以記錄如下,其中就用到了一些上述的字段
其中Wreading是與拼音輸入法相關的拼音輸入,Wrcount是寫入的統計數據,Wcount是字段被使用的頻率。
由此可見,通過采用上述存儲結構,可以將中文語句以多層次存儲單元的方式保存,對于每一個中文的字、詞組、句子、語言庫分別給與標示符并相互關聯。這樣,可通過標示符檢索而不是中文字檢索來進行檢索的過程,從而提高檢索速度,并通過相互關聯的關系來擴大檢索的范圍,從而提高檢索的準確度。
并且,上述的多級關聯存儲結構是可擴展的,用戶可以根據需要添加存儲單元并將它們與已有的存儲單元建立關聯,從而,采用本發明的多級關聯存儲結構來形成一個可擴展的中文語言數據庫。
利用多級關聯存儲結構存儲數據的存儲方法本發明還提供一種數據存儲方法,存儲數據于上述的多級關聯存儲結構中,該方法包括建立一級以上的存儲結構;以及將每一級存儲結構與至少一級其他存儲結構相關聯。根據本發明的一實施例,還包括在每一級存儲結構中建立子結構;并通過存儲結構中的子結構實現不同級的存儲結構之間的關聯。上述的建立子結構的步驟包括建立至少下列之一建立標示子結構,作為所述存儲結構的標識符;建立關聯子結構,并通過所述關聯子結構建立與其他級的存儲結構之間的關聯;建立內容子結構,存儲內容數據。
參考圖5,圖5是根據本發明的一實施例的采用多級關聯存儲結構保存數據的存儲方法的流程圖,圖5所示的實施例500包括如下的步驟502.建立一級以上的存儲結構;504.在每一級存儲結構中建立子結構;該建立子結構的步驟包括建立至少下列之一建立標示子結構,作為所述存儲結構的標識符;建立關聯子結構,并通過所述關聯子結構建立與其他級的存儲結構之間的關聯;建立內容子結構,存儲內容數據。
506.將每一級存儲結構與至少一級其他存儲結構相關聯,該關聯是通過存儲結構中的子結構實現不同級的存儲結構之間的關聯上述的方法500還可以進行擴展,即包括502.建立一級以上的存儲結構;503.在每一級存儲結構建立至少一個存儲單元;步驟503在圖5中用虛線框表示以說明該步驟是可選的步驟;504.在每一級存儲結構中的存儲單元中建立子結構;在每一級存儲結構中的存儲單元中所建立的字結構至少包括下列之一建立標識子結構,作為所述存儲結構的標識符;建立關聯子結構,并通過所述關聯子結構建立與其他級的存儲結構之間的關聯;建立內容子結構,存儲內容數據;506.將存儲單元至少與一個其他級存儲結構中的存儲單元相關聯;且通過所建立的子結構實現不同級的存儲結構中的存儲單元之間的關聯。
利用多級關聯存儲結構存儲中文語言數據的存儲方法對于存儲中文語言數據的應用,本發明提供如下的方法,包括建立四級存儲結構;在存儲結構中的每一級建立至少一個存儲單元;在所述每一級存儲結構中的存儲單元中建立子結構;將每一級中的存儲單元與與之相鄰的一級存儲結構中的存儲單元相關聯。其中,四級存儲結構存儲中文語句,第一級存儲結構存儲語言庫數據;第二級存儲結構存儲句子數據;第三級存儲結構存儲詞組數據;第四級存儲結構存儲字數據。更具體而言,在第一級存儲結構中的存儲單元中建立語言庫標識子結構,標識該第一級存儲結構中的存儲單元;以及語言庫內容子結構,保存與一中文語句相關的語言庫數據。在第二級存儲結構中的存儲單元中建立句子標識子結構,標識該第二級存儲結構中的存儲單元;語言庫關聯子結構,保存該第二級存儲結構中的存儲單元相關聯的第一級存儲結構中的存儲單元的信息;以及句子內容子結構,保存與一中文語句相關的句子數據。在第三級存儲結構中的存儲單元中建立詞組標識子結構,標識該第三級存儲結構中的存儲單元;句子關聯子結構,保存該第三級存儲結構中的存儲單元相關聯的第二級存儲結構中的存儲單元的信息;字關聯字結構,保存該第三級存儲結構中的存儲單元相關聯的第四級存儲結構中的存儲單元的信息;以及詞組內容子結構,保存與一中文語句相關的詞組數據。在第四級存儲結構中的存儲單元中建立字標識子結構,標識該第四級存儲結構中的存儲單元;和字內容子結構,保存與一中文語句相關的字數據。由此,實現將一中文語句用位于不同級的存儲結構中的存儲單元保存。
圖6是根據本發明的一實施例的采用多級關聯存儲結構保存中文語言數據的存儲方法的流程圖,根據圖6所示的方法600可見,該方法包括602.建立四級存儲結構;第一級存儲結構存儲語言庫數據;第二級存儲結構存儲句子數據;第三級存儲結構存儲詞組數據;第四級存儲結構存儲字數據;604.在存儲結構中的每一級建立至少一個存儲單元;606.在每一級存儲結構中的存儲單元中建立子結構;在每一級存儲結構中的存儲單元中所建立的字結構至少包括下列之一建立標識子結構,作為所述存儲結構的標識符;建立關聯子結構,并通過所述關聯子結構建立與其他級的存儲結構之間的關聯;建立內容子結構,存儲內容數據;608.將每一級中的存儲單元與與之相鄰的一級存儲結構中的存儲單元相關聯,包括在第一級存儲結構中的存儲單元中建立,語言庫標識子結構,標識該第一級存儲結構中的存儲單元;以及語言庫內容子結構,保存與一中文語句相關的語言庫數據;在第二級存儲結構中的存儲單元中建立,句子標識子結構,標識該第二級存儲結構中的存儲單元;語言庫關聯子結構,保存該第二級存儲結構中的存儲單元相關聯的第一級存儲結構中的存儲單元的信息;以及句子內容子結構,保存與一中文語句相關的句子數據;在第三級存儲結構中的存儲單元中建立,詞組標識子結構,標識該第三級存儲結構中的存儲單元;句子關聯子結構,保存該第三級存儲結構中的存儲單元相關聯的第二級存儲結構中的存儲單元的信息;字關聯字結構,保存該第三級存儲結構中的存儲單元相關聯的第四級存儲結構中的存儲單元的信息;以及詞組內容子結構,保存與一中文語句相關的詞組數據;在第四級存儲結構中的存儲單元中建立,字標識子結構,標識該第四級存儲結構中的存儲單元;以及字內容子結構,保存與一中文語句相關的字數據。
同樣,本發明的存儲方法還應包含擴展的步驟,用戶可以根據需要添加存儲單元并將它們與已有的存儲單元建立關聯,從而,采用本發明的多級關聯存儲結構來形成一個可擴展的中文語言數據庫。
實現方式本發明的提示方法和提示系統可以采用多種方式實現,比如
軟件的實現方式,包括一系列計算機可執行的指令,由一計算機系統執行實現提供一種數據存儲方法,存儲數據于多級關聯存儲結構中,該方法包括建立一級以上的存儲結構;以及將每一級存儲結構與至少一級其他存儲結構相關聯。其中,該方法在所述每一級存儲結構中建立子結構;并通過存儲結構中的子結構實現不同級的存儲結構之間的關聯。在每一級存儲結構中建立的子結構可包括建立標示子結構,作為所述存儲結構的標識符;建立關聯子結構,并通過所述關聯子結構建立與其他級的存儲結構之間的關聯;建立內容子結構,存儲內容數據。或者,該一系列計算機可執行的指令,由一計算機系統執行實現提供一種數據存儲方法,存儲數據于多級關聯存儲結構中,該方法包括建立一級以上的存儲結構;在每一級存儲結構建立至少一個存儲單元;將存儲單元至少與一個其他級存儲結構中的存儲單元相關聯。其中,該方法在每一級存儲結構中的存儲單元中建立子結構;并通過子結構實現不同級的存儲結構中的存儲單元之間的關聯。在每一級存儲結構中的存儲單元中建立的子結構可包括建立標識子結構,作為所述存儲結構的標識符;建立關聯子結構,并通過所述關聯子結構建立與其他級的存儲結構之間的關聯;建立內容子結構,存儲內容數據。特別的,針對中文語言庫的應用,該一系列計算機可執行的指令,由一計算機系統執行實現一種數據存儲方法,包括建立四級存儲結構;在存儲結構中的每一級建立至少一個存儲單元;在所述每一級存儲結構中的存儲單元中建立子結構;將每一級中的存儲單元與與之相鄰的一級存儲結構中的存儲單元相關聯。該四級存儲結構存儲中文語句,其中,第一級存儲結構存儲語言庫數據;第二級存儲結構存儲句子數據;第三級存儲結構存儲詞組數據;第四級存儲結構存儲字數據。由此,將一中文語句用位于不同級的存儲結構中的存儲單元保存。具體而言,在第一級存儲結構中的存儲單元中建立如下結構語言庫標識子結構,標識該第一級存儲結構中的存儲單元;語言庫內容子結構,保存與一中文語句相關的語言庫數據;在第二級存儲結構中的存儲單元中建立如下結構句子標識子結構,標識該第二級存儲結構中的存儲單元;語言庫關聯子結構,保存該第二級存儲結構中的存儲單元相關聯的第一級存儲結構中的存儲單元的信息;句子內容子結構,保存與一中文語句相關的句子數據;在第三級存儲結構中的存儲單元中建立如下結構詞組標識子結構,標識該第三級存儲結構中的存儲單元;句子關聯子結構,保存該第三級存儲結構中的存儲單元相關聯的第二級存儲結構中的存儲單元的信息;字關聯字結構,保存該第三級存儲結構中的存儲單元相關聯的第四級存儲結構中的存儲單元的信息;詞組內容子結構,保存與一中文語句相關的詞組數據;在第四級存儲結構中的存儲單元中建立如下結構,字標識子結構,標識該第四級存儲結構中的存儲單元;字內容子結構,保存與一中文語句相關的字數據。上述的計算機可執行的指令可記載于記錄媒體上,這些計算機可執行指令可單獨地形成程序,也可以集成與其他的程序之中,比如文字處理系統,文字處理系統的一個例子是微軟公司的Office系列。
硬件的實現方式采用專用的邏輯元件以及存儲器件來實現一種多級關聯存儲結構,包括一級以上的存儲結構,每一級存儲結構與至少一級其他存儲結構相關聯。每一級存儲結構可包括子結構,子結構用于實現不同級的存儲結構之間的關聯。子結構可以包括下列的內容標示子結構,作為存儲結構的標識符;關聯子結構,建立與其他級的存儲結構之間的關聯;內容子結構,存儲內容數據。或者,采用專用的邏輯元件以及存儲器件來實現一種多級關聯存儲結構,包括一級以上的存儲結構,每一級存儲結構包括至少一個存儲單元,存儲單元至少與一個其他級存儲結構中的存儲單元相關聯。同樣的,每一級存儲結構中的存儲單元也包括子結構,子結構用于實現不同級的存儲結構中的存儲單元之間的關聯。每一級存儲結構中的存儲單元可包括標識子結構,作為存儲結構的標識符;關聯子結構,建立與其他級的存儲結構之間的關聯;內容子結構,存儲內容數據。特別的,針對中文語言庫的應用,采用專用的邏輯元件以及存儲器件來實現一種多級關聯存儲結構實現一種四級存儲結構,每一級存儲結構與與之相鄰的一級存儲結構相關聯;存儲結構中的每一級包括至少一個存儲單元,每一級中的存儲單元與與之相鄰的一級存儲結構中的存儲單元相關聯。該四級存儲結構存儲中文語句,其中,第一級存儲結構存儲語言庫數據;第二級存儲結構存儲句子數據;第三級存儲結構存儲詞組數據;第四級存儲結構存儲字數據。這樣,一中文語句包括由位于不同級的存儲結構中的存儲單元保存。具體而言,第一級存儲結構中的存儲單元包括,語言庫標識子結構,標識該第一級存儲結構中的存儲單元;語言庫內容子結構,保存與一中文語句相關的語言庫數據;第二級存儲結構中的存儲單元包括,句子標識子結構,標識該第二級存儲結構中的存儲單元;語言庫關聯子結構,保存該第二級存儲結構中的存儲單元相關聯的第一級存儲結構中的存儲單元的信息;句子內容子結構,保存與一中文語句相關的句子數據;第三級存儲結構中的存儲單元包括,詞組標識子結構,標識該第三級存儲結構中的存儲單元;句子關聯子結構,保存該第三級存儲結構中的存儲單元相關聯的第二級存儲結構中的存儲單元的信息;字關聯字結構,保存該第三級存儲結構中的存儲單元相關聯的第四級存儲結構中的存儲單元的信息;詞組內容子結構,保存與一中文語句相關的詞組數據;第四級存儲結構中的存儲單元包括,字標識子結構,標識該第四級存儲結構中的存儲單元;字內容子結構,保存與一中文語句相關的字數據。這些邏輯元件可以單獨地組合,或者集成在計算機系統之中。
軟硬件結合的實現方式有一通用計算機系統執行一系列的指令,使該通用計算機系統實現上述的數據存儲方法,存儲數據于多級關聯存儲結構中。
或者,由一計算機系統執行一系列的指令,使得該通用計算機系統中的至少一部分通用組件實現一種上述的多級關聯存儲結構。
采用了本發明的技術方案,可將中文的語句按照語義進行分割,并且以存儲單元的形式相互關聯地保存在多級的存儲結構中,這些存儲結構或者存儲單元具有標示符,在檢索時,可以根據標示符進行快速的檢索,并且,根據存儲結構和存儲單元之間的關聯關系,可以獲得和所檢索的字相關的不同等級的中文語言相關信息,從而提高檢索的準確性。此外,本發明所提供的多級存儲結構和存儲方法是可擴展的,可以添加新的存儲單元或者是新的存儲級來擴充存儲數據的容量,進一步提高檢索的性能。
上述實施例是提供給熟悉本領域內的人員來實現或使用本發明的,熟悉本領域的人員可在不脫離本發明的發明思想的情況下,對上述實施例做出種種修改或變化,因而本發明的保護范圍并不被上述實施例所限,而應該是符合權利要求書提到的創新性特征的最大范圍。
權利要求
1.一種多級關聯存儲結構,其特征在于,包括一級以上的存儲結構,每一級存儲結構與至少一級其他存儲結構相關聯。
2.如權利要求1所述的存儲結構,其特征在于,所述每一級存儲結構包括子結構,所述存儲結構中的子結構實現所述不同級的存儲結構之間的關聯。
3.如權利要求2所述的存儲結構,其特征在于,所述每一級存儲結構至少包括下列之一標示子結構,作為所述存儲結構的標識符;關聯子結構,建立與其他級的存儲結構之間的關聯;內容子結構,存儲內容數據。
4.一種多級關聯存儲結構,其特征在于,包括一級以上的存儲結構,每一級存儲結構包括至少一個存儲單元,所述存儲單元至少與一個其他級存儲結構中的存儲單元相關聯。
5.如權利要求4所述的存儲結構,其特征在于,所述每一級存儲結構中的存儲單元包括子結構,所述子結構實現所述不同級的存儲結構中的存儲單元之間的關聯。
6.如權利要求5所述的存儲結構,其特征在于,所述每一級存儲結構中的存儲單元至少包括下列之一標識子結構,作為所述存儲結構的標識符;關聯子結構,建立與其他級的存儲結構之間的關聯;內容子結構,存儲內容數據。
7.如權利要求6所述的存儲結構,其特征在于,所述存儲結構包括四級存儲結構,每一級存儲結構與與之相鄰的一級存儲結構相關聯;所述存儲結構中的每一級包括至少一個存儲單元,每一級中的存儲單元與與之相鄰的一級存儲結構中的存儲單元相關聯。
8.如權利要求7所述的存儲結構,其特征在于,所述四級存儲結構存儲中文語句,其中,第一級存儲結構存儲語言庫數據;第二級存儲結構存儲句子數據;第三級存儲結構存儲詞組數據;第四級存儲結構存儲字數據。
9.如權利要求8所述的存儲結構,其特征在于,一中文語句包括由位于不同級的存儲結構中的存儲單元保存。
10.如權利要求9所述的存儲結構,其特征在于,所述第一級存儲結構中的存儲單元包括,語言庫標識子結構,標識該第一級存儲結構中的存儲單元;語言庫內容子結構,保存與一中文語句相關的語言庫數據;所述第二級存儲結構中的存儲單元包括,句子標識子結構,標識該第二級存儲結構中的存儲單元;語言庫關聯子結構,保存該第二級存儲結構中的存儲單元相關聯的第一級存儲結構中的存儲單元的信息;句子內容子結構,保存與一中文語句相關的句子數據;所述第三級存儲結構中的存儲單元包括,詞組標識子結構,標識該第三級存儲結構中的存儲單元;句子關聯子結構,保存該第三級存儲結構中的存儲單元相關聯的第二級存儲結構中的存儲單元的信息;字關聯字結構,保存該第三級存儲結構中的存儲單元相關聯的第四級存儲結構中的存儲單元的信息;詞組內容子結構,保存與一中文語句相關的詞組數據;所述第四級存儲結構中的存儲單元包括,字標識子結構,標識該第四級存儲結構中的存儲單元;字內容子結構,保存與一中文語句相關的字數據。
11.一種數據存儲方法,其特征在于,存儲數據于多級關聯存儲結構中,該方法包括建立一級以上的存儲結構;將每一級存儲結構與至少一級其他存儲結構相關聯。
12.如權利要求11所述的存儲方法,其特征在于,還包括在所述每一級存儲結構中建立子結構;通過所述存儲結構中的子結構實現所述不同級的存儲結構之間的關聯。
13.如權利要求12所述的存儲方法,其特征在于,還包括在所述每一級存儲結構建立至少下列之一建立標示子結構,作為所述存儲結構的標識符;建立關聯子結構,并通過所述關聯子結構建立與其他級的存儲結構之間的關聯;建立內容子結構,存儲內容數據。
14.一種數據存儲方法,其特征在于,存儲數據于多級關聯存儲結構中,該方法包括建立一級以上的存儲結構,;在每一級存儲結構建立至少一個存儲單元;將所述存儲單元至少與一個其他級存儲結構中的存儲單元相關聯。
15.如權利要求14所述的存儲方法,其特征在于,還包括在所述每一級存儲結構中的存儲單元中建立子結構;通過所述子結構實現所述不同級的存儲結構中的存儲單元之間的關聯。
16.如權利要求15所述的存儲方法,其特征在于,還包括在所述每一級存儲結構中的存儲單元中建立至少下列之一建立標識子結構,作為所述存儲結構的標識符;建立關聯子結構,并通過所述關聯子結構建立與其他級的存儲結構之間的關聯;建立內容子結構,存儲內容數據。
17.如權利要求16所述的存儲方法,其特征在于,建立四級存儲結構;在所述存儲結構中的每一級建立至少一個存儲單元;在所述每一級存儲結構中的存儲單元中建立子結構;將每一級中的存儲單元與與之相鄰的一級存儲結構中的存儲單元相關聯。
18.如權利要求17所述的存儲方法,其特征在于,所述四級存儲結構存儲中文語句,其中,第一級存儲結構存儲語言庫數據;第二級存儲結構存儲句子數據;第三級存儲結構存儲詞組數據;第四級存儲結構存儲字數據。
19.如權利要求18所述的存儲方法,其特征在于,將一中文語句用位于不同級的存儲結構中的存儲單元保存。
20.如權利要求19所述的存儲方法,其特征在于,在所述第一級存儲結構中的存儲單元中建立,語言庫標識子結構,標識該第一級存儲結構中的存儲單元;語言庫內容子結構,保存與一中文語句相關的語言庫數據;在所述第二級存儲結構中的存儲單元中建立,句子標識子結構,標識該第二級存儲結構中的存儲單元;語言庫關聯子結構,保存該第二級存儲結構中的存儲單元相關聯的第一級存儲結構中的存儲單元的信息;句子內容子結構,保存與一中文語句相關的句子數據;在所述第三級存儲結構中的存儲單元中建立,詞組標識子結構,標識該第三級存儲結構中的存儲單元;句子關聯子結構,保存該第三級存儲結構中的存儲單元相關聯的第二級存儲結構中的存儲單元的信息;字關聯字結構,保存該第三級存儲結構中的存儲單元相關聯的第四級存儲結構中的存儲單元的信息;詞組內容子結構,保存與一中文語句相關的詞組數據;在所述第四級存儲結構中的存儲單元中建立,字標識子結構,標識該第四級存儲結構中的存儲單元;字內容子結構,保存與一中文語句相關的字數據。
全文摘要
本發明揭示了一種多級關聯存儲結構,包括一級以上的存儲結構,每一級存儲結構與至少一級其他存儲結構相關聯。每一級存儲結構可包括子結構,子結構用于實現不同級的存儲結構之間的關聯。子結構可以包括下列的內容標示子結構,作為存儲結構的標識符;關聯子結構,建立與其他級的存儲結構之間的關聯;內容子結構,存儲內容數據。采用了本發明將中文的語句按照語義進行分割,并且以存儲單元的形式相互關聯地保存在多級的存儲結構中,這些存儲結構或者存儲單元具有標示符,在檢索時,可以根據標示符進行快速的檢索,并且,根據存儲結構和存儲單元之間的關聯關系,可以獲得和所檢索的字相關的不同等級的中文語言相關信息,從而提高檢索的準確性。
文檔編號G06F17/30GK101093496SQ20061009592
公開日2007年12月26日 申請日期2006年6月23日 優先權日2006年6月23日
發明者龔韻強, 李金男 申請人:微軟公司