專利名稱:國際音標聯想式輸入法的制作方法
技術領域:
本發明是一種國際音標聯想式輸入法,屬于計算機文字處理和知識表示領域。
背景技術:
國際音標(International Phonetic Alphabet,簡稱IPA)是一組語言學者和語言工作者用來個別標示各種人類所能發出來的聲音(指單音或音素)的語音符號系統,作為統一標示所有語言中語音的標準符號,其中大多數的符號都取自或衍生自羅馬字母的小寫印刷體,其他的有些來自希臘字母,有些則明顯地與其他任何的字母標準毫無關系。國際音標被世界上大多數國家的語言學家和語言教師所廣泛接受,許多的語言學著作、辭典和教科書都是用這套符號系統。國際音標最早是在1886年,由語言學家保爾巴西所帶領的一群英國和法國語言教師基于教學與研究上的需要,在國際語音學協會的贊助下開發出來的,公布于1888年。最早的國際音標是根據斯威特制訂的羅馬字母,但之后它又經過數次修正,其最后一次的版本是在1993年,并于1996年又更新一次。國際音標修訂和更新工作是由國際音標協會(International Phonetic Association)承擔的,并把每次修改都刊登在《語音教師》刊物上。同時,在ISO/IEC 10646編碼標準的每一次更新中,對國際音標進行或多或少的補充和更新,這不僅體現在國際音標字符集的數量上,也體現在其使用方法的進一步規范化、標準化。
然而,在文字處理領域對國際音標應用存在諸多問題。不僅應用上不規范,也不符合相關編碼標準,因而語言文字應用、教學和研究相關數據的共享與交流等受到極大的限制。例如某人采寫的文檔離開了作者的計算機就不能正確顯示或不能顯示國際音標字母和符號。還有以先定義后使用的形式出現了很多不規范的用例,甚至還“誕生”了一些不必要的字符和規則。還因為對某些字母的寫法出了偏差,導致文章著作的出版也常常遇到不少障礙。
本發明是基于最權威的ISO/IEC 10646編碼標準、適用于現代文字編輯排版應用的國際音標聯想式輸入法。特別是在語言文字教學和研究領域有非常廣泛的市場前景。不僅使國際音標應用更加規范并符合相關編碼標準,還解決了國際音標字母和符號多、鍵位少、字母與符號雜亂無章、一般文字工作者難以掌握,應用不規范等難題。我們將國際音標的字符集,基于ISO/IEC 10646編碼的特點分為字母和符號兩大類。其中,符號是用來修飾字母,使其對語音的表示更為準確。
發明內容
本發明提供一種國際音標聯想式輸入法,包括(一)、鍵字符和國際音標字符之間的對應關系如下所示
其中黑斜體為“鍵”值,其后字符為“國際音標”(二)、將國際音標符號依據與字母的組合位置分為上、中、下、側上、側中和側下六種類型;(三)、采用單級輸入和多級輸入相結合的方式輸入國際音標。
本發明的國際音標聯想式輸入法還包括定義實時選擇鍵和引導鍵,選擇鍵選用數字鍵1、2、3、4、5、6、7、8、9、0鍵及空格鍵;引導鍵可分為字母引導鍵和類型引導鍵字母引導鍵用于選擇候選列表中國際音標字母或國際音標字母和符號預組合候選列表中某一個字母或字母和符號組合,類型引導鍵用于選擇某一個國際音標字母可以組合的國際音標符號類型。
本發明的國際音標聯想式輸入法定義的類型引導鍵如下上Q、W、E、R、T鍵等同;側上Y、U、I、O、P鍵等同;中A、S、D、F、G鍵等同;側中H、J、K、L、[;]鍵等同;下Z、X、C、V、B鍵等同;側下N、M、[,]、[.]、[/]鍵等同。
本發明的國際音標聯想式輸入法采用單級輸入和多級輸入相結合的方式輸入國際音標的輸入方式包括一級、二級、三級和四級輸入A.一級輸入按照字形相似原則,輸入相應的拉丁字符,在候選列表中給出該鍵上所映射的所有國際音標字母,并等待下一級輸入;B.二級輸入如果輸入選擇鍵,則輸入相對應的國際音標字母并結束此次輸入過程;如果輸入國際音標字母引導鍵,則選中相對應的字母,在候選列表中給出此字母能組合的符號類型,并等待下一級輸入;C.三級輸入輸入類型引導鍵,據此選擇國際音標符號類型(上、中、下、側上、側中、側下),在候選列表中給出字母和所有這個類型符號的預組合,并等待四級輸入;D.四級輸入依據輸入的選擇鍵,輸入相對應的國際音標字母和符號組合并結束此次輸入過程。
本發明的國際音標聯想式輸入法借鑒操作系統國際化框架定義了面向多種語言(對象)的國際音標特征知識庫,知識庫繼承順序為語系、語族、語言、方言、次方言。
本發明的國際音標聯想式輸入法語言對象的國際音標知識庫數據采用XML語言表示和存儲,其中主要數據結構由知識庫屬性表、字符索引表、基數表、特征表、關聯表、和順序表組成。
本發明的國際音標聯想式輸入法定義虛擬字母鍵,用于輸入各種單個國際音標符號。
本發明的國際音標聯想式輸入法輸入各種單個國際音標符號包括一級、二級和三級輸入A、一級輸入用于輸入系統預定義或用戶自定義的虛擬字母鍵,在候選列表中給出六個國際音標符號類型;B、二級輸入輸入類型引導鍵,依據選擇的國際音標符號類型(上、中、下、側上、側中、側下)給出字母和所有這個類型符號的預組合候選列表,C、三級輸入依據輸入的選擇鍵,輸入相對應的國際音標符號并結束此次輸入過程。
本發明的國際音標聯想式輸入法定義樹形引導式軟鍵盤。
本發明是一種基于ISO/IEC 10646編碼標準,面向多種語言的國際音標聯想式輸入法(IPA Associable Input Method)。其特征為一、基于最為權威的ISO/IEC 10646編碼標準。二、國際音標字符根據與拉丁字符字形相似的原則分布在鍵盤上。三、定義了面向多種語言的國際音標特征知識庫。四、采用單級輸入與多級輸入相結合的策略。五、定義了實時選擇鍵和引導鍵。六、定義了虛擬字符鍵,用于引導輸入單個國際音標符號。七、定義了樹形引導式軟件盤。
本發明是基于最權威的ISO/IEC 10646編碼標準、適用于現代文字編輯排版應用的國際音標聯想式輸入法。特別是在語言文字教學和研究領域有非常廣泛的市場前景。不僅使國際音標應用更加規范并符合相關編碼標準,還解決了國際音標字母和符號多、鍵位少、字母與符號雜亂無章、一般文字工作者難以掌握,應用不規范等難題。我們將國際音標的字符集,基于ISO/IEC 10646編碼的特點分為字母和符號兩大類。其中,符號是用來修飾字母,使其對語音的表示更為準確。
附圖1為國際音標特征知識庫語言對象繼承結構模型圖;附圖2是國際音標字符和符號組合的輸入流程圖;附圖3是根據本發明實施例國際音標符號分類圖;附圖4是根據本發明實施例國際音標符號的輸入流程圖。
附圖5是根據本發明實施例樹形引導式軟鍵盤。
具體實施例方式
下面將結合附圖詳細描述本發明。
在國際音標聯想式輸入法中,將國際音標字母,按與拉丁字母字形相似的原則分布在鍵盤上。這樣有助于用戶對鍵盤分布的記憶或不用記憶鍵盤分布而根據字形的相似性直接進行輸入。基于國際音標1993年(1996年的修訂)版本,采用ISO/IEC 10646編碼標準給出了《國際音標字母映射表》(附件一)。
由于國際音標的版本和ISO/IEC 10646編碼標準也都在不斷更新,上表也會依據相關規范和標準的更新而需要進行更新。
下面介紹國際音標特征知識庫。
組織(繼承)結構附圖1為國際音標特征知識庫語言分類模型結構圖。在國際音標聯想式輸入法中,借鑒操作系統國際化框架(118N Frame)定義了面向多種語言的國際音標特征知識庫(Knowledge Base,簡稱KB)。例如,知識庫繼承順序為語系、語族、語言、方言、次方言等。
語系(Phylum)是語言學的概念,根據語言的發展和演變、直接而明顯的關聯,對語言進行歸類的方法定義的概念,簡稱“系”(PH)。
語族(Austronesian)也是語言學的概念,是主要依據語言語音、詞匯、語法規則之間某些對應關系定義的,簡稱為“族”(AU)。
語言(Language)是語言學的概念,是一套通過表示方法和合乎邏輯的語法構成的進行溝通和推理的系統。許多語言通過手勢、聲音、符號和文字,目的是交流觀念、意見、思想和含義等,簡稱為“語”(LA)。
方言(Dialect)是語言學里語系的概念,是一個特定地理區域中某種語言的變體,其相關判斷依據是非常主觀的,簡稱為“方”(DI)。
次方言(Hypo-Dialect)是民間傳統說法中的定義或因特殊需要而定義的、有明顯自有特點的狹義方言,簡稱為“次”(HD)。
標示方法用知識庫ID的方式來標示語言對象(可以是語系、語族、語言和方言)的繼承結構,即蒙古語內蒙古方言的知識庫ID為AL_MO_IM,而內蒙古方言的科爾沁次方言為AL_MO_IM_HO。例如AL_MO_IM[Altai]+[Mongolian]+[Inner-Mongolia]AL_MO_IM_HO[Altai]+[Mongolian]+[Inner-Mongolia]+[Horqin]
語系、語族、語言、方言和次方言ID的獲取規則如果英文名稱只有一個單詞,則去前兩字母的大寫形式,如果ID重名,則舍棄第二個字母并取其下一個字母。如果還發生重名,則依次類推。
如果英文名稱有兩個或兩個以上的單詞,則去第一個和第二個詞首字母的大寫形式。如果ID重名,則舍棄第二個詞的第一字母并取其下一個字母。如果還發生重名,則依次類推。
特征表示某一個語言對象(可以是語系、語族、語言和方言)的國際音標知識庫數據采用XML語言表示和存儲,其中主要數據結構有知識庫屬性表、字符索引表、基數表、特征表、關聯表、和順序表等組成。其中,基數表也對用戶的國際音標字符使用頻率提供格式化存儲結構。
知識庫(Knowledge Base)知識庫(Knowledge Base,簡稱為KB)全部采用XML語言組織和表示其所含的各種數據表,也是知識庫的存儲方式。
<?xml version=″1.0″encoding=″utf8″?>XML版本、編碼<!--MenkIPA Processing System Knowledge Base-->注釋<KBVersion=″XX.XX.XX″> 知識庫版本<LibVersion=″XX.XX.XX″> 程序庫版本<KBTables> 定義表——開始<Table Name=″Header″Value=″True″> 屬性表<Table Name=″Base″Value=″True″> 基數表<Table Name=″Feature″Value=″True″>特征表<Table Name=″Context″Value=″True″>關聯表<Table Name=″Order″Value=″True″> 順序表
</KBTables>定義表——結束<Header> 屬性表……</Header>
<Mapping> 字符索引表……</Mapping>
<Base> 基數表……</Base>
<Feature> 特征表……</Feature>
<Ligature> 關聯表……</Ligature>
<Order>順序表……</Order>
……<!--Knowledge Base End--> 注釋——結尾屬性表(Header)國際音標知識庫屬性表主要用于描述當前知識庫的相關屬性,例如知識庫ID及名稱、創建和修改相關的屬性等等。從知識庫ID能夠得到知識庫的繼承關系。下面以AL_MO_MO_IM,即阿爾泰語系——蒙古語族——蒙古語——內蒙古方言為例,對屬性表進行簡要說明<Header>
<Param Name=″KBID″Value=″AL_MO_MO_IM″>
<Param Name=″Name″Value=″Inner Mongolia″>
<Param Name=″String″Value=″蒙古語內蒙古方言″>也可以是其它文字<Param Name=″Creator″Value=″Husela.Lang″>創建者<Param Name=″CEmail″Value=″″>創建者信箱<Param Name=″CDateTime″Value=″2005-05-24″> 創建日期<Param Name=″Modifier″Value=″Goshawk″> 最后修改者<Param Name=″CEmail″Value=″husela@gmail.com″>修改者信箱<Param Name=″MDateTime″Value=″2005-08-30″> 修改日期<Param Name=″Owner″Value=″Menksoft Co.Ltd.″> 所有者<Param Name=″CopyRight″Value=″All Rights Reserved″> 版權聲明<Param Name=″Link″Value=″www.menksoft.com/IPA/KB.html″>
……</Header>
字符索引表(IPAMap)國際音標知識庫字符索引表定義三個參數,即字符索引(Index)、字符名稱(Name)和字符編碼(Code),給出字符索引、字符名稱和字符編碼之間的映射關系。這樣可以在后續的各個數據表中可以使用字符名稱,而不必去使用字符編碼,這樣也可以增強知識庫的易維護性。
<Mapping>
<IPA>
<!--Code Field Encoding by BMP of Unicode-->
<IPALetter Index=″0″Name=″Latin_a″Code=″0x0061″>
<IPALetter Index=″1″Name=″Latin_b″Code=″0x0062″>
<IPALetter Index=″2″Name=″Greek_a″Code=″0x0161″>
<IPALetter Index=″3″Name=″Greek_b″Code=″0x0161″>
……
<IPASign Index=″n″Name=″Sign_b″Code=″0x02B2″>
……</IPA>
<Script>
……</Script></Mapping>
基數表(Base)國際音標知識庫基數表給出每一個國際音標字符在當前語言對象(可以是語系、語族、語言和方言)上的基數,國際音標字符基數是有限語料的不完全統計得出的數據。國際音標字符(由Name字段標示)基數(由Value字段表示)等價于字符在有限語料中出現的百分數,我們通常不采用百分數,而采用萬分數。這里所指有限語料是,在當前語言對象的范疇內,基于篩選出來的語言素材,整理出來的較規范國際音標文本。<Base>
<IPAchar Name=″Latin_a″Value=″25″>
<IPAchar Name=″Latin_b″Value=″17″>
<IPAchar Name=″Greek_a″Value=″0″>
<IPAchar Name=″Greek_b″Value=″4″>
……<IPAchar Name=″IPA_a″Value=″109″>
……</Base>
選擇當前語言知識庫輸入國際音標時,基于國際音標字符基數,并結合用戶實時輸入累計值重新計算獲得字符的實時頻度,對國際音標字母或符號候選列表進行重新排序。方法如下
假設實時頻度為F,字符基數為B,累計值為X,則F=B+(X MOD K)(默認為10,用戶可設定為1至100。
特征表(Feature)所認可國際音標與其語言對象的字母之間二維數據表,即行為和語言對象的拉丁轉寫、列為國際音標字符。這一表適合用于音素文字對象。此表對國際音標的模糊拼讀輸入提供基于上下文的特征知識和應用策略。<Feature>
<LookupList>
<LookupIndex Index=″0″Type=″1″>
<LookupIndex Index=″2″Type=″2″>
<LookupIndex Index=″3″Type=″3″>
……</LookupList>
<Lookup Index=″0″Type=″1″>
<Input Index=″0″Type=″0″>
<Letter Index=″0″Value=″n″>
<Letter Index=″0″Value=″b″>
<Letter Index=″0″Value=″p″>
……</Input>
<Input Index=″1″Type=″1″>
<Letter Index=″0″Value=″Latin_a″>
<Letter Index=″0″Value=″Greek_a″>
<Letter Index=″0″Value=″IPA_a″>
……</Input>
……
<Output Index=″1″Type=″1″>
<IPA Index=″0″Value=″Latin_a″>
<Letter Index=″0″Value=″Greek_a″>
<Letter Index=″0″Value=″IPA_a″>
……</Output>
</Lookup>
<Lookup Index=″1″Type=″2″>
……</Lookup>
……</Feature>
關聯表(Ligature)國際音標關聯表,基于語言對象的語音基本單位,給出其相應有限個國際音標組合。語言(福音、元音)上下文特征。這個表適合用于漢藏語系中的漢語、藏語等語言對象。此表也對國際音標的模糊拼讀輸入提供基于上下文的特征知識和應用策略。下面以漢語(拼音)為例<Ligature>
<RecordList>
<RecordIndex Index=″0″Type=″1″>
<RecordIndex Index=″1″Type=″2″>
……</RecordList>
……<Record Index=″1″Type=″2″>
<Input Index=″0″Type=″0″>
<Letter Index=″0″Value=″n″>
<Letter Index=″0″Value=″b″>
……</Input>
<Input Index=″1″Type=″1″>
<Letter Index=″0″Value=″a″>
……</Input>
……<Output Index=″0″Type=″0″>
<IPA Index=″0″Value=″Latin_n″>
<IPA Index=″0″Value=″Latin_b″>
</Output>
<Output Index=″1″Type=″1″>
<IPA Index=″0″Value=″Latin_a″>
……</Output>
……</Record>
……</Ligature>
順序表(Order)當知識庫并用《特征表》和《關聯表》時,以正則表達式形式給出相關規則的應用順序,依次獲得更為準確的結果。特別是這兩個表的處理方法發生有二義時,也依據此表中定義的次序來決定。
如附圖2所示,國際音標聯想式輸入法將采用單級輸入與多級輸入相結合的輸入。其中包括一級、二級、三級和四級輸入A.一級輸入按照字形相似原則,輸入相應的拉丁字符,在候選列表中給出該鍵上所映射的所有國際音標字母,并等待下一級輸入;B.二級輸入如果輸入選擇鍵,則輸入相對應的國際音標字母并結束此次輸入過程;如果輸入國際音標字母引導鍵,則選中相對應的字母,在候選列表中給出此字母能組合的符號類型,并等待下一級輸入;C.三級輸入輸入類型引導鍵,據此選擇國際音標符號類型(上、中、下、側上、側中、側下),在候選列表中給出字母和所有這個類型符號的預組合,并等待四級輸入;D.四級輸入依據輸入的選擇鍵,輸入相對應的國際音標字母和符號組合并結束此次輸入過程。
如附圖3所示,過急音標處理系統中,將國際音標符號依據與字母的組合位置分為上(字母上面)、中(與字母交叉)、下(字母下面)、側上(字母側面上端)、側中(字母側面中端)和側下(字母側面下端)等六種類型。
國際音標聯想式輸入法定義了實時選擇鍵和引導鍵,這樣輸入變得更加簡單、靈活。選擇鍵選用數字鍵1、2、3、4、5、6、7、8、9、0鍵及空格鍵。引導鍵要分字母引導鍵和類型引導鍵兩種字母引導鍵是用于選擇國際音標字母候選列表或國際音標字母和符號組合候選列表中的某一個字母或字母和符號組合。
類型引導鍵是用于選擇某一個國際音標字母可以組合的國際音標符號類型。可選類型有六個,其具體分類請參考下一節《符號分類》的內容。
其類型引導鍵定義如下上Q、W、E、R、T鍵等同;側上Y、U、I、O、P鍵等同;中A、S、D、F、G鍵等同;側中H、J、K、L、[;]鍵等同;下Z、X、C、V、B鍵等同;側下N、M、[,]、[.]、[/]鍵等同。
如附圖4所示,國際音標聯想式輸入法定義了虛擬字母鍵。以虛擬字母鍵為引子,方便快捷地輸入各種單個國際音標符號。其中包括一級、二級和三級輸入A、一級輸入用于輸入系統預定義或用戶自定義的虛擬字母鍵,在候選列表中給出六個國際音標符號類型;B、二級輸入輸入類型引導鍵,依據選擇的國際音標符號類型(上、中、下、側上、側中、側下)給出字母和所有這個類型符號的預組合候選列表,C、三級輸入依據輸入的選擇鍵,輸入相對應的國際音標符號并結束此次輸入過程。
如附圖5所示,國際音標聯想式輸入法,將依據輸入流程定義了獨特的樹形引導式軟鍵盤。
以上對本發明的實施方式進行了詳細的說明,應當理解的是上述實施例僅僅是示例性的,在不脫離本發明權利要求的精神和范圍的條件下,可以對本發明進行各種修改和變化。
權利要求
1.一種國際音標聯想式輸入法,包括(一)、字符和字符列表之間的對應關系如下所示 其中黑斜體為“鍵”值,其后字符為“國際音標”(二)、將國際音標符號依據與字母的組合位置分為上、中、下、側上、側中和側下六種類型;(三)、采用單級輸入和多級輸入相結合的方式輸入國際音標。
2.根據權利要求1所述的國際音標聯想式輸入法,其特征在于還包括定義實時選擇鍵和引導鍵,選擇鍵選用數字鍵1、2、3、4、5、6、7、8、9、0鍵及空格鍵;引導鍵可分為字母引導鍵和類型引導鍵字母引導鍵用于選擇候選列表中國際音標字母或國際音標字母和符號預組合候選列表中某一個字母或字母和符號組合,類型引導鍵用于選擇某一個國際音標字母可以組合的國際音標符號類型。
3.根據權利要求2所述的國際音標聯想式輸入法,其特征在于還包括定義類型引導鍵如下上Q、W、E、R、T鍵等同;側上Y、U、I、O、P鍵等同;中A、S、D、F、G鍵等同;側中H、J、K、L、[;]鍵等同;下Z、X、C、V、B鍵等同;側下N、M、[,]、[.]、[/]鍵等同。
4.根據權利要求3所述的國際音標聯想式輸入法,其特征在于采用單級輸入和多級輸入相結合的方式輸入國際音標的輸入方式包括一級、二級、三級和四級輸入A.一級輸入按照字形相似原則,輸入相應的拉丁字符,在候選列表中給出該鍵上所映射的所有國際音標字母,并等待下一級輸入;B.二級輸入如果輸入選擇鍵,則輸入相對應的國際音標字母并結束此次輸入過程;如果輸入國際音標字母引導鍵,則選中相對應的字母,在候選列表中給出此字母能組合的符號類型,并等待下一級輸入;C.三級輸入輸入類型引導鍵,據此選擇國際音標符號類型(上、中、下、側上、側中、側下),在候選列表中給出字母和所有這個類型符號的預組合,并等待四級輸入;D.四級輸入依據輸入的選擇鍵,輸入相對應的國際音標字母和符號組合并結束此次輸入過程。
5.根據權利要求1-4任何一項權利要求所述的國際音標聯想式輸入法,其特征在于借鑒操作系統國際化框架定義了面向多種語言的國際音標特征知識庫,知識庫繼承順序為語系、語族、語言、方言、次方言。
6.根據權利要求5所述的國際音標聯想式輸入法,其特征在于語言對象的國際音標知識庫數據采用XML語言表示和存儲,其中主要數據結構由知識庫屬性表、字符索引表、基數表、特征表、關聯表、和順序表組成。
7.根據權利要求6所述的國際音標聯想式輸入法,其特征在于定義虛擬字母鍵,用于輸入各種單個國際音標符號。
8.根據權利要求7所述的國際音標聯想式輸入法,其特征在于輸入各種單個國際音標符號包括一級、二級和三級輸入A、一級輸入用于輸入系統預定義或用戶自定義的虛擬字母鍵,在候選列表中給出六個國際音標符號類型;B、二級輸入輸入類型引導鍵,依據選擇的國際音標符號類型(上、中、下、側上、側中、側下)給出字母和所有這個類型符號的預組合候選列表,C、三級輸入依據輸入的選擇鍵,輸入相對應的國際音標符號并結束此次輸入過程。
9.根據權利要求8所述的國際音標聯想式輸入法,其特征在于定義樹形引導式軟鍵盤。
全文摘要
本發明是一種基于ISO/IEC 10646編碼標準面向多種語言的國際音標聯想式輸入法(IPA Associable Input Method)。其特征為一、國際音標字符根據與拉丁字符字形相似的原則分布在鍵盤上。二、定義了面向多種語言的國際音標特征知識庫。三、采用單級輸入與多級輸入相結合的策略。四、定義了實時選擇鍵和引導鍵。五、定義了虛擬字符鍵,用于引導輸入單個國際音標符號。六、定義了樹形引導式軟件盤。本發明解決了國際音標字母和符號多,鍵位少,字母與符號雜亂無章、一般文字工作者難以掌握,應用不規范等難題。
文檔編號G06F3/023GK1808350SQ200510130779
公開日2006年7月26日 申請日期2005年12月29日 優先權日2005年12月29日
發明者呼斯勒, 巴圖賽恒, 岳耀明, 白雙成 申請人:內蒙古蒙科立軟件有限責任公司