用于確定目標用戶所對應的輸入模型的方法與設備的制作方法
【專利摘要】本發明的目的是提供一種確定目標用戶所對應的輸入模型的方法與設備。具體地,網絡設備端獲取目標用戶通過用戶設備提交的語料訓練請求,其中,語料訓練請求包括目標用戶所選擇的訓練語料數據;根據訓練語料數據,確定與語料訓練請求相對應的輸入訓練結果;將所述輸入訓練結果發送至用戶設備。其中,與現有技術相比,本發明通過根據獲取的目標用戶通過用戶設備提交的語料訓練請求中包括所述目標用戶所選擇的訓練語料數據,確定與所述語料訓練請求相對應的輸入訓練結果,以根據輸入訓練結果,建立或更新所述目標用戶所對應的輸入模型,提高了輸入模型與用戶輸入需求匹配的準確度,提高了輸入效率。
【專利說明】用于確定目標用戶所對應的輸入模型的方法與設備
【技術領域】
[0001]本發明涉及輸入法【技術領域】,尤其涉及一種用于確定目標用戶所對應的輸入模型的技術。
【背景技術】
[0002]輸入法通過采用一定編碼方法將各種符號輸入計算機或其他設備(如手機),來完成語言的輸入,其大大方便了用戶與計算機或其他設備的交互。然而,不同用戶輸入相同內容時,其希望展現的候選項信息不同,用戶對輸入法模型的個性化需求越來越強烈,現有輸入法模型的用戶個性化實現通常僅限于在原有反映所有用戶總體輸入特點的詞庫中增加某一用戶的新詞和/或結合用戶的詞頻等簡單的方式,而且,現有技術的實現需要更高的資源處理開銷,因而也不適用于資源處理能力有限的移動終端,從而不僅影響了輸入法模型與用戶輸入需求匹配的準確度,也影響了用戶輸入體驗。
【發明內容】
[0003]本發明的目的是提供一種用于確定目標用戶所對應的輸入模型的方法與設備。
[0004]根據本發明的一個方面,提供了一種在網絡設備端用于輔助確定目標用戶所對應的輸入模型的方法,其中,該方法包括以下步驟:
[0005]a獲取目標用戶通過用戶設備提交的語料訓練請求,其中,所述語料訓練請求包括所述目標用戶所選擇的訓練語料數據;
[0006]b根據所述訓練語料數據,確定與所述語料訓練請求相對應的輸入訓練結果,其中,所述輸入訓練結果與所述訓練語料數據相對應;
[0007]c將所述輸入訓練結果發送至所述用戶設備。
[0008]根據本發明的另一個方面,提供了一種在用戶設備端用于確定目標用戶所對應的輸入模型的方法,其中,該方法包括以下步驟:
[0009]A獲取目標用戶所選擇的訓練語料數據;
[0010]B向對應的網絡設備發送語料訓練請求,其中,所述語料訓練請求包括所述訓練語料數據;
[0011]C接收所述網絡設備基于所述語料訓練請求所發送的輸入訓練結果,其中,所述輸入訓練結果與所述訓練語料數據相對應;
[0012]D根據所述輸入訓練結果,建立或更新所述目標用戶所對應的輸入模型。
[0013]根據本發明的一個方面,還提供了一種用于輔助確定目標用戶所對應的輸入模型的網絡設備,其中,該網絡設備包括:
[0014]請求獲取裝置,用于獲取目標用戶通過用戶設備提交的語料訓練請求,其中,所述語料訓練請求包括所述目標用戶所選擇的訓練語料數據;
[0015]結果確定裝置,用于根據所述訓練語料數據,確定與所述語料訓練請求相對應的輸入訓練結果,其中,所述輸入訓練結果與所述訓練語料數據相對應;
[0016]結果發送裝置,用于將所述輸入訓練結果發送至所述用戶設備。
[0017]根據本發明的另一個方面,還提供了一種于確定目標用戶所對應的輸入模型的設用戶備,其中,該用戶設備包括:
[0018]數據獲取裝置,用于獲取目標用戶所選擇的訓練語料數據;
[0019]請求發送裝置,用于向對應的網絡設備發送語料訓練請求,其中,所述語料訓練請求包括所述訓練語料數據;
[0020]結果接收裝置,用于接收所述網絡設備基于所述語料訓練請求所發送的輸入訓練結果,其中,所述輸入訓練結果與所述訓練語料數據相對應;
[0021]輸入模型建立裝置,用于根據所述輸入訓練結果,建立或更新所述目標用戶所對應的輸入模型。
[0022]根據本發明的又一個方面,還提供了一種用于確定目標用戶所對應的輸入模型的系統,其中,該系統包括前述根據本發明一個方面的用于確定目標用戶所對應的輸入模型的網絡設備和前述根據本發明另一個方面的用于確定目標用戶所對應的輸入模型的用戶設備。
[0023]與現有技術相比,本發明通過根據獲取的目標用戶通過用戶設備提交的語料訓練請求中包括所述目標用戶所選擇的訓練語料數據,確定與所述語料訓練請求相對應的輸入訓練結果,以根據輸入訓練結果,建立或更新所述目標用戶所對應的輸入模型,提高了輸入模型與用戶輸入需求匹配的準確度,提高了輸入效率,且輸入訓練結果在網絡設備端完成,也降低了用戶設備端的資源開銷。而且,本發明還可獲取對應于多個用戶的統計輸入模型,以根據所述統計輸入模型,調整根據所述訓練語料數據確定的所述目標用戶所對應的所述初始訓練結果,以獲得所述輸入訓練結果,進一步地提高了所述輸入訓練結果與所述目標用戶需求匹配度。此外,本發明還可獲取所述目標用戶對所述輸入訓練結果的選擇處理,以根據所選擇的輸入訓練結果,建立或更新所述目標用戶所對應的輸入模型,更進一步地提高了輸入模型與用戶輸入需求匹配的準確度,提高了輸入效率。
【專利附圖】
【附圖說明】
[0024]通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發明的其它特征、目的和優點將會變得更明顯:
[0025]圖1示出根據本發明一個方面用于確定目標用戶所對應的輸入模型的網絡設備與用戶設備的設備示意圖;
[0026]圖2示出根據本發明一個優選實施例的用于確定目標用戶所對應的輸入模型的網絡設備的設備示意圖;
[0027]圖3示出根據本發明另一個方面的網絡設備和用戶設備配合實現用于確定目標用戶所對應的輸入模型的方法流程圖;
[0028]圖4示出根據本發明一個優選實施例的網絡設備用于確定目標用戶所對應的輸入模型的方法流程圖。
[0029]附圖中相同或相似的附圖標記代表相同或相似的部件。
【具體實施方式】
[0030]下面結合附圖對本發明作進一步詳細描述。
[0031]圖1示出根據本發明一個方面用于確定目標用戶所對應的輸入模型的網絡設備I與用戶設備2,其中,網絡設備I包括請求獲取裝置11、結果確定裝置12和結果發送裝置13,用戶設備2包括數據獲取裝置21、請求發送裝置22、結果接收裝置23和輸入模型建立裝置24。具體地,用戶設備2的數據獲取裝置21獲取目標用戶所選擇的訓練語料數據;請求發送裝置22向對應的網絡設備I發送語料訓練請求,其中,所述語料訓練請求包括所述訓練語料數據;相應地,網絡設備I的請求獲取裝置11獲取目標用戶通過用戶設備2提交的語料訓練請求,其中,所述語料訓練請求包括所述目標用戶所選擇的訓練語料數據;結果確定裝置12根據所述訓練語料數據,確定與所述語料訓練請求相對應的輸入訓練結果,其中,所述輸入訓練結果與所述訓練語料數據相對應;結果發送裝置13將所述輸入訓練結果發送至所述用戶設備2 ;相應地,用戶設備2的結果接收裝置23接收所述網絡設備I基于所述語料訓練請求所發送的輸入訓練結果,其中,所述輸入訓練結果與所述訓練語料數據相對應;輸入模型建立裝置24根據所述輸入訓練結果,建立或更新所述目標用戶所對應的輸入模型。
[0032]在此,所述網絡設備I包括但不限于如網絡主機、單個網絡服務器、多個網絡服務器集或基于云計算的計算機集合等實現;或者由用戶設備實現。在此,云由基于云計算(Cloud Computing)的大量主機或網絡服務器構成,其中,云計算是分布式計算的一種,由一群松散耦合的計算機集組成的一個超級虛擬計算機。
[0033]在此,所述用戶設備2可以是任何一種可與用戶通過鍵盤、鼠標、觸摸板、觸摸屏、或手寫設備等方式進行人機交互的電子產品,例如計算機、手機、PDA、掌上電腦PPC或平板電腦等。所述網絡包括但不限于互聯網、廣域網、城域網、局域網、VPN網絡、無線自組織網絡(Ad Hoc網絡)等。
[0034]本領域技術人員應能理解上述網絡設備I或用戶設備2僅為舉例,其他現有的或今后可能出現的網絡設備或用戶設備如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。在此,網絡設備I及用戶設備2均包括一種能夠按照事先設定或存儲的指令,自動進行數值計算和信息處理的電子設備,其硬件包括但不限于微處理器、專用集成電路(ASIC)、可編程門陣列(FPGA)、數字處理器(DSP)、嵌入式設備等。
[0035]具體地,用戶設備2的數據獲取裝置21通過調用用戶設備自身提供的提供訓練預料數據的應用程序接口(API),獲取目標用戶所選擇的訓練語料數據;或者,通過第三方應用平臺如輸入法客戶端Input-methodl-client提供的應用程序接口(API),獲取目標用戶所選擇的訓練語料數據;或者,通過JSP、ASP等動態網頁技術,獲取目標用戶所選擇的訓練語料數據。在此,所述訓練語料數據反映了所述目標用戶在文本輸入過程中經常輸入的文本信息(如文字、讀音等)、輸入行為信息等(如只輸入文字首字母、輸入長度較短、喜歡用縮寫、讀音、按鍵錯誤不時常發生、喜歡選用表情符號代替文本等),其包括但不限于以下至少任一項:1)所述目標用戶的歷史輸入記錄;2)所述目標用戶的曾撰寫的文本;3)其他反映所述目標用戶輸入行為的文本集合,如某領域的術語列表。本領域技術人員應能理解上述訓練語料數據僅為舉例,其他現有的或今后可能出現的訓練語料數據如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。
[0036]例如,假設用戶A通過其智能手機iphone中已安裝的第三方應用平臺如輸入法客戶端提供的應用程序接口(API),選擇其之前撰寫的文本如文章、發表的帖子等,以及其常用的某領域如數學、通信、物理等的資料,以將該等文本上傳至對應的網絡設備2,則數據獲取裝置21通過該第三方應用平臺如輸入法客戶端提供的應用程序接口(API),便獲取到用戶A所選擇的文本,以將其作為所述訓練語料數據。在此,本發明實現了用戶可以選擇特定的訓練語料數據,不僅具有更高的訓練效率(如不需要等到用戶有那么多輸入記錄),還可以針對性地得到用戶所希望的輸入法習慣(例如某個領域的新用戶可以將該領域的典型句段作為訓練語料),從而進一步地提高了輸入效率的有益效果。
[0037]優選地,數據獲取裝置21還可根據所述目標用戶對其歷史輸入相關信息的選擇操作,獲取所述訓練語料數據。在此,所述歷史輸入相關信息包括但不限于以下至少任一項:1)所述目標用戶的歷史輸入記錄;2)所述目標用戶的曾撰寫的文本;3)其他反映所述目標用戶輸入行為的文本集合,如某領域的術語列表。例如,接上例,用戶A通過其智能手機iphone中已安裝的第三方應用平臺如輸入法客戶端如Inputnethodl-client提供的應用程序接口(API),選擇其保存于本地的之前撰寫和/或發表的文章如《載波聚合(CarrierAggregat1n)介紹》、((LTE中的PRACH》等,以及輸入法記錄的該用戶A的歷史輸入記錄如輸入的詞語、輸入習慣等,然后點擊“確定”按鈕,則數據獲取裝置21通過JSP、ASP等動態網頁技術,便獲取到用戶A對其歷史輸入相關信息的選擇操作,進而數據獲取裝置21通過該第三方應用平臺如輸入法客戶端Input-methodl-client提供的應用程序接口(API),便獲取到用戶A所選擇的歷史輸入相關信息,以將其作為所述訓練語料數據。
[0038]本領域技術人員應能理解上述獲取目標用戶所選擇的訓練語料數據的方式僅為舉例,其他現有的或今后可能出現的獲取目標用戶所選擇的訓練語料數據的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。
[0039]請求發送裝置22通過約定的通信方式,如http或https等通信協議,向對應的網絡設備I發送語料訓練請求,其中,所述語料訓練請求包括所述訓練語料數據。例如,接上例,請求發送裝置22向對應的網絡設備I發送語料訓練請求,其中,所述語料訓練請求包括用戶A選擇的其保存于本地的之前撰寫和/或發表的文章如《載波聚合(CarrierAggregat1n)介紹》、《LTE中的PRACH》等,以及該用戶A的歷史輸入記錄如輸入的詞語、輸入習慣等訓練語料數據。
[0040]相應地,網絡設備I的請求獲取裝置11獲取目標用戶通過用戶設備2提交的語料訓練請求,如通過網絡設備I提供的應用程序接口(API),或者,通過約定的通信方式,如http或https等通信協議,接收用戶設備2發送的語料訓練請求,其中,所述語料訓練請求包括所述目標用戶所選擇的訓練語料數據。
[0041]結果確定裝置12根據所述訓練語料數據,確定與所述語料訓練請求相對應的輸入訓練結果,其中,所述輸入訓練結果與所述訓練語料數據相對應。在此,所述輸入訓練結果用于描述所述目標用戶的語言特征信息、輸入特征信息,以及輔助輸入特征信息,反映了該目標用戶積久養成的輸入方式等。其中,所述語言特征信息包括但不限于以下至少任一項參數信息:1)孤立的詞頻,即單個詞出現的頻率;2)詞與詞的關聯信息,即給定上文時該詞的詞頻,反映了一個詞與另一個詞共現的頻率,如對于詞語“監聽”,其上文詞語如為“秘密”時所對應的詞頻,再如,對于詞語“艦艇”,其上文詞語如為“駕駛”時所對應的詞頻;3)對于多音詞,該多音詞對應不同讀音的頻率,如對于詞語“澄清”,其讀音包括:①“Ch6ngqlng”:l.形容水清澈、明亮2.弄清事情的真相;②“DSng qing”:使液體中的雜質沉淀。其中,所述輸入特征信息包括但不限于以下至少任一項參數信息:1)用戶習慣輸入全拼還是簡拼;2)輸入長度,如通常輸入整句還是單個詞、字;3)是否習慣性讀音錯誤,以及錯誤詳情如何;4)是否習慣按鍵錯誤,以及錯誤詳情如何。其中,所述輔助輸入特征信息包括但不限于以下至少任一項參數信息:1)中文兼用英文;2)是否習慣表情符號;3)特殊領域詞語,如古詩詞、成語俗語、常見地名、流行游戲、專業詞匯等;4)人名等。本領域技術人員應能理解上述語言特征信息、輸入特征信息和輔助輸入特征信息僅為舉例,其他現有的或今后可能出現的語言特征信息或輸入特征信息或輔助輸入特征信息如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。在此,結果確定裝置12確定所述輸入訓練結果的方式包括但不限于以下至少任一項:
[0042]I)根據所述訓練語料數據,通過預定語言模型,諸如適用于中文拼音輸入法的基于統計的N-gram模型,適用于日文輸入法的基于統計的N-POS模型等,確定所述目標用戶所對應的初始語言特征信息,以將該初始語言特征信息作為所述輸入訓練結果。例如,假設請求獲取裝置11獲取到的所述訓練語料數據包括如下訓練語料數據I至IV:
[0043]I文章《載波聚合(Carrier Aggregat1n)介紹》中的文本內容:
[0044]“為了滿足LTE-A下行峰速lGbps,上行峰速500Mbps的要求,需要提供最大10MHz的傳輸帶寬,但由于這么大帶寬的連續頻譜的稀缺,LTE-A提出了載波聚合的解決方案。載波聚合(Carrier Aggregat1n, CA)是將2個或更多的載波單元(ComponentCarrier, CC)聚合在一起以支持更大的傳輸帶寬(最大為100MHz)。涉及到的基本概念如下:Primary Cell (PCell):主小區是工作在主頻帶上的小區。UE在該小區進行初始連接建立過程,或開始連接重建立過程;Secondary Cell (SCell):輔小區是工作在扶貧帶上的小區。一旦RRC連接建立,輔小區就可能被配置以提供額外的無線資源(見36.331的3.1節;Serving Cell:處于 RRC_C0NNECTED 態的 UE,如果沒有配置 CA,則只有一個 Serving Cell,即PCell ;如果配置了 CA,則Serving Cell集合是由PCell和SCell組成(見36.331的
3.1 節).......”
[0045]II文章《LTE中的PRACH》中的文本內容:“UE通過上行RACH來達到與LTE系統之間的上行接入和同步。在FDD模式下(以下若未特別指出,均是對FDD模式而言)PRACH的大小為6個RB,每個子幀中,至多有一個PRACH (36.211,Sect1n5.7.1)。TDD模式下,允許一個子幀中存在多個頻分的PRACH。PRACH中的前導序列,包含長度為的循環前綴(CP)和長度為的序列。為了適應不同的小區大小,LTE FDD中的PRACH定義了四種類型,......”
[0046]III用戶A的歷史輸入記錄,以漢語拼音輸入法為例:
[0047]i)全拼輸入次數占總輸入次數的99%,如輸入“計算機”時輸入“jisuanji”、如輸入“載波聚合”輸入“zaibojuhe”等;
[0048]ii)對于長句,輸入整句、多個詞語次數占總輸入次數的90%,如輸入“主小區是工作在主頻帶的小區”輸入 “zhuxiaoqushigongzuozai”、“zhupindai”、“shangde”、
u.yy
xiaoqu;
[0049]iii)專業術語全部采用縮寫,如“LTE”、“PDCCH”、“TDD”等;
[0050]iv)讀音、按鍵錯誤不時常發生;
[0051]V)喜歡選用表情符號代替文本等,如輸入“哈哈”,喜歡用表情符號“ Λ _ Λ ”或"0( η _ η )ο哈哈?”代替,再如,輸入“不高興”,喜歡用表情符號“(VDV )”代替等;
[0052]IV收集的古詩詞及解析:
[0053]i)秋思.洛陽城里見秋風張籍
[0054]洛陽城里見秋風,欲作家書意萬重
[0055]復恐匆匆說不盡,行人臨發又開封
[0056]賞析:這是鄉愁詩,通過敘述寫信前后的心情,表達鄉愁之深。第一句交代“作家書”的原因(“見秋風”),以下三句是描寫作書前、作書后的心理活動。作書前是“意萬重”,作書后是“復恐說不盡”。“臨發開封”這個細節把“復恐說不盡”的心態表現得栩栩如生,意形相融。寫的是人人意中常有之事,卻非人人所能道出。作客他鄉,見秋風而思故里,托便人捎信。臨走時怕遺漏了什么,又連忙打開看了幾遍。事本子平,而一經入詩,特別是一經張籍這樣的高手入詩,便臻妙境。
[0057]ii)池上詠柳白居易
[0058]青莎臺上起書樓,綠藻潭中系釣舟。
[0059]日晚愛行深竹里,月明多上小橋頭。
[0060]暫嘗新酒還成醉,亦出中門便當游。
[0061]一部清商聊送老,白須蕭颯管弦秋。
[0062]賞析:“多上”:一作多在。“日晚愛行深竹里,月明多在小橋頭”這兩句是說,晚間竹林里清幽雅靜,我愛在那里漫步游賞;月照林上,竹影婆娑,月光最明的地方,是在那空曠的小橋頭。竹間漫步,橋頭賞月,均極愜意,見詩人官閑優游之狀。“一部清商①聊②送老,白發蕭颯③管弦秋”,①清商:此指清商曲,樂府歌曲名。聲調比較清越,故名。②聊:姑且。③蕭颯:蕭條冷落。七律《池上閑詠》,是白居易任太子賓客分司東都洛陽時所作。這兩句是說,聽一部聲調清越的樂曲,姑且當作老年人打發時光的一種樂趣;但是,蒼蒼白發,蕭條冷落的晚年,不是管弦的力量能夠扭轉的。這時白居易六十二歲,向居閑官,閑適恬靜,但恬靜中,似有一種“蕭颯”般的寂寥之感,情緒消沉,樂中含怨,細細吟詠,韻味悠長。
[0063]則結果確定裝置12根據訓練語料數據I至IV,通過預定語言模型,如適用于中文拼音輸入法的基于統計的N-gram模型,對訓練語料數據I至IV對應的文本進行切詞處理,并對切詞后獲得的詞語進行統計處理,獲得訓練語料數據I至IV中所有詞語對應的詞頻,并統計詞語的共現信息如“載波”與“聚合”共現的頻率等,從而獲得所述目標用戶所對應的初始語言特征信息original-language-features-A,包括如:1)通信領域專業術語,如“載波聚合”、“主小區”、“輔小區”、“LTE”、“PDCCH”、“TDD”等;2)詞與詞的關聯信息,如“載波”與“聚合”關聯;3)習慣運用表情符號;4)古詩詞信息;5)特殊人名如“張籍”等,則結果確定裝置12可將該初始語言特征信息original-language-features-A作為所述輸入訓練結果O
[0064]2)對所述訓練語料數據中包含的所述目標用戶的用戶輸入記錄(如輸入長度、是否縮寫、讀音、按鍵錯誤等))進行統計處理,以獲得所述目標用戶的初始輸入特征信息,并將該初始輸入特征信息作為所述輸入訓練結果。例如,接上例,結果確定裝置12根據訓練語料數據I至IV,對所述訓練語料數據中包含的所述目標用戶的用戶輸入記錄如訓練語料數據III中包含的所述目標用戶的用戶輸入記錄進行統計處理,從而獲得所述目標用戶的初始輸入特征信息original-1nput-features-A,如i)習慣輸入全拼;ii)對于長句,習慣輸入整句、多個詞語;iii)習慣用縮寫;iv)讀音、按鍵錯誤不時常發生;則結果確定裝置12可將該初始輸入特征信息original-1nput-features-A作為所述輸入訓練結果。
[0065]3)結合所述目標用戶所屬的用戶類別對應的類輸入結果信息,對前述初始語言特征信息和/或初始輸入特征信息進行調整處理,以獲得所述輸入訓練結果。在此,所述類輸入結果信息用于描述某類別用戶總體的語言特征信息、輸入特征信息,以及輔助輸入特征信息,與所述輸入訓練結果具有相同或相似的參數信息。例如,假設與用戶A屬于通信領域專業技術型用戶類別communicat1n-user-class,而通信領域專業技術型用戶類別所對應的類輸入結果信息communicat1n-1nfo包括:a)詞典規模,即技術型用戶類別所對應的詞庫信息,如詞條數量等;b)通信領域專業術語包括“3G”、“ARP”、“光網絡”、“光纖到戶”、“TCP/IP協議”、“多協議標記交換MPLS”、“路由器”、“通用分組無線業務GPRS”、“載波聚合”、“主小區”、“輔小區”、“LTE”、“PDCCH”、“TDD”等;c)詞與詞的關聯信息,如“載波”與“聚合”關聯,再如“通用分組”與“無線業務”關聯等,則結果確定裝置12可根據該類輸入結果信息communicat1n-1nfo,對前述初始語言特征信息和/或初始輸入特征信息進行調整處理,如將該類輸入結果信息communicat1n-1nfo加入到前述初始語言特征信息和/或初始輸入特征信息中,即加入到用戶A對應的初始語言特征信息original-language-features-A和/或初始輸入特征信息original-1nput-features-A中,以獲得所述輸入訓練結果如training-results-A,包括:1)初始語言特征信息,如:1)通信領域專業術語,如“載波聚合”、“主小區”、“輔小區”、“LTE”、“PDCCH”、“TDD”、3G”、“ARP”、“光網絡”、“光纖到戶”、“TCP/IP協議”、“多協議標記交換MPLS”、“路由器”、“通用分組無線業務GPRS”、等;2)詞與詞的關聯信息,如“載波”與“聚合”關聯,再如“通用分組”與“無線業務”關聯等;3)習慣運用表情符號;4)古詩詞信息;5)特殊人名如“張籍”;II )初始輸入特征信息,如i)習慣輸入全拼;ii)對于長句,習慣輸入整句、多個詞語;iii)習慣用縮寫;iv)讀音、按鍵錯誤不時常發生。
[0066]4)在前述初始語言特征信息和/或初始輸入特征信息中加入所述目標用戶的參考用戶如與該參考用戶屬于同類型用戶的其他用戶的輔助輸入特征信息,以獲得所述輸入訓練結果。例如,假設與用戶A屬于同類型用戶的用戶B對應的參考輸入結果信息reference-B包括:bl)習慣用表情符號如“* Λ _ Λ * (嘻嘻表情),,、“>_〈(可憐表情)”等;b2)習慣簡拼,如輸入“jsj”(計算機)、“sms”(說明書)等;b3)對于多音詞,如對于詞語“澄清”,輸入讀音為“Ch6ng qing"頻次高于輸入讀音為“DSng qing"的頻次,則結果確定裝置12可將用戶B對應的參考輸入結果信息加入到前述初始語言特征信息和/或初始輸入特征信息中,即加入到用戶A對應的初始語言特征信息original-language-features-A和/或初始輸入特征信息original-1nput-features-A中,以獲得所述輸入訓練結果。
[0067]本領域技術人員應能理解上述確定與所述語料訓練請求相對應的輸入訓練結果的方式僅為舉例,其他現有的或今后可能出現的確定與所述語料訓練請求相對應的輸入訓練結果的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。
[0068]結果發送裝置13通過約定的通信方式,如http或https等通信協議,將所述輸入訓練結果發送至所述用戶設備2。
[0069]相應地,用戶設備2的結果接收裝置23通過約定的通信方式,如http或https等通信協議,接收所述網絡設備I基于所述語料訓練請求所發送的輸入訓練結果,其中,所述輸入訓練結果與所述訓練語料數據相對應。
[0070]輸入模型建立裝置24根據所述輸入訓練結果,建立或更新所述目標用戶所對應的輸入模型。在此,所述輸入模型是指自然語言處理中根據用戶的輸入(如中英文輸入、按鍵錯誤輸入、符號夾雜輸入等),計算與該輸入相對應的可能的候選結果,以及候選結果對應的概率信息的數學模型,包括用于描述詞語間搭配的概率信息、詞頻、編碼與詞條映射頻率的調整信息等自然語言統計特征的語言模型,以及用于描述與用戶輸入特征相對應的模型部分。例如,假設對于用戶A,結果接收裝置23接收到的所述輸入訓練結果training-results-A 包括:1)初始語言特征信息 original-language-features-A’,如:I)通信領域專業術語,如“載波聚合”、“主小區”、“輔小區”、“LTE”、“PDCCH”、“TDD”、3G”、“ARP”、“光網絡”、“光纖到戶”、“TCP/IP協議”、“多協議標記交換MPLS,,、“路由器”、“通用分組無線業務GPRS”等;2)詞與詞的關聯信息,如“載波”與“聚合”關聯,再如“通用分組”與“無線業務”關聯等;3)習慣運用表情符號;4)古詩詞信息;5)特殊人名如“張籍”;II )初始輸入特征信息original-1nput-features-A’,如i)習慣輸入全拼;ii)對于長句,習慣輸入整句、多個詞語;iii)習慣用縮寫;iv)讀音、按鍵錯誤不時常發生,則輸入模型建立裝置24根據該輸入訓練結果包括的各項參數信息,建立目標用戶A所對應的輸入模型input-model-A,并且,當目標用戶A通過用戶設備提交新的語料訓練請求,結果接收裝置23接收到新的輸入訓練結果時,輸入模型建立裝置24還可根據該新的輸入訓練結果,對之前建立的所述輸入模型進行更新,比如,按一定方式進行更新,如立即更新、按一定周期進行更新等。在此,本發明實現了使更新后的所述輸入模型更進一步地滿足目標用戶A所希望的輸入法習慣的需求的有益效果。
[0071]優選地,輸入模型建立裝置24還可首先通過諸如ASP、JSP等動態網頁技術,獲取所述目標用戶對所述輸入訓練結果的選擇處理,以獲得所選擇的輸入訓練結果;然后,根據所選擇的輸入訓練結果,建立或更新所述目標用戶所對應的輸入模型。具體地,輸入模型建立裝置24還可首先通過約定的通信方式,如http或https等通信協議,將所述輸入訓練結果提供給所述目標用戶;然后,再通過諸如ASP、JSP等動態網頁技術,獲取所述目標用戶對所述輸入訓練結果的選擇處理,以獲得所選擇的輸入訓練結果;接著,根據所選擇的輸入訓練結果,建立或更新所述目標用戶所對應的輸入模型。例如,輸入模型建立裝置24通過約定的通信方式,如http或https等通信協議,將結果接收裝置23接收到的所述輸入訓練結果training-results-A,提供給用戶A,假設用戶A選擇了輸入訓練結果training-results-A所在窗口中的關于是否運用訓練結果training-results-A建立或更新所述目標用戶所對應的輸入模型的“確認”按鈕,則輸入模型建立裝置24通過諸如ASP、JSP等動態網頁技術,便獲取到用戶A對所述輸入訓練結果training-results-A的選擇處理;接著,輸入模型建立裝置24根據該輸入訓練結果training-results-A,建立或更新用戶A所對應的輸入模型input-model-A,如運用輸入訓練結果training-results-A代替原有輸入訓練結果如original-training-results-A,以建立或更新用戶A所對應的輸入模型 input-model-A。
[0072]本領域技術人員應能理解上述建立或更新所述目標用戶所對應的輸入模型的方式僅為舉例,其他現有的或今后可能出現的建立或更新所述目標用戶所對應的輸入模型的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。
[0073]網絡設備I和用戶設備2的各個裝置之間是持續不斷工作的。具體地,用戶設備2的數據獲取裝置21獲取目標用戶所選擇的訓練語料數據;請求發送裝置22持續向對應的網絡設備I發送語料訓練請求,其中,所述語料訓練請求包括所述訓練語料數據;相應地,網絡設備I的請求獲取裝置11持續獲取目標用戶通過用戶設備2提交的語料訓練請求,其中,所述語料訓練請求包括所述目標用戶所選擇的訓練語料數據;結果確定裝置12持續根據所述訓練語料數據,確定與所述語料訓練請求相對應的輸入訓練結果,其中,所述輸入訓練結果與所述訓練語料數據相對應;結果發送裝置13持續將所述輸入訓練結果發送至所述用戶設備2 ;相應地,用戶設備2的結果接收裝置23持續接收所述網絡設備I基于所述語料訓練請求所發送的輸入訓練結果,其中,所述輸入訓練結果與所述訓練語料數據相對應;輸入模型建立裝置24持續根據所述輸入訓練結果,建立或更新所述目標用戶所對應的輸入模型。在此,本領域技術人員應能理解“持續”是指網絡設備I和用戶設備2的各個裝置之間分別不斷地進行訓練語料數據的獲取與發送、輸入訓練結果的確定與發送、輸入模型的建立或更新,直至用戶設備2在較長時間內停止訓練語料數據的獲取。
[0074]在一個優選實施例中(參考圖1),其中,網絡設備I包括請求獲取裝置11、結果確定裝置12、結果發送裝置13和權重確定裝置(未示出),用戶設備2包括數據獲取裝置21、請求發送裝置22、結果接收裝置23和輸入模型建立裝置24。以下參考圖1對該優選實施例進行描述:具體地,用戶設備2的數據獲取裝置21獲取目標用戶所選擇的訓練語料數據;請求發送裝置22向對應的網絡設備I發送語料訓練請求,其中,所述語料訓練請求包括所述訓練語料數據;相應地,網絡設備I的請求獲取裝置11獲取目標用戶通過用戶設備2提交的語料訓練請求,其中,所述語料訓練請求包括所述目標用戶所選擇的訓練語料數據;結果確定裝置12根據所述訓練語料數據,確定與所述語料訓練請求相對應的輸入訓練結果,其中,所述輸入訓練結果與所述訓練語料數據相對應;權重確定裝置根據所述訓練語料數據,確定所述輸入訓練結果所對應的權重信息;結果發送裝置13將所述輸入訓練結果及所述權重信息發送至所述用戶設備2 ;相應地,用戶設備2的結果接收裝置23接收所述網絡設備I基于所述語料訓練請求所發送的輸入訓練結果及其對應的權重信息,其中,所述輸入訓練結果與所述訓練語料數據相對應;輸入模型建立裝置24根據所述輸入訓練結果,結合所述權重信息,建立或更新所述輸入模型。在此,網絡設備I的請求獲取裝置11、結果確定裝置12,及用戶設備2的數據獲取裝置21、請求發送裝置22分別與圖1所示對應裝置相同或相似,故在此處不再贅述,并通過引用的方式包含于此。
[0075]具體地,權重確定裝置根據所述訓練語料數據,確定所述輸入訓練結果所對應的權重信息;其中,所述權重信息基于以下任一項規則來確定;
[0076]-根據所述訓練語料數據的數據數量信息,確定所述權重信息;
[0077]-根據所述訓練語料數據的數據質量信息,確定所述權重信息。
[0078]例如,當根據所述訓練語料數據的數據數量信息,確定所述權重信息時,假設請求獲取裝置11獲取到的所述語料訓練請求中包括的用戶A選擇的所述訓練語料數據包括前述訓練語料數據I至IV,其中,訓練語料數據I和II體現所述輸入訓練結果training-results-A中關于①通信領域專業術語和②詞與詞的關聯信息方面的數據,訓練語料數據III中包含的5條文本中有4條體現所述輸入訓練結果中關于③初始輸入特征信息方面的數據,有I條體現所述輸入訓練結果中關于④習慣運用表情符號方面的數據,訓練語料數據IV中包含的兩個文本體現所述輸入訓練結果中關于⑤古詩詞信息及⑥特殊人名方面的數據,假設參數每多一條訓練語料數據,則其對應的權重就多0.2,且參數權重數值最高為1,假設每一參數對應的初始權重均相等,如為0.5,則權重確定裝置訓練語料數據I至IV的數據數量信息,可確定所述輸入訓練結果中各參數對應的權重信息,則權重確定裝置確定輸入訓練結果training-results-A中各參數:①通信領域專業術語、②詞與詞的關聯信息、③初始輸入特征信息、④習慣運用表情符號、⑤古詩詞信息及⑥特殊人名方面的數據所對應的權重信息分別0.7、0.7、1、0.5、0.7、0.7。
[0079]再如,當根據所述訓練語料數據的數據質量信息,確定所述權重信息時,在此,所述數據質量信息表示所述訓練語料數據是否有編輯錯誤造成的噪音,或者,屬于錯誤上傳的垃圾數據等。具體地,權重確定裝置首先根據預定語言模型如適用于中文拼音輸入法的基于統計的N-gram模型,適用于日文輸入法的基于統計的N-POS模型等,通過自然語言處理方法,確定所述訓練語料數據的數據質量信息;然后,再根據所述訓練語料數據的數據質量信息,確定所述權重信息。例如,接上例,假設權重確定裝置確定前述訓練語料數據I至IV中訓練語料數據IV屬于錯誤上傳的垃圾數據,訓練語料數據I中具有編輯錯誤如“輔小區是工作在扶貧帶上的小區”中的“扶貧”應為“輔頻”,假設每一參數對應的初始權重均相等,如為0.5,每出現一處錯誤,權重降低0.1,但屬于垃圾數據時,對應的權重為0,則權重確定裝置確定輸入訓練結果training-results-A中各參數:①通信領域專業術語、②詞與詞的關聯信息、③初始輸入特征信息、④習慣運用表情符號、⑤古詩詞信息及⑥特殊人名方面的數據所對應的權重信息分別0.4、0.5、0.5、0.5、0、0。
[0080]本領域技術人員應能理解,權重確定裝置還可以根據上述權重信息判斷規則的組合,來確定所述輸入訓練結果所對應的權重信息。
[0081]本領域技術人員應能理解上述確定所述輸入訓練結果所對應的權重信息的方式僅為舉例,其他現有的或今后可能出現的確定所述輸入訓練結果所對應的權重信息的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。
[0082]結果發送裝置13通過約定的通信方式,如http或https等通信協議,將所述輸入訓練結果及所述權重信息發送至所述用戶設備2。
[0083]相應地,用戶設備2的結果接收裝置23通過約定的通信方式,如http或https等通信協議,接收所述網絡設備I基于所述語料訓練請求所發送的輸入訓練結果及其對應的權重信息,其中,所述輸入訓練結果與所述訓練語料數據相對應。
[0084]輸入模型建立裝置24根據所述輸入訓練結果,結合所述權重信息,建立或更新所述輸入模型。例如,假設權重確定裝置確定的輸入訓練結果training-results-A中各參數:①通信領域專業術語、②詞與詞的關聯信息、③初始輸入特征信息、④習慣運用表情符號、⑤古詩詞信息及⑥特殊人名方面的數據所對應的權重信息分別0.7,0.7、1、0.5,0.7,0.7,則輸入模型建立裝置24根據該輸入訓練結果training-results-A,建立或更新用戶A所對應的輸入模型input-model-A,如結合所述權重信息,將輸入訓練結果training-results-A疊加到用戶A的智能手機iphone中正運用的第三方應用平臺如輸入法客戶端如Input-methodl-client 對應的原有輸入訓練結果如 original-training-results-A 中,如通過以下疊加公式(I)將輸入訓練結果training-results-A各參數與其對應的權重信息的乘積與原有輸入訓練結果如original-training-results-A中對應的參數進行疊加:
[0085]α *T ' +(1-α)*Τ (I)其中,Τ’ 表示輸入訓練結果 training-results-A 各參數,α表示Τ’參數對應的權重信息,且O < α < 1,T表示原有輸入訓練結果如original-training-results-A 中與輸入訓練結果 training-results-A 的參數 T’ 相對應的參數,則輸入模型建立裝置24通過計算上述公式(I)便可得到更新后的所述輸入訓練結果new-training-results-A ;接著,輸入模型建立裝置24根據更新后的所述輸入訓練結果new-training-results-A,更新用戶 A 所對應的輸入模型 input-model-A。
[0086]優選地,用戶設備2還包括候選項確定裝置(未示出)和提供裝置(未示出)。具體地,候選項確定裝置根據所述輸入模型,確定與所述目標用戶的輸入信息相對應的候選項信息;提供裝置將所述候選項信息提供給所述目標用戶。
[0087]具體地,候選項確定裝置根據所述輸入模型,確定與所述目標用戶的輸入信息相對應的候選項信息。例如,假設用戶A在其智能手機iphone上建立或更新輸入模型input-model-A之后,當用戶A需要輸入文本時,例如假設用戶A輸入信息“ jianting”,假設輸入模型input-model-A中對應的參數信息表明“監聽”的詞頻比“艦艇”的詞頻高,且用戶A對應的輸入特征信息為全拼單個詞輸、不常讀錯或輸錯,則候選項確定裝置輸入信息“jianting”對應的候選項信息如“艦艇、監聽、堅挺、兼聽”等中“監聽”對應的排序高于其他候選項“艦艇、堅挺、兼聽”;再如,接上例,假設輸入信息“jianting”對應的上文為“秘密”,則候選項確定裝置確定“監聽”對應的排序高于其他候選項“艦艇、堅挺、兼聽”;還如,還接上例,假設輸入信息“ jianting”對應的上文為“駕駛”,則候選項確定裝置確定“艦艇”對應的排序高于其他候選項“監聽、堅挺、兼聽”。
[0088]本領域技術人員應能理解上述確定與所述目標用戶的輸入信息相對應的候選項信息的方式僅為舉例,其他現有的或今后可能出現的確定與所述目標用戶的輸入信息相對應的候選項信息的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。
[0089]接著,提供裝置通過約定的通信方式,如http或https等通信協議,將所述候選項信息提供給所述目標用戶,供其瀏覽選擇。
[0090]圖2示出根據本發明一個優選實施例的用于確定目標用戶所對應的輸入模型的網絡設備I的設備示意圖。其中,網絡設備I包括請求獲取裝置11’、結果確定裝置12’、結果發送裝置13’和統計模型獲取裝置(未示出),其中,結果確定裝置12’包括初始結果確定單元121’和調整單元122’。具體地,請求獲取裝置11’獲取目標用戶通過用戶設備2提交的語料訓練請求,其中,所述語料訓練請求包括所述目標用戶所選擇的訓練語料數據;統計模型獲取裝置獲取對應于多個用戶的統計輸入模型;初始結果確定單元121’根據所述訓練語料數據,確定所述目標用戶所對應的初始訓練結果;調整單元122’根據所述統計輸入模型,調整所述初始訓練結果,以獲得所述輸入訓練結果。結果發送裝置13’將所述輸入訓練結果發送至用戶設備2。在此,請求獲取裝置11’和結果發送裝置13’分別與圖1所示對應裝置相同或相似,故在此處不再贅述,并通過引用的方式包含于此。
[0091]具體地,統計模型獲取裝置通過諸如提供統計輸入模型的第三方設備的應用程序接口(API),獲取對應于多個用戶的統計輸入模型。在此,所述統計輸入模型包括自然語言處理中的語言模型,包含詞語間搭配的概率信息,其模型參數其反映全體用戶或屬于相同用戶類別的用戶的語言特征信息、輸入特征信息,以及輔助輸入特征信息等。例如,用戶A在其的智能手機iphone中第一次安裝第三方應用平臺如輸入法客戶端如Input-methodl-client時,則統計模型獲取裝置通過第三方應用平臺如輸入法客戶端如Input-methodl-client的應用程序接口(API),便可獲取到輸入法Inputnethodl,即獲取到所述統計輸入模型,其對應于多個用戶。
[0092]本領域技術人員應能理解上述獲取對應于多個用戶的統計輸入模型的方式僅為舉例,其他現有的或今后可能出現的獲取對應于多個用戶的統計輸入模型的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。
[0093]初始結果確定單元121’根據所述訓練語料數據,確定所述目標用戶所對應的初始訓練結果。在此,所述初始訓練結果用于描述所述目標用戶的初始語言特征信息、初始輸入特征信息,反映了該目標用戶初始的輸入方式等信息。其中,所述初始語言特征信息包括但不限于以下至少任一項參數信息:1)孤立的詞頻,即單個詞出現的頻率;2)詞與詞的關聯信息,即給定上文時該詞的詞頻,反映了一個詞與另一個詞共現的頻率,如對于詞語“監聽”,其上文詞語如為“秘密”時所對應的詞頻,再如,對于詞語“艦艇”,其上文詞語如為“駕駛”時所對應的詞頻;3)對于多音詞,該多音詞對應不同讀音的頻率,如對于詞語“澄清”,其讀音包括:①“Ch6ng qing”:l.形容水清澈、明亮2.弄清事情的真相;②“DSng qing”:使液體中的雜質沉淀。其中,所述初始輸入特征信息包括但不限于以下至少任一項參數信息:
I)用戶習慣輸入全拼還是簡拼;2)輸入長度,如通常輸入整句還是單個詞、字;3)是否習慣性讀音錯誤,以及錯誤詳情如何;4)是否習慣按鍵錯誤,以及錯誤詳情如何。本領域技術人員應能理解上述初始語言特征信息和初始輸入特征信息僅為舉例,其他現有的或今后可能出現的初始語言特征信息或初始輸入特征信息如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。
[0094]具體地,初始結果確定單元121’可首先根據所述訓練語料數據,通過預定語言模型,諸如適用于中文拼音輸入法的基于統計的N-gram模型,適用于日文輸入法的基于統計的N-POS模型等,確定所述目標用戶所對應的初始語言特征信息。例如,初始結果確定單元121’根據前述訓練語料數據I至IV,通過預定語言模型,如適用于中文拼音輸入法的基于統計的N-gram模型,對訓練語料數據I至IV對應的文本進行切詞處理,并對切詞后獲得的詞語進行統計處理,獲得訓練語料數據I至IV中所有詞語對應的詞頻,并統計詞語的共現信息如“載波”與“聚合”共現的頻率等,從而獲得所述目標用戶所對應的初始語言特征信息original-language-features-A,包括如:1)通信領域專業術語,如“載波聚合”、“主小區”、“輔小區”、“LTE”、“PDCCH”、“TDD”等;2)詞與詞的關聯信息,如“載波”與“聚合”關聯;3)習慣運用表情符號;4)古詩詞信息;5)特殊人名如“張籍”等。
[0095]然后,初始結果確定單元121’對所述訓練語料數據中包含的所述目標用戶的用戶輸入記錄(如輸入長度、是否縮寫、讀音、按鍵錯誤等))進行統計處理,以獲得所述目標用戶的初始輸入特征信息。例如,初始結果確定單元121’根據訓練語料數據I至IV,對所述訓練語料數據中包含的所述目標用戶的用戶輸入記錄如訓練語料數據III中包含的所述目標用戶的用戶輸入記錄進行統計處理,從而獲得所述目標用戶的初始輸入特征信息original-1nput-features-A,如i)習慣輸入全拼;ii)對于長句,習慣輸入整句、多個詞語;iii)習慣用縮寫;iv)讀音、按鍵錯誤不時常發生。
[0096]接著,初始結果確定單元121’可將所述初始語言特征信息及所述初始輸入特征信息作為初始訓練結果。例如,接上例,初始結果確定單元121’將初始語言特征信息original-language-features-A 及初始輸入特征信息 original-1nput-features-A 作為初始訓練結果。
[0097]本領域技術人員應能理解,在具體實施例中,統計模型獲取裝置與初始結果確定單元121’可以是并行的處理,也可以串行的處理。
[0098]調整單元122’根據所述統計輸入模型,調整所述初始訓練結果,以獲得所述輸入訓練結果。在此,調整單元122’調整所述初始訓練結果以獲得所述輸入訓練結果的方式包括但不限于以下至少任一項:
[0099]I)根據所述目標用戶所屬的用戶類別對應的統計模型的模型參數,如該用戶類別對應的類輸入結果信息,對所述初始訓練結果進行調整處理,以獲得所述輸入訓練結果,如在所述初始訓練結果中加入所述類輸入結果信息。例如,假設與用戶A屬于通信領域專業技術型用戶類別communicat1n-user-class,而通信領域專業技術型用戶類別所對應的類輸入結果信息如communicat1n-1nfo包括:a)詞典規模,即技術型用戶類別所對應的詞庫信息,如詞條數量等;b)通信領域專業術語包括“3G”、“ARP”、“光網絡”、“光纖到戶”、“TCP/IP協議”、“多協議標記交換MPLS”、“路由器”、“通用分組無線業務GPRS”、“載波聚合”、“主小區”、“輔小區”、“LTE”、“PDCCH”、“TDD”等;c)詞與詞的關聯信息,如“載波”與“聚合”關聯,再如“通用分組”與“無線業務”關聯等,則調整單元122’將該類輸入結果信息communicat1n-1nfo加入到初始結果確定單元121’確定的所述初始輸入結果中,即加入到用戶A對應的初始語言特征信息original-language-features-A和初始輸入特征信息original-1nput-features-A中,以獲得所述輸入訓練結果,包括:1)通信領域專業術語,如“載波聚合”、“主小區”、“輔小區”、“LTE”、“PDCCH”、“TDD”、3G”、“ARP”、“光網絡”、“光纖到戶”、“TCP/IP協議”、“多協議標記交換MPLS”、“路由器”、“通用分組無線業務GPRS”等;
2)詞與詞的關聯信息,如“載波”與“聚合”關聯,再如“通用分組”與“無線業務”關聯等;
3)習慣運用表情符號;4)古詩詞信息;5)特殊人名如“張籍”;6)習慣輸入全拼;7)對于長句,習慣輸入整句、多個詞語;8)習慣用縮寫;9)讀音、按鍵錯誤不時常發生。
[0100]2)根據所述統計輸入模型,在所述初始訓練結果中加入所述統計輸入模型對應的屬于所述目標用戶的參考用戶如與該目標用戶屬于相同用戶類別的其他用戶的輔助輸入特征信息,以獲得所述輸入訓練結果。例如,假設與用戶A屬于相同用戶類別的用戶B對應的參考輸入結果信息reference-B包括:bl)習慣用表情符號如“* Λ _ Λ *(嘻嘻表情)”、“>_〈(可憐表情)”等;b2)習慣簡拼,如輸入計算機)、“sms”(說明書)等;b3)對于多音詞,如對于詞語“澄清”,輸入讀音為“Ch6ngqlng”頻次高于輸入讀音為“DSng qing”的頻次,則調整單元122’可將用戶B對應的參考輸入結果信息reference-B加入到所述初始訓練結果中,即加入到用戶A對應的初始語言特征信息language-features-A和初始輸入特征信息input-features-A中,以獲得所述輸入訓練結果,包括:1)通信領域專業術語,如“載波聚合”、“主小區”、“輔小區”、“LTE”、“PDCCH”、“TDD”等;2)詞與詞的關聯信息,如“載波”與“聚合”關聯;3)習慣運用表情符號;4)古詩詞信息;5)特殊人名如“張籍”;6)習慣輸入全拼或簡拼'O對于長句,習慣輸入整句、多個詞語;8)習慣用縮寫;9)讀音、按鍵錯誤不時常發生;10)對于多音詞,如對于詞語“澄清”,輸入讀音為“Ch6ng qing”頻次高于輸入讀音為“DSng qing”的頻次。
[0101]本領域技術人員應能理解上述調整所述初始訓練結果以獲得所述輸入訓練結果的方式僅為舉例,其他現有的或今后可能出現的調整所述初始訓練結果以獲得所述輸入訓練結果的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。
[0102]在一個優選實施例中(參考圖2),其中,調整單元122’包括聚類確定單元(未示出)、參考確定單元(未示出)和初始調整單元(未示出)。具體地,聚類確定單元根據所述初始訓練結果,從一個或多個用戶聚類中確定所述目標用戶所屬的用戶聚類;參考確定單元從所述目標用戶所屬的用戶聚類中確定參考用戶;初始調整單元根據所述統計輸入模型,結合所述參考用戶所對應的參考模型信息,調整所述初始訓練結果,以獲得所述輸入訓練結果。
[0103]具體地,聚類確定單元首先從用戶聚類數據庫中獲取一個或多個用戶聚類;然后,再根據所述初始訓練結果,從該一個或多個用戶聚類中確定所述目標用戶所屬的用戶聚類,如將所述目標用戶的所述初始訓練結果與所述用戶聚類中包括的相關用戶的相關輸入結果信息相比較,或者計算所述目標用戶的所述初始訓練結果與所述用戶聚類中包括的相關用戶的相關輸入結果信息之間的距離,以確定所述目標用戶所屬的用戶聚類。
[0104]例如,假設初始結果確定單元121’確定用戶A的初始訓練結果包括參數如I’ )通信領域專業術語,如“載波聚合”、“主小區”、“輔小區”、“LTE”、“PDCCH”、“TDD”等;2’ )詞與詞的關聯信息,如“載波”與“聚合”關聯;3’)習慣運用表情符號;4’)習慣簡拼;5’ )特殊人名如“張籍”等,而用戶聚類數據庫中包括的用戶聚類為clusterl中包括的相關用戶如用戶C對應的參考輸入結果信息reference-C包括參數:cl)習慣用表情符號如
Λ _ Λ *(嘻嘻表情)〈(可憐表情)”等;c2)習慣簡拼,如輸入“ jsj” (計算機)、“sms”(說明書)等;c3)對于多音詞,如對于詞語“澄清”,輸入讀音為“Ch6ng qing”頻次高于輸入讀音為“DSng qing”的頻次;c4)通信領域專業術語,如“載波聚合”、“主小區”、“輔小區”、“LTE”、“PDCCH”、“TDD”等;c5)詞與詞的關聯信息,如“載波”與“聚合”關聯,則聚類確定單元通過將用戶A的初始訓練結果包括的參數I’至5’分別與用戶C對應的參考輸入結果信息reference-C包括的參數cl至c5相比較發現,其中,參數I’與c4、參數2’與參數c5、參數3’與參數Cl、參數4’與參數c2分別相同,且相同參數的數量占用戶C中總參數數量的80%,大于預定閾值60%,則聚類確定單元確定用戶A屬于用戶C所屬的用戶聚類clusterl。再如,接上例,假設該用戶聚類數據庫中還包括的用戶聚類為clusterf中包括的相關用戶如用戶D對應的參考輸入結果信息reference-D包括參數:dl)習慣用表情符號;d2)特殊人名如“張籍”、“杜甫”等;d3)對于多音詞,如對于詞語“澄清”,輸入讀音為“Ch6ng qing”頻次高于輸入讀音為“DSng qing”的頻次;d4)通信領域專業術語,如“載波聚合”、“主小區”、“輔小區”、“LTE”、“PDCCH”、“TDD”等;d5)詞與詞的關聯信息,如“載波”與“聚合”關聯,則聚類確定單元可通過以下公式(2)計算用戶A的初始訓練結果包括的參數I’至5’分別與用戶D對應的參考輸入結果信息reference-D包括的參數dl至d5之間的距離,來確定用戶A與用戶D之間的距離:
[0105]d = ^(x1.-yi)2(2)
[0106]其中,,η為參數數量,Xi表示用戶A的初始訓練結果包括的參數,yi表示用戶D對應的參考輸入結果信息reference-D包括的參數,在此,X1表示參數I’,X2表示參數2’,等等,Yi表示參數dl, J2表示參數d2,等等,η = 5,則聚類確定單元根據上述公式(2)得到d=0.093,小于預定閾值如0.5,則聚類確定單元確定用戶A還屬于用戶D所屬的用戶聚類cluster20在此,所述用戶聚類數據庫可位于網絡設備I中,也可位于與網絡設備I通過網絡相連的其他設備中,如服務器。
[0107]本領域技術人員應能理解上述計算所述目標用戶的所述初始訓練結果與所述用戶聚類中包括的相關用戶的相關輸入結果信息之間的距離的方式僅為舉例,其他現有的或今后可能出現的計算所述目標用戶的所述初始訓練結果與所述用戶聚類中包括的相關用戶的相關輸入結果信息之間的距離的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。
[0108]優選地,每一用戶聚類包含用于表征所述用戶聚類的特征的類輸入結果信息,其中,聚類確定單元將所述初始訓練結果與所述一個或多個用戶聚類所對應的所述類輸入結果信息進行比較,以確定所述目標用戶所屬的用戶聚類。在此,所述初始訓練結果與表征所述用戶聚類的特征的類輸入結果信息的關系包括但不限于:1)所述初始訓練結果與所述類輸入結果信息包含相同的參數信息;2)所述類輸入結果信息包括所述初始訓練結果;3)所述初始訓練結果還可與所述類輸入結果信息完全一致。例如,接上例,假設初始結果確定單元121’從用戶聚類數據庫中獲取到用戶聚類communicat1n-user-class及其對應的類輸入結果信息communicat1n-1nfo包括參數:a)詞典規模,即技術型用戶類別所對應的詞庫信息,如詞條數量等山)通信領域專業術語包括“3G”、“ARP”、“光網絡”、“光纖到戶”、“TCP/IP協議”、“多協議標記交換MPLS”、“路由器”、“通用分組無線業務GPRS”、“載波聚合”、“主小區”、“輔小區”、“LTE”、“PDCCH”、“TDD”等;c)詞與詞的關聯信息,如“載波”與“聚合”關聯,再如“通用分組”與“無線業務”關聯等,則聚類確定單元通過將用戶A的初始訓練結果包括的參數I’至5’分別與用戶聚類communicat1n-user-class對應的類輸入結果信息communicat1n-1nfo包括的參數a至c相比較發現,其中,參數I’與參數b、參數2’與參數c分別相同,且相同參數的數量占用戶聚類communicat1n-user-class中總參數數量的66.7%,大于預定閾值60%,則聚類確定單元確定用戶A屬于用戶聚類communicat1n-user—classo
[0109]本領域技術人員應能理解上述確定所述目標用戶所屬的用戶聚類的方式僅為舉例,其他現有的或今后可能出現的確定所述目標用戶所屬的用戶聚類的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。
[0110]參考確定單元從所述目標用戶所屬的用戶聚類中確定參考用戶,如將所述目標用戶所屬的用戶聚類中包括的所有相關用戶作為所述參考用戶,或者,將所述目標用戶的所述初始訓練結果與所述用戶聚類中包括的相關用戶的相關輸入結果信息相比較,當所述相關輸入結果信息中參數與所述初始訓練結果中的參數相同的參數數量與所述相關輸入結果信息的總參數數量的比值大于預定閾值時,將該相關輸入結果信息所對應的相關用戶作為所述參考用戶。例如,對于前述用戶C對應的參考輸入結果信息reference-C,其參數與用戶A的所述初始訓練結果中的參數相同的數量占用戶C中總參數數量的80%,大于預定閾值60%,則參考確定單元確定用戶聚類clusterl中的用戶C為用戶A的參考用戶。
[0111]初始調整單元根據所述統計輸入模型,結合所述參考用戶所對應的參考模型信息,調整所述初始訓練結果,在所述初始訓練結果中加入所述統計輸入模型對應的屬于所述目標用戶的參考用戶如與該目標用戶屬于相同用戶類別的其他用戶的參考輸入結果信息,以獲得所述輸入訓練結果。在此,所述參考模型信息用于描述所述參考用戶所對應的輸入模型的模型參數,與所述輸入模型具有相同或相似的模型參數,如語言特征信息、輸入特征信息,以及輔助輸入特征信息等。例如,假設與用戶A屬于相同用戶類別的用戶B對應的參考輸入結果信息reference-B包括:bl)習慣用表情符號如“* Λ _ Λ *(嘻嘻表情)”、“>_〈(可憐表情)”等;b2)習慣簡拼,如輸入計算機)、“sms”(說明書)等;b3)對于多音詞,如對于詞語“澄清”,輸入讀音為“Ch6ng qing”頻次高于輸入讀音為“DSng qing”的頻次,則初始調整單元可將用戶B對應的參考輸入結果信息reference-B加入到所述初始訓練結果中,即加入到用戶A對應的初始語言特征信息language-features-A和初始輸入特征信息input-features-A中,以獲得所述輸入訓練結果,包括:1)通信領域專業術語,如“載波聚合”、“主小區”、“輔小區”、“LTE”、“PDCCH”、“TDD”等;2)詞與詞的關聯信息,如“載波”與“聚合”關聯;3)習慣運用表情符號;4)古詩詞信息;5)特殊人名如“張籍”;6)習慣輸入全拼或簡拼;7)對于長句,習慣輸入整句、多個詞語;8)習慣用縮寫;9)讀音、按鍵錯誤不時常發生;10)對于多音詞,如對于詞語“澄清”,輸入讀音為“Ch6ng qing”頻次高于輸入讀音為“DSng qing”的頻次。
[0112]優選地,網絡設備I還包括語料獲取裝置(未示出)、信息確定裝置(未示出)和聚類處理裝置(未示出)。具體地,語料獲取裝置獲取對應于所述多個用戶的語料數據;信息確定裝置根據所述多個用戶的語料數據,確定所述多個用戶的輸入結果信息;聚類處理裝置根據所述多個用戶的輸入結果信息,對所述多個用戶進行聚類處理,以獲得所述一個或多個用戶聚類以及與所述用戶聚類相對應的類輸入結果信息。
[0113]具體地,語料獲取裝置通過諸如微博、博客、QQ空間、貼吧等用戶可分享、傳播及獲取信息的第三方平臺提供的應用程序接口(API),獲取對應于所述多個用戶的語料數據;或者,通過記錄用戶輸入習慣、輸入語言等信息并提供該等信息的第三方設備的應用程序接口(API),獲取對應于所述多個用戶的語料數據。例如,假設用戶A’至用戶E’分別在其微博、博客等第三方平臺中共享了以下信息:
[0114]用戶A’:《Bag of words model (詞袋模型)》
[0115]“詞袋模型是在自然語言處理和信息檢索中的一種簡單假設。在這種模型中,文本(段落或者文檔)被看作是無序的詞匯集合,忽略語法甚至是單詞的順序。......”
[0116]用戶B’:《語言模型的基本概念》
[0117]“本文介紹一下有關語言模型的基本概念,但是在介紹語言模型之前,先簡單回顧一下自然語言處理這個大問題吧。現在自然語言處理的研究絕對是一個非常火熱的方向,主要是被當前的互聯網發展所帶動起來的。在互聯網上充斥著大量的信息,主要是文字方面的信息,對這些信息的處理離不開自然語言處理的技術。那么究竟什么是自然語言以及自然語言處理呢?......”
[0118]用戶C’:《奧森公園驚現童話世界》
[0119]“今日春分,凌晨一場春雪悄然而至,給平日灰蒙蒙的京城披上漂亮的銀裝。早晨起來,陽光初露,老笨就近來到奧運森林公園北園,立刻被眼前景象驚呆了。在京生活數十年,從未見過如此美麗景象。這般美景,人間罕見,恐怕只有在童話世界里才有。廢話少說,上片啦! ”
[0120]用戶D’:《曇花雪,惹人醉》
[0121]“北京的這個春天變化多端。一陣兒漫天的霾,一會兒漫天的沙。
[0122]昨天傍晚開始下雨了。夜里轉成了雪。
[0123]早晨一起,看銀裝素裹,知道這春天不會讓這景色停留,這是冬的告別。
[0124]去了頤和園,全是攝影的人......我估計大家是讓北京春天的天憋的太久了,就像干部們好長時間沒有宴會一樣難受。”
[0125]用戶E’:隨機游走模型(Random Surfer Model)
[0126]“這就是搜索引擎:核心技術詳解》第6章鏈接分析,本章主要介紹一些著名的鏈接分析方法。本節為大家介紹隨機游走模型(Random Surfer Model)。”
[0127]語料獲取裝置通過微博、博客等第三方平臺提供的應用程序接口(API),便可獲取到對應于用戶A’至用戶E’的語料數據。
[0128]本領域技術人員應能理解上述獲取對應于所述多個用戶的語料數據的方式僅為舉例,其他現有的或今后可能出現的獲取對應于所述多個用戶的語料數據的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。
[0129]信息確定裝置根據所述多個用戶的語料數據,確定所述多個用戶的輸入結果信息。在此,所述輸入結果信息用于描述用戶的語言特征信息、輸入特征信息,以及輔助輸入特征信息。在此,信息確定裝置確定所述多個用戶的輸入結果信息的方式與結果確定裝置12確定所述輸入訓練結果的方式相同或相似,為簡明起見,故在此不再贅述,并以引用的方式包含與此。
[0130]聚類處理裝置根據所述多個用戶的輸入結果信息,對所述多個用戶進行聚類處理,如采用k-means、IS0DATA、鏈狀方法等非監督學習方法,以獲得所述一個或多個用戶聚類以及與所述用戶聚類相對應的類輸入結果信息。在此,所述用戶聚類包括但不限于如:1)商務公文型;2)游戲娛樂型;3)專業技術型。本領域技術人員應能理解上述用戶聚類僅為舉例,其他現有的或今后可能出現的用戶聚類如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。
[0131]例如,聚類處理裝置可根據信息確定裝置確定的用戶A’至用戶E’的輸入結果信息,如從輸入特征信息、語言特征信息等方面對用戶A’至用戶E’進行聚類,如假設用戶A’、用戶B’和用戶D’在輸入特征信息上均具有習慣簡拼、對于長句喜歡輸入單個詞、按鍵錯誤頻率低于0.01等特點,則聚類處理裝置將用戶A’、用戶B’和用戶D’歸為一類,且聚類處理裝置根據用戶A’、用戶B’和用戶D’對應的語言特征信息,判斷用戶A’和用戶B’對應的語言特征信息如詞典規模、詞與詞的關聯信息、專業術語等均屬于自然語言處理領域,用戶D’對應的語言特征信息屬于搜索引擎領域,則聚類處理裝置確定用戶A’、用戶B’和用戶D’對應的用戶聚類為專業技術型如technology-cluster,相應地,聚類處理裝置通過將用戶A’、用戶B’和用戶D’對應的語言特征信息進行合并、提取相同語言特征信息等方式,得到與專業技術型用戶聚類相對應的類輸入結果信息technology-1nfo,包括參數如:1)詞典規模,即專業技術型用戶類別所對應的詞庫信息,如詞條數量等;2)自然語言處理及搜索引擎專業術語包括“詞袋”、“語言模型”、“搜索引擎”、“鏈接”等;3)詞與詞的關聯信息,如“搜索”與“引擎”關聯,再如“隨機”與“游走”關聯等;4)習慣簡拼;5)對于長句喜歡輸入單個詞;6)按鍵錯誤頻率低。類似地,聚類處理裝置可確定用戶C’和用戶D’屬于游戲娛樂型如entertainment-cluster,以及與該用戶聚類游戲娛樂型相對應的類輸入結果信息如 entertainment-1nfo。
[0132]更優選地,網絡設備I還包括統計模型建立裝置(未示出),具體地,統計模型建立裝置根據所述用戶聚類所對應的所述類輸入結果信息,建立或更新所述統計輸入模型,其中,所述統計輸入模型包括在多個所述用戶聚類中存在的所述類輸入結果信息。例如,接上例,統計模型建立裝置根據聚類處理裝置得到的用戶聚類technology-cluster和用戶聚類entertainment-cluster分別所對應的所述類輸入結果信息technology-1nfo和entertainment-1nfo,建立或更新所述統計輸入模型,如將類輸入結果信息technology-1nfo和entertainment-1nfo各自包括的參數中的相同參數作為所述統計輸入模型的模型參數,其中,所述統計輸入模型包括在多個所述用戶聚類中存在的所述類輸入結果信息。
[0133]圖3示出根據本發明另一個方面的網絡設備和用戶設備配合實現用于確定目標用戶所對應的輸入模型的方法流程圖。
[0134]具體地,在步驟SI中,用戶設備2獲取目標用戶所選擇的訓練語料數據;在步驟S2中,用戶設備2向對應的網絡設備I發送語料訓練請求,其中,所述語料訓練請求包括所述訓練語料數據;相應地,網絡設備I獲取目標用戶通過用戶設備2提交的語料訓練請求,其中,所述語料訓練請求包括所述目標用戶所選擇的訓練語料數據;在步驟S3中,網絡設備I根據所述訓練語料數據,確定與所述語料訓練請求相對應的輸入訓練結果,其中,所述輸入訓練結果與所述訓練語料數據相對應;在步驟S4中,網絡設備I將所述輸入訓練結果發送至所述用戶設備2 ;相應地,用戶設備2接收所述網絡設備I基于所述語料訓練請求所發送的輸入訓練結果,其中,所述輸入訓練結果與所述訓練語料數據相對應;在步驟S5中,用戶設備2根據所述輸入訓練結果,建立或更新所述目標用戶所對應的輸入模型。
[0135]在此,所述網絡設備I包括但不限于如網絡主機、單個網絡服務器、多個網絡服務器集或基于云計算的計算機集合等實現;或者由用戶設備實現。在此,云由基于云計算(Cloud Computing)的大量主機或網絡服務器構成,其中,云計算是分布式計算的一種,由一群松散耦合的計算機集組成的一個超級虛擬計算機。
[0136]在此,所述用戶設備2可以是任何一種可與用戶通過鍵盤、鼠標、觸摸板、觸摸屏、或手寫設備等方式進行人機交互的電子產品,例如計算機、手機、PDA、掌上電腦PPC或平板電腦等。所述網絡包括但不限于互聯網、廣域網、城域網、局域網、VPN網絡、無線自組織網絡(Ad Hoc網絡)等。
[0137]本領域技術人員應能理解上述網絡設備I或用戶設備2僅為舉例,其他現有的或今后可能出現的網絡設備或用戶設備如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。在此,網絡設備I及用戶設備2均包括一種能夠按照事先設定或存儲的指令,自動進行數值計算和信息處理的電子設備,其硬件包括但不限于微處理器、專用集成電路(ASIC)、可編程門陣列(FPGA)、數字處理器(DSP)、嵌入式設備等。
[0138]具體地,在步驟SI中,用戶設備2通過調用用戶設備自身提供的提供訓練預料數據的應用程序接口(API),獲取目標用戶所選擇的訓練語料數據;或者,通過第三方應用平臺如輸入法客戶端Input-methodl-client提供的應用程序接口(API),獲取目標用戶所選擇的訓練語料數據;或者,通過JSP、ASP等動態網頁技術,獲取目標用戶所選擇的訓練語料數據。在此,所述訓練語料數據反映了所述目標用戶在文本輸入過程中經常輸入的文本信息(如文字、讀音等)、輸入行為信息等(如只輸入文字首字母、輸入長度較短、喜歡用縮寫、讀音、按鍵錯誤不時常發生、喜歡選用表情符號代替文本等),其包括但不限于以下至少任一項:1)所述目標用戶的歷史輸入記錄;2)所述目標用戶的曾撰寫的文本;3)其他反映所述目標用戶輸入行為的文本集合,如某領域的術語列表。本領域技術人員應能理解上述訓練語料數據僅為舉例,其他現有的或今后可能出現的訓練語料數據如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。
[0139]例如,假設用戶A通過其智能手機iphone中已安裝的第三方應用平臺如輸入法客戶端提供的應用程序接口(API),選擇其之前撰寫的文本如文章、發表的帖子等,以及其常用的某領域如數學、通信、物理等的資料,以將該等文本上傳至對應的網絡設備2,則在步驟SI中,用戶設備2通過該第三方應用平臺如輸入法客戶端提供的應用程序接口(API),便獲取到用戶A所選擇的文本,以將其作為所述訓練語料數據。在此,本發明實現了用戶可以選擇特定的訓練語料數據,不僅具有更高的訓練效率(如不需要等到用戶有那么多輸入記錄),還可以針對性地得到用戶所希望的輸入法習慣(例如某個領域的新用戶可以將該領域的典型句段作為訓練語料),從而進一步地提高了輸入效率的有益效果。
[0140]優選地,在步驟SI中,用戶設備2還可根據所述目標用戶對其歷史輸入相關信息的選擇操作,獲取所述訓練語料數據。在此,所述歷史輸入相關信息包括但不限于以下至少任一項:1)所述目標用戶的歷史輸入記錄;2)所述目標用戶的曾撰寫的文本;3)其他反映所述目標用戶輸入行為的文本集合,如某領域的術語列表。例如,接上例,用戶A通過其智能手機iphone中已安裝的第三方應用平臺如輸入法客戶端如Inputnethodl-client提供的應用程序接口(API),選擇其保存于本地的之前撰寫和/或發表的文章如《載波聚合(Carrier Aggregat1n)介紹》、《LTE中的PRACH》等,以及輸入法記錄的該用戶A的歷史輸入記錄如輸入的詞語、輸入習慣等,然后點擊“確定”按鈕,則在步驟SI中,用戶設備2通過JSP、ASP等動態網頁技術,便獲取到用戶A對其歷史輸入相關信息的選擇操作,進而在步驟SI中,用戶設備2通過該第三方應用平臺如輸入法客戶端Input-methodl-client提供的應用程序接口(API),便獲取到用戶A所選擇的歷史輸入相關信息,以將其作為所述訓練語料數據。
[0141]本領域技術人員應能理解上述獲取目標用戶所選擇的訓練語料數據的方式僅為舉例,其他現有的或今后可能出現的獲取目標用戶所選擇的訓練語料數據的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。
[0142]在步驟S2中,用戶設備2通過約定的通信方式,如http或https等通信協議,向對應的網絡設備I發送語料訓練請求,其中,所述語料訓練請求包括所述訓練語料數據。例如,接上例,在步驟S2中,用戶設備2向對應的網絡設備I發送語料訓練請求,其中,所述語料訓練請求包括用戶A選擇的其保存于本地的之前撰寫和/或發表的文章如《載波聚合(Carrier Aggregat1n)介紹》、《LTE中的PRACH》等,以及該用戶A的歷史輸入記錄如輸入的詞語、輸入習慣等訓練語料數據。
[0143]相應地,網絡設備I獲取目標用戶通過用戶設備2提交的語料訓練請求,如通過網絡設備I提供的應用程序接口(API),或者,通過約定的通信方式,如http或https等通信協議,接收用戶設備2發送的語料訓練請求,其中,所述語料訓練請求包括所述目標用戶所選擇的訓練語料數據。
[0144]在步驟S3中,網絡設備I根據所述訓練語料數據,確定與所述語料訓練請求相對應的輸入訓練結果,其中,所述輸入訓練結果與所述訓練語料數據相對應。在此,所述輸入訓練結果用于描述所述目標用戶的語言特征信息、輸入特征信息,以及輔助輸入特征信息,反映了該目標用戶積久養成的輸入方式等。其中,所述語言特征信息包括但不限于以下至少任一項參數信息:1)孤立的詞頻,即單個詞出現的頻率;2)詞與詞的關聯信息,即給定上文時該詞的詞頻,反映了一個詞與另一個詞共現的頻率,如對于詞語“監聽”,其上文詞語如為“秘密”時所對應的詞頻,再如,對于詞語“艦艇”,其上文詞語如為“駕駛”時所對應的詞頻;3)對于多音詞,該多音詞對應不同讀音的頻率,如對于詞語“澄清”,其讀音包括:①“Ch6ng qing”:l.形容水清澈、明亮2.弄清事情的真相;②“DSng qing”:使液體中的雜質沉淀。其中,所述輸入特征信息包括但不限于以下至少任一項參數信息:1)用戶習慣輸入全拼還是簡拼;2)輸入長度,如通常輸入整句還是單個詞、字;3)是否習慣性讀音錯誤,以及錯誤詳情如何;4)是否習慣按鍵錯誤,以及錯誤詳情如何。其中,所述輔助輸入特征信息包括但不限于以下至少任一項參數信息:1)中文兼用英文;2)是否習慣表情符號;3)特殊領域詞語,如古詩詞、成語俗語、常見地名、流行游戲、專業詞匯等;4)人名等。本領域技術人員應能理解上述語言特征信息、輸入特征信息和輔助輸入特征信息僅為舉例,其他現有的或今后可能出現的語言特征信息或輸入特征信息或輔助輸入特征信息如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。在此,在步驟S3中,網絡設備I確定所述輸入訓練結果的方式包括但不限于以下至少任一項:
[0145]I)根據所述訓練語料數據,通過預定語言模型,諸如適用于中文拼音輸入法的基于統計的N-gram模型,適用于日文輸入法的基于統計的N-POS模型等,確定所述目標用戶所對應的初始語言特征信息,以將該初始語言特征信息作為所述輸入訓練結果。例如,假設在步驟S2中,網絡設備I獲取到的所述訓練語料數據包括如下訓練語料數據I至IV:
[0146]I文章《載波聚合(Carrier Aggregat1n)介紹》中的文本內容:
[0147]“為了滿足LTE-A下行峰速lGbps,上行峰速500Mbps的要求,需要提供最大10MHz的傳輸帶寬,但由于這么大帶寬的連續頻譜的稀缺,LTE-A提出了載波聚合的解決方案。載波聚合(Carrier Aggregat1n, CA)是將2個或更多的載波單元(ComponentCarrier, CC)聚合在一起以支持更大的傳輸帶寬(最大為100MHz)。涉及到的基本概念如下:Primary Cell (PCell):主小區是工作在主頻帶上的小區。UE在該小區進行初始連接建立過程,或開始連接重建立過程;Secondary Cell (SCell):輔小區是工作在扶貧帶上的小區。一旦RRC連接建立,輔小區就可能被配置以提供額外的無線資源(見36.331的3.1節;Serving Cell:處于 RRC_C0NNECTED 態的 UE,如果沒有配置 CA,則只有一個 Serving Cell,即PCell ;如果配置了 CA,則Serving Cell集合是由PCell和SCell組成(見36.331的
3.1 節).......”
[0148]II文章《LTE中的PRACH》中的文本內容:“UE通過上行RACH來達到與LTE系統之間的上行接入和同步。在FDD模式下(以下若未特別指出,均是對FDD模式而言)PRACH的大小為6個RB,每個子幀中,至多有一個PRACH (36.211,Sect1n5.7.1)。TDD模式下,允許一個子幀中存在多個頻分的PRACH。PRACH中的前導序列,包含長度為的循環前綴(CP)和長度為的序列。為了適應不同的小區大小,LTEFDD中的PRACH定義了四種類型,......”
[0149]III用戶A的歷史輸入記錄,以漢語拼音輸入法為例:
[0150]i)全拼輸入次數占總輸入次數的99%,如輸入“計算機”時輸入“jisuanji”、如輸入“載波聚合”輸入“zaibojuhe”等;
[0151]ii)對于長句,輸入整句、多個詞語次數占總輸入次數的90%,如輸入“主小區是工作在主頻帶的小區”輸入 “zhuxiaoqushigongzuozai”、“zhupindai,,、“shangde,,、
u.yy
xiaoqu ;
[0152]iii)專業術語全部采用縮寫,如“LTE”、“PDCCH”、“TDD”等;
[0153]iv)讀音、按鍵錯誤不時常發生;
[0154]V)喜歡選用表情符號代替文本等,如輸入“哈哈”,喜歡用表情符號“ Λ _ Λ ”或“ο( η _ η )ο哈哈?”代替,再如,輸入“不高興”,喜歡用表情符號“(V _ V )”代替等;
[0155]IV收集的古詩詞及解析:
[0156]i)秋思.洛陽城里見秋風張籍
[0157]洛陽城里見秋風,欲作家書意萬重
[0158]復恐匆匆說不盡,行人臨發又開封
[0159]賞析:這是鄉愁詩,通過敘述寫信前后的心情,表達鄉愁之深。第一句交代“作家書”的原因(“見秋風”),以下三句是描寫作書前、作書后的心理活動。作書前是“意萬重”,作書后是“復恐說不盡”。“臨發開封”這個細節把“復恐說不盡”的心態表現得栩栩如生,意形相融。寫的是人人意中常有之事,卻非人人所能道出。作客他鄉,見秋風而思故里,托便人捎信。臨走時怕遺漏了什么,又連忙打開看了幾遍。事本子平,而一經入詩,特別是一經張籍這樣的高手入詩,便臻妙境。
[0160]ii)池上詠柳白居易
[0161]青莎臺上起書樓,綠藻潭中系釣舟。
[0162]日晚愛行深竹里,月明多上小橋頭。
[0163]暫嘗新酒還成醉,亦出中門便當游。
[0164]一部清商聊送老,白須蕭颯管弦秋。
[0165]賞析:“多上”:一作多在。“日晚愛行深竹里,月明多在小橋頭”這兩句是說,晚間竹林里清幽雅靜,我愛在那里漫步游賞;月照林上,竹影婆娑,月光最明的地方,是在那空曠的小橋頭。竹間漫步,橋頭賞月,均極愜意,見詩人官閑優游之狀。“一部清商①聊②送老,白發蕭颯③管弦秋”,①清商:此指清商曲,樂府歌曲名。聲調比較清越,故名。②聊:姑且。③蕭颯:蕭條冷落。七律《池上閑詠》,是白居易任太子賓客分司東都洛陽時所作。這兩句是說,聽一部聲調清越的樂曲,姑且當作老年人打發時光的一種樂趣;但是,蒼蒼白發,蕭條冷落的晚年,不是管弦的力量能夠扭轉的。這時白居易六十二歲,向居閑官,閑適恬靜,但恬靜中,似有一種“蕭颯”般的寂寥之感,情緒消沉,樂中含怨,細細吟詠,韻味悠長。
[0166]則在步驟S3中,網絡設備I根據訓練語料數據I至IV,通過預定語言模型,如適用于中文拼音輸入法的基于統計的N-gram模型,對訓練語料數據I至IV對應的文本進行切詞處理,并對切詞后獲得的詞語進行統計處理,獲得訓練語料數據I至IV中所有詞語對應的詞頻,并統計詞語的共現信息如“載波”與“聚合”共現的頻率等,從而獲得所述目標用戶所對應的初始語言特征信息original-language-features-A,包括如:1)通信領域專業術語,如“載波聚合”、“主小區”、“輔小區”、“LTE”、“PDCCH”、“TDD”等;2)詞與詞的關聯信息,如“載波”與“聚合”關聯;3)習慣運用表情符號;4)古詩詞信息;5)特殊人名如“張籍”等,則在步驟S3中,網絡設備I可將該初始語言特征信息original-language-features-A作為所述輸入訓練結果。
[0167]2)對所述訓練語料數據中包含的所述目標用戶的用戶輸入記錄(如輸入長度、是否縮寫、讀音、按鍵錯誤等))進行統計處理,以獲得所述目標用戶的初始輸入特征信息,并將該初始輸入特征信息作為所述輸入訓練結果。例如,接上例,在步驟S3中,網絡設備I根據訓練語料數據I至IV,對所述訓練語料數據中包含的所述目標用戶的用戶輸入記錄如訓練語料數據III中包含的所述目標用戶的用戶輸入記錄進行統計處理,從而獲得所述目標用戶的初始輸入特征信息original-1nput-features-A,如i)習慣輸入全拼;ii)對于長句,習慣輸入整句、多個詞語;iii)習慣用縮寫;iv)讀音、按鍵錯誤不時常發生;則在步驟S3中,網絡設備I可將該初始輸入特征信息original-1nput-features-A作為所述輸入訓練結果。
[0168]3)結合所述目標用戶所屬的用戶類別對應的類輸入結果信息,對前述初始語言特征信息和/或初始輸入特征信息進行調整處理,以獲得所述輸入訓練結果。在此,所述類輸入結果信息用于描述某類別用戶總體的語言特征信息、輸入特征信息,以及輔助輸入特征信息,與所述輸入訓練結果具有相同或相似的參數信息。例如,假設與用戶A屬于通信領域專業技術型用戶類別communicat1n-user-class,而通信領域專業技術型用戶類別所對應的類輸入結果信息communicat1n-1nfo包括:a)詞典規模,即技術型用戶類別所對應的詞庫信息,如詞條數量等山)通信領域專業術語包括“3G”、“ARP”、“光網絡”、“光纖到戶”、“TCP/IP協議”、“多協議標記交換MPLS”、“路由器”、“通用分組無線業務GPRS”、“載波聚合”、“主小區”、“輔小區”、“ LTE ”、“ PDCCH”、“ TDD ”等;c)詞與詞的關聯信息,如“載波”與“聚合”關聯,再如“通用分組”與“無線業務”關聯等,則在步驟S3中,網絡設備I可根據該類輸入結果信息communicat1n-1nfo,對前述初始語言特征信息和/或初始輸入特征信息進行調整處理,如將該類輸入結果信息communicat1n-1nfo加入到前述初始語言特征信息和/或初始輸入特征信息中,即加入到用戶A對應的初始語言特征信息original-language-features-A 和 / 或初始輸入特征信息 original-1nput-features-A中,以獲得所述輸入訓練結果如training-results-A,包括:1)初始語言特征信息,如:I)通信領域專業術語,如“載波聚合”、“主小區”、“輔小區”、“LTE”、“PDCCH”、“TDD”、3G”、“ARP”、“光網絡”、“光纖到戶”、“TCP/IP協議”、“多協議標記交換MPLS,,、“路由器”、“通用分組無線業務GPRS”、等;2)詞與詞的關聯信息,如“載波”與“聚合”關聯,再如“通用分組”與“無線業務”關聯等;3)習慣運用表情符號;4)古詩詞信息;5)特殊人名如“張籍”;II )初始輸入特征信息,如i)習慣輸入全拼;ii)對于長句,習慣輸入整句、多個詞語;iii)習慣用縮寫;iv)讀音、按鍵錯誤不時常發生。
[0169]4)在前述初始語言特征信息和/或初始輸入特征信息中加入所述目標用戶的參考用戶如與該參考用戶屬于同類型用戶的其他用戶的輔助輸入特征信息,以獲得所述輸入訓練結果。例如,假設與用戶A屬于同類型用戶的用戶B對應的參考輸入結果信息reference-B包括:a’ )習慣用表情符號如“* Λ _ Λ *(嘻嘻表情)〈(可憐表情)”等山’)習慣簡拼,如輸入“jsj” (計算機)、“ sms”(說明書)等;c’)對于多音詞,如對于詞語“澄清”,輸入讀音為“Ch6ng qing”頻次高于輸入讀音為“DSng qing”的頻次,則在步驟S3中,網絡設備I可將用戶B對應的參考輸入結果信息加入到前述初始語言特征信息和/或初始輸入特征信息中,即加入到用戶A對應的初始語言特征信息original-language-features-A 和 / 或初始輸入特征信息 original-1nput-features-A中,以獲得所述輸入訓練結果。
[0170]本領域技術人員應能理解上述確定與所述語料訓練請求相對應的輸入訓練結果的方式僅為舉例,其他現有的或今后可能出現的確定與所述語料訓練請求相對應的輸入訓練結果的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。
[0171]在步驟S4中,網絡設備I通過約定的通信方式,如http或https等通信協議,將所述輸入訓練結果發送至所述用戶設備2。
[0172]相應地,用戶設備2通過約定的通信方式,如http或https等通信協議,接收所述網絡設備I基于所述語料訓練請求所發送的輸入訓練結果,其中,所述輸入訓練結果與所述訓練語料數據相對應。
[0173]在步驟S5中,用戶設備2根據所述輸入訓練結果,建立或更新所述目標用戶所對應的輸入模型。在此,所述輸入模型是指自然語言處理中根據用戶的輸入(如中英文輸入、按鍵錯誤輸入、符號夾雜輸入等),計算與該輸入相對應的可能的候選結果,以及候選結果對應的概率信息的數學模型,包括用于描述詞語間搭配的概率信息、詞頻、編碼與詞條映射頻率的調整信息等自然語言統計特征的語言模型,以及用于描述與用戶輸入特征相對應的模型部分。例如,假設對于用戶A,在步驟S4中,用戶設備2接收到的所述輸入訓練結果training-results-A 包括:1)初始語言特征信息 original-language-features-A’,如:
I)通信領域專業術語,如“載波聚合”、“主小區”、“輔小區”、“LTE”、“PDCCH”、“TDD”、3G”、“ARP”、“光網絡”、“光纖到戶”、“TCP/IP協議”、“多協議標記交換MPLS”、“路由器”、“通用分組無線業務GPRS”、等;2)詞與詞的關聯信息,如“載波”與“聚合”關聯,再如“通用分組”與“無線業務”關聯等;3)習慣運用表情符號;4)古詩詞信息;5)特殊人名如“張籍”;II )初始輸入特征信息original-1nput-features-A’,如i)習慣輸入全拼;ii)對于長句,習慣輸入整句、多個詞語;iii)習慣用縮寫;iv)讀音、按鍵錯誤不時常發生,則在步驟S5中,用戶設備2根據該輸入訓練結果包括的各項參數信息,建立目標用戶A所對應的輸入模型input-model-A,并且,當目標用戶A通過用戶設備提交新的語料訓練請求,在步驟S4中,用戶設備2接收到新的輸入訓練結果時,在步驟S5中,用戶設備2還可根據該新的輸入訓練結果,對之前建立的所述輸入模型進行更新,比如,按一定方式進行更新,如立即更新、按一定周期進行更新等。在此,本發明實現了使更新后的所述輸入模型更進一步地滿足目標用戶A所希望的輸入法習慣的需求的有益效果。
[0174]優選地,在步驟S5中,用戶設備2還可首先通過諸如ASP、JSP等動態網頁技術,獲取所述目標用戶對所述輸入訓練結果的選擇處理,以獲得所選擇的輸入訓練結果;然后,根據所選擇的輸入訓練結果,建立或更新所述目標用戶所對應的輸入模型。具體地,在步驟S5中,用戶設備2還可首先通過約定的通信方式,如http或https等通信協議,將所述輸入訓練結果提供給所述目標用戶;然后,再通過諸如ASP、JSP等動態網頁技術,獲取所述目標用戶對所述輸入訓練結果的選擇處理,以獲得所選擇的輸入訓練結果;接著,根據所選擇的輸入訓練結果,建立或更新所述目標用戶所對應的輸入模型。例如,在步驟S5中,用戶設備2通過約定的通信方式,如http或https等通信協議,將其在步驟S4中接收到的所述輸入訓練結果training-results-A,提供給用戶A,假設用戶A選擇了輸入訓練結果training-results-A所在窗口中的關于是否運用訓練結果training-results-A建立或更新所述目標用戶所對應的輸入模型的“確認”按鈕,則在步驟S5中,用戶設備2通過諸如ASP、JSP等動態網頁技術,便獲取到用戶A對所述輸入訓練結果training-results-A的選擇處理;接著,在步驟S5中,用戶設備2根據該輸入訓練結果training-results-A,建立或更新用戶A所對應的輸入模型input-model-A,如運用輸入訓練結果training-results-A代替原有輸入訓練結果如original-training-results-A,以建立或更新用戶A所對應的輸入模型 input-model-A。
[0175]本領域技術人員應能理解上述建立或更新所述目標用戶所對應的輸入模型的方式僅為舉例,其他現有的或今后可能出現的建立或更新所述目標用戶所對應的輸入模型的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。
[0176]網絡設備I和用戶設備2的各個步驟之間是持續不斷工作的。具體地,在步驟SI中,用戶設備2獲取目標用戶所選擇的訓練語料數據;在步驟S2中,用戶設備2持續向對應的網絡設備I發送語料訓練請求,其中,所述語料訓練請求包括所述訓練語料數據;相應地,網絡設備I持續獲取目標用戶通過用戶設備2提交的語料訓練請求,其中,所述語料訓練請求包括所述目標用戶所選擇的訓練語料數據;在步驟S3中,網絡設備I持續根據所述訓練語料數據,確定與所述語料訓練請求相對應的輸入訓練結果,其中,所述輸入訓練結果與所述訓練語料數據相對應;在步驟S4中,網絡設備I持續將所述輸入訓練結果發送至所述用戶設備2 ;相應地,用戶設備2持續接收所述網絡設備I基于所述語料訓練請求所發送的輸入訓練結果,其中,所述輸入訓練結果與所述訓練語料數據相對應;在步驟S5中,用戶設備2持續根據所述輸入訓練結果,建立或更新所述目標用戶所對應的輸入模型。在此,本領域技術人員應能理解“持續”是指網絡設備I和用戶設備2的各個步驟之間分別不斷地進行訓練語料數據的獲取與發送、輸入訓練結果的確定與發送、輸入模型的建立或更新,直至用戶設備2在較長時間內停止訓練語料數據的獲取。
[0177]在一個優選實施例中(參考圖3),其中,包括步驟S1、步驟S2、步驟S3、步驟S4、步驟S5和步驟S7(未示出)。以下參考圖3對該優選實施例進行描述:具體地,在步驟SI中,用戶設備2獲取目標用戶所選擇的訓練語料數據;在步驟S2中,用戶設備2向對應的網絡設備I發送語料訓練請求,其中,所述語料訓練請求包括所述訓練語料數據;相應地,網絡設備I獲取目標用戶通過用戶設備2提交的語料訓練請求,其中,所述語料訓練請求包括所述目標用戶所選擇的訓練語料數據;在步驟S3中,網絡設備I根據所述訓練語料數據,確定與所述語料訓練請求相對應的輸入訓練結果,其中,所述輸入訓練結果與所述訓練語料數據相對應;在步驟S7中,網絡設備I根據所述訓練語料數據,確定所述輸入訓練結果所對應的權重信息;在步驟S4中,網絡設備I將所述輸入訓練結果及所述權重信息發送至所述用戶設備2 ;相應地,用戶設備2接收所述網絡設備I基于所述語料訓練請求所發送的輸入訓練結果及其對應的權重信息,其中,所述輸入訓練結果與所述訓練語料數據相對應;在步驟S5中,用戶設備2根據所述輸入訓練結果,結合所述權重信息,建立或更新所述輸入模型。在此,步驟S1、步驟S2和步驟S3分別與圖3所示對應步驟相同或相似,故在此處不再贅述,并通過引用的方式包含于此。
[0178]具體地,在步驟S7中,網絡設備I根據所述訓練語料數據,確定所述輸入訓練結果所對應的權重信息;其中,所述權重信息基于以下任一項規則來確定;
[0179]-根據所述訓練語料數據的數據數量信息,確定所述權重信息;
[0180]-根據所述訓練語料數據的數據質量信息,確定所述權重信息。
[0181]例如,當根據所述訓練語料數據的數據數量信息,確定所述權重信息時,假設在步驟S2中,網絡設備I獲取到的所述語料訓練請求中包括的用戶A選擇的所述訓練語料數據包括前述訓練語料數據I至IV,其中,訓練語料數據I和II體現所述輸入訓練結果training-results-A中關于①通信領域專業術語和②詞與詞的關聯信息方面的數據,訓練語料數據III中包含的5條文本中有4條體現所述輸入訓練結果中關于③初始輸入特征信息方面的數據,有I條體現所述輸入訓練結果中關于④習慣運用表情符號方面的數據,訓練語料數據IV中包含的兩個文本體現所述輸入訓練結果中關于⑤古詩詞信息及⑥特殊人名方面的數據,假設參數每多一條訓練語料數據,則其對應的權重就多0.2,且參數權重數值最高為I,假設每一參數對應的初始權重均相等,如為0.5,則在步驟S7中,網絡設備I訓練語料數據I至IV的數據數量信息,可確定所述輸入訓練結果中各參數對應的權重信息,則在步驟S7中,網絡設備I確定輸入訓練結果training-results-A中各參數:①通信領域專業術語、②詞與詞的關聯信息、③初始輸入特征信息、④習慣運用表情符號、⑤古詩詞信息及⑥特殊人名方面的數據所對應的權重信息分別0.7、0.7、1、0.5、0.7、0.7。
[0182]再如,當根據所述訓練語料數據的數據質量信息,確定所述權重信息時,在此,所述數據質量信息表示所述訓練語料數據是否有編輯錯誤造成的噪音,或者,屬于錯誤上傳的垃圾數據等。具體地,在步驟S7中,網絡設備I首先根據預定語言模型如適用于中文拼音輸入法的基于統計的N-gram模型,適用于日文輸入法的基于統計的N-POS模型等,通過自然語言處理方法,確定所述訓練語料數據的數據質量信息;然后,再根據所述訓練語料數據的數據質量信息,確定所述權重信息。例如,接上例,假設在步驟S7中,網絡設備I確定前述訓練語料數據I至IV中訓練語料數據IV屬于錯誤上傳的垃圾數據,訓練語料數據I中具有編輯錯誤如“輔小區是工作在扶貧帶上的小區”中的“扶貧”應為“輔頻”,假設每一參數對應的初始權重均相等,如為0.5,每出現一處錯誤,權重降低0.1,但屬于垃圾數據時,對應的權重為0,則在步驟S7中,網絡設備I確定輸入訓練結果training-results-A中各參數:①通信領域專業術語、②詞與詞的關聯信息、③初始輸入特征信息、④習慣運用表情符號、⑤古詩詞信息及⑥特殊人名方面的數據所對應的權重信息分別0.4,0.5,0.5,0.5、0、O0
[0183]本領域技術人員應能理解,在步驟S7中,網絡設備I還可以根據上述權重信息判斷規則的組合,來確定所述輸入訓練結果所對應的權重信息。
[0184]本領域技術人員應能理解上述確定所述輸入訓練結果所對應的權重信息的方式僅為舉例,其他現有的或今后可能出現的確定所述輸入訓練結果所對應的權重信息的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。
[0185]在步驟S4中,網絡設備I通過約定的通信方式,如http或https等通信協議,將所述輸入訓練結果及所述權重信息發送至所述用戶設備2。
[0186]相應地,用戶設備2通過約定的通信方式,如http或https等通信協議,接收所述網絡設備I基于所述語料訓練請求所發送的輸入訓練結果及其對應的權重信息,其中,所述輸入訓練結果與所述訓練語料數據相對應。
[0187]在步驟S5中,用戶設備2根據所述輸入訓練結果,結合所述權重信息,建立或更新所述輸入模型。例如,假設在步驟S7中,網絡設備I確定的輸入訓練結果training-results-A中各參數:①通信領域專業術語、②詞與詞的關聯信息、③初始輸入特征信息、④習慣運用表情符號、⑤古詩詞信息及⑥特殊人名方面的數據所對應的權重信息分別0.7,0.7、1、0.5,0.7,0.7,則在步驟S5中,用戶設備2根據該輸入訓練結果training-results-A,建立或更新用戶A所對應的輸入模型input-model-A,如結合所述權重信息,將輸入訓練結果training-results-A疊加到用戶A的智能手機iphone中正運用的第三方應用平臺如輸入法客戶端如Input-methodl-client對應的原有輸入訓練結果如original-training-results-A中,如通過以下疊加公式(3),將輸入訓練結果training-results-A各參數與其對應的權重信息的乘積與原有輸入訓練結果如original-training-results-A中對應的參數進行疊加:
[0188]α*Τ' +(1-α)*Τ (3)
[0189]其中,Τ’表示輸入訓練結果training-results-A各參數,α表示Τ’參數對應的權重信息,且O < α < I,T表示原有輸入訓練結果如original-training-results-A中與輸入訓練結果training-results-A的參數T’相對應的參數,貝U在步驟S5中,用戶設備2通過計算上述公式(3)便可以得到更新后的所述輸入訓練結果new-training-results-A ;接著,在步驟S5中,用戶設備2根據更新后的所述輸入訓練結果new-training-results-A,更新用戶A所對應的輸入模型input-model-A。
[0190]優選地,用戶設備2還包括步驟S8(未示出)和步驟S9(未示出)。具體地,在步驟S8中,用戶設備2根據所述輸入模型,確定與所述目標用戶的輸入信息相對應的候選項信息;在步驟S9中,用戶設備2將所述候選項信息提供給所述目標用戶。
[0191 ] 具體地,在步驟S8中,用戶設備2根據所述輸入模型,確定與所述目標用戶的輸入信息相對應的候選項信息。例如,假設用戶A在其智能手機iphone上建立或更新輸入模型input-model-A之后,當用戶A需要輸入文本時,例如假設用戶A輸入信息“jianting”,假設輸入模型input-model-A中對應的參數信息表明“監聽”的詞頻比“艦艇”的詞頻高,且用戶A對應的輸入特征信息為全拼單個詞輸、不常讀錯或輸錯,則候選項確定裝置輸入信息“jianting”對應的候選項信息如“艦艇、監聽、堅挺、兼聽”等中“監聽”對應的排序高于其他候選項“艦艇、堅挺、兼聽”;再如,接上例,假設輸入信息“jianting”對應的上文為“秘密”,則在步驟S8中,用戶設備2確定“監聽”對應的排序高于其他候選項“艦艇、堅挺、兼聽”;還如,還接上例,假設輸入信息“jianting”對應的上文為“駕駛”,則在步驟S8中,用戶設備2確定“艦艇”對應的排序高于其他候選項“監聽、堅挺、兼聽”。
[0192]本領域技術人員應能理解上述確定與所述目標用戶的輸入信息相對應的候選項信息的方式僅為舉例,其他現有的或今后可能出現的確定與所述目標用戶的輸入信息相對應的候選項信息的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。
[0193]接著,在步驟S9中,用戶設備2通過約定的通信方式,如http或https等通信協議,將所述候選項信息提供給所述目標用戶,供其瀏覽選擇。
[0194]圖4示出根據本發明一個優選實施例的網絡設備用于確定目標用戶所對應的輸入模型的方法流程圖。
[0195]其中,網絡設備I包括步驟S2’、步驟S3’、步驟S4’和步驟S6’(未示出),其中,步驟S3’包括步驟S31’和步驟S32’。具體地,在步驟S2’中,網絡設備I獲取目標用戶通過用戶設備2提交的語料訓練請求,其中,所述語料訓練請求包括所述目標用戶所選擇的訓練語料數據;在步驟S6’中,網絡設備I獲取對應于多個用戶的統計輸入模型;在步驟S31’中,網絡設備I根據所述訓練語料數據,確定所述目標用戶所對應的初始訓練結果;在步驟S32’中,網絡設備I根據所述統計輸入模型,調整所述初始訓練結果,以獲得所述輸入訓練結果;在步驟S4’中,網絡設備I將所述輸入訓練結果發送至用戶設備2。在此,步驟S2’和步驟S4’分別與圖3所示對應步驟相同或相似,故在此處不再贅述,并通過引用的方式包含于此。
[0196]具體地,在步驟S6’中,網絡設備I通過諸如提供統計輸入模型的第三方設備的應用程序接口(API),獲取對應于多個用戶的統計輸入模型。在此,所述統計輸入模型包括自然語言處理中的語言模型,包含詞語間搭配的概率信息,其模型參數其反映全體用戶或屬于相同用戶類別的用戶的語言特征信息、輸入特征信息,以及輔助輸入特征信息等。例如,用戶A在其的智能手機iphone中第一次安裝第三方應用平臺如輸入法客戶端如Input-methodl-client時,則在步驟S6’中,網絡設備I通過第三方應用平臺如輸入法客戶端如Input-methodl-client的應用程序接口(API),便可獲取到輸入法Inputnethodl,即獲取到所述統計輸入模型,其對應于多個用戶。
[0197]本領域技術人員應能理解上述獲取對應于多個用戶的統計輸入模型的方式僅為舉例,其他現有的或今后可能出現的獲取對應于多個用戶的統計輸入模型的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。
[0198]在步驟S31’中,網絡設備I根據所述訓練語料數據,確定所述目標用戶所對應的初始訓練結果。在此,所述初始訓練結果用于描述所述目標用戶的初始語言特征信息、初始輸入特征信息,反映了該目標用戶初始的輸入方式等信息。其中,所述初始語言特征信息包括但不限于以下至少任一項參數信息:1)孤立的詞頻,即單個詞出現的頻率;2)詞與詞的關聯信息,即給定上文時該詞的詞頻,反映了一個詞與另一個詞共現的頻率,如對于詞語“監聽”,其上文詞語如為“秘密”時所對應的詞頻,再如,對于詞語“艦艇”,其上文詞語如為“駕駛”時所對應的詞頻;3)對于多音詞,該多音詞對應不同讀音的頻率,如對于詞語“澄清”,其讀音包括:①“Ch6ng qing”:1.形容水清澈、明亮2.弄清事情的真相;②“DSngqing”:使液體中的雜質沉淀。其中,所述初始輸入特征信息包括但不限于以下至少任一項參數信息:1)用戶習慣輸入全拼還是簡拼;2)輸入長度,如通常輸入整句還是單個詞、字;3)是否習慣性讀音錯誤,以及錯誤詳情如何;4)是否習慣按鍵錯誤,以及錯誤詳情如何。本領域技術人員應能理解上述初始語言特征信息和初始輸入特征信息僅為舉例,其他現有的或今后可能出現的初始語言特征信息或初始輸入特征信息如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。
[0199]具體地,在步驟S31’中,網絡設備I可首先根據所述訓練語料數據,通過預定語言模型,諸如適用于中文拼音輸入法的基于統計的N-gram模型,適用于日文輸入法的基于統計的N-POS模型等,確定所述目標用戶所對應的初始語言特征信息。例如,在步驟S31’中,網絡設備I根據前述訓練語料數據I至IV,通過預定語言模型,如適用于中文拼音輸入法的基于統計的N-gram模型,對訓練語料數據I至IV對應的文本進行切詞處理,并對切詞后獲得的詞語進行統計處理,獲得訓練語料數據I至IV中所有詞語對應的詞頻,并統計詞語的共現信息如“載波”與“聚合”共現的頻率等,從而獲得所述目標用戶所對應的初始語言特征信息original-language-features-A,包括如:1)通信領域專業術語,如“載波聚合”、“主小區”、“輔小區”、“LTE”、“PDCCH”、“TDD”等;2)詞與詞的關聯信息,如“載波”與“聚合”關聯;3)習慣運用表情符號;4)古詩詞信息;5)特殊人名如“張籍”等。
[0200]然后,在步驟S31’中,網絡設備I對所述訓練語料數據中包含的所述目標用戶的用戶輸入記錄(如輸入長度、是否縮寫、讀音、按鍵錯誤等))進行統計處理,以獲得所述目標用戶的初始輸入特征信息。例如,在步驟S31’中,網絡設備I根據訓練語料數據I至IV,對所述訓練語料數據中包含的所述目標用戶的用戶輸入記錄如訓練語料數據III中包含的所述目標用戶的用戶輸入記錄進行統計處理,從而獲得所述目標用戶的初始輸入特征信息original-1nput-features-A,如i)習慣輸入全拼;ii)對于長句,習慣輸入整句、多個詞語;iii)習慣用縮寫;iv)讀音、按鍵錯誤不時常發生。
[0201]接著,在步驟S31’中,網絡設備I可將所述初始語言特征信息及所述初始輸入特征信息作為初始訓練結果。例如,接上例,在步驟S31’中,網絡設備I將初始語言特征信息original-language-features-A 及初始輸入特征信息 original-1nput-features-A 作為初始訓練結果。
[0202]本領域技術人員應能理解,在具體實施例中,步驟S6’與步驟S31’可以是并行的處理,也可以串行的處理。
[0203]在步驟S32’中,網絡設備I根據所述統計輸入模型,調整所述初始訓練結果,以獲得所述輸入訓練結果。在此,在步驟S32’中,網絡設備I調整所述初始訓練結果以獲得所述輸入訓練結果的方式包括但不限于以下至少任一項:
[0204]I)根據所述目標用戶所屬的用戶類別對應的統計模型的模型參數,如該用戶類別對應的類輸入結果信息,對所述初始訓練結果進行調整處理,以獲得所述輸入訓練結果,如在所述初始訓練結果中加入所述類輸入結果信息。例如,假設與用戶A屬于通信領域專業技術型用戶類別communicat1n-user-class,而通信領域專業技術型用戶類別所對應的類輸入結果信息如communicat1n-1nfo包括:a)詞典規模,即技術型用戶類別所對應的詞庫信息,如詞條數量等;b)通信領域專業術語包括“3G”、“ARP”、“光網絡”、“光纖到戶”、“TCP/IP協議”、“多協議標記交換MPLS”、“路由器”、“通用分組無線業務GPRS”、“載波聚合”、“主小區”、“輔小區”、“LTE”、“PDCCH”、“TDD”等;c)詞與詞的關聯信息,如“載波”與“聚合”關聯,再如“通用分組”與“無線業務”關聯等,則在步驟S32’中,網絡設備I將該類輸入結果信息communicat1n-1nfo加入到其在步驟S31’中確定的所述初始輸入結果中,即加入到用戶A對應的初始語言特征信息original-language-features-A和初始輸入特征信息original-1nput-features-A中,以獲得所述輸入訓練結果,包括:1)通信領域專業術語,如“載波聚合”、“主小區”、“輔小區”、“LTE”、“PDCCH,,、“TDD”、3G”、“ARP”、“光網絡”、“光纖至IJ戶”、“TCP/IP協議”、“多協議標記交換MPLS”、“路由器”、“通用分組無線業務GPRS”等;
2)詞與詞的關聯信息,如“載波”與“聚合”關聯,再如“通用分組”與“無線業務”關聯等;
3)習慣運用表情符號;4)古詩詞信息;5)特殊人名如“張籍”;6)習慣輸入全拼;7)對于長句,習慣輸入整句、多個詞語;8)習慣用縮寫;9)讀音、按鍵錯誤不時常發生。
[0205]2)根據所述統計輸入模型,在所述初始訓練結果中加入所述統計輸入模型對應的屬于所述目標用戶的參考用戶如與該目標用戶屬于相同用戶類別的其他用戶的輔助輸入特征信息,以獲得所述輸入訓練結果。例如,假設與用戶A屬于相同用戶類別的用戶B對應的參考輸入結果信息reference-B包括:bl)習慣用表情符號如“* Λ _ Λ *(嘻嘻表情)”、“>_〈(可憐表情)”等;b2)習慣簡拼,如輸入計算機)、“sms”(說明書)等;b3)對于多音詞,如對于詞語“澄清”,輸入讀音為“Ch6ng qing”頻次高于輸入讀音為“DSng qing”的頻次,則在步驟S32’中,網絡設備I可將用戶B對應的參考輸入結果信息reference-B加入到所述初始訓練結果中,即加入到用戶A對應的初始語言特征信息language-features-A和初始輸入特征信息input-features-A中,以獲得所述輸入訓練結果,包括:1)通信領域專業術語,如“載波聚合”、“主小區”、“輔小區”、“LTE”、“PDCCH”、“TDD”等;2)詞與詞的關聯信息,如“載波”與“聚合”關聯;3)習慣運用表情符號;4)古詩詞信息;5)特殊人名如“張籍”;6)習慣輸入全拼或簡拼;7)對于長句,習慣輸入整句、多個詞語;8)習慣用縮寫;9)讀音、按鍵錯誤不時常發生;10)對于多音詞,如對于詞語“澄清”,輸入讀音為“Ch6ng qing”頻次高于輸入讀音為“DSng qing”的頻次。
[0206]本領域技術人員應能理解上述調整所述初始訓練結果以獲得所述輸入訓練結果的方式僅為舉例,其他現有的或今后可能出現的調整所述初始訓練結果以獲得所述輸入訓練結果的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。
[0207]在一個優選實施例中(參考圖4),其中,步驟S32’包括步驟S321’(未示出)、步驟S322’ (未示出)和步驟S323’ (未示出)。具體地,在步驟S321’中,網絡設備I根據所述初始訓練結果,從一個或多個用戶聚類中確定所述目標用戶所屬的用戶聚類;在步驟S322’中,網絡設備I從所述目標用戶所屬的用戶聚類中確定參考用戶;在步驟S323’中,網絡設備I根據所述統計輸入模型,結合所述參考用戶所對應的參考模型信息,調整所述初始訓練結果,以獲得所述輸入訓練結果。
[0208]具體地,在步驟S321’中,網絡設備I首先從用戶聚類數據庫中獲取一個或多個用戶聚類;然后,再根據所述初始訓練結果,從該一個或多個用戶聚類中確定所述目標用戶所屬的用戶聚類,如將所述目標用戶的所述初始訓練結果與所述用戶聚類中包括的相關用戶的相關輸入結果信息相比較,或者計算所述目標用戶的所述初始訓練結果與所述用戶聚類中包括的相關用戶的相關輸入結果信息之間的距離,以確定所述目標用戶所屬的用戶聚類。
[0209]例如,假設在步驟S31’中,網絡設備I確定用戶A的初始訓練結果包括參數如I,)通信領域專業術語,如“載波聚合”、“主小區”、“輔小區”、“LTE”、“PDCCH”、“TDD”等;2’ )詞與詞的關聯信息,如“載波”與“聚合”關聯;3’ )習慣運用表情符號;4’ )習慣簡拼;5’ )特殊人名如“張籍”等,而用戶聚類數據庫中包括的用戶聚類為clusterl中包括的相關用戶如用戶C對應的參考輸入結果信息reference-C包括參數:cl)習慣用表情符號如“* Λ _ Λ *(嘻嘻表情)〈(可憐表情)”等;c2)習慣簡拼,如輸入“jsj” (計算機)、“sms”(說明書)等;c3)對于多音詞,如對于詞語“澄清”,輸入讀音為“Ch6ng qing,,頻次高于輸入讀音為“DSng qing”的頻次;c4)通信領域專業術語,如“載波聚合”、“主小區”、“輔小區”、“LTE”、“PDCCH”、“TDD”等;c5)詞與詞的關聯信息,如“載波”與“聚合”關聯,則在步驟S321’中,網絡設備I通過將用戶A的初始訓練結果包括的參數I’至5’分別與用戶C對應的參考輸入結果信息reference-C包括的參數cl至c5相比較發現,其中,參數I’與c4、參數2’與參數c5、參數3’與參數Cl、參數4’與參數c2分別相同,且相同參數的數量占用戶C中總參數數量的80%,大于預定閾值60%,則聚類確定單元確定用戶A屬于用戶C所屬的用戶聚類clusterl。再如,接上例,假設該用戶聚類數據庫中還包括的用戶聚類為cluster2中包括的相關用戶如用戶D對應的參考輸入結果信息reference-D包括參數:dl)習慣用表情符號;d2)特殊人名如“張籍”、“杜甫”等;d3)對于多音詞,如對于詞語“澄清”,輸入讀音為“Ch6ng qing”頻次高于輸入讀音為“DSng qing”的頻次;d4)通信領域專業術語,如“載波聚合”、“主小區”、“輔小區”、“LTE”、“PDCCH”、“TDD”等;d5)詞與詞的關聯信息,如“載波”與“聚合”關聯,則在步驟S321’中,網絡設備I通過以下公式(4)計算用戶A的初始訓練結果包括的參數I’至5’分別與用戶D對應的參考輸入結果信息reference-D包括的參數dl至d5的距離,來確定用戶A與用戶D之間的距離:
[。21。] J =抵(U)2⑷
[0211]其中,,η為參數數量,Xi表示用尸A的初始訓練結果包括的參數,Yi表示用戶D對應的參考輸入結果信息reference-D包括的參數,在此,X1表示參數I’,X2表示參數2’,等等,Yi表示參數dl, J2表示參數d2,等等,η = 5,則在步驟S321’中,網絡設備I根據上述公式(4)得到d = 0.093,小于預定閾值如0.5,則聚類確定單元確定用戶A還屬于用戶D所屬的用戶聚類clusterf。在此,所述用戶聚類數據庫可位于網絡設備I中,也可位于與網絡設備I通過網絡相連的其他設備中,如服務器。
[0212]本領域技術人員應能理解上述計算所述目標用戶的所述初始訓練結果與所述用戶聚類中包括的相關用戶的相關輸入結果信息之間的距離的方式僅為舉例,其他現有的或今后可能出現的計算所述目標用戶的所述初始訓練結果與所述用戶聚類中包括的相關用戶的相關輸入結果信息之間的距離的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。
[0213]優選地,每一用戶聚類包含用于表征所述用戶聚類的特征的類輸入結果信息,其中,在步驟S321’中,網絡設備I將所述初始訓練結果與所述一個或多個用戶聚類所對應的所述類輸入結果信息進行比較,以確定所述目標用戶所屬的用戶聚類。在此,所述初始訓練結果與表征所述用戶聚類的特征的類輸入結果信息的關系包括但不限于:
I)所述初始訓練結果與所述類輸入結果信息包含相同的參數信息;2)所述類輸入結果信息包括所述初始訓練結果;3)所述初始訓練結果還可與所述類輸入結果信息完全一致。例如,接上例,假設在步驟S31’中,網絡設備I從用戶聚類數據庫中獲取到用戶聚類communicat1n-user-class及其對應的類輸入結果信息communicat1n-1nfo包括參數:a)詞典規模,即技術型用戶類別所對應的詞庫信息,如詞條數量等;b)通信領域專業術語包括“3G”、“ARP”、“光網絡”、“光纖到戶”、“TCP/IP協議”、“多協議標記交換MPLS”、“路由器”、“通用分組無線業務GPRS”、“載波聚合”、“主小區”、“輔小區”、“LTE”、“PDCCH”、“TDD”等;c)詞與詞的關聯信息,如“載波”與“聚合”關聯,再如“通用分組”與“無線業務”關聯等,則在步驟S321’中,網絡設備I通過將用戶A的初始訓練結果包括的參數I’至5’分別與用戶聚類communicat1n-user-class對應的類輸入結果信息communicat1n-1nfo包括的參數a至c相比較發現,其中,參數I ’與參數b、參數2’與參數c分別相同,且相同參數的數量占用戶聚類communicat1n-user-class中總參數數量的66.7%,大于預定閾值60%,則在步驟S321’中,網絡設備I確定用戶A屬于用戶聚類communicat1n-user-class。
[0214]本領域技術人員應能理解上述確定所述目標用戶所屬的用戶聚類的方式僅為舉例,其他現有的或今后可能出現的確定所述目標用戶所屬的用戶聚類的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。
[0215]在步驟S322’中,網絡設備I從所述目標用戶所屬的用戶聚類中確定參考用戶,如將所述目標用戶所屬的用戶聚類中包括的所有相關用戶作為所述參考用戶,或者,將所述目標用戶的所述初始訓練結果與所述用戶聚類中包括的相關用戶的相關輸入結果信息相比較,當所述相關輸入結果信息中參數與所述初始訓練結果中的參數相同的參數數量與所述相關輸入結果信息的總參數數量的比值大于預定閾值時,將該相關輸入結果信息所對應的相關用戶作為所述參考用戶。例如,對于前述用戶C對應的參考輸入結果信息reference-C,其參數與用戶A的所述初始訓練結果中的參數相同的數量占用戶C中總參數數量的80%,大于預定閾值60%,則在步驟S322’中,網絡設備I確定用戶聚類clusterl中的用戶C為用戶A的參考用戶。
[0216]在步驟S323’中,網絡設備I根據所述統計輸入模型,結合所述參考用戶所對應的參考模型信息,調整所述初始訓練結果,在所述初始訓練結果中加入所述統計輸入模型對應的屬于所述目標用戶的參考用戶如與該目標用戶屬于相同用戶類別的其他用戶的參考輸入結果信息,以獲得所述輸入訓練結果。在此,所述參考模型信息用于描述所述參考用戶所對應的輸入模型的模型參數,與所述輸入模型具有相同或相似的模型參數,如語言特征信息、輸入特征信息,以及輔助輸入特征信息等。例如,假設與用戶A屬于相同用戶類別的用戶B對應的參考輸入結果信息reference-B包括:bl)習慣用表情符號如“* Λ _ Λ * (嘻嘻表情)〈(可憐表情)”等;b2)習慣簡拼,如輸入“jsj” (計算機)、“ sms” (說明書)等;b3)對于多音詞,如對于詞語“澄清”,輸入讀音為“Ch6ng qing”頻次高于輸入讀音為“DSng qing”的頻次,則在步驟S323’中,網絡設備I可將用戶B對應的參考輸入結果信息reference-B加入到所述初始訓練結果中,即加入到用戶A對應的初始語言特征信息language-features-A和初始輸入特征信息input-features-A中,以獲得所述輸入訓練結果,包括:1)通信領域專業術語,如“載波聚合”、“主小區”、“輔小區”、“LTE”、“PDCCH”、“TDD”等;2)詞與詞的關聯信息,如“載波”與“聚合”關聯;3)習慣運用表情符號;4)古詩詞信息;5)特殊人名如“張籍”;6)習慣輸入全拼或簡拼;7)對于長句,習慣輸入整句、多個詞語;8)習慣用縮寫;9)讀音、按鍵錯誤不時常發生;10)對于多音詞,如對于詞語“澄清”,輸入讀音為“Ch6ng qing”頻次高于輸入讀音為“DSng qing”的頻次。
[0217]優選地,網絡設備I還包括步驟S10’(未示出)、步驟SlT (未示出)和步驟S12’(未示出)。具體地,在步驟S10’中,網絡設備I獲取對應于所述多個用戶的語料數據;在步驟sir中,網絡設備I根據所述多個用戶的語料數據,確定所述多個用戶的輸入結果信息;在步驟S12’中,網絡設備I根據所述多個用戶的輸入結果信息,對所述多個用戶進行聚類處理,以獲得所述一個或多個用戶聚類以及與所述用戶聚類相對應的類輸入結果信肩、O
[0218]具體地,在步驟S10’中,網絡設備I通過諸如微博、博客、QQ空間、貼吧等用戶可分享、傳播及獲取信息的第三方平臺提供的應用程序接口(API),獲取對應于所述多個用戶的語料數據;或者,通過記錄用戶輸入習慣、輸入語言等信息并提供該等信息的第三方設備的應用程序接口(API),獲取對應于所述多個用戶的語料數據。例如,假設用戶A’至用戶E’分別在其微博、博客等第三方平臺中共享了以下信息:
[0219]用戶A’:《Bag of words model (詞袋模型)》
[0220]“詞袋模型是在自然語言處理和信息檢索中的一種簡單假設。在這種模型中,文本(段落或者文檔)被看作是無序的詞匯集合,忽略語法甚至是單詞的順序。......”
[0221]用戶B’:《語言模型的基本概念》
[0222]“本文介紹一下有關語言模型的基本概念,但是在介紹語言模型之前,先簡單回顧一下自然語言處理這個大問題吧。現在自然語言處理的研究絕對是一個非常火熱的方向,主要是被當前的互聯網發展所帶動起來的。在互聯網上充斥著大量的信息,主要是文字方面的信息,對這些信息的處理離不開自然語言處理的技術。那么究竟什么是自然語言以及自然語言處理呢?......”
[0223]用戶C’:《奧森公園驚現童話世界》
[0224]“今日春分,凌晨一場春雪悄然而至,給平日灰蒙蒙的京城披上漂亮的銀裝。早晨起來,陽光初露,老笨就近來到奧運森林公園北園,立刻被眼前景象驚呆了。在京生活數十年,從未見過如此美麗景象。這般美景,人間罕見,恐怕只有在童話世界里才有。廢話少說,上片啦! ”
[0225]用戶D’:《曇花雪,惹人醉》
[0226]“北京的這個春天變化多端。一陣兒漫天的霾,一會兒漫天的沙。
[0227]昨天傍晚開始下雨了。夜里轉成了雪。
[0228]早晨一起,看銀裝素裹,知道這春天不會讓這景色停留,這是冬的告別。
[0229]去了頤和園,全是攝影的人......我估計大家是讓北京春天的天憋的太久了,就像干部們好長時間沒有宴會一樣難受。”
[0230]用戶E’:隨機游走模型(Random Surfer Model)
[0231]“這就是搜索引擎:核心技術詳解》第6章鏈接分析,本章主要介紹一些著名的鏈接分析方法。本節為大家介紹隨機游走模型(Random Surfer Model)。”
[0232]則在步驟S10’中,網絡設備I通過微博、博客等第三方平臺提供的應用程序接口(API),便可獲取到對應于用戶A’至用戶E’的語料數據。
[0233]本領域技術人員應能理解上述獲取對應于所述多個用戶的語料數據的方式僅為舉例,其他現有的或今后可能出現的獲取對應于所述多個用戶的語料數據的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。
[0234]在步驟SlT中,網絡設備I根據所述多個用戶的語料數據,確定所述多個用戶的輸入結果信息。在此,所述輸入結果信息用于描述用戶的語言特征信息、輸入特征信息,以及輔助輸入特征信息。在此,在步驟S10’中,網絡設備I確定所述多個用戶的輸入結果信息的方式與在步驟S3’中,網絡設備I確定所述輸入訓練結果的方式相同或相似,為簡明起見,故在此不再贅述,并以引用的方式包含與此。
[0235]在步驟S12’中,網絡設備I根據所述多個用戶的輸入結果信息,對所述多個用戶進行聚類處理,如采用k-means、ISODATA、鏈狀方法等非監督學習方法,以獲得所述一個或多個用戶聚類以及與所述用戶聚類相對應的類輸入結果信息。在此,所述用戶聚類包括但不限于如:1)商務公文型;2)游戲娛樂型;3)專業技術型。本領域技術人員應能理解上述用戶聚類僅為舉例,其他現有的或今后可能出現的用戶聚類如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。
[0236]例如,在步驟S12’中,網絡設備I可根據信息確定裝置確定的用戶A’至用戶E’的輸入結果信息,如從輸入特征信息、語言特征信息等方面對用戶A’至用戶E’進行聚類,如假設用戶A’、用戶B’和用戶D’在輸入特征信息上均具有習慣簡拼、對于長句喜歡輸入單個詞、按鍵錯誤頻率低于0.01等特點,則在步驟S12’中,網絡設備I將用戶A’、用戶B’和用戶D’歸為一類,且聚類處理裝置根據用戶A’、用戶B’和用戶D’對應的語言特征信息,判斷用戶A’和用戶B’對應的語言特征信息如詞典規模、詞與詞的關聯信息、專業術語等均屬于自然語言處理領域,用戶D’對應的語言特征信息屬于搜索引擎領域,則在步驟S12’中,網絡設備I確定用戶A’、用戶B’和用戶D’對應的用戶聚類為專業技術型如technology-cluster,相應地,在步驟S12’中,網絡設備I通過將用戶A’、用戶B’和用戶D’對應的語言特征信息進行合并、提取相同語言特征信息等方式,得到與專業技術型用戶聚類相對應的類輸入結果信息technology-1nfo,包括參數如:1)詞典規模,即專業技術型用戶類別所對應的詞庫信息,如詞條數量等;2)自然語言處理及搜索引擎專業術語包括“詞袋”、“語言模型”、“搜索引擎”、“鏈接”等;3)詞與詞的關聯信息,如“搜索”與“引擎”關聯,再如“隨機”與“游走”關聯等;4)習慣簡拼;5)對于長句喜歡輸入單個詞;6)按鍵錯誤頻率低。類似地,在步驟S12’中,網絡設備I可確定用戶C’和用戶D’屬于游戲娛樂型如entertainment-cluster,以及與該用戶聚類游戲娛樂型相對應的類輸入結果信息如entertainment-1nfo。
[0237]更優選地,網絡設備I還包括步驟S13’(未示出),具體地,在步驟S13’中,網絡設備I根據所述用戶聚類所對應的所述類輸入結果信息,建立或更新所述統計輸入模型,其中,所述統計輸入模型包括在多個所述用戶聚類中存在的所述類輸入結果信息。例如,接上例,在步驟S13’中,網絡設備I根據其在步驟S12’中得到的用戶聚類technology-cluster和用戶聚類entertainment-cluster分別所對應的所述類輸入結果信息technology-1nfo和entertainment-1nfo,建立或更新所述統計輸入模型,如將類輸入結果信息technology-1nfo和entertainment-1nfo各自包括的參數中的相同參數作為所述統計輸入模型的模型參數,其中,所述統計輸入模型包括在多個所述用戶聚類中存在的所述類輸入結果信息。
[0238]需要注意的是,本發明可在軟件和/或軟件與硬件的組合體中被實施,例如,可采用專用集成電路(ASIC)、通用目的計算機或任何其他類似硬件設備來實現。在一個實施例中,本發明的軟件程序可以通過處理器執行以實現上文所述步驟或功能。同樣地,本發明的軟件程序(包括相關的數據結構)可以被存儲到計算機可讀記錄介質中,例如,RAM存儲器,磁或光驅動器或軟磁盤及類似設備。另外,本發明的一些步驟或功能可采用硬件來實現,例如,作為與處理器配合從而執行各個步驟或功能的電路。
[0239]另外,本發明的一部分可被應用為計算機程序產品,例如計算機程序指令,當其被計算機執行時,通過該計算機的操作,可以調用或提供根據本發明的方法和/或技術方案。而調用本發明的方法的程序指令,可能被存儲在固定的或可移動的記錄介質中,和/或通過廣播或其他信號承載媒體中的數據流而被傳輸,和/或被存儲在根據所述程序指令運行的計算機設備的工作存儲器中。在此,根據本發明的一個實施例包括一個裝置,該裝置包括用于存儲計算機程序指令的存儲器和用于執行程序指令的處理器,其中,當該計算機程序指令被該處理器執行時,觸發該裝置運行基于前述根據本發明的多個實施例的方法和/或技術方案。
[0240]對于本領域技術人員而言,顯然本發明不限于上述示范性實施例的細節,而且在不背離本發明的精神或基本特征的情況下,能夠以其他的具體形式實現本發明。因此,無論從哪一點來看,均應將實施例看作是示范性的,而且是非限制性的,本發明的范圍由所附權利要求而不是上述說明限定,因此旨在將落在權利要求的等同要件的含義和范圍內的所有變化涵括在本發明內。不應將權利要求中的任何附圖標記視為限制所涉及的權利要求。此夕卜,顯然“包括” 一詞不排除其他單元或步驟,單數不排除復數。裝置權利要求中陳述的多個單元或裝置也可以由一個單元或裝置通過軟件或者硬件來實現。第一,第二等詞語用來表示名稱,而并不表示任何特定的順序。
【權利要求】
1.一種在網絡設備端用于輔助確定目標用戶所對應的輸入模型的方法,其中,該方法包括以下步驟: a獲取目標用戶通過用戶設備提交的語料訓練請求,其中,所述語料訓練請求包括所述目標用戶所選擇的訓練語料數據; b根據所述訓練語料數據,確定與所述語料訓練請求相對應的輸入訓練結果,其中,所述輸入訓練結果與所述訓練語料數據相對應;c將所述輸入訓練結果發送至所述用戶設備。
2.根據權利要求1所述的方法,其中,該方法還包括: -獲取對應于多個用戶的統計輸入模型; 其中,所述步驟b包括: -根據所述訓練語料數據,確定所述目標用戶所對應的初始訓練結果; bl根據所述統計輸入模型,調整所述初始訓練結果,以獲得所述輸入訓練結果。
3.根據權利要求2所述的方法,其中,所述步驟bl包括: bll根據所述初始訓練結果,從一個或多個用戶聚類中確定所述目標用戶所屬的用戶聚類; -從所述目標用戶所屬的用戶聚類中確定參考用戶; -根據所述統計輸入模型,結合所述參考用戶所對應的參考模型信息,調整所述初始訓練結果,以獲得所述輸入訓練結果。
4.根據權利要求3所述的方法,其中,每一用戶聚類包含用于表征所述用戶聚類的特征的類輸入結果信息,其中,所述步驟bll包括: -將所述初始訓練結果與所述一個或多個用戶聚類所對應的所述類輸入結果信息進行比較,以確定所述目標用戶所屬的用戶聚類。
5.根據權利要求3或4所述的方法,其中,該方法還包括: -獲取對應于所述多個用戶的語料數據; -根據所述多個用戶的語料數據,確定所述多個用戶的輸入結果信息; -根據所述多個用戶的輸入結果信息,對所述多個用戶進行聚類處理,以獲得所述一個或多個用戶聚類以及與所述用戶聚類相對應的類輸入結果信息。
6.根據權利要求5所述的方法,其中,該方法還包括: -根據所述用戶聚類所對應的所述類輸入結果信息,建立或更新所述統計輸入模型,其中,所述統計輸入模型包括在多個所述用戶聚類中存在的所述類輸入結果信息。
7.根據權利要求1至6中任一項所述的方法,其中,該方法還包括: -根據所述訓練語料數據,確定所述輸入訓練結果所對應的權重信息; 其中,所述步驟c包括: -將所述輸入訓練結果及所述權重信息發送至所述用戶設備; 其中,所述權重信息基于以下任一項規則來確定; -根據所述訓練語料數據的數據數量信息,確定所述權重信息; -根據所述訓練語料數據的數據質量信息,確定所述權重信息。
8.—種在用戶設備端用于確定目標用戶所對應的輸入模型的方法,其中,該方法包括以下步驟: A獲取目標用戶所選擇的訓練語料數據; B向對應的網絡設備發送語料訓練請求,其中,所述語料訓練請求包括所述訓練語料數據; C接收所述網絡設備基于所述語料訓練請求所發送的輸入訓練結果,其中,所述輸入訓練結果與所述訓練語料數據相對應; D根據所述輸入訓練結果,建立或更新所述目標用戶所對應的輸入模型。
9.根據權利要求8所述的方法,其中,所述步驟A包括: -根據所述目標用戶對其歷史輸入相關信息的選擇操作,獲取所述訓練語料數據。
10.根據權利要求8或9所述的方法,其中,所述步驟C包括: -接收所述網絡設備基于所述語料訓練請求所發送的輸入訓練結果及其對應的權重信息,其中,所述輸入訓練結果與所述訓練語料數據相對應; 其中,所述步驟D包括: -根據所述輸入訓練結果,結合所述權重信息,建立或更新所述輸入模型。
11.根據權利要求8至10中任一項所述的方法,其中,所述步驟D包括: -獲取所述目標用戶對所述輸入訓練結果的選擇處理,以獲得所選擇的輸入訓練結果; -根據所選擇的輸入訓練結果,建立或更新所述目標用戶所對應的輸入模型。
12.一種用于輔助確定目標用戶所對應的輸入模型的網絡設備,其中,該網絡設備包括: 請求獲取裝置,用于獲取目標用戶通過用戶設備提交的語料訓練請求,其中,所述語料訓練請求包括所述目標用戶所選擇的訓練語料數據; 結果確定裝置,用于根據所述訓練語料數據,確定與所述語料訓練請求相對應的輸入訓練結果,其中,所述輸入訓練結果與所述訓練語料數據相對應; 結果發送裝置,用于將所述輸入訓練結果發送至所述用戶設備。
13.根據權利要求12所述的網絡設備,其中,該網絡設備還包括: 統計模型獲取裝置,用于獲取對應于多個用戶的統計輸入模型; 其中,所述結果確定裝置包括: 初始結果確定單元,用于根據所述訓練語料數據,確定所述目標用戶所對應的初始訓練結果; 調整單元,用于根據所述統計輸入模型,調整所述初始訓練結果,以獲得所述輸入訓練結果。
14.根據權利要求13所述的網絡設備,其中,所述調整單元包括: 聚類確定單元,用于根據所述初始訓練結果,從一個或多個用戶聚類中確定所述目標用戶所屬的用戶聚類; 參考確定單元,用于從所述目標用戶所屬的用戶聚類中確定參考用戶; 初始調整單元,用于根據所述統計輸入模型,結合所述參考用戶所對應的參考模型信息,調整所述初始訓練結果,以獲得所述輸入訓練結果。
15.根據權利要求14所述的網絡設備,其中,每一用戶聚類包含用于表征所述用戶聚類的特征的類輸入結果信息,其中,所述聚類確定單元用于: -將所述初始訓練結果與所述一個或多個用戶聚類所對應的所述類輸入結果信息進行比較,以確定所述目標用戶所屬的用戶聚類。
16.根據權利要求14或15所述的網絡設備,其中,該網絡設備還包括: 語料獲取裝置,用于獲取對應于所述多個用戶的語料數據; 信息確定裝置,用于根據所述多個用戶的語料數據,確定所述多個用戶的輸入結果信息; 聚類處理裝置,用于根據所述多個用戶的輸入結果信息,對所述多個用戶進行聚類處理,以獲得所述一個或多個用戶聚類以及與所述用戶聚類相對應的類輸入結果信息。
17.根據權利要求16所述的網絡設備,其中,該網絡設備還包括: 統計模型建立裝置,用于根據所述用戶聚類所對應的所述類輸入結果信息,建立或更新所述統計輸入模型,其中,所述統計輸入模型包括在多個所述用戶聚類中存在的所述類輸入結果信息。
18.根據權利要求12至17中任一項所述的網絡設備,其中,該網絡設備還包括: 權重確定裝置,用于根據所述訓練語料數據,確定所述輸入訓練結果所對應的權重信息; 其中,所述結果發送裝置用于: -將所述輸入訓練結果及所述權重信息發送至所述用戶設備; 其中,所述權重信息基于以下任一項規則來確定; -根據所述訓練語料數據的數據數量信息,確定所述權重信息; -根據所述訓練語料數據的數據質量信息,確定所述權重信息。
19.一種用于確定目標用戶所對應的輸入模型的用戶設備,其中,該用戶設備包括: 數據獲取裝置,用于獲取目標用戶所選擇的訓練語料數據; 請求發送裝置,用于向對應的網絡設備發送語料訓練請求,其中,所述語料訓練請求包括所述訓練語料數據; 結果接收裝置,用于接收所述網絡設備基于所述語料訓練請求所發送的輸入訓練結果,其中,所述輸入訓練結果與所述訓練語料數據相對應; 輸入模型建立裝置,用于根據所述輸入訓練結果,建立或更新所述目標用戶所對應的輸入模型。
20.根據權利要求19所述的用戶設備,其中,所述數據獲取裝置用于: -根據所述目標用戶對其歷史輸入相關信息的選擇操作,獲取所述訓練語料數據。
21.根據權利要求19或20所述的用戶設備,其中,所述結果接收裝置用于: -接收所述網絡設備基于所述語料訓練請求所發送的輸入訓練結果及其對應的權重信息,其中,所述輸入訓練結果與所述訓練語料數據相對應; 其中,所述輸入模型建立裝置用于: -根據所述輸入訓練結果,結合所述權重信息,建立或更新所述輸入模型。
22.根據權利要求19至21中任一項所述的用戶設備,其中,所述輸入模型建立裝置用于: -獲取所述目標用戶對所述輸入訓練結果的選擇處理,以獲得所選擇的輸入訓練結果; -根據所選擇的輸入訓練結果,建立或更新所述目標用戶所對應的輸入模型。
23.一種用于確定目標用戶所對應的輸入模型的系統,包括如權利要求12至18中任一項所述的網絡設備和如權利要求19至22中任一項所述的用戶設備。
【文檔編號】G06F3/01GK104166455SQ201310182906
【公開日】2014年11月26日 申請日期:2013年5月16日 優先權日:2013年5月16日
【發明者】黃藝華 申請人:百度在線網絡技術(北京)有限公司