用戶特征數據的提取方法和裝置制造方法
【專利摘要】本發明提出一種用戶特征數據的提取方法和裝置,其中,所述用戶特征數據的提取方法包括以下步驟:采集用戶通過移動終端輸入的日常語音數據;對日常語音數據進行特征識別,以獲取用戶的多個語音特征數據;以及根據獲取的多個語音特征數據建立用戶的特征數據庫。本發明的用戶特征數據的提取方法,根據用戶的語音數據進行針對性的分析,能夠方便、準確地獲取用戶的特征數據以及組成結構,因而有利于獲取用戶的潛在需求和個性化需求。
【專利說明】用戶特征數據的提取方法和裝置
【技術領域】
[0001]本發明涉及互聯網【技術領域】,特別涉及一種用戶特征數據的提取方法和裝置。
【背景技術】
[0002]在移動互聯網應用中,為了能夠滿足用戶對資源的需求,需要對用戶特征數據進行準確、全面分析,從而可根據提取出的用戶特征數據提供符合不同用戶個性化需求的資源。目前,可對用戶在搜索引擎中輸入的文本進行采集,并通過數據挖掘技術對采集到的數據中提取用戶特征數據;或者直接通過用戶問卷調查的方法獲取用戶的類別、需求等特征數據。
[0003]但是,通過采集用戶輸入的文本來挖掘用戶特征,主要是通過對用戶輸入的文本進行概括后得到詞語或者短語,并不能獲取用戶對這些詞語或短語的主觀感情色彩(是否喜歡、是否感興趣等),因而容易因誤判而難以準確的獲取用戶的需求、興趣點等。另外,通過對用戶輸入的文本分析用戶特征數據的方法,需要與文本對應的用戶標識信息等數據進行綁定,因而對于未綁定用戶標識信息的用戶來說,進行跟蹤記錄及特征數據的提取的難度很大。而通過用戶問卷調查的方法受到人力物力資源的限制,局限性大,僅適用于小范圍的調查,并且數據資源過于集中,數據缺乏代表性,不利于對深層次的用戶特征的提取。
【發明內容】
[0004]本發明旨在至少在一定程度上解決上述技術問題。
[0005]為此,本發明的第一個目的在于提出一種用戶特征數據的提取方法,能夠方便、準確地獲取用戶的特征數據以及組成結構,有利于獲取用戶的潛在需求和個性化需求。
[0006]本發明的第二個目的在于提出一種用戶特征數據的提取裝置。
[0007]為達上述目的,根據本發明第一方面實施例提出了一種用戶特征數據的提取方法,包括以下步驟:采集用戶通過移動終端輸入的日常語音數據;對所述日常語音數據進行特征識別,以獲取所述用戶的多個語音特征數據;以及根據獲取的所述多個語音特征數據建立所述用戶的特征數據庫。
[0008]本發明實施例的用戶特征數據的提取方法,通過采集用戶輸入的日常語音數據,并進行特征識別,以獲取用戶的多個語音特征數據,并據此建立用戶的特征數據庫,從而根據用戶的語音數據進行針對性的分析,能夠方便、準確地獲取用戶的特征數據以及組成結構,并且語音數據本身可用于標識用戶,因而有利于獲取用戶的潛在需求和個性化需求。
[0009]本發明第二方面實施例提供了一種用戶特征數據的提取裝置,包括:第一采集模塊,用于采集用戶通過移動終端輸入的日常語音數據;特征識別模塊,用于對所述日常語音數據進行特征識別,以獲取所述用戶的多個語音特征數據;以及建立模塊,用于根據獲取的所述多個語音特征數據建立所述用戶的特征數據庫。
[0010]本發明實施例的用戶特征數據的提取裝置,通過采集用戶輸入的日常語音數據,并進行特征識別,以獲取用戶的多個語音特征數據,并據此建立用戶的特征數據庫,從而根據用戶的語音數據進行針對性的分析,能夠方便、準確地獲取用戶的特征數據以及組成結構,并且語音數據本身可用于標識用戶,因而有利于獲取用戶的潛在需求和個性化需求。
[0011]本發明的附加方面和優點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發明的實踐了解到。
【專利附圖】
【附圖說明】
[0012]本發明的上述和/或附加的方面和優點從結合下面附圖對實施例的描述中將變得明顯和容易理解,其中:
[0013]圖1為根據本發明一個實施例的用戶特征數據的提取方法的流程圖;
[0014]圖2為根據本發明另一個實施例的用戶特征數據的提取方法的流程圖;
[0015]圖3為根據本發明又一個實施例的用戶特征數據的提取方法的流程圖;
[0016]圖4為根據本發明一個實施例的用戶特征數據的提取裝置的結構示意圖;
[0017]圖5為根據本發明另一個實施例的用戶特征數據的提取裝置的結構示意圖;
[0018]圖6為根據本發明又一個實施例的用戶特征數據的提取裝置的結構示意圖;
[0019]圖7為根據本發明再一個實施例的用戶特征數據的提取裝置的結構示意圖;
[0020]圖8為根據本發明另又一個實施例的用戶特征數據的提取裝置的結構示意圖。
【具體實施方式】
[0021]下面詳細描述本發明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發明,而不能理解為對本發明的限制。
[0022]在本發明的描述中,需要理解的是,術語“多個”指兩個或兩個以上;術語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性。
[0023]下面參考附圖描述根據本發明實施例的用戶特征數據的提取方法和裝置。
[0024]為了更準確的提取用戶的特征數據,本發明提出了一種用戶特征數據的提取方法,包括以下步驟:采集用戶通過移動終端輸入的日常語音數據;對日常語音數據進行特征識別,以獲取用戶的特征數據;以及根據獲取的特征數據建立用戶的特征數據庫。
[0025]圖1為根據本發明一個實施例的用戶特征數據的提取方法的流程圖。
[0026]如圖1所示,根據本發明實施例的用戶特征數據的提取方法,包括:
[0027]S1I,采集用戶通過移動終端輸入的日常語音數據。
[0028]其中,日常語音數據可以是通過安裝在移動終端中的各種語音輸入裝置獲取的語音數據。在本發明的一個實施例中,舉例來說,可通過移動終端中安裝的語音助手、語音SDK (Software Development Kit,軟件開發工具包)以及使用語音識別引擎應用程序等對用戶輸入的日常語音數據進行采集,或者通過在用戶使用移動終端進行通話的過程中獲取的語音通話數據獲取用戶日常語音數據。
[0029]S102,對日常語音數據進行特征識別,以獲取用戶的多個語音特征數據。
[0030]在本發明的實施例中,用戶的語音特征數據可包括用戶的身份特征數據、年齡特征數據和用戶所處的地區特征數據中的一種或多種。
[0031]其中,用戶的身份特征數據可包括用戶的性別信息;年齡特征數據為用戶所屬的年齡階段,如青少年、中年、老年等;可獲取所述日常語音數據的基頻特征,并根據所述基頻特征獲取所述用戶的身份特征數據和/或年齡特征數據。基頻特征是指聲音中最低且通常情況下最強的頻率,通常被認為是聲音的基礎音調。男性和女性的聲音的基頻特征以及不同年齡段的人的聲音的基頻都具有較大的區別,因此可預先根據不同性別對應的基頻特征和不同年齡段對應的基頻特征的建立基頻特征數據庫。從而將據獲取的到的用戶的日常語音數據的基頻特征與基頻特征數據庫中的基頻特征進行比對,以得到該用戶的身份特征數據和/或年齡特征數據。
[0032]用戶所處的地區特征是指用戶所在地或者用戶的籍貫地區,可根據用戶所使用語言種類來判斷。語言種類可包括不同語種、方言等,例如、英語、日語、韓語、阿拉伯語、粵語、四川方言等。具體地,可對所述日常語音數據進行語義解析,以獲取所述日常語音數據所屬的語言種類,并根據所述所屬的語言種類獲取所述用戶所處的地區特征數據。在對日常語音數據進行語義解析后,可得到語音的具體內容。然后,根據具體內容中的詞匯、語義等于預先建立的語言詞匯數據庫進行比對,其中,語言詞匯數據庫中包括不同語言種類對應的詞匯庫。從而可根據用戶的日常語音數據對應的詞匯比對出對應的語言種類,并進一步預測出該用戶所處的地區特征數據。例如,如果用戶使用的是葡萄牙語,則用戶可能為來自葡萄牙語使用國的用戶或者用戶正處于葡萄牙語使用國,如果用戶使用的是粵語,則用戶可能為來自廣東、香港等地的用戶或者用戶正處于廣東、香港等地。
[0033]S103,根據獲取的多個語音特征數據建立用戶的特征數據庫。
[0034]對于每個用戶來說,可根據該用戶的身份特征數據、年齡特征數據和用戶所處的地區特征數據中的一種或多種,建立該用戶的特征數據庫。此外,由于語音數據本身具有聲紋特征,因此可針對不同用戶分別建立對應的特征數據庫。由此,能夠準確地獲取用戶的組成結構,更有利于挖掘不同用戶的潛在需求特征和個性化需求特征。
[0035]本發明實施例的用戶特征數據的提取方法,通過采集用戶輸入的日常語音數據,并進行特征識別,以獲取用戶的多個語音特征數據,并據此建立用戶的特征數據庫,從而根據用戶的語音數據進行針對性的分析,能夠方便、準確地獲取用戶的特征數據以及組成結構,并且語音數據本身可用于標識用戶,因而有利于獲取用戶的潛在需求和個性化需求。
[0036]圖2為根據本發明另一個實施例的用戶特征數據的提取方法的流程圖。
[0037]如圖2所示,根據本發明實施例的用戶特征數據的提取方法,包括:
[0038]S201,采集用戶通過移動終端輸入的日常語音數據。
[0039]其中,日常語音數據可以是通過安裝在移動終端中的各種語音輸入裝置獲取的語音數據。在本發明的一個實施例中,舉例來說,可通過移動終端中安裝的語音助手、語音SDK (Software Development Kit,軟件開發工具包)以及使用語音識別引擎應用程序等對用戶輸入的日常語音數據進行采集,或者通過在用戶使用移動終端進行通話的過程中獲取的語音通話數據獲取用戶日常語音數據。
[0040]S202,獲取用戶的聲紋特征。
[0041]其中,聲紋特征是指語音的頻率、強度、聲壓隨時間推移的變化特征或者某一時間點上聲波強度和頻率的特征。具體地,在本發明的實施例中,可通過濾波器等方式對用戶的語音進行分析得到該用戶的聲紋特征,當然也可通過其他聲紋獲取方法來實現,本發明對獲取聲紋特征的方式不做具體限定。
[0042]S203,根據用戶的聲紋特征對日常語音數據進行篩選,以濾除非用戶的語音數據。
[0043]具體地,在本發明的實施例中,可分別獲取采集到的日常語音數據的聲紋特征,并與用戶的聲紋特征進行比對,如果一個語音數據的聲紋特征與用戶的聲紋特征不一致,則說明該語音數據不是該用戶的語音數據。由此,可根據比對結果從日常語音數據中篩選出與用戶的聲紋特征不一致的日常語音,并濾除。
[0044]S204,對日常語音數據進行特征識別,以獲取用戶的多個語音特征數據。
[0045]在本發明的實施例中,用戶的語音特征數據可包括用戶的身份特征數據、年齡特征數據和用戶所處的地區特征數據中的一種或多種。
[0046]其中,用戶的身份特征數據可包括用戶的性別信息;年齡特征數據為用戶所屬的年齡階段,如青少年、中年、老年等;可獲取所述日常語音數據的基頻特征,并根據所述基頻特征獲取所述用戶的身份特征數據和/或年齡特征數據。基頻特征是指聲音中最低且通常情況下最強的頻率,通常被認為是聲音的基礎音調。男性和女性的聲音的基頻特征以及不同年齡段的人的聲音的基頻都具有較大的區別,因此可預先根據不同性別對應的基頻特征和不同年齡段對應的基頻特征的建立基頻特征數據庫。從而將據獲取的到的用戶的日常語音數據的基頻特征與基頻特征數據庫中的基頻特征進行比對,以得到該用戶的身份特征數據和/或年齡特征數據。
[0047]用戶所處的地區特征是指用戶所在地或者用戶的籍貫地區,可根據用戶所使用語言種類來判斷。語言種類可包括不同語種、方言等,例如、英語、日語、韓語、阿拉伯語、粵語、四川方言等。具體地,可對所述日常語音數據進行語義解析,以獲取所述日常語音數據所屬的語言種類,并根據所述所屬的語言種類獲取所述用戶所處的地區特征數據。在對日常語音數據進行語義解析后,可得到語音的具體內容。然后,根據具體內容中的詞匯、語義等于預先建立的語言詞匯數據庫進行比對,其中,語言詞匯數據庫中包括不同語言種類對應的詞匯庫。從而可根據用戶的日常語音數據對應的詞匯比對出對應的語言種類,并進一步預測出該用戶所處的地區特征數據。例如,如果用戶使用的是葡萄牙語,則用戶可能為來自葡萄牙語使用國的用戶或者用戶正處于葡萄牙語使用國,如果用戶使用的是粵語,則用戶可能為來自廣東、香港等地的用戶或者用戶正處于廣東、香港等地。
[0048]S205,根據獲取的多個語音特征數據建立用戶的特征數據庫。
[0049]對于每個用戶來說,可根據該用戶的身份特征數據、年齡特征數據和用戶所處的地區特征數據中的一種或多種,建立該用戶的特征數據庫。此外,由于語音數據本身具有聲紋特征,因此可針對不同用戶分別建立對應的特征數據庫。由此,能夠準確地獲取用戶的組成結構,更有利于挖掘不同用戶的潛在需求特征和個性化需求特征。
[0050]本發明實施例的用戶特征數據的提取方法,可根據用戶的聲紋特征對采集到的日常語音數據進行篩選,以濾除非用戶的語音數據,從而在提取用戶的特征數據時,不會被其他用戶的語音數據干擾,能夠更準確地提取用戶的特征數據。
[0051]圖3為根據本發明又一個實施例的用戶特征數據的提取方法的流程圖。
[0052]如圖3所示,根據本發明實施例的用戶特征數據的提取方法,包括:
[0053]S301,采集用戶通過移動終端輸入的日常語音數據。
[0054]其中,日常語音數據可以是通過安裝在移動終端中的各種語音輸入裝置獲取的語音數據。在本發明的一個實施例中,舉例來說,可通過移動終端中安裝的語音助手、語音SDK (Software Development Kit,軟件開發工具包)以及使用語音識別引擎應用程序等對用戶輸入的日常語音數據進行采集,或者通過在用戶使用移動終端進行通話的過程中獲取的語音通話數據獲取用戶日常語音數據。
[0055]S302,獲取用戶的聲紋特征。
[0056]其中,聲紋特征是指語音的頻率、強度、聲壓隨時間推移的變化特征或者某一時間點上聲波強度和頻率的特征。具體地,在本發明的實施例中,可通過濾波器等方式對用戶的語音進行分析得到該用戶的聲紋特征,當然也可通過其他聲紋獲取方法來實現,本發明對獲取聲紋特征的方式不做具體限定。
[0057]S303,根據用戶的聲紋特征對日常語音數據進行篩選,以濾除非用戶的語音數據。
[0058]具體地,在本發明的實施例中,可分別獲取采集到的日常語音數據的聲紋特征,并與用戶的聲紋特征進行比對,如果一個語音數據的聲紋特征與用戶的聲紋特征不一致,則說明該語音數據不是該用戶的語音數據。由此,可根據比對結果從日常語音數據中篩選出與用戶的聲紋特征不一致的日常語音,并濾除。
[0059]S304,對日常語音數據進行特征識別,以獲取用戶的多個語音特征數據。
[0060]在本發明的實施例中,用戶的語音特征數據可包括用戶的身份特征數據、年齡特征數據和用戶所處的地區特征數據中的一種或多種。
[0061]其中,用戶的身份特征數據可包括用戶的性別信息;年齡特征數據為用戶所屬的年齡階段,如青少年、中年、老年等;可獲取所述日常語音數據的基頻特征,并根據所述基頻特征獲取所述用戶的身份特征數據和/或年齡特征數據。基頻特征是指聲音中最低且通常情況下最強的頻率,通常被認為是聲音的基礎音調。男性和女性的聲音的基頻特征以及不同年齡段的人的聲音的基頻都具有較大的區別,因此可預先根據不同性別對應的基頻特征和不同年齡段對應的基頻特征的建立基頻特征數據庫。從而將據獲取的到的用戶的日常語音數據的基頻特征與基頻特征數據庫中的基頻特征進行比對,以得到該用戶的身份特征數據和/或年齡特征數據。
[0062]用戶所處的地區特征是指用戶所在地或者用戶的籍貫地區,可根據用戶所使用語言種類來判斷。語言種類可包括不同語種、方言等,例如、英語、日語、韓語、阿拉伯語、粵語、四川方言等。具體地,可對所述日常語音數據進行語義解析,以獲取所述日常語音數據所屬的語言種類,并根據所述所屬的語言種類獲取所述用戶所處的地區特征數據。在對日常語音數據進行語義解析后,可得到語音的具體內容。然后,根據具體內容中的詞匯、語義等于預先建立的語言詞匯數據庫進行比對,其中,語言詞匯數據庫中包括不同語言種類對應的詞匯庫。從而可根據用戶的日常語音數據對應的詞匯比對出對應的語言種類,并進一步預測出該用戶所處的地區特征數據。例如,如果用戶使用的是葡萄牙語,則用戶可能為來自葡萄牙語使用國的用戶或者用戶正處于葡萄牙語使用國,如果用戶使用的是粵語,則用戶可能為來自廣東、香港等地的用戶或者用戶正處于廣東、香港等地。
[0063]S305,根據獲取的多個語音特征數據建立用戶的特征數據庫。
[0064]對于每個用戶來說,可根據該用戶的身份特征數據、年齡特征數據和用戶所處的地區特征數據中的一種或多種,建立該用戶的特征數據庫。此外,由于語音數據本身具有聲紋特征,因此可針對不同用戶分別建立對應的特征數據庫。由此,能夠準確地獲取用戶的組成結構,更有利于挖掘不同用戶的潛在需求特征和個性化需求特征。
[0065]S306,采集用戶的歷史搜索數據。
[0066]其中,用戶的歷史搜索數據可包括用戶歷史搜索所使用的文本、語音、圖像等數據。具體地,可在用戶執行搜索時,對用戶輸入的文本、語音、圖像等數據進行記錄,從而采集用戶的歷史搜索數據。
[0067]S307,根據歷史搜索數據獲取用戶的需求特征。
[0068]其中,用戶的需求特征為根據用戶喜歡或者感興趣的內容、類別等信息預測出的用戶需求信息。
[0069]具體地,在本發明的實施例中,對于文本數據,可對其進行分詞、語義分析等以得到用戶搜索的關鍵字,從而可根據采集到的歷史文本數據統計挖掘出用戶經常搜索的內容、類別等;對于語音數據,可對其進行語音識別,以獲取語音數據的內容,進一步對該內容進行語義分析,從而可統計挖掘出用戶經常搜索的內容、類別等;對于圖像數據,可對其進行圖像識別,以獲取圖像內容,從而可根據采集到的歷史圖像數據統計挖掘出用戶經常搜索的內容、類別等。
[0070]由此,可根據用戶經常搜索的內容、類別得到用戶喜歡或者感興趣的內容、類別,并預測用戶的需求特征。舉例來說,如果用戶經常搜索機票、風景,可預測用戶的需求特征為旅游。
[0071 ] S308,根據用戶的需求特征更新用戶的特征數據庫。
[0072]在本發明的實施例中,可將用戶的需求特征加入到用戶的特征數據庫中。
[0073]進一步地,還可根據用戶的需求特征對用戶的身份特征數據、年齡特征數據和用戶所處的地區特征數據進一步精細化限定。
[0074]舉例來說,如果一個用戶經常搜索衣服、美容等內容,且該則用戶為一個男性,則可知用戶對時尚類比較感興趣,從而可將該用戶的身份特征由男性進一步限定為時尚類行業相關人員。
[0075]由此,可根據進一步限定后的用戶的特征數據更新用戶的特征數據庫。
[0076]應當理解,在本發明的實施例中,步驟S302和S303是可選的。
[0077]本發明實施例的用戶特征數據的提取方法,可根據用戶的歷史搜索數據獲取用戶的需求特征,并根據用戶的需求特征對用戶的特征數據庫進行更新,從而能夠提取更精細化的用戶特征,有利于挖掘用戶省層次的需求。
[0078]在本發明的一個實施例中,在建立用戶的特征數據庫后,可根據用戶的特征數據庫中用戶的特征數據為用戶提供搜索結果,或者為用戶推送信息。
[0079]因此,在本發明的一個實施例中,還可包括獲取用戶的搜索詞,并根據用戶的特征數據庫和搜索詞向用戶反饋搜索結果的步驟。其中,用戶需要進行搜索,可通過搜索引擎或者其他應用程序輸入搜索詞,其中,搜索詞可以通過文本、語音等形式輸入。具體地,可根據搜索結果與搜索詞的相關度和匹配度獲取多個搜索結果,然后,根據用戶的特征數據庫中用戶的特征數據對獲取到的多個搜索結果進步進行篩選、重新排序后提供給用戶。由此,能夠更有針對性地為用戶提供搜索結果,搜索結果更能滿足用戶需求,提升了用戶的搜索體驗。
[0080]舉例來說,對于搜索詞“美食”,可獲取多個餐飲相關的結果,而根據用戶的特征數據庫可知,該用戶為四川人,則可從多個餐飲結果用篩選出四川美食提供給用戶。
[0081]在本發明的另一個實施例中,還可包括根據用戶的特征數據庫向用戶推送信息的步驟。具體地,可根據用戶的特征數據中用戶的特征數據獲取符合用戶特征的信息,并推送給用戶,從而能夠智能根據用戶需求為用戶主動提供信息,且推送的信息更符合用戶的需求和興趣,提升了用戶體驗。
[0082]舉例來說,如果用戶為天津的孕婦,則可為用戶推薦天津比較好的婦產醫院,并可定期為用戶推薦一些孕婦在不同階段需要注意的事項等信息。
[0083]應當理解,本發明實施例建立的用戶的特征數據庫,不僅可應用于語音搜索、推薦系統,也可以應用于圖像搜索、推薦系統以及傳統的文本搜索、推薦系統。從而能夠根據用戶的特征更準確的預測用戶需求,并為用戶精準地提供或推薦其需要的信息,降低了用戶獲取信息的成本,提升了體驗。
[0084]為了實現上述實施例,本發明還提出一種用戶特征數據的提取裝置。
[0085]一種用戶特征數據的提取裝置,包括:第一采集模塊,用于采集用戶通過移動終端輸入的日常語音數據;特征識別模塊,用于對日常語音數據進行特征識別,以獲取用戶的多個語音特征數據;以及建立模塊,用于根據獲取的多個語音特征數據建立用戶的特征數據庫。
[0086]圖4為根據本發明一個實施例的用戶特征數據的提取裝置的結構示意圖。
[0087]如圖4所示,根據本發明實施例的用戶特征數據的提取裝置,包括:第一采集模塊10、特征識別模塊20和建立模塊30。
[0088]具體地,第一采集模塊10用于采集用戶通過移動終端輸入的日常語音數據。其中,日常語音數據可以是第一采集模塊10通過安裝在移動終端中的各種語音輸入裝置獲取的語音數據。在本發明的一個實施例中,舉例來說,第一采集模塊10可通過移動終端中安裝的語音助手、語音SDK (Software Development Kit,軟件開發工具包)以及使用語音識別引擎應用程序等對用戶輸入的日常語音數據進行采集,或者通過在用戶使用移動終端進行通話的過程中獲取的語音通話數據獲取用戶日常語音數據。
[0089]特征識別模塊20用于對日常語音數據進行特征識別,以獲取用戶的多個語音特征數據。
[0090]在本發明的實施例中,用戶的語音特征數據可包括用戶的身份特征數據、年齡特征數據和用戶所處的地區特征數據中的一種或多種。
[0091]其中,用戶的身份特征數據可包括用戶的性別信息;年齡特征數據為用戶所屬的年齡階段,如青少年、中年、老年等;用戶所處的地區特征是指用戶所在地或者用戶的籍貫地區。
[0092]在本發明的實施例中,特征識別模塊20可具體包括:獲取單元21和語義解析單元22。
[0093]獲取單元21用于獲取所述日常語音數據的基頻特征,并根據所述基頻特征獲取所述用戶的身份特征數據和/或年齡特征數據。基頻特征是指聲音中最低且通常情況下最強的頻率,通常被認為是聲音的基礎音調。男性和女性的聲音的基頻特征以及不同年齡段的人的聲音的基頻都具有較大的區別,因此可預先根據不同性別對應的基頻特征和不同年齡段對應的基頻特征的建立基頻特征數據庫。從而獲取單元21將據獲取的到的用戶的日常語音數據的基頻特征與基頻特征數據庫中的基頻特征進行比對,以得到該用戶的身份特征數據和/或年齡特征數據。
[0094]語義解析單元22用于對所述日常語音數據進行語義解析,以獲取所述日常語音數據所屬的語言種類,并根據所述所屬的語言種類獲取所述用戶所處的地區特征數據。用戶所處的地區特征可根據用戶所使用語言種類來判斷。語言種類可包括不同語種、方言等,例如、英語、日語、韓語、阿拉伯語、粵語、四川方言等。語義解析單元22可對所述日常語音數據進行語義解析,以獲取所述日常語音數據所屬的語言種類,并根據所述所屬的語言種類獲取所述用戶所處的地區特征數據。在對日常語音數據進行語義解析后,可得到語音的具體內容。然后,根據具體內容中的詞匯、語義等于預先建立的語言詞匯數據庫進行比對,其中,語言詞匯數據庫中包括不同語言種類對應的詞匯庫。從而可根據用戶的日常語音數據對應的詞匯比對出對應的語言種類,并進一步預測出該用戶所處的地區特征數據。例如,如果用戶使用的是葡萄牙語,則用戶可能為來自葡萄牙語使用國的用戶或者用戶正處于葡萄牙語使用國,如果用戶使用的是粵語,則用戶可能為來自廣東、香港等地的用戶或者用戶正處于廣東、香港等地。
[0095]建立模塊30用于根據獲取的多個語音特征數據建立用戶的特征數據庫。對于每個用戶來說,建立模塊30可根據該用戶的身份特征數據、年齡特征數據和用戶所處的地區特征數據中的一種或多種,建立該用戶的特征數據庫。此外,由于語音數據本身具有聲紋特征,因此可針對不同用戶分別建立對應的特征數據庫。由此,能夠準確地獲取用戶的組成結構,更有利于挖掘不同用戶的潛在需求特征和個性化需求特征。
[0096]本發明實施例的用戶特征數據的提取裝置,通過采集用戶輸入的日常語音數據,并進行特征識別,以獲取用戶的多個語音特征數據,并據此建立用戶的特征數據庫,從而根據用戶的語音數據進行針對性的分析,能夠方便、準確地獲取用戶的特征數據以及組成結構,并且語音數據本身可用于標識用戶,因而有利于獲取用戶的潛在需求和個性化需求。
[0097]圖5為根據本發明一個實施例的用戶特征數據的提取裝置的結構示意圖。
[0098]如圖5所示,根據本發明實施例的用戶特征數據的提取裝置,包括:第一采集模塊10、特征識別模塊20、建立模塊30和篩選模塊40。
[0099]具體地,篩選模塊40用于在對日常語音數據進行特征識別之前,獲取用戶的聲紋特征,并根據用戶的聲紋特征對日常語音數據進行篩選,以濾除非用戶的語音數據。
[0100]其中,聲紋特征是指語音的頻率、強度、聲壓隨時間推移的變化特征或者某一時間點上聲波強度和頻率的特征。具體地,在本發明的實施例中,篩選模塊40可通過濾波器等方式對用戶的語音進行分析得到該用戶的聲紋特征,當然也可通過其他聲紋獲取方法來實現,本發明對獲取聲紋特征的方式不做具體限定。然后,篩選模塊40可分別獲取采集到的日常語音數據的聲紋特征,并與用戶的聲紋特征進行比對,如果一個語音數據的聲紋特征與用戶的聲紋特征不一致,則說明該語音數據不是該用戶的語音數據。由此,篩選模塊40可根據比對結果從日常語音數據中篩選出與用戶的聲紋特征不一致的日常語音,并濾除。
[0101]本發明實施例的用戶特征數據的提取裝置,可根據用戶的聲紋特征對采集到的日常語音數據進行篩選,以濾除非用戶的語音數據,從而在提取用戶的特征數據時,不會被其他用戶的語音數據干擾,能夠更準確地提取用戶的特征數據。
[0102]圖6為根據本發明一個實施例的用戶特征數據的提取裝置的結構示意圖。
[0103]如圖6所示,根據本發明實施例的用戶特征數據的提取裝置,包括:第一采集模塊10、特征識別模塊20、建立模塊30、篩選模塊40、第二采集模塊50、獲取模塊60和更新模塊70。其中,篩選模塊40是可選的。
[0104]具體地,第二采集模塊50用于采集用戶的歷史搜索數據。其中,用戶的歷史搜索數據可包括用戶歷史搜索所使用的文本、語音、圖像等數據。更具體地,第二采集模塊50可在用戶執行搜索時,對用戶輸入的文本、語音、圖像等數據進行記錄,從而采集用戶的歷史搜索數據。
[0105]獲取模塊60用于根據歷史搜索數據獲取用戶的需求特征。其中,用戶的需求特征為根據用戶喜歡或者感興趣的內容、類別等信息預測出的用戶需求信息。
[0106]更具體地,在本發明的實施例中,對于文本數據,獲取模塊60可對其進行分詞、語義分析等以得到用戶搜索的關鍵字,從而可根據采集到的歷史文本數據統計挖掘出用戶經常搜索的內容、類別等;對于語音數據,獲取模塊60可對其進行語音識別,以獲取語音數據的內容,進一步對該內容進行語義分析,從而可統計挖掘出用戶經常搜索的內容、類別等;對于圖像數據,獲取模塊60可對其進行圖像識別,以獲取圖像內容,從而可根據采集到的歷史圖像數據統計挖掘出用戶經常搜索的內容、類別等。
[0107]由此,獲取模塊60可根據用戶經常搜索的內容、類別得到用戶喜歡或者感興趣的內容、類別,并預測用戶的需求特征。舉例來說,如果用戶經常搜索機票、風景,可預測用戶的需求特征為旅游。
[0108]更新模塊70用于根據用戶的需求特征更新用戶的特征數據庫。在本發明的實施例中,更新模塊70可將用戶的需求特征加入到用戶的特征數據庫中。進一步地,更新模塊70還可根據用戶的需求特征對用戶的身份特征數據、年齡特征數據和用戶所處的地區特征數據進一步精細化限定。
[0109]舉例來說,如果一個用戶經常搜索衣服、美容等內容,且該則用戶為一個男性,則可知用戶對時尚類比較感興趣,從而可將該用戶的身份特征由男性進一步限定為時尚類行業相關人員。
[0110]由此,可根據進一步限定后的用戶的特征數據更新用戶的特征數據庫。
[0111]本發明實施例的用戶特征數據的提取裝置,可根據用戶的歷史搜索數據獲取用戶的需求特征,并根據用戶的需求特征對用戶的特征數據庫進行更新,從而能夠提取更精細化的用戶特征,有利于挖掘用戶省層次的需求。
[0112]圖7為根據本發明一個實施例的用戶特征數據的提取裝置的結構示意圖。
[0113]如圖7所示,根據本發明實施例的用戶特征數據的提取裝置,包括:第一采集模塊10、特征識別模塊20、建立模塊30、篩選模塊40、第二采集模塊50、獲取模塊60、更新模塊70和搜索模塊80。其中,篩選模塊40、第二采集模塊50、獲取模塊60和更新模塊70是可選的。
[0114]具體地,搜索模塊80用于獲取用戶的搜索詞,并根據用戶的特征數據庫和搜索詞向用戶反饋搜索結果。其中,用戶需要進行搜索,可通過搜索引擎或者其他應用程序輸入搜索詞,其中,搜索詞可以通過文本、語音等形式輸入。更具體地,搜索模塊80可根據搜索結果與搜索詞的相關度和匹配度獲取多個搜索結果,然后,根據用戶的特征數據庫中用戶的特征數據對獲取到的多個搜索結果進步進行篩選、重新排序后提供給用戶。
[0115]舉例來說,對于搜索詞“美食”,可獲取多個餐飲相關的結果,而根據用戶的特征數據庫可知,該用戶為四川人,則可從多個餐飲結果用篩選出四川美食提供給用戶。
[0116]本發明實施例的用戶特征數據的提取裝置,能夠更有針對性地為用戶提供搜索結果,搜索結果更能滿足用戶需求,提升了用戶的搜索體驗。
[0117]圖8為根據本發明一個實施例的用戶特征數據的提取裝置的結構示意圖。
[0118]如圖8所示,根據本發明實施例的用戶特征數據的提取裝置,包括:第一采集模塊10、特征識別模塊20、建立模塊30、篩選模塊40、第二采集模塊50、獲取模塊60、更新模塊70和推送模塊90。其中,篩選模塊40、第二采集模塊50、獲取模塊60和更新模塊70是可選的。
[0119]具體地,推送模塊90用于根據用戶的特征數據庫向用戶推送信息。更具體地,推送模塊90可根據用戶的特征數據中用戶的特征數據獲取符合用戶特征的信息,并推送給用戶。
[0120]舉例來說,如果用戶為天津的孕婦,則可為用戶推薦天津比較好的婦產醫院,并可定期為用戶推薦一些孕婦在不同階段需要注意的事項等信息。
[0121]本發明實施例的用戶特征數據的提取裝置,能夠智能根據用戶需求為用戶主動提供信息,且推送的信息更符合用戶的需求和興趣,提升了用戶體驗。
[0122]流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個或更多個用于實現特定邏輯功能或過程的步驟的可執行指令的代碼的模塊、片段或部分,并且本發明的優選實施方式的范圍包括另外的實現,其中可以不按所示出或討論的順序,包括根據所涉及的功能按基本同時的方式或按相反的順序,來執行功能,這應被本發明的實施例所屬【技術領域】的技術人員所理解。
[0123]在流程圖中表示或在此以其他方式描述的邏輯和/或步驟,例如,可以被認為是用于實現邏輯功能的可執行指令的定序列表,可以具體實現在任何計算機可讀介質中,以供指令執行系統、裝置或設備(如基于計算機的系統、包括處理器的系統或其他可以從指令執行系統、裝置或設備取指令并執行指令的系統)使用,或結合這些指令執行系統、裝置或設備而使用。就本說明書而言,"計算機可讀介質"可以是任何可以包含、存儲、通信、傳播或傳輸程序以供指令執行系統、裝置或設備或結合這些指令執行系統、裝置或設備而使用的裝置。計算機可讀介質的更具體的示例(非窮盡性列表)包括以下:具有一個或多個布線的電連接部(電子裝置),便攜式計算機盤盒(磁裝置),隨機存取存儲器(RAM),只讀存儲器(R0M),可擦除可編輯只讀存儲器(EPR0M或閃速存儲器),光纖裝置,以及便攜式光盤只讀存儲器(⑶ROM)。另外,計算機可讀介質甚至可以是可在其上打印所述程序的紙或其他合適的介質,因為可以例如通過對紙或其他介質進行光學掃描,接著進行編輯、解譯或必要時以其他合適方式進行處理來以電子方式獲得所述程序,然后將其存儲在計算機存儲器中。
[0124]應當理解,本發明的各部分可以用硬件、軟件、固件或它們的組合來實現。在上述實施方式中,多個步驟或方法可以用存儲在存儲器中且由合適的指令執行系統執行的軟件或固件來實現。例如,如果用硬件來實現,和在另一實施方式中一樣,可用本領域公知的下列技術中的任一項或他們的組合來實現:具有用于對數據信號實現邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(PGA),現場可編程門陣列(FPGA)等。
[0125]本【技術領域】的普通技術人員可以理解實現上述實施例方法攜帶的全部或部分步驟是可以通過程序來指令相關的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質中,該程序在執行時,包括方法實施例的步驟之一或其組合。
[0126]此外,在本發明各個實施例中的各功能單元可以集成在一個處理模塊中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個模塊中。上述集成的模塊既可以采用硬件的形式實現,也可以采用軟件功能模塊的形式實現。所述集成的模塊如果以軟件功能模塊的形式實現并作為獨立的產品銷售或使用時,也可以存儲在一個計算機可讀取存儲介質中。
[0127]上述提到的存儲介質可以是只讀存儲器,磁盤或光盤等。
[0128]在本說明書的描述中,參考術語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結合該實施例或示例描述的具體特征、結構、材料或者特點包含于本發明的至少一個實施例或示例中。在本說明書中,對上述術語的示意性表述不一定指的是相同的實施例或示例。而且,描述的具體特征、結構、材料或者特點可以在任何的一個或多個實施例或示例中以合適的方式結合。
[0129]盡管已經示出和描述了本發明的實施例,本領域的普通技術人員可以理解:在不脫離本發明的原理和宗旨的情況下可以對這些實施例進行多種變化、修改、替換和變型,本發明的范圍由權利要求及其等同限定。
【權利要求】
1.一種用戶特征數據的提取方法,其特征在于,包括以下步驟: 采集用戶通過移動終端輸入的日常語音數據; 對所述日常語音數據進行特征識別,以獲取所述用戶的多個語音特征數據;以及 根據獲取的所述多個語音特征數據建立所述用戶的特征數據庫。
2.如權利要求1所述的用戶特征數據的提取方法,其特征在于,所述對所述日常語音數據進行特征識別,以獲取所述用戶的多個語音特征數據具體包括: 獲取所述日常語音數據的基頻特征,并根據所述基頻特征獲取所述用戶的身份特征數據和/或年齡特征數據;和/或, 對所述日常語音數據進行語義解析,以獲取所述日常語音數據所屬的語言種類,并根據所述所屬的語言種類獲取所述用戶所處的地區特征數據。
3.如權利要求1所述的用戶特征數據的提取方法,其特征在于,在對所述日常語音數據進行特征識別之前還包括: 獲取所述用戶的聲紋特征;以及 根據所述用戶的聲紋特征對所述日常語音數據進行篩選,以濾除非所述用戶的語音數據。
4.如權利要求1所述的用戶特征數據的提取方法,其特征在于,還包括: 采集所述用戶的歷史搜索數據; 根據所述歷史搜索數據獲取用戶的需求特征; 根據所述用戶的需求特征更新所述用戶的特征數據庫。
5.如權利要求1-4任一項所述的用戶特征數據的提取方法,其特征在于,還包括: 獲取所述用戶的搜索詞;以及 根據所述用戶的特征數據庫和所述搜索詞向所述用戶反饋搜索結果。
6.如權利要求1-4任一項所述的用戶特征數據的提取方法,其特征在于,還包括: 根據所述用戶的特征數據庫向所述用戶推送信息。
7.一種用戶特征數據的提取裝置,其特征在于,包括: 第一采集模塊,用于采集用戶通過移動終端輸入的日常語音數據; 特征識別模塊,用于對所述日常語音數據進行特征識別,以獲取所述用戶的多個語音特征數據;以及 建立模塊,用于根據獲取的所述多個語音特征數據建立所述用戶的特征數據庫。
8.如權利要求7所述的用戶特征數據的提取裝置,其特征在于,所述特征識別模塊具體包括: 獲取單元,用于獲取所述日常語音數據的基頻特征,并根據所述基頻特征獲取所述用戶的身份特征數據和/或年齡特征數據; 語義解析單元,用于對所述日常語音數據進行語義解析,以獲取所述日常語音數據所屬的語言種類,并根據所述所屬的語言種類獲取所述用戶所處的地區特征數據。
9.如權利要求8所述的用戶特征數據的提取裝置,其特征在于,還包括: 篩選模塊,用于在對所述日常語音數據進行特征識別之前,獲取所述用戶的聲紋特征,并根據所述用戶的聲紋特征對所述日常語音數據進行篩選,以濾除非所述用戶的語音數據。
10.如權利要求7所述的用戶特征數據的提取裝置,其特征在于,還包括: 第二采集模塊,用于采集所述用戶的歷史搜索數據; 獲取模塊,用于根據所述歷史搜索數據獲取用戶的需求特征;更新模塊,用于根據所述用戶的需求特征更新所述用戶的特征數據庫。
11.如權利要求7-9任一項所述的用戶特征數據的提取裝置,其特征在于,還包括: 搜索模塊,用于獲取所述用戶的搜索詞,并根據所述用戶的特征數據庫和所述搜索詞向所述用戶反饋搜索結果。
12.如權利要求7-9任一項所述的用戶特征數據的提取裝置,其特征在于,還包括: 推送模塊,用于根據所述用戶的特征數據庫向所述用戶推送信息。
【文檔編號】G06F17/30GK104239456SQ201410443469
【公開日】2014年12月24日 申請日期:2014年9月2日 優先權日:2014年9月2日
【發明者】趙鵬飛, 馬旭, 楊亮 申請人:百度在線網絡技術(北京)有限公司