聯系對象標識獲取方法和裝置的制造方法
【技術領域】
[0001]本發明涉及信息處理技術領域,特別是涉及一種聯系對象標識獲取方法和裝置。
【背景技術】
[0002]目前,手機上可以運行通話應用,用戶通過通話應用可以與其他用戶進行通話,并生成通話記錄。當手機接收到陌生電話號碼來電,或者通話記錄中存在陌生電話號碼時,手機可以通過網絡從電話號碼庫中獲取該陌生電話號碼的相關信息,從而將相關信息顯示出來,以便用戶可以識別出相應的聯系對象。為了實現這一功能,需要建立盡量完備的電話號碼庫。
[0003]目前為了獲取用于建立電話號碼庫的電話號碼,可以通過人工錄入的方式獲取,但這種方式效率太低。目前效率較高的獲取電話號碼的方式是通過網絡爬蟲自動爬取網頁中的電話號碼,然而,這種方式僅能夠從網頁中獲取到文本形式的號碼,而事實上目前很多網頁中的電話號碼是圖片形式的,通過網絡爬蟲是獲取不到的。
【發明內容】
[0004]基于此,有必要針對目前通過網絡爬蟲無法獲取到圖片形式的電話號碼的技術問題,提供一種聯系對象標識獲取方法和裝置。
[0005]一種聯系對象標識獲取方法,所述方法包括:
[0006]獲取網頁中的聯系對象標識圖片;
[0007]從所述聯系對象標識圖片中分割出字符圖片;
[0008]提取分割出的字符圖片的字符特征;
[0009]根據預設樣本字符特征庫或者預設樣本字符圖片庫,將所述字符特征識別為相應的字符;
[0010]按照所述字符圖片對應到所述聯系對象標識圖片中的位置,將相應的識別出的字符進行組合,獲得聯系對象標識。
[0011]一種聯系對象標識獲取裝置,所述裝置包括:
[0012]聯系對象標識圖片獲取模塊,用于獲取網頁中的聯系對象標識圖片;
[0013]聯系對象標識圖片分割模塊,用于從所述聯系對象標識圖片中分割出字符圖片;
[0014]特征提取模塊,用于提取分割出的字符圖片的字符特征;
[0015]識別模塊,用于根據預設樣本字符特征庫或者預設樣本字符圖片庫,將所述字符特征識別為相應的字符;
[0016]字符組合模塊,用于按照所述字符圖片對應到所述聯系對象標識圖片中的位置,將相應的識別出的字符進行組合,獲得聯系對象標識。
[0017]上述聯系對象標識獲取方法和裝置,從網頁中獲取聯系對象標識圖片后,分割成獨立的字符圖片,再從每個字符圖片中提取出字符特征,根據該提取的字符特征進行識別,從而識別出相應的字符。然后按照分割出的字符圖片對應到聯系對象標識圖片中的位置將識別出的字符進行組合,就可以得到完整的聯系對象標識。這樣在通過網絡爬蟲爬取到聯系對象標識圖片后,可以采用模式識別的手段,從網頁中提取出聯系對象標識,為獲取包括電話號碼在內的聯系對象標識提供了新的途徑。
【附圖說明】
[0018]圖1為一個實施例中電子設備的組成結構示意圖;
[0019]圖2為一個實施例中聯系對象標識獲取方法的流程示意圖;
[0020]圖3為一個實施例中聯系對象標識圖片的示意圖;
[0021]圖4為一個實施例中分割出的各個字符圖片的示意圖;
[0022]圖5為一個實施例中根據預設樣本字符特征庫或者預設樣本字符圖片庫,將字符特征識別為相應的字符的步驟的流程示意圖;
[0023]圖6為一個實施例中訓練步驟的流程示意圖;
[0024]圖7為一個實施例中查詢文本信息的步驟的流程示意圖;
[0025]圖8為一個實施例中聯系對象標識獲取裝置的結構框圖;
[0026]圖9為另一個實施例中聯系對象標識獲取裝置的結構框圖;
[0027]圖10為一個實施例中識別模塊的結構框圖;
[0028]圖11為再一個實施例中聯系對象標識獲取裝置的結構框圖;
[0029]圖12為一個實施例中聯系對象標識獲取裝置的結構框圖。
【具體實施方式】
[0030]為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,并不用于限定本發明。
[0031]如圖1所示,在一個實施例中,提供了一種電子設備100,包括通過系統總線連接的處理器、內存儲器、非易失性存儲介質和網絡接口。處理器具有計算功能和控制整個電子設備100工作的功能,該處理器被配置為執行一種聯系對象標識獲取方法。該非易失性存儲介質存儲有操作系統、數據庫和一種聯系對象標識獲取裝置,該聯系對象標識獲取裝置用于實現一種聯系對象標識獲取方法。網絡接口用于連接到網絡并訪問網頁。電子設備100可以是單個物理服務器,也可以是多個物理服務器組成的服務器集群。
[0032]如圖2所示,在一個實施例中,提供了一種聯系對象標識獲取方法,本實施例以該方法應用于上述圖1中的電子設備100來舉例說明。該方法具體包括如下步驟:
[0033]步驟202,獲取網頁中的聯系對象標識圖片。
[0034]這里的網頁可以是不限制網頁類型的隨機網頁,也可以是指定類型的網頁,比如黃頁網頁、指定公司的官方網頁、招聘網頁等,其中黃頁網頁中包括大量有效的聯系對象標識圖片,能夠在短時間內獲取到大量聯系對象標識。
[0035]聯系對象標識是指能夠唯一標識出一個通信對象的唯一標識,根據該聯系對象標識可以與相應的聯系對象聯系。聯系對象標識包括:電話號碼、通信應用賬號和郵箱地址等。通信應用賬號包括:社交應用賬號、游戲賬號和即時通信應用賬號等。聯系對象標識圖片是指包含聯系對象標識的圖像的圖片。在一個實施例中,聯系對象標識由從O到9的數字組成。在一個實施例中,聯系對象標識由從O到9的數字和字母中的至少一種組成。
[0036]電子設備100可以通過網絡爬蟲爬取網頁中的聯系對象標識圖片,具體可以分析網頁的代碼,找到網頁中用于標記出聯系對象標識圖片的標簽,從而獲取該標簽所對應的聯系對象標識圖片。其中網絡爬蟲又稱為網頁蜘蛛或者網絡機器人,是按照預先設定的規則抓取網絡信息的程序或者腳本。
[0037]步驟204,從聯系對象標識圖片中分割出字符圖片。
[0038]具體地,聯系對象標識圖片包括字符圖像和背景圖像,字符圖像和背景圖像采用不同的顏色,而且字符圖像之間也是通過背景圖像隔開,這樣就可以根據字符圖像和背景圖像的差異分割出矩形的字符圖片。
[0039]在一個實施例中,步驟204包括:對聯系對象標識圖片進行縱向像素掃描,找到聯系對象標識圖片中各個字符圖像的橫向邊界;再對聯系對象標識圖片中各個字符圖像的橫向邊界限定的圖像區域進行橫向像素掃描,找到聯系對象標識圖片中各個字符圖像的縱向邊界;按照各個字符圖像的橫向和縱向邊界進行分割,得到相應的字符圖片。這里縱向像素掃描是指掃描每一列,橫向像素掃描則是指掃描每一行。橫向邊界是指某一列像素,縱向邊界是指某一行像素。
[0040]在一個實施例中,步驟204包括:對聯系對象標識圖片進行縱向像素掃描,找到僅包含背景顏色的第一類型的列和包含字符顏色的第二類型的列;將各個由連續的第二類型的列組成的第一子圖像區域進行橫向像素掃描,找到該第一子圖像區域中僅包含背景顏色的第一類型的行和包含字符顏色的第二類型的行;將各個第一子圖像區域中連續的第二類型的行組成第二子圖像區域;將各個第二子圖像區域從聯系對象標識圖片中分割出,獲得相應的字符圖片。
[0041]舉例說明,聯系對象標識圖片如圖3所示,字符顏色為白色,背景顏色為黑色,包含的聯系對象標識為“593a”。先對該聯系對象標識圖片從左到右進行縱向像素掃描,將首次出現的含有白色的列作為第一個字符圖像的左邊界,繼續掃描,將出現全黑的列作為第一個字符圖像的右邊界,并繼續掃描,直至縱向像素掃描完畢。然后對各個左右邊界之間的列組成的圖像進行橫向像素掃描,確定上邊界和下邊界,從而按照每個字符圖像的上、下、左和右邊界對聯系對象標識圖片進行分割,分割出各個字符圖片。分割結果如圖4所示。
[0042]在一個實施例中,步驟204之前,還包括:對聯系對象標識圖片進行歸一化處理。圖像歸一化是指對圖像進行了一系列標準的處理變換,使之變換為一固定標準形式的過程,該標準圖像稱作歸一化圖像。歸一化處理包括二值化處理、去噪處理、圖片縮放以及圖片旋轉等中的至少一種。
[0043]在一個實施例中,步驟204之前,還包括:對聯系對象標識圖片進行二值化處理。
[0044]二值化處理是指將圖像轉換成兩種顏色進行表示的處理,一般二值化后的圖像為黑白圖像。具體地,電子設備100可以按照預先設定的二值化閾值,將聯系對象標識圖片中大于等于該二值化閾值的像素值置為第一值,而將聯系對象標識圖片中小于該二值化閾值的像素值置為第二值,從而實現對聯系對象標識圖片進行二值化處理。
[0045]在一個實施例中,電子設備100可以統計聯系對象標識圖片中各個像素值的數量,從而按照預設統計得到的字符顏色和背景圖像的比例結合聯系對象標識圖片