專利名稱:用于檢測并補救誤導超鏈接的方法和系統的制作方法
技術領域:
本發明涉及防止計算機犯罪的方法。更具體地,本發明涉及檢測由誤導超鏈接(misleading hyperlink)引起的安全威脅。
技術背景超過十億人基于常規使用英特網。在英特網上可用的大多數普遍使用的 應用是電子郵件和即時通訊。因為給很多接收者發送消息的低花費使得很多 商業實體廣泛地使用這些應用。很多英特網用戶不是計算機專家(computer savvy ),并且對在他們的個 人計算機上所存儲的個人和機密信息的弱點了解很少。這些用戶對于欺詐高 手來說是有吸引力的犧牲者。使得電子郵件和即時消息對于商業和消費者具者可以廉價地設計并發送消息至大量消費者。這些條件導致了已知為"網上 誘騙"的英特網詐騙的蔓延。"網上誘騙"是指設計用于操縱人們泄露他們的機密信息的英特網上犯 罪行為的術語。網上誘騙,"釣魚"的有意錯誤拼寫,指的是欺詐高手試圖誘 使無疑心的消費者泄露他們的個人信息,比如用于訪問在線賬戶的信用卡號 或密碼。"誘騙者"可以設計并發送故意被做成像來自依賴英特網辦理業務的 商業實體的電子郵件或消息的電子郵件或即時消息。欺騙性的電子郵件或消 息被設計得看來好像是來自諸如通常使用的網站或大銀行的大量消費者所熟 悉的合法源頭。誘騙者一般會要求接收者通過提供諸如銀行賬戶號、信用卡 號、社會保險號、用戶ID或接收者的在線賬戶密碼的機密且私人的信息來答 復該電子郵件或消息。更老練的誘騙者精明地設計電子郵件或消息以引誘接收者實際上想在英 特網上泄露個人信息。例如,誘騙者的消息可能包含將接收者引到已經專門 創建用于實現誘騙詐騙的網站的可選超鏈接。經常,誘騙者的電子郵件消息 可能提供警告接收者的信息,以引誘接收者選擇超鏈接以便解決問題。例如,誘騙者的消息可能警告接收者有"可疑行為",比如試圖使用接收者的在線賬 戶而沒有合適的密碼,并且可能要求接收者使用所提供的超鏈接來訪問網站 并登錄賬戶或者另外提供個人信息以驗證或改變密碼。諷刺的是,很多誘騙 詐騙通過虛偽地警告接收者有關接收者的在線賬戶的安全威脅來操作,以便 獲取接收者的個人信息。在電子郵件消息中提供給接收者的超鏈接可能通過看來要將接收者? 1到 與接收者的在線賬戶有關的網站來引誘接收者選擇該超鏈接。但是,以電子 文檔形式被提供給無疑心的接收者的超鏈接可能被做的能看出發送者所期望的。例如,消息內的顯示名稱或文本可能^皮顯示為"www.yahoo.com",以看 起來是作為到熟悉的網站的實際超鏈接,但是,該文本可能實際包括了嵌入 的鏈接,該嵌入的鏈接將把用戶的瀏覽器引導到由誘騙者建立的用于實施詐 騙的不同網站。通過選擇該超鏈接而把接收者^I到的網站可能非常類似于與 超鏈接看起來要提供給接收者的目的地對應的熟悉且可信的網站。粗心的接 收者可能不了解超鏈接如何操作,或者可能甚至不知道可以操縱超鏈接以將 接收者引到與文本中看似的網站不同的網站。到達假冒網站的接收者將被要 求驗證密碼或賬戶號,或者輸入被誘騙者捕獲并濫用的敏感個人信息。網上誘騙的一個特別精明的方法是在電子郵件消息或即時消息中警告接 收者他們的在線賬戶有問題。例如,電子郵件可能被設計得看來已經通過銀 行、信用卡公司或接收者可能與之從事業務的其他類似實體來發送給接收者, 并警告接收者他們的賬戶有"可疑行為"。選擇超鏈接以盡力防止欺騙或身份 盜用的接收者實際被引導到由誘騙者創建的用于實施詐騙的假冒網站,并試 圖使用該網站來驗證賬戶狀況。對于無疑心的接收者來說該網站通常看來是 銀行、信用卡公司或維護接收者在線賬戶的業務的實際網站,并且該假冒網 站被設計用于接收并記錄接收者的個人信息,比如賬號、密碼或可能被誘騙 者濫用的其他個人信息。因此,需要一種檢測諸如電子郵件消息和即時消息的電子文檔中所包含 的誤導超鏈接的方法。同樣,需要警告或保護電子文檔的接收者免遭利用通 過電子郵件或即時通訊發送到接收者的誤導超鏈接的誘騙詐騙。發明內容本發明提供了 一種用于驗證超鏈接的可靠性并用于確定超鏈接內的域名是否有可能涉及誘騙犯罪的方法。在本發明的一個實施例中,該方法包括步驟識別(identify)電子文檔內的超鏈接;識別超鏈接的URL;識別URL 內的域名;給域名分配頁面等級參數;確定被分配給域名的頁面等級參數是 否大于頁面等級閾值;以及分析所識別的域名與公知或高頁面等級域名的列 表的相似性。本發明的一個實施例包括步驟相對于公知或高頁面等級的網 站的域名,分析該域名關于被設計用于使域名對于接收者看起來是合法的域 名的替換的字符、插入或省略的復數、冗余字符或其他字符插入、替換或省 略。該方法還可以包括給域名分配相似性參數,其中該相似性參數反映該 域名被設計得看起來與公知域名的列表中的一個域名的相似的程度。該方法 還可以包括分析該相似性參數和頁面等級參數,然后使用算法來確定該超 鏈接是否是誤導的。該方法還可以可選擇地包括步驟在包含了誤導超鏈接 的文檔被打開之前通知接收者有誤導超鏈接。該方法還可以自動廢除文檔中 所檢測的誤導超鏈接,以防止接收者使用該超鏈接。
圖1是表示用于識;圖。圖2是圖示用于確定電子文檔內所包含的超鏈接是誤導的可能性的超鏈 接分類的象限圖。圖3是能夠接收并打開諸如電子郵件消息的電子文檔并執行確保URL鏈 接的合法性的方法的計算機系統的示意圖。
具體實施方式
本發明提供了 一種用于驗證電子文檔內所包含的超鏈接的合法性并用于 確定超鏈接內所包含的網站的域名是否可能是為欺騙目的而創建的方法。一 般出現在電子文檔內的超鏈接很容易與周圍文本區分。通常在電子文檔中使 用高度可見字體顏色或字體大小并通過給超鏈接加下劃線來顯示超鏈接。電 子文檔中出現的超鏈接一般具有幾個組成部分。本發明中感興趣的主要超鏈 接組成部分是鏈接標簽和編碼鏈接目的地的統一資源定位(URL)。雖然可以直接將URL復制到電子文檔中,但是不顯示嵌入超鏈接的 URL。鏈接標簽是電子文檔在計算機監視器上顯示給用戶的字符串。鏈接標簽可以包括任意期望的字符串,或者可以是用戶可以選擇的用以訪問鏈接目 的地的圖形,比如照片、標志圖案或圖標。鏈接目的地被編碼為統一資源定位(URL),有時也被稱為統一資源識別符(URI)。雖然URI和URL在意思 上稍有差異,但是在這些術語之間的普通使用沒有差異,并且下面的公開將 涉及URL。 URL識別英特網上的可用網絡資源,比如網站。URL提供當接 收者選擇超鏈接時網頁瀏覽器將訪問的網絡資源的地址。URL還提供了用于 取回資源的協議。對網上誘騙的問題起重要作用的因素是,編碼鏈接目的地 的URL通常隱藏在HTML代碼中,并且沒有向電子文檔的接收者示出通過 選擇超鏈接而將訪問的網站的URL。本發明的方法包括識別電子文檔內的超鏈接的步驟。電子文檔可以包括 電子郵件、即時消息、網頁、文字處理文件、圖形表示、可移植文件格式(PDF) 文件或能夠包含并向用戶顯示超鏈接的任意電子文檔或文件。可以通過解析 文檔并尋找指示URL的特定樣式、比如尋找"http"、 "www"或".com"來 識別超鏈接。還可以通過在HTML源代碼中搜索超文本參考(HREE)的錨 標簽(anchor tag)或通過可以檢測電子文檔內的超鏈接的存在的任意其他手 段來識別超鏈接。例如,用于建立超鏈接的HTML代碼可以包括以下已經識別超鏈接后,然后可以進一步分析HTML代碼以識別編碼該超鏈 接的鏈接目的地的URL。在大多數情況下,尤其在網上誘騙中,不在超鏈接 的文本或圖形內顯示URL。而是,顯示可能與URL有關系或毫無關系的鏈 接標簽。因此,必須訪問HTML或其他源代碼,以便確定實際的URL。鏈接 目的地很有可能是網站上的特定網頁。例如,選擇具有到; age./2加,其存在于與j或名www.ibm.com有關的網站上的/"/o目錄中。通過從URL的剩余部分中解析諸如www.ibm.com的域名來識別域名。可 替換地,當超鏈接包括諸如142.118.0.11的IP地址而不是域名時,可以改為 識別IP地址。該方法還包括給域名分配頁面等級參數的步驟。頁面等級參數幫助確定 鏈接是否將訪問有效網站或網頁。該確定是基于如下假設的接收大量的英 特網"流量"或訪問的網頁通常是有效的并且不需要被進一步分析。通過比 較在超鏈接內所識別的域名與公知或高頁面等級的域名的列表可以簡要確定<a href="http:〃antivirus.about.com">http:〃www.ebay.com</a>.age.htm的鏈接的超鏈接將使得瀏覽器顯示網頁頁面等級參數。如果超鏈接內的域名與具有公知頁面等級的域名匹配,則將 默認頁面等級參數值分配給所識別的域名。例如,公知和高頁面等級域名的歹ll表可以包4舌,仿J ^口, www.ibm.com 、 www.amazon.com、 www.yahoo.com和 www.whitehouse.gov,紿、所有這些分配高默認頁面等級參凄t。諸如yahoo!或 Google的熟知的搜索引擎維護并發布允許通過各種方法來將各個網站分級的 統計表。因此,可以通過從搜索引擎中取回頁面等級來確定給定域名的頁面 等級參數。可替換地,該步驟可以包括從跟蹤英特網使用并發布其得到的結 果的機構訪問最廣泛公知的域名列表。另 一種替換方法是維護訂閱帶有域名 使用統計表的社團或機構的網站列表。該列表還可以包括"公知"的域名,因為它們已經被識別為欺騙性的或 誤導的,并且這些域名被分配了不受歡迎頁面等級參數。如果超鏈接內所識 別的域名與公知列表中的誤導域名匹配,則分配與威脅程度相應的頁面等級 參數,并且該方法直接跳到采取補救行動的步驟,該補救行動包括根據安全 威脅的訪問級別警告接收者廢除或阻擋超鏈接。但是,如果在超鏈接內所識 別的域名與列表中的公知域名不匹配,則該方法可以給域名分配反映安全威 脅的評估級別的頁面等級參數。如果所配置的頁面等級參數落到閾值以下,則該方法還可以包括步驟 將所識別的域名和/或鏈接標簽與公知域名的列表比較,以及給所識別的域名 和/或鏈接標簽分配相似性參數。例如,如果域名迷惑地與頻繁訪問和/或大量 消費者公知的域名相似,但是不相同,則所分配的相似性參數將高。但是, 如果所識別的域名與任意頻繁訪問和/或大量消費者公知的域名都不相似,則 相似性參數將低。設計該步驟以識別由迷惑地與公知域名相似的域名或鏈接 標簽引起的安全隱患,這些域名或鏈接標簽比如www.paypals .com (迷惑地與 www.paypal.com相似)、www.YAH00.com (迷惑地與www.yahoo.c.om相似)和www.wdls-fargo.com(迷惑地與www.we 1 lsfargo com相似)。一4殳識另ll誤導URL比誤導標簽更重要,因為URL確定在選擇鏈接時將由瀏覽器訪問的網站。識 別誤導標簽仍然很有用,因為用戶可以基于該鏈接標簽判斷是否選擇該鏈接。 分配相似性參數的步驟可以包括相似字符的替代的分析。例如,在英語 中,零(0)對大寫字母"O"的替換,以及數字一 (1)對小寫字母"l,,的替 換導致單詞看來與原始的正確拼寫的單詞迷惑地相似。在分配相似性參數的 步驟中,趨向于以迷惑誤導方式使標簽看起來呈現頻繁訪問的或公知的域名的替換字符的出現將增加威脅和相似性參數。另一種考慮可以搜索不適當插入"s"或"es" 的使用而使單詞變成復數,可能不被接收者注意的較小改 變。例如。www.paypals.com包4舌插入的字母"s",并且可能誤導具有 www.pavpal.com上的在線賬戶的接收者。該步驟可以包括搜索重復字符的包 括或排除,例如,www. busines.com或www.businssses.com , 替代 www.business.com上的有效網站。可替換地,差異語言或字體中的字符可能 散布在鏈接標簽內。例如,西里爾字母"a"與拉丁字母"a"顯示得一致。 但是,計算機可以區分這兩個字符并不同地讀取字符串。如果域名的頁面等級參數在頁面等級閾值以下,則與該域名關聯的網站 具有低流量(traffic volume )并且不太可能是頻繁訪問的網站。如果頁面等級 參數在頁面等級閾值以上,則超鏈接很可能將接收者引到安全的網站,并且 該方法不包括進一步的步驟。可替換地,如果頁面等級參數落在閾值以下, 則與該域名關聯的網站具有低流量并且不太可能是頻繁訪問的網站。在這種 情況下,方法的隨后步驟確定相似性參數是否在警報閾值以上。如果所識別的域名的相似性參數在相似閾值以上,則該域名與公知的域 名非常相似但是不相同,并且該方法可以進一步包括警告接收者有電子文檔 詐騙的可能性的步驟。例如,該方法可以自動使得文本框顯示在緊鄰電子文 檔內的超鏈接的位置,警告接收者該超鏈接可能是誤導的。該文本框可以包 括該超鏈接是非法的估計概率。作為替換,該顯示可以包括制定可配置的數 值范圍(scale )、顏色編碼的標記或其他被設計用于區分安全超鏈接與誤導超 鏈接的可視和/或音頻手段。該方法還可以包括自動廢除(disable)被確定是誤導的超鏈接的步驟。 除了或者代替警告接收者、使接收者的信息賬戶不能進一步從該電子文檔的 發送者接收包含超鏈接的消息、通知網絡管理員或任何其他被設計用于保護 接收者免遭進一步誤導的超鏈接的可配置補救行動,還可以進行廢除超鏈接。圖1是描述本發明的一個實施例的高級流程圖。在步驟10,方法開始。 可以響應于接收電子郵件或即時消息、存取文件、手動開始方法或任何其他 配置條件來實施該方法。在步驟12,識別超鏈接。通過掃描文檔、電子郵件、消息和所附文件的 內容可以在電子文檔內識別超鏈接。可以掃描電子文檔以確定鏈接的出現。 在該步驟中,可以識別并掃描包括超文本標記語言(HTML)、 JAVA腳本、XML腳本以及其他的任何腳本以確定是否出現超鏈接。在步驟14,識別超鏈接和/或鏈接標簽的URL。該URL提供在選擇超鏈 接時將由瀏覽器訪問的網頁的地址或者網址。在步驟16,識別URL內的域 名。該域名可以是完整URL的被解析部分。在步驟18,比較URL的域名與具有已知安全級別或已知頁面等級的域 名的列表。可以使用英特網上的、在接收者的計算機上本地維持的或從遠程 計算機訪問的資源來獲取公知域名的列表。如果確定超鏈接中的域名對應于 公知域名,則在步驟20中,將與該公知域名關聯的預定頁面等級參數分配給 所識別的域名或超鏈接本身。但是,如果所識別的域名沒有出現在公知或高 頁面等級域名的列表中,則在步驟22中,使用英特網上的其他資源估計與鏈 接目的地中的域名關聯的網站的頁面等級值。具體地,可以通過從諸如搜索 虧1擎www.valioo,com或www.google.com的某些網站或4壬4可其j也網頁活動性 或分級的源獲取數據來確定用于諸如網站的目的地的頁面等級值。在步驟24 中,比較與域名關聯的所確定的頁面等級值和與公知域名關聯的頁面等級值。 在步驟26中,基于該比較,給超鏈接分配頁面等級參數。在非限制的例子中, 頁面等級參數可以是引用被超鏈接的網站的網頁的數量和引用公知域名的網 頁的數量之間的關系的某種可配置的函數。最優選地,頁面等級參數是高頁 面等級網站的排序列表內的網站等級。可替換地,頁面等級參數可以是引用 被超鏈接的網站或特定網頁的引用的數量的測量。在步驟28中,比較被分配給URL的域名的頁面等級參數與可配置的閾 值,并且如果頁面等級參數在閾值以上,則在步驟29中,則評估終止,并且 使能超鏈接并且使該超鏈接可用于接收者的選擇而不警報或通知。但是,如 果所識別的域名的頁面等級參數在閾值以下,則在步驟34中,對于字符重復、 字符替換和指示誤導接收者的意圖的其他內容分析超鏈接的URL內的字符。 該分析可以包括分析超鏈接的URL關于被替換或代替的字符,比如用小寫字 母L代替數字一(l),重復本應該不重復的字母、省略的字母、復數、省略 的復數、以及標簽中的任何其他誤導字符。基于文檔的語言,被分析的字符 可能不同。在步驟36中,基于上述相似分析的結果,將相似性參數分配給 URL。相似性參數指示URL是否包含與公知或高頁面等級域名非常相似但是 稍有不同的域名。在步驟38中,分析域名的相似性參數,以確定超鏈接是否是誤導的。聯系圖2給出該確定的更詳細論述,圖2是圖示超鏈接是誤導的可能性的象限圖。域名的相似性參數的分析意要確定所識別的域名何時暗示著公知或高頁面等級域名(高相似性),而URL內的實際域名的頁面等級參數指示其不是 公知域名(步驟28中的低頁面等級)。如果在步驟38中沒發現超鏈接是誤導的,則在步驟40中,方法移至步 驟29并且終止,直到另一超鏈接需要分析(在步驟10從頭開始)。如果在步 驟38中發現超鏈接是誤導的,則在步驟40中,方法移至步驟42,并采取補 救行動。該補救行動可以只包括通知接收者電子文檔中所包含的超鏈接可能 是誤導的、廢除超鏈接、阻擋來自發送電子文檔處的地址、或任何其他行動。圖2是圖示通過本發明的方法做出的超鏈接的分類來確定電子文檔內所 包含的超鏈接是誤導的可能性的象限圖。帶有高頁面等級參數的域名將必然 具有高流量。這指示英特網用戶頻繁訪問,并且欺詐或誤導是不太可能的。 實質上在閾值之上的所分配的頁面等級參數指示超鏈接很有可能是安全的 50。與分配給該域名的低或者高相似性參數結合的分配給域名的高頁面等級 參數指示超鏈接很有可能是有效并且安全的50。盡管與該域名關聯的網站的 頁面等級值是低的,但是所識別的域名不與頻繁訪問的域名混淆地相似。因 此,通過超鏈接訪問的網站很有可能是帶有適當功能(niche following )的合 法網站。但是,該域名是被創建用于實施誘騙犯罪的可能性仍然存在。與分配給該域名的高相似性參數結合的分配給所識別的域名的低頁面等 級參數指示該超鏈接很有可能是誤導的54。在這種情況下,到與所識別的域 名關聯的網站的流量很少,并且所識別的域名與頻繁訪問的域名具有很高相 似性。由于相似性參數專門尋找被插入或省略以使域名看起來很像公知或具 有高頁面等級的域名的誤導字符,因而低頁面等級參數和高相似性參數的結 合指示具有很高可能性是誤導鏈接的超鏈接。相反,與分配給該域名的低相 似性參數結合的分配給域名的低頁面等級產生指示該超鏈接可能是良好超鏈 接52。圖3是能夠接收并打開諸如電子郵件消息的電子文檔并進行確保URL鏈 接的合法性的方法的計算機系統50的示意圖。系統50可以是以傳統個人計 算機50形式的通用計算設備。 一般地,個人計算機50包括處理單元51、系 統存儲器52和系統總線53,其中系統總線53把包括系統存儲器52的公知系統組件耦接到處理單元51。系統總線53可以是包括使用任何一種總線體 系的存儲器總線或存儲器控制器、外圍總線和本地總線的幾種總線結構的任 意一種。系統存儲器包括只讀存儲器(ROM) 54和隨機存取存儲器(RAM) 55。 將基本輸入/輸出系統(BIOS ) 56存儲在ROM54中,該基本輸入/輸出系統 (BIOS) 56包含了有助于比如在啟動期間、在個人計算機50內的元件之間 傳輸信息的基礎程序。計算機50還包括用于從硬盤57讀取或向其寫入的硬盤驅動57、用于從 可移動磁盤59讀取或向其寫入的磁盤驅動58以及用于從諸如CD-ROM或其 他光介質的—可移動光盤61讀取或向其寫入的光盤驅動60。硬盤驅動57、》茲 盤驅動58和光盤驅動60分別通過;更盤驅動4妻口 62、》茲盤驅動接口 63和光 盤驅動接口 64與系統總線53連接。盡管在此所述的示范環境采用了硬盤57、 可移動磁盤59和可移動光盤61,但是本領域技術人員應該意識到,在示范 操作環境中也可以使用能夠存儲可由計算機訪問的數據的其它類型的計算機 可讀介質,比如磁帶、閃存卡、數字視頻盤、Bernoulli編碼磁帶、RAM、 ROM 等。驅動和它們關聯的計算機可讀介質提供了計算機可執行指令、數據結構、 程序模塊和用于計算機50的其他數據的非易失性存儲。例如,可以將諸如網 絡瀏覽器66和電子郵件程序67的操作系統65和應用程序存儲在計算機50 的RAM 55和/或硬盤57中。用戶可以通過諸如鍵盤70的輸入設備和諸如鼠標71的定點設備 (pointing device )將指令和信息輸入到個人計算機50中。其他輸入設備(沒 有示出)包括麥克風、操縱桿、衛星天線、掃描儀等。這些和其他輸入設備 通常通過與系統總線53耦接的串口接口 68與處理單元51連接,而輸入設備 可以通過其他諸如并口、通用串行總線(USB)等的接口來連接。顯示設備 72也可以通過諸如視頻適配器69的接口與系統總線53連接。除了監視器外, 個人計算機一般包括其他外圍輸出設備(沒有示出),比如揚聲器和打印機。計算機50可以在聯網環境下使用與一個或多個遠程計算機74的邏輯連 接來操作。遠程計算機74可以是另一個人計算機、服務器、客戶端、路由器、 網絡PC、對等設備、主機、個人數字助理、與英特網連接的移動電話或其他 公共網絡節點。雖然遠程計算機74 —般包括多個或所有與計算機50有關的 上述元件,但是在圖中僅圖示了顯示設備75。圖中所示的邏輯連接包括局域網(LAN)76和廣域網(WAN) 77。這種聯網環境是辦公室中普通的、企業 廣泛使用的計算機網絡、企業內部互聯網和英特網。當被使用在LAN聯網環境中時,計算機50通常通過網絡接口或適配器 78被連接到局域網76。當被使用在WAN聯網環境中時,計算機50 —般包 括調制解調器79或用于在諸如英特網的WAN 77上建立高速通信的其他裝 置。可能是內部的或外部的調制解調器79通過串口接口 68與系統總線53連 接。在聯網環境下,可以將與個人計算機50有關的所示程序模塊或其部分存 儲在遠程存儲器存儲設備75中。將意識到,所示的網絡連接是示范性的,并 且可以使用在計算機間建立連接的其他裝置。可以將大量程序模塊,包括操 作系統65和瀏覽器66存儲在硬盤57、》茲盤59、光盤61 、 ROM 54、或RAM 55上。所述的計算機系統并不暗示體系結構限制。例如,本領域技術人員將意 識到,可以在包括手持設備、多處理器系統、基于微處理器的或可編程的消 費電子、網絡個人計算機、迷你計算機、主機計算機等的其他計算機系統配 置中實現本發明。還可以在分布式計算環境中實踐本發明,在分布式計算環 境中由通過通信網絡鏈接的遠程處理設備執行任務。在分布式計算環境中, 可已經被定位在邏輯和遠程存儲器存儲設備兩者中。應該將在此的權利要求和說明書中所使用的措辭"包括"、"包含"和"具 有"當作指示可以包括沒有示出的其他元件的開放組。應該采取措辭"一個 (a)"、"一個(an)"和單詞的單數形式以包括相同單詞的復數形式,以便這 些措辭意味著提供了某物的一個或多個。措辭"一個(one)"或"單個"可 以用于指示意指某物的一個或僅一個。類似地,當意指特定數量的某物時, 可以使用諸如"兩個"的其他特定整數值。措辭"優選地"、"作為優選"、"優 選"、"選擇地"、"可以"和類似措辭可以用于指示所指的項目、條件或步驟 是本發明的可選(不是要求的)特征。雖然已經關于有限數量的實施例描述了本發明,但是從本公開受益的本 領域技術人員將意識到,不脫離如在此公開的本發明的范圍,可以設計其他 實施例。因此,本發明的范圍應當僅受所附權利要求的限制。
權利要求
1.一種方法,包括識別電子文檔內的超鏈接,其中該超鏈接包括域名;以及如果確定所述域名與小于閾值的頁面等級值關聯并且如果確定所述域名相對于與大于該閾值的頁面等級值關聯的另一域名具有一個或多個誤導字符替換、添加或刪除,則針對該超鏈接的使用自動地采取補救行動。
2. 如權利要求l所述的方法,其中,通過以下步驟確定所述域名與小于 閾值的頁面等級值關聯如果所識別的域名出現在具有預定頁面等級值的域名的列表中,則分配 與所識別的域名關聯的預定頁面等級值;以及如果所識別的域名沒有出現在所述列表中,則根據所識別的域名的頁面 等級值和所述列表中的域名的頁面等級值來分配頁面等級參數。
3. 如權利要求l所述的方法,其中通過以下步驟確定所述域名具有一個 或多個誤導字符替換、添加或刪除識另纟所識另'j的域名和所列的域名的至少 一 個之間的差異;以及 找出在誤導字符替換、添加或刪除的列表中的每個所識別的差異。
4. 如權利要求3所述的方法,其中如果在沒有一個或多個誤導字符替換、 添加或刪除的情況下、所識別的域名將與所列域名中的一個相匹配,則確定 所識別的域名具有 一 個或多個誤導字符。
5. 如權利要求l所述的方法,還包括 比較鏈接標簽與所識別的域名的相似性。
6. 如權利要求l所述的方法,其中所述補救行動包括通知用戶所述超鏈 接很有可能是誤導的。
7. 如權利要求1所述的方法,其中,所述補救行動包括阻擋所述超鏈接。
8. 如權利要求3所述的方法,其中識別差異的步驟還包括字符。 'z — ' 、 " ' 5' '
9. 一種計算機系統,包括用于識別電子文檔內的超鏈接的裝置,其中該超鏈接包括域名; 用于如果確定所述域名與小于閾值的頁面等級值關聯并且如果確定所述域名相對于與大于該閾值的頁面等級值關聯的域名具有一個或多個誤導字符 替換、添加或刪除,則針對該超鏈接的使用自動采取補救行動的裝置。
全文摘要
一種用于驗證超鏈接的合法性并確定用戶被引導到的網站的域名是否合法的方法。在一個實施例中,本方法識別超鏈接、超鏈接內的URL以及URL內的域名。然后給所識別的域名分配頁面等級參數。如果該頁面等級參數在閾值以下,則本方法比較所識別的域名與公知或高頁面等級域名的列表。然后將相似性參數分配給所識別的域名,以指示該域名是否是誤導的。如果該鏈接是誤導的,本方法可以實施某些可配置的補救行動,比如警告用戶或廢除超鏈接。
文檔編號G06F21/20GK101221611SQ200810003110
公開日2008年7月16日 申請日期2008年1月10日 優先權日2007年1月11日
發明者卡里·L·貝茨, 詹姆斯·E·凱里, 賈森·J·伊爾格 申請人:國際商業機器公司