專利名稱:使用加權字典和正規(guī)化來進行文字攻擊性檢測和處理的系統(tǒng)和方法
技術領域:
本公開大體而言涉及用于識別將認為對于用戶或系統(tǒng)所有者而言具有攻擊性的語言的計算機實施的系統(tǒng)和方法。
背景技術:
淫穢(Obscenity)(在拉丁語中,obscenus,表示“污穢、令人厭惡、可憎的”)為最常用于描述攻擊性的表達(文字、短語、圖像、動作)的用語。淫穢的定義因文化不同,在單個文化內的社區(qū)之間以及在這些社區(qū)內的個人之間而不同。許多文化制定了法律來限定哪些認為是淫穢的或者另外具有攻擊性,且常常使用審查制度來試圖抑制或控制屬于這些定義內的材料。各種國家對于他們作為法人允許他們的公民訪問和在他們本地人口中宣傳的材料類型具有不同的標準。這些國家許可的內容廣泛不同,且某些對于違反限制的人具有極端的懲罰。但是,雖然訪問這些類型的內容可能在一個社會中導致懲罰,該內容在另一社會中可能會被很好地接受。
發(fā)明內容
根據本文所提供的教導內容,提供了用于識別將認為對于用戶或系統(tǒng)所有者而言淫穢或另外具有攻擊性的語言的實施的系統(tǒng)和方法。舉例而言,一種系統(tǒng)和方法可被配置為:使用一個或多個處理器來接收多個攻擊性文字,其中在多個攻擊性文字中的每個相應攻擊性文字與識別該文字的攻擊性的嚴重性評分相關聯。接收文字串,其中候選文字選自所述文字串;且可計算在候選文字與多個攻擊性文字中的每個攻擊性文字之間的距離??捎嬎愫蜻x文字的多個攻擊性評分,每個攻擊性評分是基于在候選文字與該攻擊性文字之間的距離和攻擊性文字的嚴重性評分。對候選文字是否為攻擊文字(offender word)做出判斷,其中在多個攻擊性評分中的最高攻擊性評分超過攻擊性閾值時認為候選文字為攻擊性文字。一種系統(tǒng)和方法還利用 Levenshtein 距離、Hamming 距離、Damerau-Levenshtein距離、Dice系數、或Jaro-Winkler距離作為在候選文字與每個攻擊性文字之間的距離。攻擊性閾值由服務管理員設置;其中文字串從用戶輸入到服務;以及其中如果在文字串中的候選文字由于具有超過服務管理員所設置的攻擊性閾值的攻擊性評分而被識別為攻擊文字,則拒絕從所述用戶到服務的輸入。該服務為內容評論入口,其中攻擊性閾值基于下列之一來設置:被評論的內容所存在的類型;攻擊性閾值相關聯的特定內容;或者內容的第三方內容分級。該服務選自下列:留言板、內容評論入口、聊天室、電子布告欄系統(tǒng)、社交網站或者多人游戲。一種系統(tǒng)和方法可具有由服務的用戶設置的攻擊性閾值,其中文字串為從服務到用戶的有意輸出;其中包含因攻擊性評分超過用戶設置的攻擊性閾值而被識別為攻擊文字的文字串在顯示給用戶之前被修改??赏ㄟ^刪除文字串使得該文字串并不顯示給用戶或者通過刪改(censor)文字串使得不顯示攻擊性文字來修改該文字串。攻擊性文字的默認類別和默認攻擊性閾值可基于用戶當地的文化規(guī)范來設置。對用戶設置最大攻擊性閾值,其中用戶不能設置高于最大攻擊性閾值的攻擊性閾值?!N系統(tǒng)和方法可根據下式來計算候選文字的攻擊性評分:攻擊性評分=A*((B-C)/B);其中A為在多個攻擊性文字中的攻擊性文字的嚴重性評分;其中B為所述攻擊性文字的長度的函數;以及其中C為在候選文字與攻擊性文字之間的計算的距離。多個攻擊性文字和識別多個攻擊性文字中每一個的嚴重性評分由用戶、服務管理員、第三方或其組合來識別。識別多個攻擊性文字可包括識別多個可能攻擊性文字的子列表(其中每個子列表包括可能攻擊性文字的類別),接收攻擊性的文字的類別的標識,且識別多個攻擊性文字為包含于被認為攻擊性的文字類別中的一個或多個中的可能的攻擊性文字。識別攻擊性文字類別可由服務管理員或由服務的用戶來識別。最高攻擊性評分為下列之一:比較多個攻擊性文字中的每一個與候選文字而計算的最小值攻擊性評分;或者比較多個攻擊性文字中的每一個與候選文字而計算的最大值攻擊性評分。
圖1描繪了其中用戶可與攻擊性文字識別器互動的計算機實施的環(huán)境。圖2為描繪用于識別文字串中的攻擊性文字的攻擊性文字識別器的框圖。圖3為描繪了攻擊性文字列表的示例源或者對于攻擊性文字列表上的文字的貢獻。圖4A和圖4B描繪了示例攻擊性文字列表。圖5為描繪了示例攻擊性文字識別器的選定細節(jié)的框圖。圖6為利用Levenshtein距離計算來描繪攻擊性文字識別器的框圖。圖7為描繪用作輸入過濾器的攻擊性文字識別器的框圖。圖8為描繪用作輸出過濾器的攻擊性文字識別器的框圖。圖9為描繪包括于攻擊性文字列表上的文字標識的框圖。圖10為示例用戶界面,其中,用戶可選擇用戶認為是攻擊性的文字類別來生成攻擊性文字列表且選擇攻擊性閾值。圖11為描繪了攻擊性文字識別器的框圖,攻擊性文字識別器利用用戶位置閾值最大值來設置用于標志攻擊文字的閾值。圖12描繪了示例界面,其中攻擊性文字識別器可用作輸入過濾器。圖13描繪了示例用戶界面,其中攻擊性文字識別器可用作輸出過濾器。圖14為描繪了識別文字串中的攻擊文字的方法的流程圖。
具體實施例方式圖1描繪了其中用戶102可與攻擊性文字識別器104互動的計算機實施的環(huán)境。攻擊性文字識別器104提供用于節(jié)制讀者或媒體論壇的提供商認為是攻擊性的語言的框架。內容管理系統(tǒng)可用于多種情形中。例如,留言板操作者可配置此留言板的攻擊性閾值。用戶留言板帖子可被解析,帖子的文字被詳細檢查攻擊性閾值,且包含超過攻擊異性閾值的一個或多個用語的帖子可被拒絕、修改以節(jié)制攻擊性(例如,符號的使用可用于刪改攻擊性用語:####、i%~#等)或以其它方式節(jié)制。在另一示例中,諸如留言板的系統(tǒng)的用戶可配置表示其對攻擊性語言的個人敏感性的攻擊性閾值。用戶請求查看的留言板張貼中的內容然后可在通過帖子呈現給用戶之前被詳細檢查。包含超過用戶攻擊性閾值的一個或多個用語的帖子可被隱藏不讓用戶看到,可給出警告,包括用戶查看包括攻擊性語言的帖子的鏈接,或者可修改該帖子以節(jié)制攻擊性,諸如通過使用符號來刪改有異議的用語。在另一示例中,攻擊性文字識別器104可用于到系統(tǒng)的輸入和自系統(tǒng)的輸出中。例如,在允許張貼內容評論(諸如新發(fā)行的電影的評論)的在線服務中,網站所有者可設置將應用的一個或多個攻擊性閾值(例如對于內容評論服務的用戶帖子)。例如,網站所有者可在包含適合于兒童的主題的電影(例如,G級電影)類別的評論中對于認為攻擊性的用語設置很低閾值,而可對于包括更成人主題的電影類別(例如,R級電影)設置更高的攻擊性閾值。然后類別攻擊性閾值可應用于用戶評論,其中包含認為對于該類別而言是攻擊性的用語的帖子可被拒絕或以其它方式節(jié)制。在內容評論服務處的輸入過濾器可與一個或多個額外個別用戶攻擊性過濾器協同工作。個別用戶可為其查看體驗來標識個人化的攻擊性閾值。然后將呈現給該用戶的內容評論的文本可在向該用戶呈現評論之前被仔細審查。包含超越了用戶攻擊性閾值的一個或多個用語的帖子可隱藏不讓看到或以其它方式節(jié)制。攻擊性文字識別器也可用于多種其它情形。例如,在社交網站,用戶能向其自己的“墻”設置帖子中用語的攻擊性閾值,同時也設置應用于自該社交網站呈現給該用戶的內容的個人攻擊性閾值。在另一示例中,在公共圖書館,一般的公共贊助人攻擊性閾值可設置為低閾值,而圖書管理員可被允許經由更少限制閾值來設置更松的過濾器。在另一示例中,在大型多人在線角色扮演游戲(MMORPG)中,游戲設計者可設置用戶在玩游戲體驗中能“用語言表達”的特定容忍度。比默認容忍度更具攻擊性的語言將會被輸入過濾器拒絕。游戲玩家(或玩家父母)也可設置對于語言的特定容忍度從而可防止在玩家的屏幕上顯示使之“進入游戲”的語言。攻擊性文字識別器104也可用于適應地區(qū)攻擊性標準。例如,對于攻擊性語言具有低閾值的某些國家可防止公民訪問被爬蟲發(fā)現有攻擊性語言的網站??蓪τ谧阅切﹪业脑L問者,包括爬蟲,設置較低攻擊性閾值以便不引起可能在該國家導致網站禁止的攻擊性拒絕理由。然后可允許自該國家的用戶設置低于國家最大值而不是高于它的個人閾值。在其它配置中,國家攻擊性閾值可為默認用戶攻擊性閾值,但可允許用戶根據其需要而調整他們的個人閾值更高或更低。攻擊性文字識別器104也可用于離線內容。例如,時事通訊用戶可具有在印刷時根據其用戶攻擊性閾值過濾的時事通訊的個人紙質拷貝。同樣,數字書可根據用戶個人攻擊性閾值而遞送給用戶設備或者在用戶設備上顯示。攻擊性文字識別器104也可用于其它環(huán)境中,諸如文本至語音實施方式。例如,經由文本至語音技術而數字發(fā)音的書中的語言可被刪除或修改以防止超越用戶攻擊性閾值的文字的數字語音。攻擊性文字識別器104可通過允許所有者和/或用戶過濾攻擊性語言以維持內容標準且提供滿足內容用戶的攻擊性容忍度的內容而提高了內容門戶和媒體的能力和靈活性。內容管理系統(tǒng)104包含用于識別文字串中的攻擊文字的操作或例程。用戶102可通過多種方式,諸如通過一個或多個網絡108與攻擊性文字識別器104互動??赏ㄟ^(網絡)網絡108訪問的一個或多個服務器106能主控攻擊性文字識別器104。一個或多個服務器106對于一個或多個數據貯存器110做出響應來向攻擊性文字識別器104提供數據。在包含于一個或多個數據貯存器110中的數據中可存在便于識別攻擊文字的攻擊性文字112和攻擊文字(例如,作為文字串的部分)嚴重性114的集合。圖2為描繪了用于識別文字串中的攻擊性文字的攻擊性文字識別器202的框圖。用于分析的一個或多個文字的串204被提供為攻擊性文字識別器202的輸入。攻擊性文字識別器202也對于攻擊性文字列表206做出響應,攻擊性文字列表206包含要與一個或多個文字的串204進行比較的文字列表。基于用于分析的文字串204和攻擊性文字列表206,攻擊性文字識別器202標志認為可能是攻擊性的用于分析的一個或多個文字的串204中的任何攻擊文字。 例如,使用攻擊性文字的集合(例如,褻瀆、猥褻、憎恨言論、淫蕩、冒瀆、瀆神、破壞性等)作為具有分配給它們的各種“嚴重性”評分的攻擊性文字列表206,攻擊性文字識別器202可確定從候選文字(在一個或多個文字的串204中)的候選文字到攻擊性文字列表206上的文字的距離,來識別在一個或多個文字的串204中的文字“與不良文字的差異有多少”。與不良文字的差異可結合“不良”文字的嚴重性評分用于生成候選文字的攻擊性評分。如果比較候選文字與攻擊性文字列表206上的多個文字所生成的最高攻擊性評分大于攻擊性閾值,那么候選文字可認為是攻擊文字(例如,可能對于閾值設置者而言具有攻擊性)。這樣的攻擊性文字識別器202可防止通過對攻擊性文字進行微小調整(例如,插入微小錯拼,利用看起來類似字母的標點,在字母之間插入空格或標點)而避開攻擊性文字識別器202的許多嘗試。攻擊性文字列表的內容可來自多種來源。圖3為描繪了攻擊性文字列表302的示例源或者對于攻擊性文字列表302上的文字的貢獻。例如,可由網站管理員304生成攻擊性文字列表302。網站管理員304 (或網站管理員304委任這種指責的其它控制人員)可識別認為是攻擊性的文字列表(例如,不應允許出現在其網站上),且單獨地或結合攻擊性文字識別器利用該文字列表作為攻擊性文字列表302。攻擊性文字列表302也可由向其呈現內容的用戶306生成。用戶306可標識在查看內容時不想閱讀的文字,且那些標識的文字可作為攻擊性文字列表302呈遞給攻擊性文字識別器。攻擊性文字列表302也可由第三方(例如,并非網站管理員304或用戶306的某人)提供。第三方可標識常常認為是攻擊性的文字集合。這樣的文字列表可作為攻擊性文字列表302提供給攻擊性文字識別器。攻擊性文字列表302也可由網站管理員304、用戶306、第三方提供者和/或其他人生成以用于攻擊性文字識別器。例如,網站管理員可向用戶呈現可為了其自己的目的而定制的“默認”文字列表。在另一示例中,用戶可共用攻擊性文字列表。在另一示例中,攻擊性文字列表302可基于用戶與已經限定的攻擊性文字列表的另一組用戶的相似性來創(chuàng)建。圖4A和圖4B描繪了示例攻擊性文字列表。在圖4A的示例中,攻擊性文字列表402包括被認為是攻擊性的文字集合以及與攻擊性文字列表402中的文字中的每一個相關聯的嚴重性評分。攻擊性文字列表402可例如存儲為相關數據庫中的表。嚴重性評分可指示文字的攻擊性程度。例如,某些四字母長度文字比有些人認為是攻擊性的其它用語更認為有攻擊性。嚴重性評分表示與其它文字相比這些文字的攻擊性程度。在與主流美國文化相關的實施方式中,“F文字”在數據庫中可具有最高評分,而文字“Tienneman”可不存在于該特定數據庫中。在例如可與亞洲文化的某些社區(qū)有關的另一示例中,文字“ T i enn eman ”將具有很高等級,而“F文字”將不存在于該特定數據庫中。圖4B描繪了并不包括該列表上的文字的嚴重性評分的攻擊性文字列表404。在攻擊性文字列表404上的每個文字可認為總體上是攻擊性的。在確定圖4B的攻擊性文字列表404上的文字的攻擊性評分時,在該列表上的文字中每一個可認為具有相等的嚴重性評分,例如1,且施加給被分析的文字的閾值可相應地調整。此外,任一示例數據庫可任選地包含變換函數集,其允許系統(tǒng)匹配文字的變化與其變型。在數據庫并不包含這樣的變換函數的情況下,變換函數集可任選地動態(tài)地確定。變換函數的一個示例為將字符當做字符‘a’的常規(guī)表達。圖5為描繪了示例攻擊性文字識別器502的選定細節(jié)的框圖。攻擊性文字識別器502接收用于分析的一個或多個文字的串504和攻擊性文字列表506。候選文字可以多種方式從用于分析的一個或多個文字的串504來識別。例如,在空格或標點之間的字符的記號可確定為用于由攻擊性文字識別器502分析的候選文字或短語。此外,可從用于分析的文字串504移除空格和標點,且可將其余字符的不同長度的組作為候選文字510提供給攻擊性文字識別器502,在多個候選文字的長度作為在一個或多個文字的串504中當前位置的候選文字510提供之后,將一個字符在一個或多個文字的串504中右移。變換函數513可應用于候選文字510以識別可能隱藏在一個或多個文字的串504中的備選候選文字。例如,在候選文字中的所有符號可基于其相似的外觀而變換為“a”。然后在用于分析的文字串504中的候選文字510 (或者變換的候選文字)與攻擊性文字列表506中的每個文字512之間執(zhí)行距離計算508。例如,距離計算可利用Levenshtein距離計算。Levenshtein可由以下代碼來實
施:
權利要求
1.一種方法,其包括: 使用一個或多個處理器來接收多個攻擊性文字,其中在所述多個攻擊性文字中的每個相應攻擊性文字與標識該相應文字的攻擊性的嚴重性評分相關聯; 接收文字串,其中候選文字選自所述文字串; 對于在所述多個攻擊性文字中的每個相應攻擊性文字,計算候選文字與所述相應攻擊性文字之間的距離; 計算所述候選文字的多個攻擊性評分,所述多個攻擊性評分中的每個攻擊性評分基于(i )在所述候選文字與所述多個攻擊性文字中的攻擊性文字之間的所計算的距離和(ii )所述攻擊性文字的嚴重性評分;以及 基于所述候選文字的多個攻擊性評分中的最高評分是否超過了攻擊性閾值來判斷所述候選文字是否為攻擊文字。
2.根據權利要求1所述的方法,其特征在于,所述多個攻擊性文字中的每個文字和所述文字串中的每個文字包括簡寫、單個文字、短語或句子。
3.根據權利要求1所述的方法,其特征在于,所述距離被計算為=Levenshtein距離、Hamming 距離、Damerau-Levenshtein 距離、Dice 系數、Sfflrensen 相似性指數、或Jaro-Winkler 距離。
4.根據權利要求1所述的方法,其特征在于,所述攻擊性閾值由服務管理員設置; 其中所述文字串從用戶輸入到服務;以及 其中如果在所述文字串中的候選文字由于具有超過所述服務管理員所設置的攻擊性閾值的攻擊性評分而被 識別為攻擊文字,則拒絕自所述用戶到所述服務的輸入。
5.根據權利要求4所述的方法,其特征在于,所述服務為內容評論入口,且其中所述攻擊性閾值基于下列之一來設置:其中存在被評論的內容的內容分組;所述攻擊性閾值相關聯的特定內容;以及內容的第三方內容分級。
6.根據權利要求5所述的方法,其特征在于,所述內容分組包括主題的特定分類、類型、地理原產地,其中所述地理包括國家、州、城市、公國或者它們的區(qū)域或子區(qū)域的集合,專業(yè)或政府認證或分級的組、或行業(yè)節(jié)日或事件精選。
7.根據權利要求4所述的方法,其特征在于,所述服務選自下列的組: 留言板、內容評論入口、聊天室、電子布告欄系統(tǒng)、社交網站和多人游戲。
8.根據權利要求1所述的方法,其特征在于: 所述攻擊性閾值由服務用戶來設置; 所述文字串為從所述服務到所述用戶的有意輸出;以及 包含因攻擊性評分超過所述用戶設置的所述攻擊性閾值而被識別為攻擊文字的文字串在顯示給所述用戶之前被修改。
9.根據權利要求8所述的方法,其特征在于,根據下列之一來修改所述文字串: 刪除所述文字串使得所述文字串并不顯示給所述用戶; 從所述文字串刪除所述攻擊性文字使得所述攻擊性文字不顯示給所述用戶; 刪改所述文字串使得所述文字串并不顯示給所述用戶;或者, 從所述文字串刪改所述攻擊性文字使得所述攻擊性文字不顯示給所述用戶。
10.根據權利要求8所述的方法,其特征在于,所述多個攻擊性文字和攻擊性閾值是基于對所述用戶所確定的文化規(guī)范來設置。
11.根據權利要求8所述的方法,其特征在于,所述多個攻擊性文字和攻擊性閾值基于政府機構限定的定義來設置,所述政府機構對于用戶或者與所述用戶相關聯的非政府機構具有管轄權。
12.根據權利要求8所述的方法,其特征在于,對于用戶設置最大攻擊性閾值,且其中所述用戶不能設置高于所述最大攻擊性閾值的攻擊性閾值。
13.根據權利要求1所述的方法,其特征在于,包含因攻擊性評分超過所述設置的攻擊性閾值而被識別為攻擊文字的文字串被拒絕輸入到所述系統(tǒng)內。
14.根據權利要求1所述的方法,其特征在于,候選文字的攻擊性評分根據下式來計算: 攻擊性評分=A* ((B-C)/B); 其中, A為在所述多個攻擊性文字中的攻擊性文字的嚴重性評分; B為所述攻擊性文字的長度的函數;以及 C為在所述候選文字與所述攻擊性文字之間的計算的距離。
15.根據權利要求1所述的方法,其特征在于,候選文字的攻擊性評分根據下式來計算: 攻擊性評分=A* ((B- (1/C) /B); 其中, A為在所述多個攻擊性文字中的攻擊性文字的嚴重性評分; B為所述攻擊性文字的長度的函數;以及 C為在所述候選文字與所述攻擊性文字之間的計算的距離。
16.根據權利要求1所述的方法,其特征在于,候選文字的攻擊性評分根據下式來計算: 攻擊性評分=Max (((A-C) /A),O); 其中, A為在所述多個攻擊性文字中的攻擊性文字的嚴重性評分;以及 C為在所述候選文字與所述攻擊性文字之間的計算的距離。
17.根據權利要求1所述的方法,其特征在于,候選文字的攻擊性評分根據下式來計算: 攻擊性評分=(((B-C)/B) > T); 其中, 攻擊性文字的嚴重性評分具有為I的隱含值; B為所述攻擊性文字的長度的函數;以及 C為在所述候選文字與所述攻擊性文字之間的計算的距離。
18.根據權利要求1所述的方法,其特征在于,所述多個攻擊性文字和標識所述多個攻擊性文字中每一個的嚴重性評分由用戶、服務管理員、第三方或其任何組合來標識。
19.根據權利要求1所述的方法,其特征在于,所述最高攻擊性評分為下列之一: 比較所述多個攻擊性文字中的每一個與所述候選文字而計算的最小值攻擊性評分;或者 比較所述多個攻擊性文字中的每一個與所述候選文字而計算的最大值攻擊性評分。
20.一種計算機實施的系統(tǒng),包括: 數據處理器; 計算機可讀存儲器,其利用指令編碼以命令所述數據處理器來執(zhí)行包括下列的步驟:使用一個或多個處理器來接收多個攻擊性文字,其中在所述多個攻擊性文字中的每個相應攻擊性文字與標識該相應文字的攻擊性的嚴重性評分相關聯; 接收文字串,其中候選文字選自所述文字串; 對于在所述多個攻擊 性文字中的每個相應攻擊性文字,計算候選文字與所述相應攻擊性文字之間的距離; 計算所述候選文字的多個攻擊性評分,所述多個攻擊性評分中的每個攻擊性評分基于(i)所述候選文字與所述多個攻擊性文字中的攻擊性文字之間的所計算的距離,和(ii)所述攻擊性文字的嚴重性評分;以及 基于所述候選文字的多個攻擊性評分中的最高評分是否超過了攻擊性閾值來判斷所述候選文字是否為攻擊文字。
21.根據權利要求20所述的系統(tǒng),其特征在于,在所述多個攻擊性文字中的每個文字和所述文字串中的每個文字包括簡寫、單個文字、短語或句子。
22.根據權利要求20所述的系統(tǒng),其特征在于,所述距離被計算為=Levenshtein距離、Hamming 距離、Damerau-Levenshtein 距離、Dice 系數、Serensen相似性指數、或Jaro-Winkler 距離。
23.根據權利要求20所述的系統(tǒng),其特征在于,所述攻擊性閾值由服務管理員設置; 其中所述文字串從用戶輸入到服務;以及 其中如果在所述文字串中的候選文字由于具有超過所述服務管理員所設置的攻擊性閾值的攻擊性評分而被識別為攻擊者字,則拒絕從所述用戶向所述服務的輸入。
24.根據權利要求23所述的系統(tǒng),其特征在于,所述服務為內容評論入口,且其中所述攻擊性閾值基于下列之一來設置:其中存在所述被評論的內容的所述內容的分組;所述攻擊性閾值相關聯的特定內容;以及內容的第三方內容分級。
25.根據權利要求24所述的系統(tǒng),其特征在于,所述內容分組包括主題的特定分類、類型、地理原產地,其中所述地理包括國家、州、城市、公國或者它們的區(qū)域或子區(qū)域的集合,專業(yè)或政府認證或分級的組、或行業(yè)節(jié)日或事件精選。
26.根據權利要求23所述的系統(tǒng),其特征在于,所述服務選自下列的組: 留言板、內容評論入口、聊天室、電子布告欄系統(tǒng)、社交網站和多人游戲。
27.根據權利要求20所述的系統(tǒng),其特征在于,: 所述攻擊性閾值由服務用戶來設置; 所述文字串為從所述服務到所述用戶的有意輸出;以及 包含因攻擊性評分超過所述用戶設置的所述攻擊性閾值而被識別為攻擊文字的文字串在顯示給所述用戶之前被修改。
28.根據權利要求27所述的系統(tǒng),其特征在于,根據下列之一來修改所述文字串: 刪除所述文字串使得所述文字串并不顯示給所述用戶;從所述文字串刪除所述攻擊性文字使得所述攻擊性文字不顯示給所述用戶; 刪改所述文字串使得所述文字串并不顯示給所述用戶;或者, 從所述文字串刪改所述攻擊性文字使得所述攻擊性文字不顯示給所述用戶。
29.根據權利要求27所述的系統(tǒng),其特征在于,所述多個攻擊性文字和攻擊性閾值是基于對于所述用戶所確立的文化規(guī)范來設置。
30.根據權利要求27所述的系統(tǒng),其特征在于,所述多個攻擊性文字和攻擊性閾值基于政府機構限定的定義來設置,所述政府機構對于用戶或者與所述用戶相關聯的非政府機構具有管轄權。
31.根據權利要求27所述的系統(tǒng),其特征在于,對于用戶設置最大攻擊性閾值,且其中所述用戶不能設置高于所述最大攻擊性閾值的攻擊性閾值。
32.根據權利要求20所述的系統(tǒng),其特征在于,包含因攻擊性評分超過所述設置的攻擊性閾值而被識別為攻擊文字的文字串被拒絕輸入到所述系統(tǒng)內。
33.根據權利要求20所述的系統(tǒng),其特征在于,候選文字的攻擊性評分根據下式來計算: 攻擊性評分=A* ((B-C)/B); 其中, A為在所述多個攻擊性文字中的攻擊性文字的嚴重性評分; B為所述攻擊性文字的長度的函數;以及 C為在所述候選文字與所述攻擊性文字之間的計算的距離。
34.根據權利要求20所述的系統(tǒng),其特征在于,候選文字的攻擊性評分根據下式來計算: 攻擊性評分=A* ((B- (1/C) /B); 其中, A為在所述多個攻擊性文字中的攻擊性文字的嚴重性評分; B為所述攻擊性文字的長度的函數;以及 C為在所述候選文字與所述攻擊性文字之間的計算的距離。
35.根據權利要求20所述的系統(tǒng),其特征在于,候選文字的攻擊性評分根據下式來計算: 攻擊性評分=Max (((A-C) /A),O); 其中, A為在所述多個攻擊性文字中的攻擊性文字的嚴重性評分;以及 C為在所述候選文字與所述攻擊性文字之間的計算的距離。
36.根據權利要求20所述的系統(tǒng),其特征在于,候選文字的攻擊性評分根據下式來計算: 攻擊性評分=(((B-C)/B) > T); 其中, 攻擊性文字的嚴重性評分具有為I的隱含值; B為所述攻擊性文字的長度的函數;以及 C為在所述候選文字與所述攻擊性文字之間的計算的距離。
37.根據權利要求20所述的系統(tǒng),其特征在于,所述多個攻擊性文字和標識所述多個攻擊性文字中每一個的嚴重性評分由用戶、服務管理員、第三方或其任何組合來確定。
38.根據權利要求20所述的系統(tǒng),其特征在于,所述最高攻擊性評分為下列之一: 比較所述多個攻擊性文字中的每一個與所述候選文字而計算的最小值攻擊性評分;或者 比較所述多個攻擊性文字中 的每一個與所述候選文字而計算的最大值攻擊性評分。
全文摘要
本發(fā)明提供了用于識別將認為是對于用戶或系統(tǒng)所有者而言淫穢或另外具有攻擊性的語言的計算機實施的系統(tǒng)和方法。接收到多個攻擊性文字,其中每個攻擊性文字與標識該文字的攻擊性的嚴重性評分相關聯。接收文字串。計算在候選文字與多個攻擊性文字中的每個攻擊性文字之間的距離,且計算候選文字的多個攻擊性評分,每個攻擊性評分是基于在候選文字與該攻擊性文字之間的距離和攻擊性文字的嚴重性評分。關于候選文字是否為攻擊文字做出判斷,其中在多個攻擊性評分中的最高攻擊性評分超過攻擊性閾值時認為候選文字為攻擊性文字。
文檔編號G06F17/30GK103098050SQ201180017473
公開日2013年5月8日 申請日期2011年1月28日 優(yōu)先權日2010年1月29日
發(fā)明者約瑟夫·L·斯皮爾斯 申請人:因迪普拉亞公司