專利名稱::利用文字形體特征攜帶水印信息的文本數字水印技術的制作方法
技術領域:
:本發明屬于通信與信息工程領域,具體涉及數據的編碼與加碼、數字水印技術,聚焦于解決國內網絡小說VIP章節反盜版的技術問題
背景技術:
:隨著網絡生活的普及,電子出版的商業模式得到商家和用戶的青睞,特別是以起點為代表的國內小說網站的興起,讀者可以通過網絡用低廉的價格訂閱小說中的單篇(即VIP章節),不用整本地購買,而作者可以通過網絡寫作獲得,小說網站可以獲得分成,這是一個三贏的商業模式。不過一些小網站,利用已經注冊的VIP帳號,看完了VIP章節之后把截圖下來,放到自己網站去,獲得流量賣廣告獲得收益。這種做法等于寄生在以起點為代表的正規大型小說網站,助長了盜版風氣,嚴重影響正規大型小說網站的營運。傳統的數字水印技術和理論面對這些一種現實的盜版行為,保護力度顯得蒼白無力。大體有兩大類的保護方法一是把要保護的小說文章制作成圖片,利用圖像數字水印技術,如底紋加密和在圖像內添加隱藏信息,二是在被保護文章被制作成圖片前利用文本水印技術。代表文章"二值文本數字水印技術的研究與仿真"(系統仿真學報,作者王惠琴,李人厚)和"基于文本內容的數字水印算法的設計與實現"(計算機工程與設計,作者舒后,楊潮,何薇,杜娟)。現在網絡小說網站基本上是綜合這兩大類保護辦法來實現反盜版技術。通過分析之前網絡小說VIP章節的防盜版技術以及相關的數字水印技術,發現被保護的內容和防盜版的內容之間是"分開"的,即去除了防盜版的內容,剩下的就是被保護的內容。只要在網絡小說VIP章節的圖像上找到兩種內容的區分條件,去除掉防盜版的內容,盜版者可以和正版用戶一樣閱讀作品。被保護的內容和防盜版的內容之間的"分開"具體體現為兩個方面第一個方面比較直觀,就是被保護的內容圖像和防盜版的編碼內容圖像是分開的。比如在VIP章節圖像中添加可視的編碼底紋,或者添加肉眼識別不出的色彩編碼組合點等。因為保護內容——文檔文字比較簡單,文檔文字與背景兩者的圖像顏色可以認為是二值圖像,防盜版的編碼內容圖像顏色實質是第三值,它可以接近或等于背景顏色,但絕對不能,或者不能大面積接近和等于文檔文字顏色,不然文檔會變成不可讀,那么因為文檔文字顏色與編碼內容圖像顏色之間存在距離,所以就存在分開兩者的技術手段;第二個方面比較抽象點,就是被保護的內容圖像的閱讀和防盜版的編碼內容圖像的閱讀是分開的。把讀者閱讀小說抽象成一個簡單模型"看到文字的形一〉識別文字意思",讀者閱讀小說簡單說就是重復前面那個模型,并把識別的文字意思連貫起來形成想象。前面說的被保護的內容圖像的閱讀就是"看到文字的形一〉識別文字意思"這個模型。傳統數字水印技術中有一些是利用段落間距、字間距、文字的拓撲結構或者空格等一些與前面模型無關文檔元素來編碼,簡單抽象防盜版的編碼內容圖像的閱讀模型是"看到非文字的形的顯示圖像》識別編碼信息"。因為兩個模型存在"距離",那么也就存在分開兩者的技術手段。除了上面兩大類保護辦法外,還有一些小手段,如起點最近采用了在不重要段落、不顯眼段落添加有意義的字句,這個大概上可以歸入第二類保護辦法,不過這個辦法很容易被察覺,不是長久的辦法。另外還有是基于內容的文本數字水印技術,不過還沒有成熟的基于內容嵌入數字水印的解決方案,只有一些簡化方案,如利用漢字的同義字或者同音字,但存在攜帶信息小和容易被識破的缺點。
發明內容本發明要解決的技術問題是在不太影響閱讀習慣的前提下,保存網絡小說VIP章節中的編碼信息,當被保護的網絡小說VIP章節被截圖后非法分享時,能夠從盜版圖片中讀出編碼信息,從而識別泄露電子出版物的用戶,達到阻止盜版泛濫。針對以前技術的不足,本發明提出一個解決方案,在不太影響閱讀習慣的前提下,把被保護的內容和防盜版的內容緊密聯系在一起,使到盜版者很難在在網絡小說VIP章節的圖像上把兩者分割。這個解決方案即為利用文字形體特征攜帶水印信息的文本數字水印技術。因為本發明是聚焦于解決網絡小說VIP章節反盜版,特別是國內的技術問題,加上本發明涉及文字形體,所以下面根據漢字的特性來設計和說明解決方案。基本原理是通過適當地選擇文字的幾種形體,并對文字的形體特征進行編碼,利用文字的形體變化來攜帶數字水印信息。漢字的形體包括字體和字形兩個方面。漢字的形體變化十分豐富。同一個漢字可以書寫成隸、楷、行、草等不同字體,同一種字形有印刷體與手寫體之分印刷體有不同字號,手寫體風格又因人而異。另外,雖然漢字是方塊字,但印刷和書寫中又有長體、扁體、斜體等不同風格。可見,漢字的形體具有一定的自由度。漢字的形體是漢字的一個方面,具體說是漢字的顯示方面,而小說中的文字(漢字)所要傳達給讀者是漢字的意思方面,讀者閱讀過程簡單說就是通過看到漢字的顯示,接受到漢字的意思,連續起來,從而形成整體意思。把漢字顯示的不同方式賦予特定意思,若干個漢字的顯示方式組合可以代表一個對應用戶帳戶的序列號,這樣就把序列號用漢字的形體變化編碼進了文章內,再把文章變成圖片形式,那么被保護的內容圖像和防盜版的編碼內容圖像是一樣的,都是漢字的顯示方式;而且被保護的內容圖像的閱讀和防盜版的編碼內容圖像的閱讀也是一樣,兩者閱讀的對象都是漢字的顯示方面,不同的是前者從漢字的顯示方面獲得該漢字的意思,后者是從漢字的顯示方式組合獲得編碼信息。盜版者在沒有圖像識別出文章文字前,沒法消除掉漢字的形體變化,也等于無法去掉編碼,那么就意味著盜版者在散布出文章圖像的時候,也將暴露出自己的用戶帳戶。文字形體編碼形成的文章圖像自身對OCR(文字圖像識別技術)有一定的干擾性,附圖的圖1是用TORD自帶的字體庫來文字形體編碼,用Office自帶的工具Doc咖entImaging程序OCR識別文字正確率不到70%。至于影響閱讀的程度問題,可以從附圖的圖1(示范文檔)很直觀地看到,用文字形體編碼后的文章在閱讀性方面沒有太大影響,這有賴于漢字是平面文字,漢字由一個或以上的字根以二維方式(歐語系是一維文字)在特定的空間、配置在一個正方塊內而組成。漢字產生的這種視象重在讓讀者去做圖像感受,這樣培養了使用漢字的人群具備較強的形象感受能力。所以在文章中,漢字形體的變化對于使用漢字的人群來說,并不太影響閱讀。與類似的技術方案做比較。"基于字符拓撲結構的文本數字水印技術",(小型微型計算機系統,作者和發明人劉東)已申請專利,專利號200410040853.4。(利用字符的字形特征攜帶水印信息的文本數字水印技術)雖然上述專利,作者使用了"字形"這個名詞,但是他實質的意思是指字符的拓撲結構,在他后期的論文中(即"基于字符拓撲結構的文本數字水印技術")就用字符拓撲結構代替"字形"。而且在專利的權利要求文中的權利要求l提到"一種要與攜帶數字水印信息的將同以字符(串)設計成多種字形的方法,其特征是通過改變組成字符(串)的各筆劃之間的連斷關系來改變字符(串)的拓撲結構,從而得到語義上相同的同一字符(串)的多種字符(串)外形。";和在專利的說明文中提到"本發明的基本原理在于變組成字符(串)的各筆劃之間的連斷關系,設計出語義上相同的同一字符(串)的多種字符(串)外形、、、"。兩處都可以看出,專利人的發明是基于字符拓撲結構的文本數字水印技術。該技術解決方案與本發明不同在于前者利用文字的拓撲結構編碼,后者利用文字的形體編碼;如前面說明的,前者的技術解決方案實施后,被保護的內容圖像的閱讀和防盜版的編碼內容圖像的閱讀是分開的,后者的技術解決方案實施后,被保護的內容圖像的閱讀和防盜版的編碼內容圖像的閱讀是一致的圖1為實現文字形體編碼的示范文檔截圖;圖2為文字形體編碼流程圖具體實施例方式用漢字的2至3種形體代表1和0,例如附圖1展示的實現結果,就是用漢字的宋體、正體、四號字代表0,用漢字的宋體、斜體、小三號字代表l,"一"字比較特殊,代表0的文字形體和前面一樣,不過代表1的文字形體,用漢字的華文行楷、正體、小二字。把要保護的文章的所有漢字隨機使用形體編碼中1和0對應的形體格式,形成隨機擾亂,為序列號編碼進文章做保護。若干個1和0組成一個序列號,把序列號以若干位數為單位分成若干組,根據一組若干位數的1和0對應的形體格式重新調整文章隨機位置上連續若干漢字,實現把序列號編碼到文章中。附圖1展示的實現結果就是以四位數為單位,分成5組,總共20位數,可以識別2的20次方的用戶。根據每一組四位數的1和0對應的形體格式重新調整文章隨機位置上連續四個漢字,每組代碼各在文章不同地方編碼三次,形成冗余保護。當電子出版物被盜版(特指圖像截屏)的時候,可以通過從文章特定位置形體的不同,讀出序列號,從而確定哪個購買者非法泄露該電子出版物。附圖l展示的實現結果是一篇把序列號"D439A"用文字形體編碼的方式嵌入文章的一部分,下面表格是編碼的對應關系。<table>tableseeoriginaldocumentpage8</column></row><table>權利要求1、一種通過文字的形體編碼來攜帶數字水印信息的方法,其特征是通過適當地選擇文字的幾種形體,并對文字的形體特征進行編碼,利用文字的形體變化來攜帶數字水印信息。全文摘要一種利用文字形體特征攜帶水印信息的文本數字水印技術。本發明要解決的技術問題是在不太影響閱讀習慣的前提下,把被保護的內容和防盜版的內容緊密聯系在一起,使到盜版者很難在電子出版物的圖像上把兩者分割,保存電子出版物中的編碼信息,從而識別泄露電子出版物的用戶,達到阻止盜版泛濫。具體是通過利用漢字的幾種形體來代表1和0,把可以識別用戶的序列號用形體的變化編碼到文章隨機位置。文檔編號G06F21/00GK101593247SQ20081002847公開日2009年12月2日申請日期2008年6月1日優先權日2008年6月1日發明者烽朱申請人:烽朱