專利名稱::股票、圖像及其它非純文字文件高速搜索系統的制作方法
技術領域:
:本發明涉及一種文件搜索系統和方法,尤其是一種可高速搜索含圖像的文件、股市數據,及其它非純文字文件的搜索系統和方法。
背景技術:
:近年來,文字信息搜索技術,尤其是基于互聯網的文字信息搜索技術的發展已遠遠領先于非純文字信息搜索技術。非純文字信息包括應用于物理、醫療、地質、地理、科學工程等領域的圖像,以及主要通過曲線表示的股市信息。和含有一系列字符/文字的文字信息不同,非純文字信息另一N維空間M個測量標量的一組或多組觀測數值的組合信息,其中M、N為整數。對于文字信息而言,一個文字文件由一系列由字符/文字定義的詞匯組成,這些詞匯可以是一般的詞匯,也可以是一些具有特定含義的詞匯,如電子郵件地址、日期、數量和互聯網統一資源定位地址等。對于非純文字信息,如股市信息而言,和一個股票相關的數據包含股價和交易量,一般通過一組以時間為自變量的曲線表示。文字搜索技術可以從數據資源或互聯網上快速搜索到用戶感興趣的文字文件,但是現在還沒有可從數據資源中有效、系統地搜索和特定股票相關的非純文字股市信息的方法,更不用說在互聯網上有效、系統地^_索非純文字股市信息的方法。現有技術已經揭示了多種股市分析和預測方法,如于2000年1月4日公告的美國專利第6,012,042號,其揭示了一種將股票的時間序列數據和非時間序列數據轉換為一個統一庫存格式,并用于股市分析的方法。又如于2005年2月8日/>告的美國專利第6,853,991號,其揭示了一種基于模糊邏輯的股市預測方法。再如于2005年5月31日公告的美國專利號第6,901,383號,其揭示了另一種根據歷史交易數據制定股票購買指數,以進行股市預測的方法。但是,上述搜索系統和方法均不能有效、系統地搜索非純文字股市信息,尤其是股票曲線。換句話說,據作者所知,至今還沒有一種可以象搜索文字文件一樣在數據資源或互聯網上有效、系統地搜索非純文字股票數據的方法。非純文字信息包括圖像,如照片和圖片等,圖像通常以二維空間上的一組或多組測量數值表示。圖片可以是照相機拍攝的一般彩色照片、X光照片,也可以是紅外照片、超聲波照片等。同樣的,至今也沒有一種有效、系統的搜索方法,可以從大量圖像文件(如各種圖片)的某一個圖像文件(如人臉)中搜索一個特定目標圖像(如眼睛),更不用說在互聯網上搜索一幅圖像了。一些現有搜索方法可以從圖像文件中搜索信息,但是效率和精度不佳。如于1991年4月23日公告的美國專利第5,010,581號,其揭示了一種使用非圖像搜索代碼搜索圖像文件的方法。又如于1998年5月5日公告的美國專利第5,748,805號和于2002年5月28日公告的美國專利第6,396,951號,其分別揭示了一種通過搜索文字文件的一個圖像,例如文字文件的掃描圖像,來搜索文字文件的方法。通過光學字符閱讀器(OCR)的讀取,圖像-故解讀成具有類似于文字的信息。但是,據作者所知,至今也沒有一種可以象搜索文字文件一樣在數據資源或互聯網上有效、系統地搜索圖像文件的方法。一般來說,非純文字信息含有多個N維空間M度量的數據。前述股票數據含有一維時間空間的多個度量值,如各種股價和成交量等。彩色圖片是紅、綠、藍三色,通常以R、G、B標示,在圖片的二維空間(長和寬)上的分布。據作者所知,至今還沒有一種有效、系統的方法,可以高速搜索任意N維空間M度量數據所產生的非純文字文件。從計算難度角度來看,在一個N^象素的圖像文件中搜索一個M^象素的目標圖像(M、N可以為任意整數,且N〉M),需要進行]\42^2次運算。如果數據資源中含有k個文件,就需要進行kxMZxN^欠運算。類似地,如果在n維空間檢索k個文件,就需要進行kxM"xNn次運算,運算量隨著文件尺寸的增長成指數增長。另一方面,在數據資源或互聯網上搜索文字文件的方法,在業界已經眾所周知,且被廣泛用于以詞匯、詞組為檢索詞的搜索引擎中。理論上來說,一種基本的文字文件搜索方法由以下步驟組成參一個含有多個文字文件的數據資源,如文件l,文件2,文件3,文件4,...,文件n,這些文件可以自互聯網或其他數據資源收集。*每個文件由一系列詞匯或字符串組成,如文件2可以含有"…HeisacomputerscienceprofessoratXYZUniversity.Youmaycontacthimatprof@xyz.edu."。*把每個文件分解(業界又稱為令牌化過程(tokenizing)),生成一個令牌(token)集合,如文件2的令牌可以包括computer,science,professor,xyz,university,contact,prof@xyz.edu,computerscience,computerscienceprofessor,xyzuniversity等。參把所有文件的令牌匯集成一個令牌的總集合,通過建立詞匯到文件的索引,編輯一個含有特定令牌的文件清單。每個令牌都有自己對應的清單,如令牌詞匯"university"的文件清單可以為文件2、文件3、文件6、文件15和文件22,令牌詞匯"prof@xyz.edu"的文件清單可以為文件2和文件25,等等。*當搜索一個目標語句時,目標語句也同樣要令牌化,文字搜索即從令牌總集合的索引中搜索目標語句生成令牌的語法組合。例如,如果目標語句中含有令牌詞匯"university",搜索引擎就會返回相匹配的文件清單文件2、文件3、文件6、文件15和文件22;如果目標語句含有令牌詞匯"university"和令牌詞匯"prof@xyz.edu"的邏輯與組合("university"AND"prof@xyz.edu"),搜索引擎就會返回相匹配的文件清單文件2,依此類推。返回匹配的文件將按匹配度依次顯示,匹配度由文件中令牌詞匯出現的頻率、令牌詞匯在文件中的位置和區域等因素決定。*顯示匹配文件時,可以對匹配的令牌——目標關4建詞進行加黑等標記處理。現有基于令牌化處理的文字文件搜索方法的主要優點在于其是線形過程,不含復雜的指數計算,因此可以有效、體統地進行搜索。總之,文字文件的搜索方法是系統、有效的線形過程,但這些方法不能直接應用于非純文字文件的搜索。據作者所知,目前非純文字文件的搜索方法都包括復雜的指數運算,尚無搜索方法可在數據資源或互聯網上有效、系統地搜索股票文件、圖^f象文件或其它非純文字文件。
發明內容本發明提供了一種非純文字文件的高速搜索方法,其可用于對目標股票進行有效、系統的搜索,也可用于對圖像文件進行有效、系統的定位搜索。根據本發明的一個實施方式,一種非純文字文件的搜索方法包括把非純文字文件輸入一個令牌生成器(tokenizer),以產生一系列能代表該文件局部或整體特征的令牌(token),每個令牌取一個能代表其特征的名字。因為非純文字文件是通過一個命名令牌集合表示的,所以通過用文字搜索引擎搜索令牌的名字即可實現對原非純文字文件的搜索。相對而言,文字文件的搜索是以字符或詞匯作為令牌,而非純文字文件的搜索則是以非純文字文件的局部或整體特性,如股市事件、特殊的圖像特征等作為令牌。因此,可以對非純文字文件進行"哪種股票在2005年經歷了大崩潰?","哪張衛星圖片顯示了一座大橋?"等搜索。為了讓本發明的發明目的、特征和優點明顯易懂,現在結合具體實施方式和附圖,對本發明進行進一步詳細說明,其中圖l所示為根據本發明的一個實施方式,一種可有效、系統地對股票文件令牌化(tokenizing)的系統的邏輯流程圖。圖2所示為圖1中股票文件22的示意圖,其包括隨時間變化的開市價曲線、最高價曲線、最低價曲線、收市價曲線和成交額曲線。圖3所示為根據本發明的一個實施方式,一種可有效、系統地搜索股票文件的系統的邏輯流程圖。圖4所示為根據本發明的一個實施方式,一種可有效、系統地對圖像文件令牌化(tokenizing)的系統的邏輯流程圖。圖5所示為如何將圖4中的圖像40分割成一個規則的圖元陣的示意圖,其中每個圖元包含一定數目的像素。圖6所示為根據本發明的一個實施方式,一種可有效、系統地搜索圖像文件的系統的邏輯流程圖。具體實施方式一下面結合圖1至3中所示的一種股票文件搜索系統,詳細說明本發明的一個最佳實施方式,本發明的其它實施方式將隨后介紹。股市數據包括各個已交易股票的各項信息。例如,假設我們感興趣的股票包括XYZ、ABC、DE、FGH、IJKL等,股票XYZ的信息可能包括文字信息和非純文字信息。文字信息包括公司的基本狀況,如創立時間、地址、官員姓名,以及定期公布或不定期公布的財政報告、新聞發布等,這部分文字信息可以直接通過本領域技術人員已知的文字搜索引擎進行搜索。另一方面,非純文字信息包括股票每天的開市價曲線、最高價曲線、最低價曲線、收市價曲線和交易量曲線等各種股票曲線,請參照圖2。由于這部分非純文字信息是通過曲線表示的,所以一般不能直接用文字搜索引擎有效地進行搜索。圖1和圖3所示為本發明股票搜索系統的一個最佳實施方式,這一系統是以計算機軟件形式實現。也就是說,圖1和圖3給出了本發明股票搜索系統的一個實施方式的流程示意圖。通過軟件處理儲存于同一臺計算機的數據或文件,或儲存于通過互聯網、局域網連接的其他區域的數據或文件,來完成搜索。股票的搜索系統可以用來搜索具有預定目標特征的一種或多種股票,并標定出相應的發生時間段。目標特征可以是參數式的,也可以是時間式的或事件式的。例如,用戶可能要搜索2005年大跌過的所有股票,圖1和圖3所示的股票搜索系統就會輸出符合這一搜索目標的股票清單,如ABC、FGH、XYZ等。因為需要搜索的數據并非文字格式,所以搜索的目標語句不能象可以通過文字搜索引擎搜索到的"哪些股票的開市價是37美元?"那樣簡單。圖l:令觶過程圖l所示為非純文字股票文件搜索的第一個步驟,股票的令牌化(tokenizing)過程首先,收集一批股票文件,以形成一個被搜索股票文件集合20,股票文件可以收集自互聯網或其他數據資源。圖示文件l位于頂部,其他文件位于文件l的下面或后面,股票文件集合20中的文件將被順序處理。圖l顯示了股票文件22,記為股票文件i,是怎樣被令牌化處理的文件22首先被分成一個時間單元系列24,時間單元系列24下面還要詳細說明;時間單元系列24中的各個時間單元,如時間單元26(時間單元i),被依次輸送至令牌生成器28(tokenizer)。和文字文件搜索引擎中的令牌生成器類似,股票令牌生成器28將從被處理的各股票文件中生成一系列令牌。文字文件搜索引擎中的令牌化過程已為本領域技術人員熟知的技術,現在將詳細說明非純文字文件的令牌化過程。令牌生成器28將輸入的股票文件22對應的時間單元26和一組預定的股票模式30,包括股票模式l、股票模式2、股票模式j和股票模式m進行對比和匹配。每個股票模式代表不同的股票特性,如股價上漲、股價下跌、股價在峰值、股價在谷底等。當令牌生成器28發現輸入時間單元26和股票模式1一致時,就會在此輸入時間單元26生成一個股票模式1的股票令牌34。非純文字文件搜索的股票令牌34和文字文件搜索的令牌相類似,在純文字文件搜索中,令牌一般只是一個單詞或單詞的組合;而在非純文字文件搜索中,令牌不僅通過一個單詞或名字表示,而且具有其特定的特性。例如,股票令牌"上漲"不僅有可用于搜索的令牌名字"上漲",而且還具有股票在時間單元上漲了多少等特性。換句話說,單詞或名字"上漲"僅是股票令牌34的代表符號,股價上漲事件才是股票令牌34的屬性和內涵。一個股票模式是用來從股票文件中找出某個目標股票模式的參考模式,也稱股票特征抽象、抽取模式。如果文件中某處記載的股票模式和一個給定的股票模式相匹配,就會生成一個對應該股票模式的令牌。因此,一個股票模式代表了在文件中發現的某個模式、某個事件或某個屬性。如一個股票模式可以代表文件中記載的股價上漲事件("上漲"("up"))、股價下跌事件("下跌,,("down")),股價在峰值事件("峰值"("peak"))等。每個股票令牌34都有一個名字,如"上漲"("up"),"下跌"("down")和"峰值"("peak")等。換言之,每個股票令牌34都有一個文字名字。在上述例子中,令牌的名字可以簡單為"up,,,以顯示股價上漲的屬性。事實上,在搜索過程中,令牌的名字可以是任何詞匯或字符串,這些令牌名字完全可以象文字搜索的令牌名字一樣被文字搜索引擎所接受。例如,即使"上漲"令牌("up")的名字被換為"你好"("hello"),它還是具有股價上漲的屬性。然后,令牌生成器28會重復將輸入時間單元26和股票模式2、股票模式j,股票模式m進行匹配和分析。如果令牌生成器28發現輸入時間單元26和任一股票模式一致時,就會輸出一個對應此股票模式的令牌,如令牌"上漲,,、令牌"下跌"和令牌"峰值"等,時間單元系列24中的其他時間單元也同樣需要進行令牌化過程。因此,股票文件22就會轉化成為一個股票令牌集合36,股票文件集合20中的所有股票文件都進行令牌化過程,并轉換成各自對應的令牌。最后,把自股票文件集合20所得的各個股票令牌36匯集成一個股票令牌總集合37。對股票令牌總集合37的令牌名字進行索引后,就可以用類似搜索文字文件的搜索引擎進行搜索,股票令牌集合36中的股票令牌34和文字搜索引擎中的令牌類似。圖2:股票文件為了更好地理解上述實施方式,現結合一個具體的股票搜索實例來詳細說明本發明的股票搜索系統,每支股票在數據資源都中通過一個相應的非純文字文件表示。圖1所示的股票文件22,如股票XYZ,包含一組顯示該股票開市價、最高價、最低價、收市價和日交易量隨時間變化的曲線,如圖2所示。如前所述,股票文件首先被分解成一系列時間單元24(圖1)。由于股票文件包含多個時間曲線(圖2),這些時間曲線可以按時間軸分割成一系列時間段,每個時間段為一個時間單元,每個時間段或時間單元有多組曲線。時間單元系列24中的一個時間單元26(時間單元i)可以為任一與搜索目的、精度相一致的時間單位,如小時、天、周、月、年,或者其它更長或更短的時間單位。為演示起見,列出數據于下表,其中每個時間單元為表中的一行<table>tableseeoriginaldocumentpage12</column></row><table>每一時間單元(或行)對應一個股票交易日,并通過二進制位置標示于文件中,上表中每一行是當天(時間單元26)對應的股票數據。第一列為股票的名字"XYZ",也就是股票文件的名字,第二列為時間單元26在股票文件22中的二進制字節位置,第三列為時間單元26相應的交易日,第四、五、六、七、八列分別為交易日當天的開市價、最高價、最低價、收市價和交易量。為了演示股票模式30的生成,我們僅以圖2所示的股票XYZ的收市價曲線為例進行說明。需要說明的是,任意一個股票曲線或股票曲線的組合都可以用來生成股票模式30。根據股票搜索目的和精度要求,我們定義一組股票模式30如下表<table>tableseeoriginaldocumentpage13</column></row><table>上表的每一行定義了一個股票模式和其具有的屬性,左列為股票模式的名字,右列為股票模式的屬性。右列實際上也顯示了股票模式,是定義一個股票模式的參照模式。例如,第二行顯示了一個"上漲"("up")的股票令牌,它表示當天的收市價高于前一交易日的收市價。即在第二行的右欄,如果當天的收市價減去前天的收市價的值大于零時,"股價日變化為正"的值為"是"或"1"。同理,第三行所示為一個下跌,,("down")的股票令牌,如果當天的股票收市價低于前一交易日的收市價,股票模式就會相應生成一個"下跌"("down")的股票令牌。如第四行,如果第一天的股票才莫式為"上漲,,,而第二天的股票模式為"下跌",則會生成了一個"峰值"("peak")的股票令牌,"峰值,,("peak")股票令牌橫跨至少兩個時間單元。如第五行,如果第一天的股票^t式為"下跌",而第二天的股票模式為"上漲",則會生成一個"山谷,,("valley")的股票令牌,"山谷,,("valley")股票令牌橫跨至少兩個時間單元。如第六行,如果從當天開始連續出現至少五個"下跌"股票模式,則會生成一個"大跌,,("crash")的股票令牌,"大跌,,("crash")股票令牌橫跨至少四個時間單元。如第七行,如果同一天同時出現了"上漲,,股票模式和"下跌"股票模式,則會生成一個"跌信號,,("downsignal")股票令牌。如第八行,如果當天的收市價比前一天的收市價高出2%或以上,則會生成"漲2%以上"("叩2。/。plus")的股票令牌。依次類推。需要注意的是,在股票搜索、分析和預測中,用戶還可以根據自己的實際需要自行定義其他的股票令牌。在令牌生成器28中,股票文件22的各個時間單元26和上表定義的各個股票模式30進行對比和匹配,并輸出所生成的一組股票令牌36如下表所示(令牌名字、股票文件、數據起始位置、數據終止位置、令牌種類)<table>tableseeoriginaldocumentpage14</column></row><table>表中每一行所示的股票令牌34都有一個文字名字,并攜帶了該令牌的有關信息股票名字、在文件中的起始和終止位置,以及令牌的種類。第二行所示為股票文件XYZ中發現的一個"上漲"("up")令牌,位于該股票文件的39字節到77字節之間,是一個股票類令牌。第三行所示為股票文件XYZ中發現的一個"漲2%以上"("up2。/。plus")令牌,位于該股票文件的39字節到77字節之間,是一個股票類令牌。第四行所示為股票文件XYZ中發現的一個"峰值"("peak")令牌,位于該股票文件的39字節到117字節之間,是一個股票類令牌。依次類推。這樣,股票XYZ(文件22)被轉換成一個股票令牌集合36。換句話說,上表所示的股票令牌集合36是股票文件XYZ的令牌表達形式。股票令牌集合36中的每一個股票令牌34都有一個有意義的文字名字,并攜帶了該股票令牌相關的信息股票名字、在數據文件中此股票令牌的起始和終止位置,以及令牌種類,與文字搜索中所用的令牌4M目似。再如,有另一支股票文件ABC,經上述令牌化過程產生了另外一個股票令牌集合如下表(令牌名字、股票文件、數據起始位置、數據終止位置、令牌種類)(down,ABC,43,57,type=stocktoken)(down,ABC,57,76,type二stocktoken)(down,ABC,76,92,type=stocktoken)_(down,ABC,92,117,type=stocktoken)_(crash,ABC,43,117,type=stocktoken)_(up,ABC,117,199,type=stocktoken)_類似地,第二到第五行所示為股票文件ABC中發現的連續四個"下跌"("down")令牌,第一個"下跌"("down")令牌位于該文件的43字節到57字節之間,第二個"下跌,,("down")令牌位于該文件的57字節到76字節之間,第三個"下跌',("down")令牌位于該文件的76字節到92字節之間,第四個"下跌,,("down")令牌位于該文件的92字節到117字節之間,它們都是股票類令牌。第六行所示為股票文件ABC中發現的一個"大跌"("crash")令牌,位于該股票文件的3字節到117字節之間,是一個股票類令牌。第七行所示為股票文件ABC中發現的一個"上漲"("up")令牌,位于該股票文件的117字節到199字節之間,是一個股票類令牌。在下一個步驟中,所有文件經令牌化過程所生成的股票令牌集合36匯集到一起形成一個股票令牌總集合37,如下表所示(令牌名字、股票文件、起始位置、數據終止位置、令牌種類)(up,XYZ,39,77,type=stocktoken)_(up2%plus,XYZ,39,77,type=stocktoken)(peak,XYZ,39,117,type=stocktoken)(downsignal,XYZ,39,77,type=stocktoken)(down,XYZ,77,117,type=stocktoken)(down,XYZ,117,157,type=stocktoken)(valley,XYZ,117,199,type=stocktoken)(up,XYZ,157,199,type=stocktoken)(down,ABC,43,57,type=stocktoken)(down,ABC,57,76,type=stocktoken)(down,ABC,76,92,type=stocktoken)(down,ABC,92,117,type=stocktoken)(crash,ABC,43,117,type=stocktoken)(up,ABC,117,199,type=stocktoken)和前面兩個令牌集合表一樣,上表中每一行為一個令牌,每個令牌有個文字名字,比如"上漲"("up"),"漲2%以上"("up2%plus"),"峰值"("peak"),"跌信號"("downsignal"),"下跌,,("down"),"山谷"("valley"),"大跌"("crash")等。因此,與在文字搜索引擎中搜索令牌類似,可以通過搜索名字來搜索一個令牌。而對本領域的普通技術人員來說,用文字搜索引擎搜索令牌已經是成熟的現有技術。圖3:搜索it程圖3所示為一種對圖1令牌生成器28生成的股票令牌總集合37進行搜索的搜索過程。如果用戶以文字形式給出搜索目標39:"大跌,,("crash"),本發明的股票搜索方法就會在令牌總集合37中搜索目標詞"crash",令牌總集合37中所有名為"crash"("大跌,,)的令牌(上表中第十五行)可以通過文字搜索引擎搜索出來。含有"大跌"("crash")令牌的股票文件ABC作為輸出45被顯示出來,股票文件ABC中的"crash"("大跌,,)令牌可以被加黑標示。除了文字形式的搜索目標39,還可以輸入非純文字形式的搜索目標41。此時,和圖l所示的股票文件的令牌化過程一樣,非純文字形式的搜索目標41必須經過令牌化過程43,以產生一個令牌或令牌集合。隨后,在令牌總集合37中搜索搜索目標41令牌名字的語意集合,以生成多個不同匹配度的匹配文件。如果發現的匹配文件不止一個,則根據匹配度輸出匹配文件。下表列舉了幾個搜索目標及其相應的搜索結果搜索目標搜索結果"crash"("大跌,,)document="ABC",(start)position=43"peak"("山峰")document="XYZ",(start)position=39"down"("下跌,,)document="XYZ,,,(start)position=77,117document="ABC,,,(start)position=43,57,76,92■■如果搜索目標為"crash"("大跌,,),則輸出為股票文件ABC,且相匹配的令牌在股票文件ABC中的起始位置是43字節。如果搜索目標為"峰值"("peak"),則輸出為股票文件XYZ,且相匹配的令牌在股票文件XYZ中的起始位置是39字節。如果搜索目標為"下跌"("down"),則輸出為股票文件ABC和股票文件XYZ。股票文件XYZ中有兩個相匹配的令牌,其在股票文件中的起始位置分別為77字節和117字節。股票文件ABC中有四個相匹配的令牌,其在股票文件中的起始位置分別為43字節、57字節、76字節和92字節。依此類推。顯然,經過圖l所示的令牌化過程,股票文件類非純文字文件通過令牌總集合表示,此令牌總集合的搜索特性和純文字文件令牌總集合的搜索特性相似。因此,如前述實施方式中的實例所示,可以通過文字搜索引擎有效、系統地搜索股票文件類非純文字文件。此搜索過程是線性過程,無需復雜的指數運算。具體實施方式二圖1至3描述了一種根據本發明的非純文字股票文件的搜索系統,圖4至6則描述了一種根據本發明的圖像文件搜索系統,圖像文件搜索通過計算機軟件程序來實現。圖4和圖6所示為本發明圖像文件搜索系統一個實施方式的計算機程序流程圖,其通過軟件處理儲存于同一臺計算機的數據或文件,或儲存于通過互聯網、局域網連接的其他區域的數據或文件,來完成4叟索。圖l和圖4所示分別為股票文件和圖像文件的令牌化(tokenizing)過程在圖1中,含有多條如圖2所示時間曲線的股票文件被分解成一系列時間單元;而在圖4中,圖像文件被分解成圖5所示的圖元陣。本發明的圖像搜索系統可用于搜索含有某特定圖像特征或模式的一個或多個圖像如用戶可能想找出哪些圖片(圖像文件)含有某特定的地標,如金門大橋。用戶的搜索問詢輸入可以是"金門大橋照片的全部或一部分",圖4和圖6所示的圖像搜索系統將按步驟輸出那些含有金門大橋的圖像文件。又如,假設我們收集了數百萬張衛星照片,然后從中隨機抽出一張剪碎,并選擇其中的一張碎圖片作為搜索目標圖像,本發明圖4和圖6所示的圖像搜索系統可以按步驟從數百萬張照片中找出碎圖片所屬的那張照片,并具體定位出照片的哪一部分是搜索目標圖像。圖4:令牌化過程圖4所示為本發明圖像搜索系統對圖像文件的令牌化(tokenizing)進程首先,收集一組圖像文件,以形成被搜索圖像文件集合38。這些圖像文件可以收集自互聯網,也可以收集自其他數據資源。圖像文件l位于頂部,其他圖像文件位于圖像文件l的下面或后面,圖像文件集合38中的每個圖像文件將被順序處理。圖4顯示了一個圖像文件40,記為圖像文件i,是怎樣被令牌化處理的圖像文件40首先被分解成紅、綠、藍三個分層,每個分層再被分割成圖元陣42,每個圖元為一矩形,并按其座標位置(i,j)標識。每個圖元也相應有紅、綠、藍三個分層,圖元中每個像素有紅、綠、藍三個顏色值。圖元陣42中的每一個圖元,如圖元44或(i,j),將被分別輸入圖像令牌生成器46(tokenizer)。和文字搜索引擎中的令牌生成器的操作類似,對于每一個圖像文件,圖像令牌生成器46都將生成一組圖像令牌,每個令牌有一代表其特征的名字。圖像令牌生成器46把輸入圖元i,j和一組根據我們搜索目的和精度事先定義的圖像特征模式4s,如圖像特征模式i、圖像特征模式2、圖像特征模ig和圖像特征模式m,進行匹配和分析。每個圖像特征模式代表圖像不同的特征或模式,如可以是人面部的眼睛圖像。如果圖像令牌生成器46發現輸入圖元44或i,j和圖像特征;漠式1一致,它將對應此圖元生成一個圖像令牌52。每個圖像令牌按事先定義的命名規律賦予一個名字,名字必須是字符串,可以很長,代表著相應圖像特征模式對此圖元的抽象表達。因此,圖像令牌是原圖像的一個令牌表達形式,其可以被文字搜索引擎兼容,并能借助于文字搜索系統對原圖像文件進行有效的搜索。非純文字圖像文件搜索中的圖像令牌和文字文件搜索中的令牌類似,在文字文件搜索中,一個令牌的名字一般是一個單詞或單詞組合;而在非純文字圖像文件搜索中,圖像令牌的名字不僅要表達出生成此令牌的圖像特征模式,還要表達出該令牌的屬性。例如為了方便隨后討論的搜索,一個圖像令牌的名字可以是"R70—G20_B60",它表示圖像令牌生成器46以圖元的三個顏色的三個平均值組合來命名令牌,即紅色平均值在70到79之間,綠色平均值在20到29之間,藍色平均值在60到69之間。如上所述,圖像特征模式是用來在圖像文件中匹配、生成圖像令牌的參照模式。如果圖像文件的一部分和一個給定的圖像特征模式匹配,相應的圖像令牌就會自該圖像文件中生成出來。因此,圖像令牌實際上就是一個能反映、表達圖像的某種模式、某個特征、或某種參數的令牌,如上面的圖像令牌"R70一G20—B60"就表達了該圖元的三色濃度。每一個圖像令牌都會被給予一個有意義的名字,即每一個圖像令牌都有一個文字名字。在上述例子中,圖像令牌的名字"R70—G20—B60"表示了該圖元紅色平均值在70到79之間,綠色平均值在20到29之間,藍色平均值在60到69之間。事實上,和搜索過程中使用的文字令牌一樣,只要能反映對相應圖像特征模式的匹配程度,圖像令牌的名字可以為任意字符名字,文字搜索引擎都能對其進行有效的索引和搜索。隨后,圖像令牌生成器46再將輸入圖元44或i,j重復地和圖像特征模式2、圖像特征模i(J.....圖像特征模式m進行匹配和分析。如果輸入圖元44或i,j和某一圖像特征匹配,就會相應輸出一個圖像特征令牌,如圖像令牌"R90_G210—B60"、圖像令牌"R80_G140_B160"等。對圖像文件40的每一個圖元重復上述令牌化過程,就會產生更多的圖像令牌。相應地,圖像文件40實際上轉化成一個圖像令牌集合54。對被搜索圖像文件集合38中的所有文件進行令牌化處理,并轉化成各自的圖像令牌。最后,將自所有圖像文件38得到的圖像令牌54匯集成一個圖像令牌總集合55,并用和已知文字文件搜索類似的文字搜索引擎對此圖^f象令牌總集合55進行索引和搜索。圖5:圖元陣為了更好地理解圖4所示的圖像文件令牌化過程,下面將給出一個圖像文件搜索的具體實施方式。例如,圖像文件40為一盆花舟的照片(未圖示),在隨后的描述中將該圖像文件命名為"Flower"。圖像文件"Flower"首先被分解成圖5所示的等尺寸、小方格樣圖元陣,每個圖元進一步包含了一定數量的像素。例如,一個圖元有5x5個像素,此5x5個像素的紅色值如下表所示<table>tableseeoriginaldocumentpage20</column></row><table>上表所示為前面討論的圖元44或i,j的示例,此表有5行5列,共25格。每一格對應圖元44或i,j的一個像素,圖元44或i,j共有25個像素,每個方格中的數字是該像素的紅色值。可以單獨或綜合使用各種圖像特征抽取、抽象方法,以定義一組和搜索對象、目的與精度相一致的圖像特征模式48(圖4)。例如,可以僅僅用圖元中全部像素顏色的平均值作為圖元的特征,上表所示圖元紅顏色的平均值是74。舉例來說,圖像特征模式系列48中的一個圖像特征模式可以定義為圖元的紅、綠、藍三個顏色的三個平均值組合。如果紅、綠、藍三色的三個平均值分別是74、23和66,那么與此圖像特征模式相匹配的圖元就可以相應地命名為"R74—G23—B66"。此外,需要適當考慮公差,以避免兩個差別很小的圖元產生完全不同的令牌(即完全不同的令牌名字)。最簡單的方法是舍棄像素顏色值的個位,只取其十位以上的數字。例如,不直接用"R74—G23—B66"作為圖元令牌的名字,而是用其經過公差轉換的形式"R70一G20—B60"作為圖元令牌的名字。"R70_G20—B60"表示此圖元的紅色平均值在70到79之間,綠色平均值在20到29之間,藍色平均值在60到69之間,依此類推。通過將圖像文件的每個圖元和預定圖像特征模式48的對比和匹配,圖像令牌生成器46會輸出如下表所示的圖像令牌集合54:<table>tableseeoriginaldocumentpage21</column></row><table>表中每一行為一個圖像令牌,每個圖像令牌有一個文字名字,并含有圖像文件名字、相應圖元在圖像中的位置行坐標和位置列坐標,以及令牌種類等信息。第一項是令牌的名字,如"R70—G20_B60";第二項是令牌"R70_G20_B60"所在圖像文件的名字,如"Flower";P逸后兩項是圖元的位置行坐標和位置列坐標,如l,l,其反映了圖元在圖像文件"Flower"中的德分格座標(第一行、第一列);最后一項"imagetoken,,表示令牌"R70_G20—B60,,是一個圖像令牌,以和文字令牌等其它令牌相區別。和股票令牌不同,圖像令牌的字符名字無需方便人讀,因為圖像搜索是圖像到圖像的搜索,且被搜索的目標圖像也同樣要進行圖元化和令牌化處理。隨后,所有文件的圖像令牌匯集成一個圖像令牌總集合55。實際上,真正被搜索的是目標圖像所產生的圖像令牌的邏輯組合。也就是說,同樣的圖若參考原點對應,所產生的圖像令牌也是一致的,這使得用文字搜索方法進行圖像到圖像的搜索變成了可能。如果使用復雜的圖像特征抽取、抽象方法,或需要表達的圖元特征的信息很多,圖像令牌的字符名字可以很長,如"babacbgbfaaabbgabacaasggc,,。在計算機技術中,再長的字符名字都可以轉換成一個32字節的HASH值。因此,轉換后,圖〗象令牌的名字為32字節或小于32字節。例如,假設所列舉的圖像文件"Flower"被分成了4x5的圖元陣。為方便說明,進一步假設經過令牌化處理后,每個圖元都只產生了一個前述三色三均值組合的圖像令牌。在實際應用中,一個圖元通常可以生成許多圖像令牌,一個圖像令牌也可以跨多個圖元。經過令牌化處理之后,所列舉的圖像文件"Flower"就轉換成一個如下表所示的詞表形式。詞表和圖元陣的4亍、列相對應,詞表中的每個方格對應一個圖元,方格中的字符名字為由三色三均值組合所產生的圖像令牌名字,如"R70G20B60":<table>tableseeoriginaldocumentpage22</column></row><table>上表中的每一行可以看成是一個由四個單詞組成的句子,例如,第一句有"R70G20B60"、"R70G30B60"、"R80G20B50"和"R70G20B90"四個單詞。第二句正好位于第一句之下,即第二句的第一、第二、第三和第四個單詞必須正好分別對應位于第一句的第一、第二、第三和第四個單詞之下,以此類推。上表已不再是圖像,但它以文字表格的形式代表原圖像文件"Flower",以方便用文字搜索方法去索引和搜索圖像文件。換句話說,非純文字圖像文件已經被轉換成能代表其主要圖像特征的純文字、文表形式的文字文件。把大量圖像文件生成的所有文表文件匯集成圖像令牌總集合55,通過和文字文件搜索類似的搜索引擎,即可以有效、系統地進行圖像文件的索引和搜索。文字搜索引擎使用的軟件已是成熟的現有技術,在此不再贅述。圖6:搜索過程圖6所示為根據本發明一個實施方式的圖像搜索過程,假設圖像搜索詢問的輸入目標圖像57是圖像文件"Flower"的一部分,稱為局部圖像"PartialFlower"。再進一步假設此目標圖象"Partial_Flower"為一個2x2的圖元陣,搜索的目的就是在大量已令牌化和索引的圖像文件中找出所有包含目標圖像"Partial—Flower"的圖像,并且標定出此目標圖像在這些圖像中的具體位置。如前所述,圖像搜索的目標圖像也要被圖元化和令牌化。把圖像搜索詢問的目標圖像57經圖4所示令牌化59后,搜索詢問的目標圖像57的每個圖元就有了一個圖像令牌。每個圖像令牌有一個字符名字,如"R70_G200—B80",搜索詢問或目標圖像57"Partial—Flower"一皮轉化成下表R70—G200—B80R80G20—B70R90—G210B60R70—G30B60需要注意的是,圖像搜索詢問目標已不再是一個圖像,而是轉換成每格都有一令牌文字名字的詞表。換句話說,搜索詢問現在已轉換成兩個句子,每個句子由兩個詞組成,第一句是"R70—G200一B80"和"R80一G20—B70",第二句是"R90—G210一B60"和"R70—G30_B60"。每句一行,上下兩句的單詞需要嚴格對齊。有了上述搜索目標圖像57的文字詞表表達形式,圖像搜索就變成了通常的文字搜索。即從已令牌化和索引的被搜索圖像的圖像令牌集合55中找出所有包含目標圖像57的令牌名字的詞表,并根據匹配度找到相匹配的圖像文件。也就是說,文字搜索引擎在被搜索圖像令牌化生成的文字詞表的索引中搜索兩個目標句子,兩個目標句子均含有兩個單詞,第一句是R70G200B80R80G20B70第二句是:謂G210B60謂G30B60齊:第二句必須位于第一句所在行的下一行,且上下兩句的各個單詞要嚴格對搜索結果如下表所示問詢目標搜索結果"Partial—Flower"document="Flower,,,(top-leftcomer)position=Cell3,2>表中顯示,作為搜索輸出61,大量圖像文件集合中的圖象文件"Flower"的圖元3,2處含有搜索目標圖像"Partial—Flower",目標圖像"Partial—Flower"位于圖像文件"Flower"左上角的圖元3,2處。可以讓程序返回圖像文件"Flower",并把目標圖像"Partial—Flower"在圖像文件"Flower"中的位置加黑標示。如果搜索發現多個匹配文件,可以根據匹配度優先顯示高匹配度的圖像文件。顯然,根據本發明的一個實施方式,經過令牌化(tokenizing)過程后,可以使用文字搜索引擎有效、系統地搜索圖像文件等非純文字文件。圖像搜索只涉及有效、系統的線性過程,無需復雜的指數運算。由于搜索目標圖像和被搜索的圖像文件是相互獨立的,所以有圖元對應的問題,即在搜索目標圖像"Partia1—Flower"中選擇一個合適的參考原點,稱(xO,yO),以將搜索目標圖像劃分成圖元分格并和圖像文件"Flower"匹配。在圖示實施方式中,參考原點(xO,yO)為左上角圖元左上角的第一個像素。顯然,一般只會有一個參考原點(xO,yO)能耦合被搜索的圖像文件"Flower"的圖元分格,使得我們能夠搜索出圖像文件"Flower"。參考原點(xO,yO)的選擇是一試湊的過程,每個參考原點(xO,yO)的試湊其實是小規模的按試湊參考原點(xO,yO)產生數個圖元,經令牌化和索引后再去搜索。一個不合理的參考原點(xO,yO)會很快被否定,因為它生成的圖元很可能根本不存在于被搜索的索引中。即使在最差的情況下,試湊次數也不會超過一個圖元所含有的像素數,5x5的圖元最多需要25次試湊。此外,先進的文字搜索引擎在查驗、分析搜索目標令牌后,能夠建議一些有效的、保證在索引中存在的令牌名字,并盡量和用戶預定的目標詢問匹配,可用于控制圖像令牌名字的公差。結論、變更和權利保護范圍綜上所述,本發明的搜索系統和方法可以有效、系統地搜索非純文字文件,非純文字文件經過令牌化過程后變成一個命名令牌的集合。本發明提供了一種可用于股市分析和預測的有效、系統的股票文件搜索系統,以及一種可自數據資源中有效、系統地搜索圖像文件的圖像搜索系統。此外,本發明的搜索系統還可推廣應用于有效、系統地搜索N維空M個度量所產生的資料和文件。前述非純文字股票文件和圖像文件還可以包含文字信息,圖像文件的文字信息包括標題、作者、時間、圖像的索引等。如前所述,前面列舉的股票文件是多個度量值(開市價、最高價、最低價、收市價和成交額)相對于一維時間軸的曲線,列舉的圖像文件是紅色、綠色、藍色三個顏色值相對于二維平面的圖像。理論上來說,任意N維空間的M個度量值的非純文字文件都可以經令牌化過程生成一個命名令牌的集合,并可以通過文字搜索引擎進行搜索。對于本領域的普通技術人員而言,文字搜索引擎已是廣泛應用的現有技術。根據本發明的一個實施方式,通過使用目標令牌名字或其語義邏輯組合,可以在數據資源或互聯網上有效、系統地邏輯搜索出N維空間的M個度量值生成的非純文字文件。盡管上述描述中詳細揭示了許多具體特征,但這些具體特征僅僅是為了方便說明和理解本發明的具體實施方式,并非用以限定本發明。需要說明的是,本發明還可以有多種變更。本發明的搜索系統可用于物理、醫療、地質、地理,以及其他科學工程應用領域。本領域的普通技術人員在理解上述說明和描述以后,在不脫離本發明的精神和范圍內,實踐中完全可以定義和使用其他非純文字文件的令牌化模式。例如,可以不采用紅、綠、藍三個顏色平均值為圖像模式來代表一個圖元,而是采用紅、綠、藍三色的三個坡面來代表一個圖元。令牌可以記為"n108—12",表示由北到南的;皮度為負108(北端和南端像素顏色值之差為108)、由西到東的坡度為12(西端和東端像素顏色值之差為12)。其他例子還包括,計算圖元中的指示條紋、計算圖元中的峰谷等特征。通常,在圖像搜索過程中,用戶可以根據自己的搜索對象、搜索目的和精度來選擇圖像特征抽取、抽象方法,以定義令牌化過程的圖像特4正模式或圖像特征模式組合。因此,本發明的權利保護范圍應由本發明的權利要求和其等同所界定,而并非由上述具體實施方式所決定。權利要求1、一個可有效、系統地搜索含非純文字信息的股票文件的搜索方法,其包括(一)收集一組股票文件,以形成一個被搜索股票文件的集合;(二)把被搜索股票文件集合中的每個股票文件分割成一系列時間單元;(三)定義一組和搜索對象、目的與精度相一致的非純文字股票特征模式;(四)通過股票文件的時間單元和股票特征模式的匹配和分析,對股票文件進行令牌化處理,以生成對應各時間單元的股票特征模式令牌,每個令牌以股票特征模式的名字命名;(五)把股票文件生成的所有令牌匯集成一個令牌集合,此令牌集合就是該股票文件的令牌表達形式;(六)把所有被搜索股票文件生成的令牌匯集為一個令牌總集合;(七)通過在股票令牌總集合中搜索搜索目標或搜索目標的邏輯組合,在股票文件集合中搜索和搜索目標或搜索目標的邏輯組合有相同令牌名字的股票文件,以生成一系列具有不同匹配度的匹配文件;(八)按匹配度排列所搜索到的股票文件,并在所搜索到的股票文件中標出搜索目標所在的位置。2、根據權利要求l所述的搜索方法,其特征在于所述股票文件來自各種數據資源。3、根據權利要求l所述的搜索方法,其特征在于所述股票文件直接來自互聯網或收集自互聯網、局域網。4、根據權利要求l所述的搜索方法,其特征在于所述股票文件的時間單元是按時間化分的,如小時、天、周、月、年等。5、根據權利要求l所述的搜索方法,其特征在于所述股票文件同時含有文字信息。6、一種可有效、系統地搜索含非純文字信息的圖像文件的搜索方法,其包括(一)收集一組圖像文件,以形成一個被搜索圖像文件的集合;(二)把被搜索圖像文件集合中的每個圖像文件分割成一個圖元陣;(三)定義一組和搜索對象、目的與精度相一致的非純文字圖像特征模式;(四)通過圖元陣中的每個圖元和每個圖像特征模式的匹配和分析,對圖像文件進行令牌化處理,以生成對應各圖元的圖像特征模式令牌,每個令牌都有一個能表達其特征的文字名字;(五)把所有被搜索圖像文件所生成的令牌匯集為一個令牌總集合;(六)提供一個搜索目標圖像,并將搜索目標圖像分割成一個圖元陣;(七)通過目標圖像的圖元陣中的每個圖元和每個圖像特征模式的匹配和分析,對目標圖像進行令牌化處理,以生成對應目標圖像各圖元的圖像特征模式令牌,每個令牌都有一個能表達其特征的文字名字;(八)通過在令牌總集合中搜索目標圖像的令牌名,在被搜索圖像文件集合中搜索與搜索目標圖像的令牌名字和位置排列相同的圖像文件,并生成一系列具有不同匹配度的匹配文件;(九)按匹配度排列所搜索到的圖像文件,并在所搜索到的圖像文件中標出搜索目標圖像的位置。7、根據利要求6所述的搜索方法,其特征在于所述圖像文件來自各種數據資源。8、根據權利要求6所述的搜索方法,其特征在于所述圖像文件直接來自互聯網或收集自互聯網、局域網。9、根據權利要求6所述的搜索方法,其特征在于所述圖像文件的圖元為一個含有一組像素的長方格。10、根據權利要求6所述的搜索方法,其特征在于所述圖像文件同時包括文字信息。11、一種可有效、系統地搜索非純文字文件的:&索方法,其包括(一)收集一組非純文字文件,以形成一個被搜索的非純文字文件的集合;(二)把被搜索文件集合中的每個非純文字文件分割成組成單元;(三)定義一組與搜索對象、目的和精度一致的非純文字特征模式;(四)通過非純文字文件的組成單元和非純文字特^正;模式的匹配和分析,對非純文字文件進行令牌化處理,以生成一個令牌總集合,每個令牌都起一個能表達其特征的文字名字;(五)通過在令牌總集合中搜索搜索目標令牌,在非純文字文件集合中搜索和搜索目標令牌或搜索目標令牌的邏輯組合具有相同令牌的非純文字文件,以生成一組具有不同匹配度的匹配文件;(六)按匹配分數排列所搜索到的非純文字文件,并在所搜索到的文件中標出搜索目標所在的位置。12、根據權利要求ll所述的搜索方法,種數據源。13、根據權利要求ll所述的搜索方法,自互聯網或收集自互聯網、局域網。其特征在于所述非純文字文件來自各其特征在于所述非純文字文件直接來14、才艮據權利要求ll所述的搜索方法,其特征在于所述非純文字文件為股票文件、圖像文件或任一N維空間M個度量所產生的文件。15、一種將非純文字文件通過令牌化處理轉換為令牌集合的方法,其包括(一)將非純文字文件分割多個組成單元;(二)定義一組與搜索對象、目的和精度一致的非純文字特征模式,也稱特征抽象、抽取模式;(三)把每個特征模式與每個文件的組成單元進行匹配和分析,并對應文件的組成單元和非純文字特征模式生成一個令牌,每個令牌都起一個能代表其特征的文字名字;(四)把所生成的所有令牌匯集成一個令牌集合。16、根據權利要求15所述的方法,其特征在于所述組成單元是按時間切割的。17、根據權利要求15所述的方法,其特征在于所述組成單元為一個圖像的圖元陣。18、根據權利要求15所述的方法,其特征在于所述非純文字文件來自各種數據源。19、根據權利要求15所述的方法,其特征在于所述非純文字文件直接來自互聯網或收集自互聯網、局域網。20、根據權利要求15所述的方法,其特征在于所述非純文字文件可以是股票文件、圖像文件或任一N維空間M個度量所產生的文件。21、一種可有效、系統地搜索多個非純文字文件的搜索方法,其包括(一)以文件令牌集合的形式表示各個非純文字文件,每個文件令牌都有一個文字名字;(二)提供一個非純文字搜索目標,并以搜索目標令牌或搜索目標令牌的邏輯組合表示搜索目標,每個搜索目標令牌都起一個文字名字;(三)通過用搜索目標令牌的名字搜索文件令牌的名字,實現對非純文字文件的搜索。22、根據權利要求21所述的搜索方法,其特征在于所述搜索方法進一步包括提供一文字搜索目標,并通過用該文字搜索目標搜索所述文件令牌的名字,以搜索所述文件。全文摘要本發明涉及一種非純文字文件搜索系統,其可在大規模數據資源中搜索股票文件或圖像文件等非純文字文件。非純文字文件首先被分割成一系列時間單元或圖元陣,每個時間單元或圖元和一系列預定的特征模式匹配與比對,以生成一系列能代表文件局部或整體特征的命名令牌。這樣,非純文字文件就有了一個命名令牌集合的表達形式。當所有文件的令牌匯集成一個令牌總集合后,通過文字搜索方法搜索命名令牌的邏輯組合,就可以有效、系統地搜索原非純文字文件。文檔編號G06F17/30GK101201837SQ20071010497公開日2008年6月18日申請日期2007年5月10日優先權日2006年5月24日發明者譚思哲申請人:譚思哲