專利名稱:數據整合方法
技術領域:
本發明涉及一種數據處理方法,尤其是處理與企業有關的數據的方法。
背景技術:
為了獲得成功,企業需要做出消息靈通的決策。在風險管理中,企業需要了解并管理整個風險暴露(risk exposure)。他們需要識別并催收高風險賬目(high-risk account)款項。此外,他們需要快速并且一致地批準或準予信貸。在銷售和行銷中,企業需要確定最可獲利的客戶和潛在客戶為目標,以及現有客戶基礎中逐漸增加的機會。在供應管理中,企業需要了解將支付給供應商的總額以便更好地進行協商。他們還需要揭示關于供應商的風險和依賴,以減少受供應商未能履行的影響。
這些商業決策的成功主要取決于它們之后的信息的質量。所述的質量由信息是否準確、完整、及時和一致決定。由于可用的數據資源數以千計,所以判定企業應該依靠哪個質量信息做決定是個挑戰。當企業非常頻繁地變動時尤其是這樣。在接下去的三十分鐘內,120個企業將變更地址,75個企業的電話號碼將變更或被切斷,30個新企業將開張,20個執行官(CEO)將離職,15個公司將變更名稱并且10個企業將關閉。
提供商業數據的傳統方法是不完備的。某些提供者收集不完整的數據,不能與實體完全匹配,具有重復使用編號的不完備的編號系統,不能提供公司族系信息或提供不完整的公司族系信息,以及僅僅提供不完整的增值預測數據。本發明的目的是提供更加完整和準確的商業數據。這包括完整和準確的數據收集,實體匹配,標識號分配,公司關聯(corporatelinkage),以及預測指示器。這種完整性和準確性產生了企業信任并依靠其做出商業決定的高質量的商業信息。
發明內容
一種數據整合方法,用于提供使得企業能夠做出商業決策的質量信息,尤其是這樣一種方法,其中商業數據作為原始數據被收集。測試所述原始數據的準確性并對其進行處理,以便為了完整性產生二級數據。處理所述原始數據以便形成所述二級數據包括進行公司關聯并提供預測指示器。接著,被組合的原始和二級數據作為增強的商業信息被提供。對所述原始和/或二級數據進行周期采樣,并根據預定條件對其進行評估。從而,調整測試和/或處理以便確保質量。
測試原始數據包括確定原始數據是否與以前存儲的數據相匹配。若發現匹配,則執行公司關聯(即,檢查公司間的從屬關系)。若沒有發現匹配,則測試包括確定所述原始數據是否滿足第一閾值條件,諸如當至少兩個來源證實存在與所述原始數據相關聯的企業時。若所述原始數據滿足所述第一閾值條件,則一個標識號被分配,并且二級數據被創建并被保存。所述的標識號唯一地標識一個企業,標識號被一次性使用,并且不再被重復使用。若所述原始數據不滿足所述第一閾值條件,則所述原始數據被存儲在庫中,直到有新的數據成為是可用的。一旦收到新數據,所述測試包括確定所述原始數據連同所述新數據一起是否滿足所述第一閾值條件。若滿足,則分配一個標識號,并存儲所述二級數據。
執行公司關聯包括確定所述原始數據是否滿足第二閾值條件,諸如預定銷售量。若是,則對所述原始數據進行分析和處理,并且創建和存儲所述二級數據,以便將公司族系與所述原始數據關聯起來。在合并或收購之后,所述公司族系被更新。如果所述原始數據不滿足第二閾值條件,則創建預測指示器作為附加的二級數據。
僅在所述原始數據滿足第三閾值條件時創建預測指示器,所述第三閾值條件諸如一種客戶查詢的預定等級。若滿足,則對所述原始數據進行分析和處理并創建和存儲附加的二級數據作為產品預測指示器(producepredictive indicator),諸如描述性等級,得分,或需求估計量。
本發明的另一實施例是用于數據整合的系統。所述系統包括數據庫,數據收集組件,標識號組件,以及預測指示器組件。所述數據庫組件存儲與企業相關的信息。所述數據收集組件收集與所述企業相關的原始數據。所述標識號組件將標識號用于所述原始數據,并在所述數據庫組件中存儲二級數據。所述預測指示器組件提供了與所述企業相關的預測指示器,并且還在所述數據庫組件中存儲二級數據。所述系統還可以包括實體匹配組件和公司關聯組件。所述實體匹配組件防止重復的企業實體出現在所述數據庫組件中。所述公司關聯組件將公司族系和數據庫組件中的企業關聯起來。
本發明的再一實施例是機器可讀的介質,所述機器可讀的介質用于存儲用于數據整合的可執行的指令。所述指令包括收集企業的原始數據,為企業執行實體匹配,把標識號用于所述企業,為所述企業執行公司關聯,以及為企業提供所述的預測指示器。
應用所述標識號是這樣一個處理,其起始于接收一個請求。所述請求具有一個標識號以及原始數據。如果所述標識號不是已經存在的,則分配一個。否則,如果所述標識號被關聯到其它數據,則執行驗證并提供所述標識號。
執行公司關聯包括維護族系樹,執行調查,處理所述族系樹,并對其進行存儲。通過檢查并更新任意的標準工業分類、檢查并標準化商業稱呼(tradestyle)、以及解決任意的重復來維護所述族系樹。所述調查收集信息。通過檢查并處理所收集的信息、檢查并更新任意的匹配、以及解決任意的看起來相似(look-a-likes)或未關聯的外來數據來處理所述族系樹。
提供所述預測指示器包括確定進行預測的模型和結果。接著,選取研究樣本(development samples),創建簡檔,并且執行統計分析。最后,基于所述模型、結果、樣本、簡檔以及統計分析提供所述預測指示器。
參照附圖、說明書和權利要求書,本發明的這些和其它特征、方面和優點將變得更容易理解。
圖1是根據本發明的數據整合方法的方框圖;圖2是根據本發明用于數據整合的系統的方框圖;圖3是根據本發明用于數據整合的系統的方框圖;圖4是一個邏輯框圖,給出了根據本發明的數據整合方法;圖5是根據本發明的數據收集的示例來源的方框圖;圖6是根據本發明的數據收集的更多示例來源的方框圖;圖7和8是根據本發明的實體匹配的方框圖;圖9是實體匹配的方框圖,其中根據本發明匹配的數據被傳送到一個數據庫,而不匹配數據被發送以便分配新的公司標識號;圖10是實體匹配的方框圖,其中根據本發明的匹配的數據被傳送到一個數據庫,而不匹配的數據或是被發送以便分配新的公司標識號,或是被存儲于數據庫中直到能夠收集附加的數據時為止;圖11和12是根據本發明的實體匹配方法的方框圖;圖13-16是根據本發明的公司關聯的方框圖;圖17是根據本發明的執行公司關聯的示例性方法的邏輯框圖;圖18A和18B是根據本發明提供預測指示器的示例性方法的方框圖。
具體實施例方式
在下列詳細描述中,參考了附圖。這些圖構成了本說明書的一部分,并通過舉例的方式示出了可以實施本發明的具體的優選實施例。足夠詳細地對這些具體實施例進行了描述,以使本領域技術人員能夠實施本發明。還可以使用其它實施例,并且在不脫離本發明的精神和范圍的情況下可以做出進行結構上的,邏輯上的和電子的變化。因此,下列詳細描述不應被視作限制性的,并且本發明的范圍僅由所附權利要求來限定。
圖1示出了根據本發明的數據處理方法的概述。該方法的基礎是質量保證102,它是被連續進行的數據審計,驗證,規格化,校正以及更新,以便確保整個處理過程的質量。有5個順序工作的質量驅動器,用來增強輸入數據104以便使其成為質量信息106。這5個驅動器是數據收集驅動器108,實體匹配驅動器110,標識(ID)號驅動器112,公司關聯驅動器114,以及預測指示器驅動器116。這5個驅動器訪問數據庫118。數據庫118是數據和數據庫管理工具的有組織的集合,諸如關系數據庫,面向對象的數據庫或其它類型的數據庫。基于質量保證和全局數據收集中的客戶反饋,數據庫118中的數據被不斷地改進和增強。
數據收集驅動器108將來自全世界各種來源的數據集中在一起。接著,所述數據被經由實體匹配驅動器110整合到數據庫118中,產生了對各個企業實體的單一的,更加準確的描述。接著,標識號驅動器112使用標識號作為在企業經歷任何變化的整個過程中標識和跟蹤所述企業的唯一手段。然后,公司關聯驅動器114建立公司族系以便能夠查看完整的企業風險和機會。最后,預測指示器驅動器116利用統計分析來估計企業過去的業績,并且指出所述企業將來完成同樣業績的可能性。
圖2和3示出了根據本發明用于數據整合的系統的兩個示例性實施例,但是其它系統也會適用于實施本發明。圖2示出了一種網絡配置,而圖3示出了一種計算機系統配置。在圖2中,網絡200有助于在包括計算機系統202在內的其它系統組件之間進行通信。所述5個質量驅動器,數據收集驅動器108,實體匹配驅動器110,標識號驅動器112,公司關聯驅動器114,以及預測指示器驅動器116和質量保證102順序地工作以便增強輸入數據104,從而將其成為被存于數據庫204中的質量信息106。在圖3中,計算機系統300具有處理器302,處理器302經由總線306訪問存儲器304。存儲器304存儲有操作系統程序308,數據整合程序310,以及數據312。
圖4示出了根據本發明的數據整合方法的另一個實施例。該方法包括5個數據整合的主要部分數據收集400,實體匹配402,標識號404,公司關聯406以及預測指示器處理408,以便產生高質量數據410。數據收集400收集原始數據。測試所述原始數據的準確性并對其進行處理以便產生二級數據。處理所述原始數據包括執行公司關聯406并提供預測指示器408。接著,被組合的原始和二級數據作為增強的商業信息或高質量數據410被提供。所述原始和二級數據被周期地采樣,并被根據預定條件評估。結果,調整所述測試和處理以確保質量。
測試原始數據包括在實體匹配402中確定原始數據是否與以前存儲的數據相匹配412。若匹配,則執行公司關聯406。若不匹配,則測試包括確定所述原始數據是否滿足第一閾值條件414,諸如當至少兩個來源證實存在與原始數據相關聯的企業時。如果所述原始數據滿足所述第一閾值條件,則控制轉到標識號組件404,其中標識號被分配420,并存儲二級數據422。所述標識號唯一地標識一個企業,只被使用一次,不再重復使用。如果所述原始數據不滿足所述第一閾值條件,則所述原始數據被存儲在庫416內,直到新的數據成為可用時為止418。一旦收到新的數據,測試包括確定所述原始數據連同所述新數據一起是否滿足所述第一閾值條件。如果是,則分配一個標識號,并存儲二級數據。
執行公司關聯406包括確定所述原始數據是否滿足第二閾值條件424,諸如預定銷售量。如果是的,則對所述原始數據進行分析和處理426,并存儲二級數據428,以便將一個公司族系與所述原始數據關聯起來。在合并或收購之后,對公司族系進行更新。如果所述原始數據不滿足所述第二閾值條件,則控制轉到預測指示器組件408。
提供預測指示器408包括確定所述原始數據是否滿足第三閾值條件430,諸如客戶查詢的預定等級。如果是,則對所述原始數據進行分析和處理432,并存儲二級數據434,以便產生預測指示器,諸如描述性等級,得分或需求估計量。
因此,所述的5個組件或驅動器一起工作,以便將所收集的數據整合為可用于進行商業決策的增強的數據。下面從數據收集驅動器108開始,更加詳細地研究所述5個驅動器中的每一個。
圖5示出了數據收集驅動器108中所用的某些數據來源。以收集最可能完整的數據為目標,收集關于客戶、潛在客戶、供應商的數據。尤其是,數據的某些來源是直接調查502,交易數據504,公共記錄506,以及Web來源508。直接調查502包括給企業打電話。交易數據504包括更新交易記錄。公共記錄506包括訴訟(suits),留置權(liens),裁決(judgements),以及破產申請以及企業注冊等。Web來源508包括統一資源定位符(URL),來自域的更新,客戶提供的在線更新(customers providing onlineupdates),以及其它來自Internet的Web數據。
所述Web數據包括來自“Whois”文件的信息和來自被稱為VerSignRegistry的注冊的域的中央庫的信息以及其它數據。Whois是一個程序,它告訴你已經向VeriSign注冊了的任意二級域名的所有者。VeriSign是一個總部設于美國加利福尼亞州的芒廷維尤(Mountain View)的公司。通過數據挖掘,域名的基本參考文件被與所述標識號匹配并被擴展。一些統一資源定位符(URL)被手工地分配與之匹配者。來自“Whois”文件和數據挖掘的信息被與數據庫118中的數據相匹配。通過對諸如狀態、保密數據、認證數據以及其它數據的附加Web站點數據的數據挖掘,增強了所述基本參考文件。
所述文件的覆蓋范圍被擴展。標識號和URL的所有匹配都被合理地處理。使用上一級和下一級鏈接跨族系樹成員擴展URL的覆蓋范圍。根據狀態和匹配類型對URL排序。某個數目的URL或域,比如前面第5個,被包含在輸出文件中。以所有的URL和被匹配的標識號(沒有關聯)創建另一個輸出文件。
URL基本文件數據元素包括URL/域名,匹配代碼,狀態標志,重定向標志,以及每個標識號的URL的總數。所述匹配代碼與所述站點或分支機構(affiliate)相匹配。所述狀態標志是實時的,在正在構造中的等。所述重定向標志是如果重定向到其它站點,則被列出的實際的URL。
還有URL附加(URL plus)文件元素,它們在獨立于所述的URL基本文件的文件中。它包括來自所述URL基本文件的全部URL和數據,關于網站完善性(Website sophistication)的概要數據,以及關于有效/活的URL的安全性。它還包括外部和內部鏈接的總數,元標簽標志,安全指示器,加密強度,諸如出現的安全套接字層(SSL),以及認證指示器。
擴展的URL附加元素是獨立于所述URL基本文件和URL附加文件的獨立文件。它包括具有活的URL的所有URL基本和URL附加數據,關于網站完善性以及安全性的詳細數據。它們包括安全的Web服務器類型,證書發行公司,所有者標志,哪一個是證書所有者或證書使用者,外部URL鏈接的數目,例如5個,以及元數據,諸如關鍵字,描述,作者,以及創建者。
圖6示出了為了提高的準確性由數據收集驅動器108所使用的一些其它數據來源,諸如電話簿或黃頁602,新聞和媒體604,直接調查606,公司財務信息608,支付數據610,法庭和法律事務受理處(courts & legalfilings offices)612,以及政府注冊614。這種信息的完整性有助于做出可獲利的商業決策。在風險管理中,用戶用得出的信息來評估來自非美國(U.S.)公司的風險。來自小企業客戶的風險能夠被更完全地識別。當用戶以更完整的信息作為基礎時,他們能夠做出更消息靈通的風險決策。在銷售和行銷中,用戶可以從由多個來源提取的數據中識別出新的潛在客戶。用戶可以獲得與國際客戶和潛在客戶的接觸,并挑選出最好的(cherrypick)出具有增值信息諸如標準工業分類(SIC)和聯系人姓名的潛在客戶列表。在供應管理中,用戶可以利用得出的信息評估來自國外供應商的風險,并且更完全地識別來自供應商的風險。由于每天都更新數據庫118,用戶可以獲得對每個客戶,潛在客戶和供應商的新的更完整的描述。
圖7示出了如何把多個不匹配的數據片段702變成一個完整的單個企業704。實體匹配驅動器110檢查輸入數據104,以便查看其是否屬于數據庫118中任意現有的企業。在該例子中,ABC,Inc.,Chuck’Mini-Mart和Charles Smith看起來是獨立的公司,但是在實體匹配之后,很顯然他們都是一個企業,ABC,Inc.and Chuck’Mini-Mart的一部分。不同的地址和其它相關信息也被協調成完整的單個企業704。
圖8示出了如何把與數據庫118中的企業匹配的輸入數據104經由實體匹配驅動器110添加到所述企業上。圖9示出了另一個情況,其中不與數據庫118中任何企業匹配的輸入數據104或是被指定為新企業,或者如圖10所示那樣被保存在庫1002,以便等待對它是新企業的進一步的數據驗證。實體匹配驅動器110被設計成每次使數據與正確的企業匹配,從而提高了效率。實體匹配驅動器110提供了客戶、潛在客戶以及供應商的更加完整和準確的簡檔,并且確保重復的企業很少。
圖11示出了通過匹配驅動器110進行匹配的示例性方法。該方法包括清除和分析1102,執行候選者檢索1104,以及制定決策1106。清除和分析1102包括識別查詢數據的關鍵部分1108,規格化名稱、地址和城市1110,執行名稱一致性1112,以及執行地址標準化1114。候選者檢索1104包括從參考數據庫中收集可能匹配候選者1116,利用關鍵字提高檢索質量和速度1118,并基于查詢數據中提供的數據優化關鍵字1120。制定決策1106包括根據一致的標準評估匹配1122,應用匹配等級1124,應用信任代碼(confidence code)1126,以及應用信任百分數(confidence percentile)1128。
圖12示出了通過驅動器110進行匹配的更加詳細的方法。該方法包括Web服務1202,清除,分析以及標準化1204,候選者檢索1206,以及測量,評估和決策1208。在Web服務1202中,HTTP服務器接收一個請求,并在HTTP上以XML提供響應1210,并且應用服務器處理該XML請求并把其轉換成JAVA對象,并且接著處理該JAVA對象并把其轉換回XML1212。在清除,分析和標準化1204中,分析名稱和地址元素并刪除無關的字1214。接著,驗證所述地址以確保街道和城市名稱是正確的,并指定郵政編碼加4和緯度和經度1216。參考表保持空的城市和空的街道名稱1218。在候選者檢索1206中,從參考數據庫中產生用于檢索候選者的關鍵字1220。接著,在搜索策略和候選者索引中為了有效的數據庫檢索優化關鍵字。為搜索參考數據庫建立并維護參考表1224。在測量、評估和決策中1208,得出信任得分的測量,它指出查詢和候選者之間的匹配程度。接著,建立用于在線給出每個候選者的順序,并選擇該批中的最佳的候選者。本領域普通技術人員想到的執行匹配的其它方法也可以用于實施本發明。
標識(ID)號驅動器112把唯一的標識號添加到每個企業上,從而企業能夠被容易并且準確地識別。唯一標識號的一個例子是諸如可從總部位于Short Hills,NJ的鄧白氏公司(Dun & Bradstreet)獲得的D-U-N-S編號,它是個9位數字編號,使得企業在變更和更新過程中能夠被容易地追蹤。在企業存在時一直為其保留所述標識號。沒有兩個企業會收到同一標識號,并且所述標識號永不會被重復使用。直到多個數據資源證實該企業存在時才分配所述標識號。所述標識號起用于企業標識的工業標準的作用。其得到了聯合國、國際標準化組織(ISO)、歐洲委員會以及五十多個工業組織的認可。
根據本發明,所述標識號是所述數據處理方法中的中心概念。對于質量保證而言,所述標識號允許在處理的每個步驟驗證信息。對于數據收集驅動器108而言,如果數據沒有被關聯到現有標識號,則它表示著可能是新企業。對于實體匹配驅動器110而言,標識號允許新數據被準確地與現有企業相匹配。對于公司關聯驅動器114而言,基于每個企業的標識號來組合公司族系。對于預測指示器驅動器116而言,所述標識號被用于構建預測工具。
此外,所述標識號通過幫助驗證企業的存在,給用戶的企業打開了新的機會領域。給用戶提供了對潛在客戶、客戶和供應商全面了解。澄清現有數據,消除了重復,相關的企業被示出為相互關聯。當把所述標識號附加到用戶信息時,用戶就能夠更容易地管理大的客戶或供應商組。當被附加到用戶信息上時,所述標識號能夠實現快速并且容易的數據更新。
圖13示出了標識號驅動器112的示例性方法。所述處理起始于一個標識號請求1302,包括輸入名稱,地址,城市,狀態等。例如,當為數據庫118仍不存在的新企業創建記錄時,請求一個標識號。在查找操作操作1304,在數據庫118中搜索所述請求中的標識號。如找到了所述標識號1306,則使得所述標識號成為客戶可用的1308。否則,來自所述請求的輸入被捕獲1310,并分配一個標識號,包括Mod 10驗證1312。Mod 10驗證在最后分配一個檢驗數字以便保持編號是干凈的。在關聯到其它標識號步驟1314,如果有關聯,則在進行前端驗證之前對其進行驗證1316。接著,執行重復驗證1320和主機驗證1322,并且使得所述標識號成為是客戶可用的1308。關聯驗證防止了諸如被鏈接到另一分部的分部的錯誤。
圖14-16示出了公司關聯驅動器114如何構建公司關聯以便揭示公司是如何被聯系的。如果沒有公司關聯,則圖14中的公司L Refinery Div.1402,C Store Inc.1404,以及G Storage Div.1406看起來是不相關的。
然而如圖15所示,使用公司關聯使得能夠不限深度或寬度地查看整個公司族系。母公司U Products Group Corp.1502和其下的三個子公司LInc.1504,C Inc.1506,以及G Inc.1508。L Inc.1504具有兩個分部,LStorage Div.1510和L Refinery Div.1402(圖14所示)。C Inc.1506具有兩個分部,Industrial Co.1512和Building Co.1514以及一個子公司,C Stores Inc.1404(圖4所示)。G Inc.1508具有兩個分部,G Stroage Div.1406(圖14所示)以及G Refinery Div.1516。C Stores Inc.具有四個分部,North Store Inc.1518,South Store Inc.1520,West Store Inc.1522,以及East Store Inc.1524。建立廣泛的公司關聯允許商業信息提供者通過提供這種全面的細節成為是行業領導。
圖16示出了在合并和收購之后公司關聯驅動器114如何更新族系樹。在該實施例中,在合并之前有兩個獨立的企業,ABC 1602和XYZ 1604,并且每個都有其自己的子公司和分部。合并之后,ABC XYZ 1606具有兩個子公司,ABC子公司1608和XYZ子公司1610,它們中每個具有其自己的分部和/或子公司。
公司關聯驅動器114為用戶在風險管理,銷售和行銷,以及供應管理中揭示了可獲利的機會。其使得用戶能夠了解公司族系的整個風險暴露。用戶可以認識到一個公司的倒閉或該公司內的財務壓力與其公司族系中的其它部分之間的關系。用戶能夠在公司族系內發現新的和現有客戶的逐漸增加的機會,并了解誰是最好的客戶以及誰是潛在客戶。用戶能夠確定其支付給一個公司族系的總額以便更好地進行協商。
圖17示出了執行公司關聯驅動器114的示例性方法。一般來說,其示出了更新族系樹關聯1700的方法,其中目標是正確地將具有標識號的每個實體的所有子公司和分部與一致的名稱,商業稱呼和正確的員工數目聯系起來,同時解決了所有看起來相似(LALs)的問題。
例如,文件構建和其它活動可以創建最初不關聯的記錄,例如需要解決的重復記錄或看起來相似的內容。例如,如果有人創建一條關于LensCrafters的記錄,但是當它是LensCrafers USA時,其被叫做LensCrafers EyeGlasses,于是你可能具有看起來相似的或重復的記錄。為了防止這種情況,方法1700解決看起來相似的記錄。有三個用于解決看起來相似的記錄的一般規則。第一,如果看起來相似的記錄在一個目錄上,或能夠在總部被口頭確認,則它被據此關聯。第二,未證實的看起來相似的記錄需要電話調查。第三,不管合作級別是怎樣的,所有的看起來相似的記錄必須在樹注銷之前被解決。
在方法1700的開始,針對一個目錄聯系公司1702,優選地以電子形式。可能的聯系人包括前任聯系人,人力資源,法律部門,管理員,投資關系方等等。如果目錄可用,則評估樹和目錄的批處理潛力(bulk processpotential),包括外部鍵控(offshore keying)1704。接著據此更新所述樹。另一方面,如果目錄不可用,就在Internet上搜索公司站點1706。如果可得到所述站點,就評估網站信息的批處理潛力,包括外部鍵控1708,并且據此更新所述樹。如果所述站點不可得到,則確定該公司是否公開交易過1710。若是,則檢查最后的10-K。否則,給子公司打電話以便口頭驗證所述樹結構。解決了看起來相似的記錄并執行樹的注銷。
預測指示器驅動器116總結收集到的關于企業的信息,并用其預測將來的業績。有三種類型的預測指示器描述性等級,預測得分和需求估計量。描述性等級是對公司過去業績的整體的描述性等級評估。預測得分是對企業將來有信譽的可能性程度的預測。需求評估量估計企業可能總共購買多少產品。
預測指示器幫助用戶促進其企業的各個領域。在風險管理中,描述性等級幫助用戶準予或批準信貸。基于過去的財務業績,等級指出了公司的信譽良好性。得分基于過去的支付歷史指出了信譽良好性。預測得分可以被用在用戶的所有的有價證券類中,以便迅速識別高風險賬目,并立即開始催收。商業信譽得分預測了企業在緊接著的十二個月期間付款滯后(paying slow)的可能性。財務壓力得分預測在緊接著十二個月期間企業失敗的可能性。在銷售和行銷中,需求評估量使用戶知道誰有可能購買,以便能夠區分客戶或潛在客戶之間的機會的優先次序。需求評估量的例子包括個人計算機的數量和本地或長途電話的支出。在供應管理中,預測得分可以被用于用戶的所有供應商,以便迅速了解他們將來失敗的風險。
此外,可以根據用戶的特定需要和標準定制預測得分。例如,可以使用諸如下述這樣的標準,(1)用戶想要預測什么行為;(2)用戶想要評估什么規模的企業;(3)基于用戶風險容忍量把風險評估轉化為信譽判定或風險管理措施的決策規則是什么。
由分析能力和數據能力使得預測指示器得以實現。例如,一個專門的經驗豐富的企業對企業(B2B)專家博士組可以構建基礎的預測模型,并可以獲得用于分析的特定行業的知識,財務和支付信息以及大量歷史信息。
圖18A和18B示出了創建預測指示器的示例性方法。其起始于市場分析1802,并且接著是關于模型開發的商業決策1804。該決策涉及將被開發的得分類型和最后的輸出,諸如破產風險得分,違約風險得分,或特定行業得分。所述破產風險得分是公司中斷運轉的可能性。所述違約風險得分是公司延遲付款的可能性。所述特定行業得分預測某些特殊內容,諸如使用抄寫員(copiers)或卡車司機(truckers)的可能性,或公司是否有良好的信譽風險。從提供關于信譽的歷史數據的信譽檔案數據庫1808和交易磁帶數據庫1810收集輸入數據1806。有兩個關心的時間段,活動時期,它是對整個事實的歷史上的觀察,結果時期(resulting period),它是此后看發生了什么的時間周期。例如,假定上一年度的數據,公司相對于今年某個時間周期內是如何運行的。下一步,確定“不良定義(bad definition)”(將被預測的結果)指的是將被評估的風險,諸如財務壓力得分,它預測在接著的十二個月內不倒閉的可能性。
從商業領域(business universe)選擇開發樣本1814,創建商業領域的人口統計簡檔1816,以及執行說明性數據分析1818(所有變量的單變量分析)。執行諸如確定變量范圍、變量類型這樣的任務,包括或不包括變量,以及其它的關于理解將什么放入模型的功能。可以根據所述的活動時期和所述的結果時期選擇變量,并且可以分配權重以便指出準確性或代表性。質量保證包括周期地檢查以便查看企業界里是否有影響初始模型的任何內容,以及取一個得分(score),并針對之前的一個時期運行它,以便檢查它是否仍為指示性的或預測性的。樣本可以有缺陷。
繼續圖18B,執行包括邏輯回歸(logistic regression)和其它評估技術的統計分析和模型開發處理1820。該步驟包括采用合適的模型,公式和統計。接著,統計系數被轉換成記分卡(scorecard)1822。模型被測試并被驗證1824,并且開發技術規范1826。最后,模型被實現1828并被測試1830。數據被在所述模型中運行以產生得分。周期地執行檢查以便驗證所述的得分依舊有效并確定所述記分卡是否需要被更新。
應該明白,上面的描述是說明性的,而不是限制性的。根據對上面描述的回顧,很多其它實施例對于本領域技術人員將是明顯的。描述了執行數據收集、執行實體匹配、應用標識號、執行公司關聯以及提供預測指示器的各種實施例。本發明對商業信息行業之外的應用也有適用性。因此,本發明的范圍應根據所附權利要求和被授權的這種權利要求的等價物的整個范圍來確定。
權利要求
1.一種數據整合方法,包括收集包括原始數據的信息;測試所述原始數據的準確性;處理所述原始數據以產生二級數據;以及提供包括所述原始數據和二級數據的增強的信息。
2.根據權利要求1所述的方法,還包括對所述原始和/或二級數據定期采樣,由此產生采樣數據;根據至少一個預定的條件評估所述采樣數據;以及基于所述評估調整所述測試和/或處理。
3.根據權利要求1所述的方法,其中所述測試包括從包括(a)確定所述原始數據是否與被存儲的數據相匹配;以及(b)為所述原始數據分配標識號的組中選擇的至少一個步驟。
4.根據權利要求3所述的方法,還包括下列步驟如果在步驟(a)中所述原始數據與所述被存儲的數據不匹配,則在步驟(b)中的分配標識號之前確定所述原始數據是否滿足第一閾值條件。
5.根據權利要求4所述的方法,其中所述第一閾值條件是至少兩個來源證實與所述原始數據相關聯的企業存在。
6.根據權利要求3所述的方法,其中所述標識號是實體標識符。
7.根據權利要求3所述的方法,還包括下述步驟如果所述原始數據不滿足所述第一閾值條件,則存儲所述原始數據。
8.根據權利要求7所述的方法,還包括接收附加的原始數據;確定所述原始數據和附加的原始數據是否滿足所述第一閾值條件;以及如果所述原始數據和所述附加的數據滿足所述第一閾值條件則在步驟(b)分配標識號。
9.根據權利要求1所述的方法,其中所述原始數據的所述處理包括選自由下述組成的組中的至少一個步驟確定公司關聯;和確定至少一個預測指示器。
10.根據權利要求9所述的方法,其中所述確定所述公司關聯包括確定所述原始數據是否滿足第二閾值條件;以及處理所述原始數據以產生所述二級數據。
11.根據權利要求10所述的方法,其中所述第二閾值條件是預定銷售量。
12.根據權利要求10所述的方法,其中所述原始數據的所述處理包括把至少一個附屬實體與所述原始數據關聯起來。
13.根據權利要求9所述的方法,其中所述確定至少一個預測指示器包括確定所述原始數據是否滿足第三閾值條件;處理所述原始數據以產生所述二級數據。
14.根據權利要求13所述的方法,其中所述第三閾值條件包括客戶查詢的預定等級。
15.一種數據整合系統,包括數據生成裝置,它能夠從至少一個數據來源收集原始數據;測試單元,它能夠測試所述原始數據的準確性;和第一處理單元,它能夠分析所述原始數據并根據所述分析結果生成二級數據;以及第二處理單元,它能夠合并所述原始數據和所述二級數據,以便形成增強的信息,其中所述測試單元,第一處理單元和第二處理單元可以是同一個或是彼此獨立的。
16.根據權利要求15所述的系統,其中所述測試單元包括選自由下述組成的組中的至少一個數據匹配單元和實體標識符單元。
17.根據權利要求15所述的系統,其中所述第一處理單元包括選自由下述組成的組中的至少一個公司關聯單元和預測指示器單元。
18.一種存儲用于數據整合的可執行指令的機器可讀介質,所述指令包括收集包括原始數據的信息;測試所述原始數據的準確性;處理所述原始數據以產生二級數據;以及提供包括所述原始數據和二級數據的增強的信息。
19.根據權利要求18所述的機器可讀介質,還包括對所述主要和/或二級數據周期地采樣,由此產生采樣數據;根據至少一個預定的條件評估所述采樣數據;以及基于所述評估調整所述測試和/或處理。
20.根據權利要求18所述的機器可讀介質,其中所述測試包括選自由下述組成的組中的至少一個步驟(a)確定所述原始數據是否與被存儲的數據相匹配;以及(b)為所述原始數據分配標識號。
21.根據權利要求20所述的機器可讀介質,還包括步驟如果在步驟(a)中所述原始數據與所述被存儲的數據不匹配,則在步驟(b)中分配標識號之前確定所述原始數據是否滿足第一閾值條件。
22.根據權利要求21所述的機器可讀介質,其中所述第一閾值條件是至少兩個來源證實與所述原始數據相關聯的企業存在。
23.根據權利要求20所述的機器可讀介質,其中所述標識號是實體標識符。
24.根據權利要求20所述的機器可讀介質,還包括下述步驟如果所述原始數據不滿足所述第一閾值條件,則存儲所述原始數據。
25.根據權利要求24所述的機器可讀介質,還包括接收附加的原始數據;確定所述原始數據和所述附加的原始數據是否滿足所述第一閾值條件;以及如果所述原始數據和所述附加的原始數據滿足所述第一閾值條件,則在步驟(b)分配標識號。
26.根據權利要求18所述的機器可讀介質,其中所述原始數據的所述處理包括選自由下述組成的組中的至少一個步驟確定公司關聯;和確定至少一個預測指示器。
27.根據權利要求26所述的機器可讀介質,其中所述確定所述公司關聯包括確定所述原始數據是否滿足第二閾值條件;以及處理所述原始數據以產生所述二級數據。
28.根據權利要求27所述的機器可讀介質,其中所述第二閾值條件是預定銷售量。
29.根據權利要求27所述的機器可讀介質,其中所述原始數據的所述處理包括把至少一個附屬實體與所述原始數據關聯起來。
30.根據權利要求26所述的機器可讀介質,其中所述確定至少一個預測指示器包括確定所述原始數據是否滿足第三閾值條件;處理所述原始數據以便產生所述二級數據。
31.根據權利要求30所述的機器可讀介質,其中所述第三閾值條件包括客戶查詢的預定等級。
全文摘要
一種數據整合方法,涉及了一種用于收集未加工的商業數據并對其進行處理以便產生高度可用和高度準確的信息從而能夠進行商業決策的獨特的方法。所述處理包括收集全局數據,實體匹配,應用標識號,執行公司關聯,以及提供預測指示器。這些處理步驟連續地工作,以過濾和組織未加工的商業數據并以報告的形式向客戶提供質量信息。此外,通過所述處理的每個步驟的質量保證增強了所述信息,以便確保所做出的報告的高質量。
文檔編號G06Q10/00GK1826578SQ200480004523
公開日2006年8月30日 申請日期2004年1月21日 優先權日2003年2月18日
發明者S·L·斯托克, A·T·謝里夫, M·E·普雷沃茲納克, C·J·盧卡斯, C·R·本克, M·P·塞克勒, A·達克沃思 申請人:鄧百氏公司