本發明涉及數據處理領域,具體而言,涉及一種更新地理信息數據增量的方法及裝置。
背景技術:
::關聯規則挖掘作為數據挖掘的一個重要領域,用于發現大量數據中項集之間的關聯性,在各個領域發揮著不可替代的作用。目前,隨著信息技術的進一步發展,在國民經濟的各個領域積累的數據量越來越大,我們迎來了大數據的時代。在大數據的實際應用中,關聯規則挖掘的對象往往是一個龐大的集中式或分布式的數據源。如果采用單機進行關聯規則挖掘,存儲能力和挖掘效率勢必成為挖掘過程中的瓶頸,從而不能滿足大數據挖掘的需求。另一方面,在很多實際的數據挖掘應用中,往往還存在增量更新的問題。很多應用領域的數據庫都處在不斷更新中,從而導致原有挖掘出來的模式失去作用或產生新的模式。針對上述的問題,目前尚未提出有效的解決方案。技術實現要素:本發明實施例提供了一種更新地理信息數據增量的方法及裝置,以至少解決相關技術中地理信息的數據更新效率低的技術問題。根據本發明實施例的一個方面,提供了一種更新地理信息數據增量的方法,包括:獲取地理信息的候選項集,上述候選項集包括上述原始數據集和上述新增數據集;從上述候選項集中提取上述原始數據集和上述新增數據集;對提取的上述原始數據集和上述新增數據集進行計算,得到增量計算結果;根據上述增量計算結果更新上述地理信息的數據增量。進一步地,獲取地理信息的候選項集包括:掃描地理信息數據庫;根據掃描結果生成上述地理信息的上述候選項集。進一步地,對提取的上述原始數據集和上述新增數據集進行計算,得到增量計算結果包括:將上述原始數據集劃分為原始頻繁項集和原始非頻繁項集,并將上述新增數據集劃分為新增頻繁項集和新增非頻繁項集,其中,在數據集中,支持度計數大于等于數據集中事務記錄數目與最小支持度閾值的乘積的項集為頻繁項集,支持度計數小于數據集中事務記錄數目與最小支持度閾值的乘積的項集為非頻繁項集;計算上述原始頻繁項集與上述新增頻繁項集的并集,得到第一并集;計算上述原始頻繁項集與上述新增非頻繁項集,得到第二并集;計算上述原始非頻繁項集與上述新增頻繁項集,得到第三并集;計算上述原始非頻繁項集與上述新增非頻繁項集,得到第四并集;將上述第一并集、上述第二并集、上述第三并集和上述第四并集作為上述增量計算結果。進一步地,根據上述增量計算結果更新上述地理信息的數據增量包括:將上述第一并集中的項集作為數據增量添加至上述新增數據集中;將上述第四并集中的項集從上述原始數據集中刪除。進一步地,根據上述增量計算結果更新上述地理信息的數據增量包括:判斷上述第二并集中的項集是否是非頻繁項集;若是,則將該非頻繁項集對應的原始頻繁項集從上述原始數據集中刪除;和/或判斷上述第三并集中的項集是否是頻繁項集;若是,則將該頻繁項集對應的原始非頻繁項集添加到上述新增數據集中。根據本發明實施例的另一方面,還提供了一種更新地理信息數據增量的裝置,包括:獲取單元,用于獲取地理信息候選項集,上述候選項集包括上述原始數據集和上述新增數據集;提取單元,用于從上述候選項集中提取上述原始數據集和新增數據集;計算單元,用于對提取的上述原始數據集和上述新增數據集進行計算,得到增量計算結果;更新單元,用于根據上述增量計算結果更新上述地理信息的數據增量。進一步地,上述獲取單元包括:掃描模塊,用于掃描地理信息數據庫;生成模塊,用于根據掃描結果生成上述地理信息的候選項集。進一步地,上述計算單元包括:劃分模塊,用于將上述原始數據集劃分為原始頻繁項集和原始非頻繁項集,并將上述新增數據集劃分為新增頻繁項集和新增非頻繁項集,其中,在數據集中,支持度計數大于等于數據集中事務記錄數目與最小支持度閾值的乘積的項集為頻繁項集,支持度計數小于數據集中事務記錄數目與最小支持度閾值的乘積的項集為非頻繁項集;第一計算模塊,用于計算上述原始頻繁項集與上述新增頻繁項集的并集,得到第一并集;第二計算模塊,用于計算上述原始頻繁項集與上述新增非頻繁項集,得到第二并集;第三計算模塊,用于第一計算模塊,用于計算上述原始非頻繁項集與上述新增頻繁項集,得到第三并集;第四計算模塊,用于計算上述原始非頻繁項集與上述新增非頻繁項集,得到第四并集;確定模塊,用于將上述第一并集、上述第二并集、上述第三并集和上述第四并集作為上述增量計算結果。進一步地,根據上述增量計算結果更新上述地理信息的數據增量包括:第一添加模塊,用于將上述第一并集中的項集作為數據增量添加至上述新增數據集中;第一刪除模塊,用于將上述第四并集中的項集從上述原始數據集中刪除。進一步地,上述更新單元包括:第一判斷模塊,用于判斷上述第二并集中的項集是否是非頻繁項集;第二刪除模塊,用于在上述第二并集中的項集是非頻繁項集時,將該非頻繁項集對應的原始頻繁項集從上述原始數據集中刪除;和/或第二判斷模塊,用于判斷上述第三并集中的項集是否是頻繁項集;第二添加模塊,用于上述第三并集中的項集是頻繁項集時,將該頻繁項集對應的原始非頻繁項集添加到上述新增數據集中。在本發明實施例中,采用根據項集在數據庫增量更新前后是否為頻繁的情形動態的更新數據結構的方式,通過獲取地理信息的候選項集,候選項集包括原始數據集和新增數據集;從候選項集中提取原始數據集和新增數據集;對提取的原始數據集和新增數據集進行計算,得到增量計算結果;根據增量計算結果更新地理信息的數據增量,達到了快速、高效更新新增地理信息數據的技術效果,進而解決了相關技術中地理信息的數據更新效率低的技術問題。附圖說明此處所說明的附圖用來提供對本發明的進一步理解,構成本申請的一部分,本發明的示意性實施例及其說明用于解釋本發明,并不構成對本發明的不當限定。在附圖中:圖1是根據本發明實施例的一種可選的更新地理信息數據增量的方法的流程圖;圖2是根據本發明實施例的一種可選的更新地理信息數據增量的裝置的示意圖。具體實施方式為了使本
技術領域:
:的人員更好地理解本發明方案,下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分的實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都應當屬于本發明保護的范圍。需要說明的是,本發明的說明書和權利要求書及上述附圖中的術語“第一”、“第二”等是用于區別類似的對象,而不必用于描述特定的順序或先后次序。應該理解這樣使用的數據在適當情況下可以互換,以便這里描述的本發明的實施例能夠以除了在這里圖示或描述的那些以外的順序實施。此外,術語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統、產品或設備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或對于這些過程、方法、產品或設備固有的其它步驟或單元。實施例1根據本發明實施例,提供了一種更新地理信息數據增量的方法的實施例,需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計算機可執行指令的計算機系統中執行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執行所示出或描述的步驟。圖1是根據本發明實施例的一種可選的更新地理信息數據增量的方法的流程圖,如圖1所示,該方法包括如下步驟:步驟S102,獲取地理信息的候選項集,候選項集包括原始數據集和新增數據集;步驟S104,從候選項集中提取原始數據集和新增數據集;步驟S106,對提取的原始數據集和新增數據集進行計算,得到增量計算結果;步驟S108,根據增量計算結果更新地理信息的數據增量。很多應用領域的數據庫都處在不斷更新中,使用本發明提供的技術方案,可以在原有模式的基礎上,結合新增數據集進行再次挖掘,即進行增量關聯規則挖掘處理。這樣,即使數據挖掘應用中存在增量更新的問題,也不會導致原有挖掘出來的模式失去作用或產生新的模式。通過上述步驟,在對海量數據挖掘時,不僅能夠滿足海量數據挖掘的需求,還能極大地提高挖掘效率。可選地,獲取地理信息的原始數據集和新增數據集包括:S2,掃描地理信息數據庫;S4,根據掃描結果生成地理信息的候選項集。其中,地理信息數據庫可以是多系統的分布式數據庫。原始數據集包括原始頻繁項集和原始非頻繁項集。其中,在原始數據集中,支持度計數大于等于原始數據集中事務記錄數目與最小支持度閾值的乘積的項集為原始頻繁項集,支持度計數小于原始數據集中事務記錄數目與最小支持度閾值的乘積的項集為原始非頻繁項集。同理,新增數據集包括新增頻繁項集和新增非頻繁項集。其中,在新增數據集中,支持度計數大于等于新增數據集中事務記錄數目與最小支持度閾值的乘積的項集為新增頻繁項集,支持度計數小于新增數據集中事務記錄數目與最小支持度閾值的乘積的項集為新增非頻繁項集。通過上述步驟,可以得到全面、準確的原始數據集和新增數據集。可選地,對提取的原始數據集和新增數據集進行計算,得到增量計算結果包括:S6,將原始數據集劃分為原始頻繁項集和原始非頻繁項集,并將新增數據集劃分為新增頻繁項集和新增非頻繁項集,其中,在數據集中,支持度計數大于等于數據集中事務記錄數目與最小支持度閾值的乘積的項集為頻繁項集,支持度計數小于數據集中事務記錄數目與最小支持度閾值的乘積的項集為非頻繁項集;S8,計算原始頻繁項集與新增頻繁項集的并集,得到第一并集;S10,計算原始頻繁項集與新增非頻繁項集,得到第二并集;S12,計算原始非頻繁項集與新增頻繁項集,得到第三并集;S14,計算原始非頻繁項集與新增非頻繁項集,得到第四并集;S16,將第一并集、第二并集、第三并集和第四并集作為增量計算結果。通過本發明實施例,可以根據項集在數據庫增量更新前后是否為頻繁的情形動態的更新數據結構的方式,達到提高更新效率的目的。可選地,根據增量計算結果更新地理信息的數據增量包括:S18,將第一并集中的項集作為數據增量添加至新增數據集中;S20,將第四并集中的項集從原始數據集中刪除。由于原始頻繁項集與新增頻繁項集的并集必然是頻繁項集,因此可以直接將其添加至新增數據集;并且原始非頻繁項集與新增非頻繁項集的并集必然是非頻繁項集,因此可以直接將其從原始數據集中刪除。通過本發明實施例,將不同類型的項集分類計算,可以實現快速更新計算結果的目的,達到提高更新效率的技術效果。可選地,根據增量計算結果更新地理信息的數據增量包括:S22,判斷第二并集中的項集是否是非頻繁項集;S24,若是,則將該非頻繁項集對應的原始頻繁項集從原始數據集中刪除;和/或S26,判斷第三并集中的項集是否是頻繁項集;S28,若是,則將該頻繁項集對應的原始非頻繁項集添加到新增數據集中。也即,在求原始頻繁項集與新增非頻繁項集的并集時,若原始頻繁項集變化為非頻繁項集,則需要將該非頻繁項集對應的原始頻繁項集從原始數據集中刪除;和/或,在求原始非頻繁項集與新增頻繁項集的并集時,若原始非頻繁項集變化為頻繁項集,則需要將該頻繁項集對應的原始非頻繁項集添加到新增數據集中。通過本發明實施例,可以根據項集在數據庫增量更新前后是否為頻繁的情形動態的更新數據結構的方式,達到提高更新效率的目的。下面以一個具體實施例詳細闡述本發明:在本發明實施例中,可以使用FUFP-tree算法進行基于關聯規則的增量挖掘。具體地,針對原始事務數據庫增量更新后,頻繁項集發生變化的問題,可以把增量更新后的所有項集分為4種類別C1,C2,C3,C4。其中,對于類別C1,在D(即原始數據集)和d(即新增數據集)中都為頻繁項集,此類在更新后的事務數據庫D∪d中肯定也是頻繁項集;而對于類別C4,在D和d中都非頻繁項集,在更新后的事務數據庫D∪d中肯定也是非頻繁項集;對于類別C2,在D中為頻繁項集,在d中為非頻繁項集,那么在D∪d中頻繁性不確定,若變為非頻繁項,則需要把它從原始頻繁項集中刪除;對于類別C3,在D中為非頻繁項集,在d中為頻繁項集,那么在D∪d中頻繁性也不確定,若變為頻繁項集,則需要把它添加到頻繁項集中。FUFP-tree算法是在最小支持度不變的情況下,利用已獲得的原始頻繁項集和更新后的數據庫,采用FUP算法的思想,依據項集在數據庫增量更新前后是否為頻繁的情形動態地更新FUFP-tree數據結構,從而最小程度地去掃描原始事務數據庫。在FUFP-tree構建過程中,通常會把初次掃描原始數據庫后發現的一階頻繁項集保存在名為Header-table的頭表中,與FUFP-tree中的節點對應。與FP-tree結構不同之處是,把FP-tree結構中父節點和孩子節點間的單向連接關系改為雙向連接,從而在數據庫增量更新時,可以根據上述4種類別來更新Headertable頭表以及增加或刪除樹中節點,從而使其可以正確地快速更新FUFP-tree。在FUFP-tree更新時,顯然類別C4不予考慮,首先考慮類別C2,掃描新增事務數據庫,將由頻繁變為非頻繁的項集從原有的頭表Header-table和FUFP-tree中刪除。然后再考慮類別C1和C3,這2個類別只存在往頭表Header-table和FUFP-tree添加項集的情況,但有不同之處。對于C1,只需添加屬于C1的新增事務數據集,而對于C3,需要重新掃描原始的事務數據庫,找出屬于C3的項集并計算支持度,然后再同C3中的新增事務數據集進行支持度計算,把計算后為頻繁項集的事務記錄添加進去。通過對C1,C2,C33種情況進行更新可以得到新的事務數據庫D∪d的FUFP-tree。FUFP-tree算法有效地結合了FUP和FP-tree算法,通過低復雜度的更新頻繁模式樹和唯一的一次掃描原始事務數據庫,即可完成原始事務數據庫的增量更新數據挖掘。實施例2根據本發明實施例,提供了一種更新地理信息數據增量的裝置的實施例。圖2是根據本發明實施例的一種可選的更新地理信息數據增量的裝置的示意圖,如圖2所示,該裝置包括:獲取單元202,用于獲取地理信息候選項集,所述候選項集包括所述原始數據集和所述新增數據集;提取單元204,用于從候選項集中提取原始數據集和新增數據集;計算單元206,用于對提取的原始數據集和新增數據集進行計算,得到增量計算結果;更新單元208,用于根據增量計算結果更新地理信息的數據增量。很多應用領域的數據庫都處在不斷更新中,使用本發明提供的技術方案,可以在原有模式的基礎上,結合新增數據集進行再次挖掘,即進行增量關聯規則挖掘處理。這樣,即使數據挖掘應用中存在增量更新的問題,也不會導致原有挖掘出來的模式失去作用或產生新的模式。通過上述步驟,在對海量數據挖掘時,不僅能夠滿足海量數據挖掘的需求,還能極大地提高挖掘效率。可選地,獲取單元包括:掃描模塊,用于掃描地理信息數據庫;生成模塊,用于根據掃描結果生成地理信息的候選項集,候選項集包括原始數據集和新增數據集。其中,地理信息數據庫可以是多系統的分布式數據庫。原始數據集包括原始頻繁項集和原始非頻繁項集。其中,在原始數據集中,支持度計數大于等于原始數據集中事務記錄數目與最小支持度閾值的乘積的項集為原始頻繁項集,支持度計數小于原始數據集中事務記錄數目與最小支持度閾值的乘積的項集為原始非頻繁項集。同理,新增數據集包括新增頻繁項集和新增非頻繁項集。其中,在新增數據集中,支持度計數大于等于新增數據集中事務記錄數目與最小支持度閾值的乘積的項集為新增頻繁項集,支持度計數小于新增數據集中事務記錄數目與最小支持度閾值的乘積的項集為新增非頻繁項集。通過上述步驟,可以得到全面、準確的原始數據集和新增數據集。可選地,計算單元包括:劃分模塊,用于將原始數據集劃分為原始頻繁項集和原始非頻繁項集,并將新增數據集劃分為新增頻繁項集和新增非頻繁項集,其中,在數據集中,支持度計數大于等于數據集中事務記錄數目與最小支持度閾值的乘積的項集為頻繁項集,支持度計數小于數據集中事務記錄數目與最小支持度閾值的乘積的項集為非頻繁項集;第一計算模塊,用于計算原始頻繁項集與新增頻繁項集的并集,得到第一并集;第二計算模塊,用于計算原始頻繁項集與新增非頻繁項集,得到第二并集;第三計算模塊,用于第一計算模塊,用于計算原始非頻繁項集與新增頻繁項集,得到第三并集;第四計算模塊,用于計算原始非頻繁項集與新增非頻繁項集,得到第四并集;確定模塊,用于將第一并集、第二并集、第三并集和第四并集作為增量計算結果。通過本發明實施例,可以根據項集在數據庫增量更新前后是否為頻繁的情形動態的更新數據結構的方式,達到提高更新效率的目的。可選地,根據增量計算結果更新地理信息的數據增量包括:第一添加模塊,用于將第一并集中的項集作為數據增量添加至新增數據集中;第一刪除模塊,用于將第四并集中的項集從原始數據集中刪除。由于原始頻繁項集與新增頻繁項集的并集必然是頻繁項集,因此可以直接將其添加至新增數據集;并且原始非頻繁項集與新增非頻繁項集的并集必然是非頻繁項集,因此可以直接將其從原始數據集中刪除。通過本發明實施例,將不同類型的項集分類計算,可以實現快速更新計算結果的目的,達到提高更新效率的技術效果。可選地,更新單元包括:第一判斷模塊,用于判斷第二并集中的項集是否是非頻繁項集;第二刪除模塊,用于在第二并集中的項集是非頻繁項集時,將該非頻繁項集對應的原始頻繁項集從原始數據集中刪除;和/或第二判斷模塊,用于判斷第三并集中的項集是否是頻繁項集;第二添加模塊,用于第三并集中的項集是頻繁項集時,將該頻繁項集對應的原始非頻繁項集添加到新增數據集中。也即,在求原始頻繁項集與新增非頻繁項集的并集時,若原始頻繁項集變化為非頻繁項集,則需要將該非頻繁項集對應的原始頻繁項集從原始數據集中刪除;和/或,在求原始非頻繁項集與新增頻繁項集的并集時,若原始非頻繁項集變化為頻繁項集,則需要將該頻繁項集對應的原始非頻繁項集添加到新增數據集中。通過本發明實施例,可以根據項集在數據庫增量更新前后是否為頻繁的情形動態的更新數據結構的方式,達到提高更新效率的目的。上述本發明實施例序號僅僅為了描述,不代表實施例的優劣。在本發明的上述實施例中,對各個實施例的描述都各有側重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關描述。在本申請所提供的幾個實施例中,應該理解到,所揭露的技術內容,可通過其它的方式實現。其中,以上所描述的裝置實施例僅僅是示意性的,例如所述單元的劃分,可以為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,例如多個單元或組件可以結合或者可以集成到另一個系統,或一些特征可以忽略,或不執行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,單元或模塊的間接耦合或通信連接,可以是電性或其它的形式。所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。另外,在本發明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現,也可以采用軟件功能單元的形式實現。所述集成的單元如果以軟件功能單元的形式實現并作為獨立的產品銷售或使用時,可以存儲在一個計算機可讀取存儲介質中。基于這樣的理解,本發明的技術方案本質上或者說對現有技術做出貢獻的部分或者該技術方案的全部或部分可以以軟件產品的形式體現出來,該計算機軟件產品存儲在一個存儲介質中,包括若干指令用以使得一臺計算機設備(可為個人計算機、服務器或者網絡設備等)執行本發明各個實施例所述方法的全部或部分步驟。而前述的存儲介質包括:U盤、只讀存儲器(ROM,Read-OnlyMemory)、隨機存取存儲器(RAM,RandomAccessMemory)、移動硬盤、磁碟或者光盤等各種可以存儲程序代碼的介質。以上所述僅是本發明的優選實施方式,應當指出,對于本
技術領域:
:的普通技術人員來說,在不脫離本發明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應視為本發明的保護范圍。當前第1頁1 2 3 當前第1頁1 2 3