專利名稱:數據可視化的制作方法
技術領域:
本發明涉及數據可視化。
背景技術:
生成和分析數據可視化和信息可視化是困難的任務。例如,數據可視化包括線圖、條形圖、直方圖、餅形圖、測量圖、分散繪圖、星形圖、壓力場可視化等等。每一個這些數據表示法或可視化均具有優點和缺點。當數據量增加時,在這些數據可視化中很難識別圖形。
發明內容
一方面,本發明的特征在于提供一數據可視化的方法,該方法包括接收用于控制第一種數據可視化類型的一個或多個特征的第一組一個或多個參數的第一組一個或多個值,接收用于控制第二種數據可視化類型的一個或多個特征的第二組一個或多個參數的第二組一個或多個值,第二種數據可視化類型是與第一種數據可視化類型不同的一種數據可視化類型,且生成一組數據可視化,該可視化具有基于第一組參數的一個或多個值和第二組參數的一個或多個值的特征。
另一方面,本發明的特征在于一種數據可視化方法,包括將維數設置為一種N維正多邊形,映像到每一個N維數據值的一個軸上,并顯示映像的數據值。本發明的實施例可能具有以下一個或多個優點。對稱為一種維數錨(dimensional anchor)(DA)的一種圖像原語的描述能幫助生成新的可視化并提供對分析信息可視化的理解。DA表示用于構成包括平行坐標(Parallel Coordinates)、散繪圖(Scatterplot Matrices)、徑向可視化(Radviz)、測繪圖(Survey Plots)、圓弧(Circle Segment)等等的多種可視化的一種統一的結構或模型。通過將值指定給與編碼上述基本可視化的各種幾何圖形元素有關的參數來構建一DA。多種DAs能用來創建所有上述可視化和許多新的可視化以及內插式可視化。本發明的一個或多個實施例的詳細內容將在附圖和下面的說明書中講述。本發明的其它特征、目的以及優點從說明書及其附圖以及權利要求中將會很清楚。
附圖的說明
圖1是說明一維數錨的圖。
圖2是說明使用斜角坐標的第一分散繪圖的圖。
圖3是說明第二分散繪圖的圖。
圖4是說明第三分散繪圖的圖。
圖5是說明第四分散繪圖的圖。
圖6是說明第五分散繪圖的圖。
圖7是說明第一展開多邊形的圖。
圖8是說明第二展開多邊形的圖。
圖9是說明正多邊形的圖。
圖10是說明具有彈簧(spring)的平行坐標的圖。
圖11是說明在平行坐標和圓形平行坐標間的內插可視化的圖。
圖12是說明重迭的徑向可視化的圖。
圖13是一種典型的數據可視化系統的框圖。
在各個附圖中相同的參考符號表示相同的零件。
詳細說明彈性常數用來表示點間的相關值。例如,徑向可視化(Radviz)包括取n維數據點作為在圓周平均分隔的點。彈簧的一端連在每一個圓周點上。每一個彈簧的另一端連在一數據點上。彈簧常數Ki等于固定點的第i個坐標的值。然后顯示每一個數據點,其中彈簧力總和等于0。所有數據點值通常歸一化在0和1之間。例如,如果所有n坐標具有相同值,則該數據點準確地位于圓的中央。如果該點是一單位矢量點,它準確地位于圓邊緣上的固定用于維數的彈簧的固定點。許多點可能映像到相同的位置。這表示數據的一種非線性轉換,該數據存在一定的對稱性和生成直觀顯示畫面。該可視化的一些特征包括位于大約相等的坐標值的點接近中央;在圓上維數彼此相反的有相似值的點靠近圓中央;具有一個或多個坐標值大于其它坐標值的點更靠近那些維數;點的位置與圓周特定維數的布圖相關;由于彈性相似,該數據的布圖能被理解;在n維中一線映像到一線;以及其它2維幾何物體映像到在平面中的2維物體上。
一可視化被模擬成由VA→D定義的函數V,該函數映像一數據組到一Display D。該V是矩陣(M×N)數據和另外的參數P1,P2,……,Pn的行和列的函數,該函數編碼有關特定可視化的信息。作為其它可視化的函數實現可視化。
Vnew=f(V1,V2,V3,……,Vn),每一個Vi表示一可視化。
可視化被限定到由P1,P2,……,Pn定義的參數空間。通過改變參數,可定義可視化的類。我們將描述的一組參數,它包括上述的和在下面要詳細描述的所有可視化的參數。
可視化還是特定可視化的內在幾何結構的函數。可視化幾何結構的數據和部件被編碼成所謂的原始維數錨(DA)。
維數錨(DA)是有助于生成新的可視化和理解一種分析信息可視化的原始圖形。DA表示用于包括平行座標、散繪圖、徑向可視化、測繪、圓弧以及其它的各種可視化的一種統一的結構或模型。通過將值賦予編碼上述可視化的基本要素的各種幾何圖形單元有關的參數來創建維數錨。多個DAs可被用來創建所有上述可視化和許多新的可視化以及內插式可視化。被選擇與該維數錨相關聯的一列數據。許多參數與DA相關。下面所描述的9個參數,作為該模型的一個實施例。因此用于我們的模型的可視化可能被定義成函數V=F(DA參數,DAs的幾何形狀)。如果所有的DAs共享相同的參數值,那幺V=F(P1,P2,……,Pn,DA幾何形狀)。如果DAs的幾何形狀由直線、以及由連續的點定義的簡單曲線構成,可視化的定義或詳細說明可能簡單產生,但足以生成現在所使用的許多標準的多維多變量的可視化。另外,也能產生許多新穎的可視化。
在實施例中,該模型具有9個參數P1-分散繪圖點的大小P2-從創建分散繪圖點的定位點延伸的垂直線的長度P3-與在分散給圖中相同數據點有關的相連點的線的長度P4-在測繪圖中長方形的長度P5-平行坐標線的長度P6-用于平行坐標線的塊因子P7-徑向可視化/彈簧繪圖點的大小P8-從創建徑向可視化/彈簧繪圖點的定位點延伸的“彈簧”線的長度P9-用于“彈簧”K常數的圖像放大因子。
在一基礎水平上,維數錨是在二維分散繪圖中的一個簡單軸。它通常與來自數據集或數據庫的一維數或變量有關。用通常將最小和最大值與該軸的未端附近的點對應的標準方式,將相關維數的數據值映像到該軸上。標簽或刻度線標記也與維數錨有關。通常,沿軸的那些標準間距被稱為坐標值。我們稱為定位點的映像數據點是與維數的數據點對應的坐標值,即,與沿一維數錨點的坐標值對應。
參照圖1,示出了具有許多從定位點延伸的線的一維數錨的一個典型顯示畫。可能著色垂直線以顯示用于每加侖油行駛英里數的數據(如汽車數據集)分布。另外,線的顏色可能表示汽車的類型(如,美國—紅色或黑色,日本—綠色或淺色以及歐洲—紫色)。
與DA有關的九個參數控制DA如何與其它DAs相互作用以形成圖形結構,如點、線以及改進的可視化。例如,為產生一個分散繪圖,DA的一個參數被用來控制分散繪圖點(P1)的大小。由來自兩個DAs的定位點線交叉形成該點。現在描述這九個參數及如何形成可視化。
與分散繪圖的結構有關的三個DA參數已經定義過。分散繪圖的一個可能結構是一垂直線在DA上的定位點向外擴展。與另一個DA(相同數據集的另一列)上相同數據點有關的定位點也具有向外(在該DA的兩端)擴展的垂直線。如果這兩條垂直線交叉,交叉點為分散繪圖點。第一參數(P1)控制分散繪圖點的大小,點的大小范圍從0(點未畫出)到1(顯示的一大點)。通常在分散繪圖中,點的大小、形狀或顏色能與數據集中其它維數(變量或列)相關。在一實施例中,所選擇的列決定顏色,且形狀是一圓形。在另一實施例中,一組參數控制該形狀以便能使用圖標、或彩色圖標的表示可視化的分類。然而,無論分散繪圖點是否被顯示,這些分散繪圖點均是維數錨的一基本參數(P1)。從定位點擴展的垂直線的交叉點對任何排列或任意數量的維數錨起作用。
維數錨能定義成多個線段的任何序列。這允許任意形狀的曲線如弧形作為維數錨。根據該定義,仍能容易地構造用于分散繪圖的垂直延長線。這些附加排列能生成其它可視化并將在以下討論。參照圖2,分散繪圖的另一個定義能使用斜角坐標等等,而不必是來自坐標軸的垂直線。
兩個另外的參數(P2,P3)控制來自定位點和連接所有與一個數據點有關的分散繪圖的線的垂直線的顯示。P2控制從DA到分散繪圖點延伸的垂直線的長度。例如,參照圖3,P2約為2,而參考圖4,P2參數為1.0。這些參數定義從0(沒有線)到1(顯示所有交叉線)。當使用N維數錨時(在一個數據集中用N變量或維數),通常達到為可視化中每一數據點生成的N點以使這些N點相連。P3控制在一等邊三角形圖案中的三維錨。
參照圖5,顯示了生成分散繪圖顯示點的交叉垂直線(參數P2=1.0)。在圖6中,連接與相同數據點有關的顯示點(P3=1.0)。如所看到的,在該可視化中所生成的三角形是非常相似的。通常,P2和P3將生成N邊多邊形,如果DAs被構造成正多邊形的話。
另一個參數(P4)以及一個特別指定的數據集維數(DDD)(變量或列)用作DA以構造測量圖或與圓弧相似的可視化。P4參數控制從定位點延伸的矩形的大小。該大小也與在該定位點上的維數值相關。一個DDD選項沒有分類,它使用數據下載的順序。P4最大可能值的最終限制需要生成測量值。控制該最大可能值以使P4矩形不觸及來自其它DA的P4矩形。通過使用P4參數,由于其限制和適當的維數錨的排列,容易構造測量圖和修改的圓弧。(該圓弧變為直線并伸出到正多邊形而不是一個圓,但可視化的本質仍然相同)。
在其它實施例中,獲得與圓弧相似的可視化的結構。例如,在實施例中,如下產生CCCViz(顏色相關列可視化)。其它數據集有特定分類維數。根據分類維數來對這些列分類(即指定的數據集維數)。使用用于該數據集的維數的灰度映象以及使用彩虹彩繪該分類維數。改變P4參數,即改變在測量圖中的矩形長度,生成彩色相關列可視化。可視化說明維數(灰度)是否與特定分類維數(色標)有關。當維數數量很小,即低于30時,CCCViz很有用。
DAs的各種排列能生成數據的部分排序。例如,在交叉的網格圖案中排列的可視化僅使用彈簧參數P7和P9,且該顯示生成簡單的對角圖案,因為每一“彈簧”具有對稱的穿過該對角的相反彈簧。該交叉DA圖案執行數據的可視分類,該數據能被用于判別數據的分類。
平行坐標可視化的結構如下。簡單地連接從一DA定位點到另一DA定位點的線。這些連接線的長度由DA參數(P5)控制。然而,如果耗盡連接在所有DAs上的所有定位點(每一個定位點連接到N-1個其它定位點),就能獲得另外的有趣的可視化。我們定義另外一個參數(P6),它表示P5連接線能交叉多少DAs。當該塊參數設置為0時產生常見的平行坐標可視化。使用P5和P6參數,當將DAs從圓中央排列成徑向輻時,在圓中也能產生平行坐標。
如果沿維數錨的定位點被認為是固定點,在該固定點處假想的彈簧連接到可動數據點上,那么能產生與徑向可視化相似的可視化。參數P7被用來控制位于顯示中的點的大小,在這些顯示位置處彈簧力的總和為0。當維數錨被排列為N維正多邊形時產生稱作多邊形可視化(Polyviz)的增強的徑向可視化顯示。徑向可視化的一個局限是在圓中央許多數據點能重迭,盡管它們具有不同的坐標值。當固定彈簧點沿DA在正多邊形中展開時,點重迭的機會大大小于在原始徑向可視中的點重疊機會。如果DAs被壓縮成沿圓周均勻分布的點,就能產生最初的徑向可視化顯示。多邊形可視化是最好利用圓或正多邊形的總面積的可視化。另一個參數(P8)被用來畫從固定彈簧點延長到彈簧力的總和為0的顯示點的線。另一個參數(P9)也被用作顯示中的圖像放大因子。
參考圖7,用七個點表示多邊形視化。圖7和圖8畫出“展開的”多邊形例,而圖9畫出正多邊形。圖7和圖8具有顯示成從定位點延長的線的彈簧線(P8=1)。
在實施例中,參考圖10,重新將DAs排列成平行坐標排列中并設置合適的P值,產生使用彈力的好的辯別式。注意在圖10中在平行坐標排列中,定位點和延長到該點的線看起來與平行坐標排列非常相似,除第一點(1,1,1,1)外。因為該歸一化(在一列中的所有值被歸一化到0和1之間),在第一點上的彈簧力總和為0,且顯示該點,無論該畫面的幾何中心是如何定義的。通常,它將是顯示畫面的中心,但根據DAs的排列,它能被定義在一些其它點上。如果有人想檢測所有維數具有最小值的界外點,幾何中心應被定義成與相等彈簧力中央不同。圖像放大參數P9設計成為0的所有點位于幾何中心,在.5處它對應標準的物理彈簧(彈力=P9×2×K×DX),且在較高值時它放大彈簧K值。慢慢增加P9,表示所有點正離開幾何中心(除所有維數均是最小值的點外)。
DAs和多邊形可視化提供產生可視化的線性組合的機構。
我們將取幾個例子說明“可視化的線性組合”的觀點。讓用在一可視化中用的維數總數為d,通常這也是所使用的維數錨的總數,然而,對有些可視化來說,DAs的數量為2d。用來產生平行坐標可視化的參數是Ppc={P1,P2,…P9}=
然后平行坐標可視化可被定義為Vpc=f(Ppc,Gpc(d))其中Gpc(d)是DAs的平行坐標排列的幾何結構。
產生徑向可視化的參數是Prv={P1,P2,…P9}=
徑向可視化能被定義為Vrv=f(Prv,Grv(d))其中Grv(d)是DAs的徑向排列的幾何結構。
根據平行坐標和多邊形可視化定義的新的可視化是Vnew=f(Vpc,Vrv)線性組合的一個例子是Vnew=.5Vpc+.5Vrv,乘以標量和相加很容易定義參數矢量,給出該新可視化參數矢量為Pnew=
=.5Ppc+.5Prv可用許多方法定義DAs的幾何結構的線性組合。例如,在圖1顯示了一實施例,該實施例描述了在DAs的平行坐標結構上的可能變換。DAs平滑地回繞成十字形。現在如果DAs逐漸地縮短成在十字形的外部端點上的點,就能獲得正常的徑向可視化。變換的幾何結構不相仿(平行線不能保持平行),或投射。盡管每一單獨DA轉換被看作投射,但集合在一起的DAs的點和線的入射不是恒定的。如果我們包括DAs的端點永遠不能交叉的約束條件,轉換能被認為是拓撲的。如果我們定義我們的距離函數為在圖11中在變換間具有相同的值,我們就能定義新的可視化幾何結構。
Gnew(d)=.5Gpc(d)+.5Grv(d)技術上,Gpc(d)和Grv(d)是在DAs的原始排列上的變換。如果我們設置Gpc(d)=0(我們的最初排列),我們得到Gnew(d)=5Grv(d)這是基本上從Gpc(d)到Grv(d)的轉換(在圖11中最低排列)。
平行坐標和徑向可視化的線性組合如圖12所示。DA布圖是圓形的平行坐標以及用于徑向可視化彈簧和平行坐標的參數是正數。注意所示的彈簧點非常接近DAs,并且,平行坐標沒有完全連接。首先,用于顯示的點的大小(依靠點的數量)應當合適,而且,連接Pc線不應當具有間隔。這表示更有用的顯示也許是Vpc+Vrv
其中徑向可視化點大小是正常的,且平行坐標線完全連接。
對這兩部分的可視化來說有一些有用的信息。如從平行坐標線在每一維中了解相關值以及從徑向可視化/彈性點中看出更多重要的相關維數效果。
上面顯示的維數錨允許新可視化的生成作為由維數錨的排列所描述的任何可視化的線性組合。用維數錨(參數和幾何結構)的相同代數,我們也可平穩地將一個可視化轉換成另一個。在一個例子示出,如何能容易地將平行坐標轉換成圓的平行坐標。它有助于使用稱為封閉該維數錨的維數界限的一個結構。
將平行坐標(PC)的維數布局認為連接到2線(頂部和底部維數限制)的等距離隔開的直線能由一些參數定義的任意形狀和長度。很容易看出維數限制能從直線移到弧,且變成外圓和內圓。內圓能變得越來越小直到成為一個點。然后,這就成為圓平行坐標或星形符號。使用二.次曲線部分或更常用的二次多項式,我們能提供大量的相似可視化轉換。維數限制的轉換通過這些二次曲線部分的平面的簡單的路徑進行。
使用上述定義的九個參數,我們能了解可視化空間是最低限度P9(即九維數空間)。然而,那僅是用于維數錨。典型的數據集可能是10維,因此要求10維數錨,每一個維數錨具有九個參數(空間=P9*10)。更重要的是,DAs的不同排列將進一步增加可視化空間的維數。如果限制那些與平等坐標和徑向相似的布局排列,可視化空間將大大減少。另外,如果使用每一個維數錨的相同的九個參數,我們能減少可視化空間到P12。可能通過該可視化空間取出“主要的循環”。通過改變這九個參數,并且繪出該維數錨的排列,就能慢慢地(依靠數據集大小和計算機速度)從一個可視化轉移到另一個可視化。先前描述的可視化證明在發現新的可視化方面有用的有限手動循環。
參考圖13,一個典型的數據可視化系統10包括經中繼線14連接到顯示單元的計算機系統12。該計算機系統包括至少一個存儲器18,一個中央處理單元(CPU)20以及一個大容量存儲裝置22。該大容量存儲裝置包括數據可視化指令24。在操作中數據可視化指令24被下載到存儲器18中,用于在CPU20中處理。在顯示單元16上顯示在CPU20中執行后的輸出。
已經描述過本發明的許多實施例。盡管如此,應能理解在不脫離本發明的精神和范圍的前提下可做出各種改變。例如,DAs和它們的相關參數可以任意排列大小、形狀和位置。我們僅研究了部分象平行坐標、圓弧、正多邊形、展寬多邊形以及交叉形的這些“規則排列”。還有許多另外的排列如弧、或以透鏡形狀排列和雙曲線圓形顯示形式排列的曲線。這些結構將做成具體的“聚焦的”可視化。以多項式的形式或代數函數形成的維數錨也將具有有用的特性。
在多種結構中,如我們分類為網格圖的三角形或多邊形中由平行坐標類型線、分散繪圖線以及彈簧線生成的各種可視化。可視化的特征在于改變網格線的密度。
用于數據顯示的彈簧范例已經很成功。通過擴展固定的彈簧“定位點”,我們已經增加多邊形的效率和用途。這充分降低了點重迭問題。
另外,通過顯示在維數錨上定位點擴展的彈簧線的部分,增加多邊形的理解和用途。由于許多可視化點群集中在中心,根據屏幕實際狀態,由部分彈簧線提供的附加信息用處不大。
使用彈簧參數的維數錨的各種結構能以各種方式,如用交叉圖案或沿一直線壓縮的DAs,按數據的順序排列。
改型的圓弧可視化的用途以前已經研究過。它最有用的特征之一是給出有特定分類維數的所有維數的(或變量)全部關聯。顏色相關的列是該觀點的一個改變,當維數很小(低于30)時更有用,在某些情況中更容易理解。因此,其它實施例包括在下述權利要求范圍內。
權利要求
1.數據可視化方法,該方法包括接收用于控制第一種數據可視化(P5)類型的一個或多個特征的一個或多個參數(P4)的第一組的一個或多個值;接收用于控制第二種數據可視化(P5)類型的一個或多個特征的一個或多個參數(P4)的第二組的一個或多個值,第二種數據可視化類型與第一種數據可視化類型是不同的數據可視化類型;以及生成一組數據的可視化,該可視化的特征基于第一組參數的一個或多個值或第二組參數的一個或多個值。
2.如權利要求1所述的方法,其中,一種數據可視化類型包含分散繪圖。
3.如權利要求2所述的方法,其中,參數包括下述參數中的至少一個參數分散繪圖點的大小、從維數錨延長到分散繪圖點的線的長度,和連接與在分散繪圖中相同數據點有關的點的線的長度。
4.如權利要求1所述的方法,其中,一種數據可視化類型包含一測量圖。
5.如權利要求4所述的方法,其中,一個參數包含在測量圖中的矩形長度。
6.如權利要求1所述的方法,其中一種數據可視化類型包含徑向可視化圖。
7.如權利要求6所述的方法,其中一個參數包含下述參數中的至少一個參數徑向可視化彈簧繪圖中的大小、從維數錨延長到徑向可視化彈簧繪圖點的線的長度和一彈性系數。
8.如權利要求1所述的方法,其中,一種數據可視化類型包含平行坐標可視化。
9.如權利要求8所述的方法,其中,一個參數包括下述參數中的至少一個參數平行坐標線的長度和用于平行坐標線的塊因子。
10.如權利要求1所述的方法,其中,第一組和第二組包括從一個或多個圖形用戶接口接收控制。
11.如權利要求1所述的方法,其中,第一組和第二組包括訪問計算機存儲單元。
12.如權利要求1所述的方法,其中,生成包含下述操作中的至少一個可視化顯示、打印以及生成描述該可視化的一文件。
13.一種計算機程序產品,在一計算機可讀介質上,用于生成一數據可視化,該程序包含指令,該指令促使一處理器執行接收用于控制第一種數據可視化類型的一個或多個特征的一個或多個參數(P4)組的第一組一個或多個值;接收用于控制第二種數據可視化類型的一個或多個特征的一個或多個參數(P4)組的第二組一個或多個值,第二數據可視化類型與第一數據可視化類型是不同的數據可視化類型;以及生成一組數據的可視化,該可視化的特征基于第一組參數的一個或多個值或第二組參數的一個或多個值。
14.一種數據可視化方法,包括將維數錨設置成N維正多邊形;映像到每一個N維數據值的軸上;以及顯示所映像的數據值。
15.如權利要求14所述的方法,其中,映像包含將每一個N維的最小和最大數據值賦值給靠近表示該N維的每一個軸的端點的點。
16.顯示數據的一種數據可視化方法,包含用特殊分類維數替換用于數據的維數的基本集;根據該特殊分類維數對該基本集的一個維數類型;將所分類的維數映像到灰度級表示;將該特殊分類維數映像到色標顯示;顯示該灰度級顯示和色標顯示。
17.一種產生混合可視化的方法,包括生成第一數據可視化;生成第二數據可視化;在第一可視化和第二可視化間內插,以產生數據的混合可視化;以及顯示該數據的混合可視化。
18.如權利要求17所述的方法,其中,第一數據可視化是平行坐標可視化。
19.如權利要求17所述的方法,其中,第二數據可視化是徑向可視化。
20.如權利要求17所述的方法,還包括生成復雜數據可視化;將該復雜數據可視化內插在第一和第二數據可視化之間,以生成混合數據可視化;以及平滑地繪出該混合數據可視化。
全文摘要
提供數據可視化的方法,包括接收用于控制第一種數據可視化(P5)類型的一個或多個特征的一個或多個參數(P4)組的第一組一個或多個值,接收第二種數據可視化類型的第二組一個或多個特征,第二種數據可視化類型與第一種數據可視化類型的數據可視化類型不同。
文檔編號G06T11/20GK1409838SQ00816996
公開日2003年4月9日 申請日期2000年11月6日 優先權日1999年11月5日
發明者喬治·格林斯坦, 帕特里克·霍夫曼 申請人:馬薩諸塞州大學