專利名稱:一種互聯網Web服務信息獲取方法
技術領域:
本發明涉及互聯網技術,尤其涉及一種互聯網Web服務信息獲取方法。
背景技術:
Web 服務(Web Services)是一種面向服務架構(Service-Oriented Architecture, S0A)的技術,是一個軟件系統,通過標準的Web協議提供服務,目的是支持網絡間不同機器的互動操作,保證不同平臺的應用服務可以互操作。目前由標準化組織或技術廠商所開發的Web服務技術標準及規范中,核心的技術標準及規范為簡單對象訪問協議(Simple Object Access Protocol,SOAP)、Web 服務描述語言(Web Services Description Language, WSDL)、統一描述發現禾口集成協議(Universal Description, Discovery and Integration, UDDI)。其中 SOAP 用于 Web 服務調用的 XML 消息表示;WSDL 用于描述Web服務的調用接口 ;UDDI是Web服務架構下核心的服務描述、發現和集成機制。Web服務信息可以從兩個主要維度進行劃分,即描述信息和質量信息。每一個維度又包含多種不同的尺度,Web服務描述信息包括WSDL文件中的功能描述信息以及散布在互聯網上個其他描述信息;Web服務質量信息包括用戶服務質量(Quality of Service, QoS) 信息及信譽信息,其中QoS信息又包含可用性、響應時間、可靠性等多個尺度。Web服務發現是指用戶根據自己的需求(包括功能需求和非功能需求)通過某種途徑發現滿足需求的Web服務的過程。傳統的Web服務發現技術包括利用WSDL中的信息發現Web服務以及從UDDI中發現Web服務等。WSDL文件是用于描述Web服務接口等信息的文件,利用WSDL中的信息發現Web服務的技術,可以在WSDL文件中使用wsdl document元素提供關于Web服務接口的介紹、說明信息。很多現有的Web服務信息獲取方法通過對WSDL文件的解析,從wsdl document元素中直接抽取Web服務信息,將WSDL文件作為Web服務信息獲取的主要的甚至是唯一的獲取途徑。但是,從WSDL中僅能獲得Web服務的功能描述信息,同時wsdl document元素在 WSDL文件中是可選的,大量的Web服務的WSDL文件中缺少這部分描述信息或者描述信息較簡短。因此,通過利用WSDL文件無法獲取到完整的Web服務信息,甚至不一定能夠獲取到完整的Web服務描述信息,會嚴重影響Web服務的發現、選擇、組裝等應用。UDDI是Web服務框架下Web服務的描述、發現和集成機制,按照UDDI的愿景,Web 服務提供商將自己的Web服務信息發布、注冊到UDDI庫中,用戶通過在UDDI庫中檢索獲取 Web服務信息,發現Web服務。但是,由于UDDI機制的原因,原有的UDDI庫大多已經關閉或者很少更新,即使現在仍在運行的UDDI庫,能夠從其中獲得的Web服務信息也是很有限的, 而且UDDI已經不再是唯一的Web服務發布途徑,Web服務信息也會散布在互聯網上。因此通過利用UDDI庫也無法獲取到完整的Web服務信息,同樣不一定能夠獲取到完整的Web服務質量信息,會嚴重影響Web服務的發現、選擇、組裝等應用。現有的Web服務發現技術還可以分為基于文本的Web服務發現和基于語義的Web 服務發現。這兩類方法均使用了 WSDL文件或者UDDI庫中包含的有關Web服務的語法信息或者語義信息。基于文本的Web服務發現主要是利用信息檢索領域的相關技術,例如詞頻 / 反文檔詞頻(term frequency/inverse document frequency, TF/IDF)、向量空間模型 (Vector Space Model,VSM),來檢索滿足需求的Web服務。Web服務發現技術主要利用WSDL 文件或者UDDI庫中的語義信息進行服務發現。上述兩類Web服務發現技術均基于WSDL文件或者UDDI庫中的Web服務信息來發現Web服務,而WSDL文件或者UDDI庫中的Web服務信息非常有限,因此從這種分類方法上來看,現有的Web服務發現技術依然是存在不足的。最后,Web服務選擇是指用戶根據自己的需求(包括功能需求和非功能需求)從發現的Web服務中選擇滿足需求的Web服務的過程。Web服務選擇技術能夠幫助用戶在滿足功能需求的Web服務集合中,利用質量約束篩選滿足非功能需求的Web服務。常用的質量屬性包括服務質量(Quality of Service, QoS)信息和信譽信息。由于受到現有Web服務信息收集與整理技術的限制,Web服務選擇技術多利用Web服務的QoS信息進行服務選擇,而無法考慮到Web服務信譽等質量約束條件,因此,Web服務選擇技術也存在著不足。綜上所述,隨著互聯網技術的蓬勃發展,用戶已經習慣于在互聯網上通過博客、維基百科、論壇等途徑發布自己的Web服務信息及使用信息,相應地造成WSDL文件及UDDI庫中的Web服務信息缺失,在這種情況下,現有的Web服務信息獲取方法無法獲得全面的Web 服務信息,而Web服務信息的缺失也相應地影響到了現有Web服務發現、Web服務選擇等的良好運作。
發明內容
為了克服現有技術中的缺陷,本發明提供了一種互聯網Web服務信息獲取方法, 能夠有效地完善Web服務的描述、信譽和服務質量QoS信息。為實現上述目的,本發明提供了一種Web服務信息的獲取方法,包括獲取Web服務對應的Web服務特征信息,根據所述Web服務特征信息獲取包含所述Web服務特征信息的網頁;并獲取所述Web服務對應的主觀反饋信息和性能指標;根據所述包含所述Web服務特征信息的網頁,獲取所述Web服務的Web服務描述信息;并分別根據所述主觀反饋信息和所述性能指標,獲取所述Web服務對應的Web服務信譽信息和Web服務QoS信息。由以上技術方案可知,本發明所提供的Web服務信息獲取方法,通過分別搜集與 Web服務描述、信譽和QoS信息相關的信息,并對搜集來的信息進行操作處理,獲得全面的 Web服務信息,從而有助于用戶進行Web服務發現和選擇等工作,并且能夠有效地提高Web 服務的復用水平。
圖1為本發明實施例Web服務信息獲取方法的流程圖。
具體實施例方式圖1為本發明實施例Web服務信息獲取方法的流程圖。本發明實施例提供的Web 服務信息的獲取方法包括搜集散布在互聯網上的Web服務的描述信息、信譽信息,建立互聯網環境下的Web服務的服務質量QoS監控機制,捕獲Web服務的QoS信息。具體步驟包括
步驟11、獲取Web服務對應的Web服務特征信息;步驟12、根據Web服務特征信息獲取包含Web服務特征信息的網頁;步驟13、根據包含Web服務特征信息的網頁,獲取Web服務的Web服務描述信息;步驟14、獲取Web服務對應的主觀反饋信息;步驟15、根據主觀反饋信息,獲取Web服務對應的Web服務信譽信息;步驟16、獲取Web服務對應的性能指標;步驟17、根據性能指標,獲取Web服務對應的Web服務QoS信息;步驟18、獲得全面的Web服務信息;其中,步驟11、14、16之間并無時序關系,不受操作先后順序的限制。具體的,通過獲取Web服務對應的Web服務特征信息,能夠相應地根據Web服務特征信息獲取到包含該Web服務特征信息的網頁,對該網頁內容進行有效信息提取后,從該網頁中能夠獲得該Web服務的Web服務描述信息;此外,通過獲取用戶對Web服務的主觀反饋信息,對該主觀反饋信息進行操作處理之后,能夠從中獲得該Web服務的Web服務信譽信息;同時,通過對Web服務進行訪問,獲取到該Web服務相應的性能指標,對該性能指標進行操作處理后,能夠從中獲得該Web服務的Web服務QoS信息;分別獲取到Web服務描述、信譽和QoS信息后,就能夠得到關于該Web服務的全面的Web服務信息。本發明所提供的Web服務信息獲取方法,通過分別搜集與Web服務描述、信譽和 QoS信息相關的信息,并對搜集來的信息進行操作處理,獲得全面的Web服務信息,從而有助于用戶進行Web服務發現和選擇等工作,并且能夠有效地提高Web服務的復用水平。在上述實施例中,獲取Web服務描述信息的方法包括如下步驟。首先,對Web服務的Web服務描述語言WSDL文件進行解析,獲得解析結果,從解析結果中提取Web服務對應的Web服務特征信息,其中Web服務特征信息包括服務名稱、操作名稱、消息名稱、參數名、Web服務的鏈接地址和/或WSDL文件的描述信息。其次,根據Web服務特征信息中包括的WSDL文件的鏈接地址或Web服務的鏈接地址,應用反向鏈接搜索功能收集包含WSDL文件的鏈接地址或Web服務的鏈接地址的網頁; 或根據Web服務特征信息中包括的WSDL文件的鏈接地址的文本內容或Web服務的鏈接地址的文本內容,應用文本搜索功能收集包含WSDL文件的鏈接地址的文本內容或Web服務的鏈接地址的文本內容的網頁。其中,Web服務的相關網頁一般包含所關聯Web服務的訪問地址,即WSDL文件的鏈接地址(WSDL URL)或Web服務的鏈接地址(Endpoint URL),將Web服務的訪問地址作為其在網頁中出現的標識,作為收集相關網頁的依據,該標識可能在網頁中以超鏈接方式出現, 也可能是普通文本的形式。利用通用搜索引擎Google的搜索接口收集相關網頁,針對上述兩種情況分別構造并向Google提交適當的查詢條件,利用Google獲得滿足需要的頁面。對于標識以超鏈接形式存在的網頁,采用反向鏈接(Backlink)搜索功能收集相關網頁,反向鏈接搜索是指利用互聯網上網頁的鏈接關系獲取指向特定目標網頁或實體的網頁,例如網頁a中存在指向網頁b的超鏈接,那么網頁a是網頁b的反向鏈接,Google的反向鏈接搜索功能查詢格式為link :<target_URL>,其中搜索限定詞“link”表示搜索包含指向特定目標實體的網頁,目標實體由<target_URL>指定,因此,針對此種情況構造的查詢條件為 link :<WSDL URL> 禾口 link 〈Endpoint URL>。
對于標識以普通文本形式存在的網頁,采用文本搜索功能收集相關網頁,通過檢測網頁中的文本內容尋找包含特定文本內容的網頁,相應地構造的查詢條件為“〈WSDL URL>”或“〈Endpoint URL>”,即分別直接將Web服務的WSDL文件的鏈接地址的文本內容或 Web服務的鏈接地址的文本內容作為查詢條件進行檢索,查詢條件兩側的引號則用于要求搜索引擎將查詢條件作為一個短語而不需要切詞。從查詢條件返回的結果中選取前20個結果構成候選頁面集,如果相同網頁在多個查詢條件的結果中出現,需要進行結果去重,如果結果中包含在發布Web服務時由標準模板自動生成的Web服務的Endpoint頁面,其內容一般與Web服務WSDL文件的內容重復, 不具備參考價值,因此需要從結果中去除這類頁面。在完成Web服務描述信息的搜集后,需要對Web服務描述信息進行整理,對于從 WSDL文件中獲得Web服務描述信息可以直接作為描述信息,對于從上述步驟中獲得的相關網頁,需要進行處理,從中整理出Web服務描述信息。接著,對包含Web服務特征信息的網頁進行解析,將其劃分為若干文本片段。為網頁文檔建立對應的文檔對象模型(Document Object Model, DOM)樹并刪除 DOM樹中的屬性節點。其中,DOM提供了一個與平臺和語言無關的接口,允許程序可以動態訪問或修改文檔的內容或結構,文本標記語言HTML (Hypertext Markup Language) DOM定義了訪問HTML文檔的標準方法,將一個HTML文檔表示為一個帶有HTML標簽、標簽屬性內容和標簽中文本內容三種節點的樹狀結構,為了清理數據以便于后續步驟的處理刪除屬性節點,為了記錄Web服務的標識在網頁中出現的位置,保留超鏈接標簽<A>的超鏈接目標地址 (Hypertext Reference, HREF)屬性內容。從DOM樹的葉節點起逐層提取文本片段,如果一個葉節點的文本內容長度(即單詞數量)小于3,此類節點一般為導航條的內容,無實際意義,則將該節點直接刪除。如果葉節點所對應的標簽是一個段落標簽,則將該節點的文本內容提取為一個文本片段,否則將該節點的文本內容保留至其父節點中,即將其內容與其父節點內容合并,并將該節點從DOM 樹中刪除。在識別出一個文本片段時,記錄其與對應的Web服務特征信息在網頁中的距離, 即間隔文本內容的單詞個數,其中Web服務特征信息的位置為WSDL文件的鏈接地址或Web 服務的鏈接地址出現的位置。如果Web服務特征信息在網頁中多次出現,則以較短的距離為準。接著,將文本片段和Web服務特征信息表示為特征向量形式。應用信息檢索領域的建模技術向量空間模型(Vector Space Model,VSM),將文本片段和Web服務特征信息等文本文檔分別表示為η維的向量wd,2,...,wd,n>,每一維對應一個詞匯(indexing term),詞匯從文本文檔中獲得,其中η是在所有文本文檔中出現的不同詞匯的個數,i(l ^n)表示第i個詞匯(termi)在文檔d中的權重,Wdii通常
使用如下的公式計算
權利要求
1.一種互聯網Web服務信息的獲取方法,其特征在于,包括獲取Web服務對應的Web服務特征信息,根據所述Web服務特征信息獲取包含所述Web 服務特征信息的網頁;并獲取所述Web服務對應的主觀反饋信息和性能指標;根據所述包含所述Web服務特征信息的網頁,獲取所述Web服務的Web服務描述信息; 并分別根據所述主觀反饋信息和所述性能指標,獲取所述Web服務對應的Web服務信譽信息和Web服務服務質量QoS信息。
2.根據權利要求1所述的Web服務信息的獲取方法,其特征在于,所述獲取Web服務對應的Web服務特征信息,根據所述Web服務特征信息獲取包含所述Web服務特征信息的網頁包括對Web服務的Web服務描述語言WSDL文件進行解析,獲得解析結果; 從所述解析結果中提取所述Web服務對應的Web服務特征信息; 根據所述Web服務特征信息中包括的所述WSDL文件的鏈接地址或所述Web服務的鏈接地址,應用反向鏈接搜索功能收集包含所述WSDL文件的鏈接地址或所述Web服務的鏈接地址的網頁;或根據所述Web服務特征信息中包括的所述WSDL文件的鏈接地址的文本內容或所述Web 服務的鏈接地址的文本內容,應用文本搜索功能收集包含所述WSDL文件的鏈接地址的文本內容或所述Web服務的鏈接地址的文本內容的網頁。
3.根據權利要求1所述的Web服務信息的獲取方法,其特征在于,所述獲取所述Web服務對應的主觀反饋信息包括從收集所述Web服務的網站上搜集用戶對所述Web服務的打分信息和評論信息,根據所述打分信息和評論信息獲取所述Web服務對應的主觀反饋信息。
4.根據權利要求1所述的Web服務信息的獲取方法,其特征在于,所述獲取所述Web服務對應的性能指標具體為應用QoS監控模塊控制分散設置在各地的監控節點,周期性訪問所述Web服務,獲取所述Web服務的性能指標。
5.根據權利要求1所述的Web服務信息的獲取方法,其特征在于,所述根據所述包含所述Web服務特征信息的網頁,獲取所述Web服務的Web服務描述信息包括對包含所述Web服務特征信息的網頁進行解析,將其劃分為若干文本片段; 將所述文本片段和所述Web服務特征信息表示為特征向量形式; 對所述文本片段的特征向量與所述Web服務特征信息的特征向量進行計算,獲取所述文本片段與所述Web服務特征信息的相關度;選取所述相關度滿足判斷條件的所述文本片段作為所述Web服務的Web服務描述信肩、ο
6.根據權利要求5所述的Web服務信息的獲取方法,其特征在于,所述將所述文本片段和所述Web服務特征信息表示為特征向量形式具體為應用如下公式進行計算,tf,^d, =^idf1,其中,所述文本片段和所述Web服務特征信息均為文本文檔,Wdi為所述文本 Ld文檔中第i個詞匯在所述文本文檔中的權重,tfd,i所述第i個詞匯在所述文本文檔中出現的次數,Ld為所述文本文檔的長度,id。= Iog(NMfi),其中,N為所述文本片段的數量加,Clfi為所述N個所述文本文檔中包含所述第i個詞匯的所述文本文檔的數量。
7.根據權利要求6所述的Web服務信息的獲取方法,其特征在于,所述對所述文本片段的特征向量與所述Web服務特征信息的特征向量進行計算,獲取所述文本片段與所述Web 服務特征信息的相關度relevance (s,t)具體為relevance(sj) = -,其中s表示所述Web服務特征信息,t表示所述文 Iog10 ( //φ,0 + 1) + 1 ]"_ (wsj ^wtj)本片段嚴+HM)=/ ; 2為所述文本片段與所述Web服務特征信息的相νΣ^Κ) xZ^1K)似度,dis(s, t)為所述文本片段與所述Web服務特征信息在所述網頁中的字符距離,η為所述N個所述文本文檔中出現的不同詞匯的數量。
8.根據權利要求1所述的Web服務信息的獲取方法,其特征在于,所述根據所述主觀反饋信息,獲取所述Web服務的Web服務信譽信息包括根據所述打分信息和評論信息計算各自對應的Web服務信譽信息; 將所述打分信息對應的Web服務信譽信息與所述評論信息對應的Web服務信譽信息進行平均值計算,獲取所述Web服務的所述Web服務信譽信息。
9.根據權利要求8所述的Web服務信息的獲取方法,其特征在于,所述根據所述打分信息計算對應的Web服務信譽信息具體為Tm RRratinx =厶產1 ],其中Rj為所述打分信肩、,m為所述打分信肩、的數量,Range為所述打 1 πι χ Range分信息的取值范圍。
10.根據權利要求8所述的Web服務信息的獲取方法,其特征在于,所述根據所述評論信息計算對應的Web服務信譽信息凡》 ^具體為Vm RR , = “ 1 ,其中&為所述評論信息的量化值,m為所述評論信息的數量。commentJm
11.根據權利要求1所述的Web服務信息的獲取方法,其特征在于,所述性能指標包括訪問所述Web服務的請求發出時間t。、請求響應時間、、單位時間ts內發送的請求次數 req。、單位統計周期tt。tal內可用的時間tup、總請求次數reqt。tal及請求成功次數reqs,對應地,所述根據所述性能指標,獲取所述Web服務對應的Web服務QoS信息,具體為響應時間為rt = t。_tr,吞吐率為tp = req。/ts,可用性為av = tup/tt。tal,可靠性為rb =reqs/reqt0talo
全文摘要
本發明公開了一種互聯網Web服務信息獲取方法,該方法包括獲取Web服務對應的Web服務特征信息,根據所述Web服務特征信息獲取包含所述Web服務特征信息的網頁;并獲取所述Web服務對應的主觀反饋信息和性能指標;根據所述包含所述Web服務特征信息的網頁,獲取所述Web服務的Web服務描述信息;并分別根據所述主觀反饋信息和所述性能指標,獲取所述Web服務對應的Web服務信譽信息和Web服務服務質量QoS信息。通過分別搜集與Web服務描述、信譽和QoS信息相關的信息,并對搜集來的信息進行操作處理,獲得全面的Web服務信息,從而有助于用戶進行Web服務發現和選擇等工作,并且能夠有效地提高Web服務的復用水平。
文檔編號G06F17/30GK102521288SQ20111038664
公開日2012年6月27日 申請日期2011年11月29日 優先權日2011年11月29日
發明者李萌, 謝冰, 趙俊峰, 金靖 申請人:北京北大軟件工程發展有限公司