一種智能解析excel格式國際機票運價單的方法
【專利摘要】本發(fā)明公開了一種智能解析excel格式國際機票運價單的方法,從格式不一的不同運價單中分析出其中的共性,對不同的運價信息分別分析歸納出不同的信息檢索提取規(guī)則,從而提取所需的運價信息。運價信息主要包括價單基本信息、航程信息、航程運價、附加運價等。最后根據(jù)出發(fā)地、中轉(zhuǎn)站、目的地、單程或往返、艙位等區(qū)別,將價單拆分成多條航程信息,并保存為統(tǒng)一的格式。本發(fā)明可以準(zhǔn)確、快速地從運價單中提取出格式統(tǒng)一的航程信息。
【專利說明】—種智能解析excel格式國際機票運價單的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明一般涉及資訊檢索【技術(shù)領(lǐng)域】,具體涉及一種智能解析excel格式國際機票運價單的方法。
【背景技術(shù)】
[0002]隨著生活質(zhì)量的提高和交通運輸?shù)陌l(fā)展,現(xiàn)在有越來越多的人開始選擇乘坐飛機出行,于是商旅集團(tuán)將面臨著大量的機票運價單需要處理。傳統(tǒng)的處理方式,是通過人工地閱讀運價單,并將讀到的價單信息手動地錄入系統(tǒng)。然而,不同運價單的格式大相徑庭,就連相同航司的不同價單都存在不少差異。因此通過人工方式進(jìn)行處理,常常需要耗費許多人力與時間。
[0003]基于以上情況,我們提出了一種智能解析excel格式國際機票運價單的方法,代替了人工錄入的方式,從而大量地節(jié)省了人力與時間。
【發(fā)明內(nèi)容】
[0004]本發(fā)明針對當(dāng)前手工提取運價單信息技術(shù)的不足,提供了一種智能解析并提取excel運價單信息的方法。本發(fā)明的目的是通過智能解析運價單,提取運價信息,將價單拆分成多條航程信息,并保存為統(tǒng)一的格式輸出。具體的技術(shù)方案如下所述。
[0005]一種智能解析excel格式國際機票運價單的方法,包括以下步驟:
(1)對大量已有價單進(jìn)行分析;
(2)將價單按不同格式進(jìn)行分類;
(3)對已分類的價單分別進(jìn)行解析,根據(jù)航程屬性所在的大概位置,鎖定檢索范圍;
(4)在鎖定的檢索范圍內(nèi),分析歸納所需提取的運價信息的檢索提取規(guī)則。
[0006](5)在鎖定的檢索范圍內(nèi),進(jìn)行逐格掃描,查找表格的表頭標(biāo)志,并記錄表頭的航程屬性以及所在行數(shù);
(6)在表頭位置下一行開始進(jìn)行逐格掃描,找出所有包含價格信息的單元格,每一個價格信息可以拆分成一條航程;
(7)根據(jù)分析歸納的檢索提取規(guī)則,找出步驟(6)中所有價格對應(yīng)的航程屬性,并以統(tǒng)一的格式保存;
(8 )重復(fù)步驟(5 )到(7 ),直到找不到下一個表頭標(biāo)志,則對所有表格拆分完畢。
[0007]更具體的,步驟(I)中所述的分析為:根據(jù)所要提取的運價信息,初步分析不同價單之間的異同。其中所要提取的運價信息包括,出發(fā)地、目的地、中轉(zhuǎn)站、行程類型、最大停留時間、最小停留時間,以及成人運價等航程屬性。
[0008]更具體的,步驟(2)中的分類方法為:根據(jù)步驟(I)的初步分析,將所需信息存儲方式相近或相同的具有較大共性的價單歸類。
[0009]更具體的,步驟(3)的目的在于縮小檢索范圍,提高檢索速度。
[0010]更具體的,步驟(4)所述中,分析所需提取的運價信息的檢索提取規(guī)則包含以下步驟:
(a)找出所需提取的信息附近是否有共同的固定的關(guān)鍵字或關(guān)鍵詞組,將其作為檢索標(biāo)志;
(b)確定所需提取信息與檢索標(biāo)志之間的位置關(guān)系。
[0011]更具體的,所述步驟(5)中,表頭通常含有以下航程屬性:
(a)路線,其中包含出發(fā)地與中轉(zhuǎn)站(如有中轉(zhuǎn)站)的三字碼,并以分隔;
(b)航程類型,包括單程和往返程兩類;
(c)訂座艙位,艙位信息由艙位碼表示,為單個大寫英文字母;
(d)有效期。
[0012]更具體的,步驟(6)中價格信息的查找方法為:從表頭位置下一行進(jìn)行逐格掃描,遇到純數(shù)字的單元格,即為存儲價格信息的單元格,記錄價格單元格的總個數(shù)。
[0013]更具體的,一個價格信息單元對應(yīng)一條航程,步驟(7)根據(jù)步驟(6)中所查找到的價格單元對航程進(jìn)行拆分:
Ca)利用Java自帶的API找到步驟(4)中所分析歸納的檢索標(biāo)志;
(b)根據(jù)步驟(4)中分析總結(jié)的,所需運價信息與檢索標(biāo)志之間的關(guān)系,找出價格信息單元對應(yīng)的所有運價信息。
[0014](c)對每一個價格信息單元重復(fù)步驟(a)和(b),直到將表格按照統(tǒng)一格式拆分成多條航程。
[0015]與現(xiàn)有技術(shù)相比,本發(fā)明具有如下優(yōu)點和技術(shù)效果:本發(fā)明通過將excel運價單進(jìn)行歸類,并分別歸納出檢索提取規(guī)則,從而智能解析提取出所需的運價信息,提高檢索速度。
【專利附圖】
【附圖說明】
[0016]圖1為本發(fā)明所述一種智能解析excel格式國際機票運價單的方法流程示意圖。
【具體實施方式】
[0017]為了讓本領(lǐng)域的技術(shù)人員能夠更好地了解本發(fā)明的技術(shù)方案,下面結(jié)合附圖對本發(fā)明作進(jìn)一步的闡述。
[0018]如圖1所示,本發(fā)明揭示了一種智能解析excel格式國際機票運價單的方法包括以下步驟:
(I)對大量已有價單進(jìn)行分析:根據(jù)所要提取的信息,初步分析不同價單之間的異同。其中所要提取的信息包括,出發(fā)地、目的地、中轉(zhuǎn)站、行程類型、最大停留時間、最小停留時間,以及成人運價等航程屬性。
[0019](2)將價單按不同格式進(jìn)行分類,把運價信息存儲方式相近或相同的具有較大共性的價單歸類。
[0020](3)對已分類的價單分別進(jìn)行解析,根據(jù)航程屬性所在的大概位置,鎖定檢索范圍,以縮小檢索范圍,提高檢索速度。
[0021](4)在鎖定的檢索范圍內(nèi),分析所需提取的運價信息的檢索提取規(guī)則:
(a)找出所需提取的信息附近是否有共同的固定的關(guān)鍵字或關(guān)鍵詞組,將其作為檢索標(biāo)志;
(b)確定所需提取信息與檢索標(biāo)志之間的位置關(guān)系。
[0022](5)在鎖定的檢索范圍內(nèi),進(jìn)行逐格掃描,查找表格的表頭標(biāo)志,并記錄表頭的航程屬性以及所在行數(shù),表頭通常含有以下航程屬性:
(a)路線,其中包含出發(fā)地與中轉(zhuǎn)站(如有中轉(zhuǎn)站)的三字碼,并以分隔;
(b)航程類型,包括單程和往返程兩類;
(c)訂座艙位,艙位信息由艙位碼表示,為單個大寫英文字母;
(d)有效期。
[0023](6)價格信息單元的查找方法為:從表頭位置下一行進(jìn)行逐格掃描,遇到純數(shù)字的單元格,即為存儲價格信息的單元格,記錄價格單元格的總個數(shù)。
[0024](7)找出步驟(6)中所有價格對應(yīng)的航程屬性,一個價格信息單元對應(yīng)一條拆分,包括以下步驟:
Ca)利用Java自帶的API找到步驟(4)中所分析歸納的檢索標(biāo)志;
(b)根據(jù)步驟(4)中分析總結(jié)的,所需運價信息與檢索標(biāo)志之間的關(guān)系,找出價格信息單元對應(yīng)的所有運價信息。
[0025](c)對每一個價格信息單元重復(fù)步驟(a)和(b),直到將價單按照統(tǒng)一格式拆分成多條航程。
[0026](8)重復(fù)步驟(5)到(7),直到找不到下一個表頭標(biāo)志,則對所有表格拆分完畢。
[0027]本實施例只是本發(fā)明的較優(yōu)實施方式,需要說明的是,在不背離本發(fā)明精神及其實質(zhì)的情況下,熟悉本領(lǐng)域的技術(shù)人員當(dāng)可根據(jù)本發(fā)明作出各種相應(yīng)的改變和變形,但這些改變和變形都應(yīng)屬于本發(fā)明所附的權(quán)利要求的保護(hù)范圍。
【權(quán)利要求】
1.一種智能解析excel格式國際機票運價單的方法,其特征在于,包括以下步驟: (1)對大量已有價單進(jìn)行分析:根據(jù)所要提取的運價信息,初步分析不同價單之間的異同,其中所要提取的運價信息包括出發(fā)地、目的地、中轉(zhuǎn)站、行程類型、最大停留時間、最小停留時間以及成人運價航程屬性; (2)將價單按不同格式進(jìn)行分類,分類方法為:根據(jù)步驟(I)的初步分析,將所需信息存儲方式相近或相同的具有較大共性的價單歸類; (3)對已分類的價單分別進(jìn)行解析,根據(jù)航程屬性所在的大概位置,鎖定檢索范圍; (4)在鎖定的檢索范圍內(nèi),分析歸納所需提取的運價信息的檢索提取規(guī)則,具體包含以下步驟: (a)找出所需提取的信息附近是否有共同的固定的關(guān)鍵字或關(guān)鍵詞組,將其作為檢索標(biāo)志; (b)確定所需提取信息與檢索標(biāo)志之間的位置關(guān)系; (5)在鎖定的檢索范圍內(nèi),進(jìn)行逐格掃描,查找表格的表頭標(biāo)志,并記錄表頭的航程屬性以及所在行數(shù); (6)在表頭位置下一行開始進(jìn)行逐格掃描,找出所有包含價格信息的單元格,每一個價格信息拆分成一條航程; (7)根據(jù)分析歸納的檢索提取規(guī)則,找出步驟(6)中所有價格對應(yīng)的航程屬性,并以統(tǒng)一的格式保存; (8 )重復(fù)步驟(5 )到(7 ),直到找不到下一個表頭標(biāo)志,則對所有表格拆分完畢。
2.根據(jù)權(quán)利要求1所述智能解析excel格式國際機票運價單的方法,其特征在于:所述步驟(5)中,表頭含有以下航程屬性: (a)路線,其中包含出發(fā)地與中轉(zhuǎn)站三字碼,并以分隔; (b)航程類型,包括單程和往返程兩類; (c)訂座艙位,艙位信息由艙位碼表示,為單個大寫英文字母; (d)有效期。
3.根據(jù)權(quán)利要求1所述智能解析excel格式國際機票運價單的方法,其特征在于:步驟(6)所述價格信息的查找方法為:從表頭位置下一行進(jìn)行逐格掃描,遇到純數(shù)字的單元格,即為存儲價格信息的單元格,記錄價格單元格的總個數(shù)。
4.根據(jù)權(quán)利要求1所述智能解析excel格式國際機票運價單的方法,其特征在于:一個價格信息單元對應(yīng)一條航程,步驟(7)中根據(jù)步驟(6)所查找到的價格單元對航程進(jìn)行拆分,包括以下步驟: (a)利用Java自帶的API找到步驟(4)中所分析歸納的檢索標(biāo)志; (b)根據(jù)步驟(4)中分析總結(jié)的,所需運價信息與檢索標(biāo)志之間的關(guān)系,找出價格信息單元對應(yīng)的所有運價信息; (c)對每一個價格信息單元重復(fù)步驟(a)和(b),直到將表格按照統(tǒng)一格式拆分成多條航程。
【文檔編號】G06F17/30GK104133861SQ201410336305
【公開日】2014年11月5日 申請日期:2014年7月16日 優(yōu)先權(quán)日:2014年7月16日
【發(fā)明者】黃翰, 葉樹錦, 盧爾昂, 郝志峰 申請人:華南理工大學(xué)