本發明屬于自然語言處理和圖像處理技術領域,涉及一種基于文本-圖像匹配的多模態自動文摘方法。
背景技術:
隨著網絡時代到來,多媒體信息包括文本、圖像或視頻等隨處可見,中、英文雙語在媒體信息中也應用廣泛,有效地分析中、英文多媒體信息,獲取其中的重要信息,并以文本的形式呈現給用戶,可以幫助用戶快速、便捷地理解多媒體信息的主體信息。處理多媒體信息的過程中涉及從多媒體信息中獲取多模態數據,然后生成文本摘要。目前對于文本、圖像和視頻等多媒體信息輸入來說,盡管輸入的文本、圖像和視頻與某一信息事件相關,但是圖像或視頻不能找到與其語義完全對應的文本,就導致在自動文摘過程中圖像或視頻的重要信息被缺漏或者出現偏差,導致自動文摘無法滿足信息的全面性與準確性,因此,如何尋找一種多模態自動文摘的方法,將圖像或視頻信息與文本信息進行匹配,進而為圖像或視頻信息找到語義對應的文本,然后處理文本信息輸出文本摘要是一個亟待解決的技術問題。
技術實現要素:
(一)要解決的技術問題
本發明提供了一種基于文本-圖像匹配的多模態自動文摘方法,以至少部分解決以上所提出的技術問題。
(二)技術方案
根據本發明的一個方面,提供了一種基于文本-圖像匹配的多模態自動文摘方法,包括:對多模態信息中的文本信息中的句子進行重要性打分;對多模態信息中的視頻信息通過鏡頭邊界切割,提取視頻的關鍵幀;對多模態信息中的圖像信息和/或視頻信息通過文本-圖像匹配模型為圖像和/或關鍵幀找到語義對應的文本;以及根據每一個句子的重要性得分、圖片和關鍵幀所占權重、與文本的語義相關度,以及懲罰冗余項,生成文本摘要。
優選地,上述文本-圖像匹配模型的訓練過程包括:計算數據集中的句子的詞向量的平均值,得到句子的句向量;對數據集中的圖像進行編碼,對其進行矢量量化,得到圖像向量;通過兩個多層感知器分別對句向量和圖像向量進行編碼,生成文本-圖像聯合空間的特征表達;以及通過最大間隔優化方法優化兩個多層感知器的模型參數,優化目標使其滿足:對于匹配的句子和圖像,匹配得分盡量高,對于不匹配的句子和圖像,匹配得分盡量低,完成文本-圖像匹配模型的訓練。
優選地,數據集選用flickr30k數據集;和/或對數據集中的圖像進行編碼從而得到圖像矢量利用vgg模型實現,通過提取vgg模型的第十九個隱層的特征向量作為圖像向量。
優選地,通過文本-圖像匹配模型為關鍵幀找到語義對應的文本包括:通過語義角色標注,獲取文本中的句子的謂詞論元結構,并提取句子的論元arg0、arg1和謂詞,將動作的施事arg0、謂詞與動作的影響arg1連接為一個句子,作為上述句子的簡化句子;計算簡化句子的詞向量的平均值,得到簡化句子的句向量;對視頻的關鍵幀進行編碼,對其進行矢量量化,得到關鍵幀向量;通過文本-圖像匹配模型的兩個多層感知器分別對簡化句子的句向量和關鍵幀向量進行編碼,生成文本-圖像聯合空間的特征表達;計算文本-圖像聯合空間的簡化句子的特征表達和關鍵幀的特征表達之間的余弦相似度,作為簡化句子與關鍵幀的匹配度;以及利用訓練好的文本-圖像匹配模型,計算數據集中文本-圖像匹配對的平均匹配度得分,作為文本-圖像匹配度閾值,將上述得到的簡化句子與關鍵幀的匹配度和文本-圖像匹配度閾值進行比較,當簡化句子與關鍵幀的匹配度大于文本-圖像匹配度閾值時,則將簡化句子的來源句作為關鍵幀語義對應的文本,視為關鍵幀和簡化句子的來源句語義相關。
優選地,對視頻的關鍵幀進行編碼從而得到關鍵幀向量利用vgg模型實現,通過提取vgg模型的第十九個隱層的特征向量作為關鍵幀向量。
優選地,文本-圖像聯合空間的特征表達如下式所示:
x=w2·f(w1·vs+bs)(2)
y=v2·f(v1·vi+bi)(3)
其中,x和y分別為句子和圖像在文本-圖像聯合空間的特征表達;w1、w2、v1和v2表示權重矩陣,由隨機初始化獲得;f(·)表示激活函數,為sigmoid函數;vs表示句向量;vi表示圖像向量;bs和bi表示偏置項。
優選地,優化目標的目標函數表達式如下式所示:
∑i,j,kmax(0,1-s(xi,yi)+s(xi,yk))+λ∑i,j,kmax(0,1-s(xi,yi)+s(xk,yi))(4)
其中,s(xi,yi)表示句子-圖像匹配正例(xi,yi)的余弦相似度;(xi,yk)和(xk,yi)表示負采樣出來的句子-圖像匹配負例,即不匹配的句子和圖像。
優選地,上述根據每一個句子的重要性得分、圖片和關鍵幀所占權重、與文本的語義相關度,以及懲罰冗余項,生成文本摘要包括:定義抽取用于生成摘要的句子的目標函數;定義長度約束;利用貪心算法,選取最大化目標函數且滿足長度約束的句子集合;以及按照輸入的不同文檔中句子的出現順序,將選入摘要中的句子排序,作為輸出摘要。
優選地,上述目標函數表達式為:
其中,s表示摘要集合,u(ci)表示摘要s中的句子ci的重要性得分;m為所有關鍵幀集合;i為所有圖片集合;v(mj)表示關鍵幀mj的權重,該權重等于關鍵幀mj所在鏡頭的時長與視頻總時長的比值;當關鍵幀mj和句子ci語義相關時,bij為1,否則,bij為0;v(mk)表示圖片mk的權重v(mk),該權重等于所有視頻關鍵幀的權重的平均值;當圖片mk和句子ci語義相關時,bik為1,否則,bik為0;λ是對冗余性的懲罰因子,通過開發集調節其大小;sim(ci,cj)表示ci和cj間的余弦相似度;
上述圖片mk的權重v(mk)的計算公式如下:
其中,|m|為關鍵幀總數;和/或,所述貪心算法的實施過程包括:對于每一個還未選為摘要的句子l,計算選該句子給目標函數f帶來的得分增益,其表達式如下式所示:
其中,cl為句子l的長度;
以及選取滿足得分增益最高的句子作為選入摘要,如此循環進行,直至摘要長度達到預定的長度限制;
和/或,按照輸入的不同文檔中句子的出現順序,將選入摘要中的句子排序,包括:對于那些出現在不同文檔中的選入摘要中的句子,按照原文檔的日期先后排序;對于那些出現在相同原文檔中的選入摘要中的句子,按照其出現在原文檔中的先后排序。
優選地,上述對文本中的句子進行重要性打分包括:計算文本中的句子的詞向量的平均值,得到句子的句向量;根據文本中的句子的句向量計算句子的相似度;任選來自于文本的兩個句子,計算各自的句向量的余弦相似度,直至所有文本的任意兩句均計算完相似度為止;以及根據句子的相似度利用pagerank算法計算句子的重要性得分;pagerank算法采用下述公式進行迭代遞歸,直到得分穩定為止:
其中,u(ci)為ci的重要性得分;u(cj)為cj的重要性得分;ci和cj為任意兩個句子;μ為平滑因子;mij為ci與cj的相似度;n為句子總數;
和/或,所述通過鏡頭邊界切割,提取視頻的關鍵幀包括:計算視頻內每一幀的rbg直方圖特征;計算視頻內相鄰兩幀的rbg直方圖特征的變化值,當該變化值大于某一閾值時,在該兩幀的鏡頭邊界處,將視頻切割為兩個不同的鏡頭;以及對于視頻內的每一個鏡頭,取每個鏡頭最中間的一幀作為該視頻的關鍵幀。
(三)有益效果
從上述技術方案可以看出,本發明提供的基于文本-圖像匹配的多模態自動文摘方法,具有以下有益效果:通過訓練文本-圖像匹配模型,將圖像或視頻中的信息利用文本-圖像匹配模型找到對應語義的文本,實現了同時處理文本、圖像和視頻信息進行文本摘要,使得輸出的自動文摘相較傳統的純文本自動文摘結果具有更好的全面性和準確度。
附圖說明
圖1為根據本發明實施例基于文本-圖像匹配的多模態自動文摘方法的流程圖。
圖2為根據本發明實施例圖1所示流程中對文本中的句子進行重要性打分的流程圖。
圖3為根據本發明實施例圖1所示流程中提取視頻的關鍵幀的流程圖。
圖4為根據本發明實施例圖1所示流程中訓練文本-圖像匹配模型的流程圖。
圖5為根據本發明實施例圖1所示流程中通過文本-圖像匹配模型為關鍵幀找到語義對應的文本的流程圖。
圖6為根據本發明實施例圖1所示流程中生成文本摘要的流程圖。
圖7為根據本發明實施例圖6所示流程中實施貪心算法的算法流程圖。
具體實施方式
本發明提供了一種基于文本-圖像匹配的多模態自動文摘方法,通過訓練文本-圖像匹配模型,將圖像或視頻中的信息利用文本-圖像匹配模型找到對應語義的文本,實現了同時處理文本、圖像和視頻信息,使得輸出的自動文摘相較傳統的純文本自動文摘結果具有更好的全面性和準確度。
為使本發明的目的、技術方案和優點更加清楚明白,以下結合具體實施例,并參照附圖,對本發明作進一步詳細說明。
在本發明的第一個實施例中,提供了一種基于文本-圖像匹配的多模態自動文摘方法。圖1為根據本發明實施例基于文本-圖像匹配的多模態自動文摘方法的流程圖,如圖1所示,基于文本-圖像匹配的多模態自動文摘方法包括如下步驟:
步驟s102:對多模態信息中的文本信息中的句子進行重要性打分;
圖2為根據本發明實施例圖1所示流程中對文本中的句子進行重要性打分的流程圖,由圖2所示,上述步驟s102可分為如下子步驟:
子步驟s102a:計算文本中的句子的詞向量的平均值,得到句子的句向量;
其中,利用word2vec工具在大規模中、英文單語語料上訓練300維的詞向量;對于每一個句子,將組成該句子的詞的向量相加,取平均,作為該句子的句向量;
子步驟s102b:根據文本中的句子的句向量計算句子的相似度;
任選來自于文本的兩個句子,計算各自的句向量的余弦相似度,直至所有文本的任意兩句均計算完相似度為止;
子步驟s102c:根據句子的相似度利用pagerank算法計算句子的重要性得分;
其中,利用pagerank算法進行重要性得分計算;
pagerank算法通過迭代遞歸計算來更新每個句子的重要性得分,直到得分穩定為止。具體的計算公式如下:
其中,u(ci)為ci的重要性得分;u(cj)為cj的重要性得分;ci和cj為任意兩個句子;μ為平滑因子;mij為ci與cj的相似度;n為句子總數。
利用上述公式(1),進行迭代,分別計算每一個u(ci)和u(cj)的值,計算u(cj)時上述公式中的u(cj)和u(ci)交換,直到u(ci)和u(cj)穩定。
步驟s104:對多模態信息中的視頻信息通過鏡頭邊界切割,提取視頻的關鍵幀;
圖3為根據本發明實施例圖1所示流程中提取視頻的關鍵幀的流程圖,如圖3所示,上述步驟s104可分為如下子步驟:
子步驟s104a:計算視頻內每一幀的rbg直方圖特征;
子步驟s104b:計算視頻內相鄰兩幀的rbg直方圖特征的變化值,當該變化值大于某一閾值時,在該兩幀的鏡頭邊界處,將視頻切割為兩個不同的鏡頭;
其中所述閾值由視頻鏡頭切割數據集trecvid測試得到,測試網址為:http://www-nlpir.nist.gov/projects/trecvid/。
子步驟s104c:對于視頻內的每一個鏡頭,取每個鏡頭最中間的一幀作為該視頻的關鍵幀。
步驟s106:對多模態信息中的圖像信息和/或視頻信息通過文本-圖像匹配模型為圖像和/或關鍵幀找到語義對應的文本;
圖4為根據本發明實施例圖1所示流程中訓練文本-圖像匹配模型的流程圖,如圖4所示,訓練文本-圖像匹配模型包括如下步驟:
步驟s106a:計算flickr30k數據集中的句子的詞向量的平均值,得到句子的句向量;
步驟s106b:通過vgg模型對flickr30k數據集中圖像進行編碼,提取vgg模型的第十九個隱層的特征向量作為圖像向量;
步驟s106c:通過兩個多層感知器分別對句向量和圖像向量進行編碼,生成文本-圖像聯合空間的特征表達;句子與圖像的特征表達如下式所示:
x=w2·f(w1·vs+bs)(2)
y=v2·f(v1·vi+bi)(3)
其中,x和y分別為句子和圖像在文本-圖像聯合空間的特征表達,均為256維;w1、w2、v1和v2表示權重矩陣,該權重矩陣是隨機初始化獲得的,通過文本-圖片匹配模型的訓練(步驟404)進行更新。分別是300×300維、256×300維、1024×4096維和256×1024維;f(·)表示激活函數,本式中為sigmoid函數;vs表示300維的句向量;vi表示4096維的圖像向量;bs和bi表示偏置項,分別是300和1024維。
本實施例中w1、w2、v1和v2采用標準正態分布隨機初始化,通過步驟s106d進行更新。
步驟s106d:通過最大間隔優化方法優化兩個多層感知器的模型參數,優化目標使其滿足:對于匹配的句子和圖像,匹配得分盡量高,對于不匹配的句子和圖像,匹配得分盡量低;優化目標的目標函數表達式如下式所示:
∑i,j,kmax(0,1-s(xi,yi)+s(xi,yk))+λ∑i,j,kmax(0,1-s(xi,yi)+s(xk,yi))(4)
其中,s(xi,yi)表示句子-圖像匹配正例(xi,yi)的余弦相似度;(xi,yk)和(xk,yi)表示負采樣出來的句子-圖像匹配負例,即所述不匹配的句子和圖像。
圖5為根據本發明實施例圖1所示流程中通過文本-圖像匹配模型為關鍵幀找到語義對應的文本的流程圖,如圖5所示,上述步驟s106分為如下子步驟:
子步驟s106f:通過語義角色標注,獲取文本中的句子的謂詞論元結構,并提取句子的論元arg0、arg1和謂詞,將動作的施事arg0、謂詞與動作的影響arg1連接為一個句子,作為所述句子的簡化句子;
其中,語義角色標注是一種自然語言處理領域的淺層語義分析技術,它以句子為單位,以句子中的謂詞為核心,分析句子中的謂詞與其相關成分之間的相互關系,進而獲取句子所表達語義的淺層表示。一個謂詞代表了一個事件,而與謂詞相關的句子成分通常代表與事件相關的成分,上述與事件相關的成分被稱為謂詞的一個論元,每個論元都有一個相對于謂詞的語義角色,比如施事者、受事者以及事件發生的時間、地點、方式、原因等。
命題庫(propositionbank,propbank)是受到語義角色與句法信息的研究啟發而建立的。命題庫把語義角色分為兩大類。第一類語義角色是與具體謂詞直接相關的,這些角色用arg0,arg2,arg3,arg4,arg5表示,比如arg0通常表示動作的施事,arg1通常表示動作的影響等,arg2-arg5對于不同的謂語動詞會有不同的語義含義;第二類語義角色是起修飾作用的輔助性角色,其角色標簽都以argm開頭,常見的有表示時間的角色argm-tmp,表示地理位置的角色argm-loc,表示一般性修飾成分的角色argm-adv等。
下面是一個語義角色標注的例子:
[警方]agent[正在]time[詳細]adverbial[調查]pred[事故原因]patient,其中“調查”是謂詞,代表了一個事件,“警方”是施事者,“事故原因”是受事者,“正在”是事件發生的時間,“詳細”是事件的修飾語。由此可見,語義角色標注能夠抽取出一個句子表達的事件的全部重要信息。
子步驟s106g:計算簡化句子的詞向量的平均值,得到簡化句子的句向量;
子步驟s106h:通過vgg模型對視頻關鍵幀進行編碼,提取vgg模型的第十九個隱層的特征向量作為關鍵幀向量;
子步驟s106i:通過文本-圖像匹配模型的兩個多層感知器分別對簡化句子的句向量和關鍵幀向量進行編碼,生成文本-圖像聯合空間的特征表達,如公式(2)和公式(3)所示;
子步驟s106j:計算文本-圖像聯合空間的簡化句子的特征表達和關鍵幀的特征表達之間的余弦相似度,作為簡化句子與關鍵幀的匹配度;
子步驟s106k:利用訓練好的文本-圖像匹配模型,計算flickr30k數據集中文本-圖像匹配對的平均匹配度得分,作為文本-圖像匹配度閾值,將上述得到的簡化句子與關鍵幀的匹配度和利文本-圖像匹配度閾值進行比較,當簡化句子與關鍵幀的匹配度大于文本-圖像匹配度閾值時,則將簡化句子的來源句作為關鍵幀語義對應的文本,視為關鍵幀和簡化句子的來源句語義相關。
步驟s108:根據每一個句子的重要性得分、圖片和關鍵幀所占權重、與文本的語義相關度,以及懲罰冗余項,生成文本摘要;
圖6為根據本發明實施例圖1所示流程中生成文本摘要的流程圖,如圖6所示,上述步驟分為如下子步驟:
子步驟s108a:定義抽取用于生成摘要的句子的目標函數;目標函數表達式如下:
其中,s表示摘要集合,u(ci)表示摘要s中的句子ci的重要性得分;m為所有關鍵幀集合;i為所有圖片集合;v(mj)表示關鍵幀mj的權重,該權重等于關鍵幀mj所在鏡頭的時長與視頻總時長的比值;當關鍵幀mj和句子ci語義相關時,bij為1,否則,bij為0;v(mk)表示圖片mk的權重v(mk),該權重等于所有視頻關鍵幀的權重的平均值;當圖片mk和句子ci語義相關時,bik為1,否則,bik為0;λ是對冗余性的懲罰因子,通過開發集調節其大小;sim(ci,cj)表示ci和cj間的余弦相似度;圖片mk的權重v(mk)的計算公式如下:
其中,|m|為關鍵幀總數。
子步驟s108b:定義長度約束;
在本實施例的實驗中,對于英文摘要,長度約束定義為300個英文單詞;對于中文摘要,長度約束定義為500個漢字,包括標點在內。
子步驟s108c:利用貪心算法,選取最大化目標函數且滿足長度約束的句子集合;
圖7為根據本發明實施例圖6所示流程中實施貪心算法的算法流程圖,如圖7所示,貪心算法的實施過程如下:
對于每一個還未選為摘要的句子l,計算選該句子給目標函數f帶來的得分增益,其表達式如下式所示:
其中,cl為句子l的長度;
選取滿足得分增益最高的句子作為選入摘要,如此循環進行,直至摘要長度達到預定的長度限制。
子步驟s108d:按照輸入的不同文檔中句子的出現順序,將選入摘要中的句子排序,作為輸出摘要。
其中,對于那些出現在不同文檔中的選入摘要中的句子,按照原文檔的日期先后排序;對于那些出現在相同原文檔中的選入摘要中的句子,按照其出現在原文檔中的先后排序。
根據本發明實施例,進行了中、英文多模態自動文摘實驗,并且與純文本基線系統的自動文摘結果進行對比,上述純文本基線系統只使用原始文本生成文本摘要。
本實驗數據集含有25個文檔集合,每個集合對應一個2011-2016年的熱門新聞話題,包含20篇原始文本,5-10段視頻。
一共有九個標注者參與了數據集的標注,生成了人工摘要,作為參考摘要。對于中文集合,標注者生成一份500個字左右的中文摘要;對于英文集合,標注者生成一份300個單詞左右的英文摘要。
評價標準為:通過計算生成摘要與參考摘要的內容的重合度,自動評價生成摘要的質量,本實驗中,采用了使用較為廣泛的rouge-1,rouge-2和rouge-su4等指標對生成摘要進行評測。
附表1給出了不同系統對于中文數據生成的摘要的rouge得分。附表2給出了不同系統對于英文文數據生成的摘要的rouge得分。
表1中文多模態自動文摘結果
表2英文多模態自動文摘結果
根據表1和表2可以看出,本發明提供的基于文本-圖像匹配的多模態自動文摘方法與純文本基線系統的自動文摘結果相比,具有更好的全面性和準確度。
綜上所述,本發明提供的基于文本-圖像匹配的多模態自動文摘方法能夠同時處理文本、圖像和視頻信息進行自動文摘,尤其解決了純文本基線系統中圖像找不到對應語義文本的問題,通過訓練文本-圖像匹配模型,將圖像或視頻中的信息利用文本-圖像匹配模型找到對應語義的文本,實現了同時處理文本、圖像和視頻信息,使得輸出的自動文摘相較傳統的純文本自動文摘結果具有更好的全面性和準確度。
當然,根據實際需要,本發明提供的基于文本-圖像匹配的多模態自動文摘方法,還包含其他的常用算法和步驟,由于同發明的創新之處無關,此處不再贅述。本領域技術人員應該能夠意識到,結合本文中所公開的實施例描述的各示例的模塊、及方法步驟,能夠以電子硬件、計算機軟件或者二者的結合來實現,為了清楚地說明電子硬件和軟件的可互換性,在上述說明中已經按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以電子硬件還是軟件方式來執行,取決于技術方案的特定應用和設計約束條件。本領域技術人員可以對每個特定的應用來使用不同方法來實現所描述的功能,但是這種實現不應認為超出本發明的范圍。
以上所述的具體實施例,對本發明的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為發明的具體實施例而已,并不用于限制本發明,凡在本發明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發明的保護范圍之內。