所屬的技術人員能夠理解,本發明的各個方面可以實現為系統、方法或程序產品。因此,本發明的各個方面可以具體實現為以下形式,即:完全的硬件實施方式、完全的軟件實施方式(包括固件、微代碼等),或硬件和軟件方面結合的實施方式,這里可以統稱為“電路”、“模塊”或“平臺”。圖12是本發明實施例中的一種基于3d信息的會議場景合成設備的結構示意圖。下面參照圖12來描述根據本發明的這種實施方式的電子設備600。圖12顯示的電子設備600僅僅是一個示例,不應對本發明實施例的功能和使用范圍帶來任何限制。如圖12所示,電子設備600以通用計算設備的形式表現。電子設備600的組件可以包括但不限于:至少一個處理單元610、至少一個存儲單元620、連接不同平臺組件(包括存儲單元620和處理單元610)的總線630、顯示單元640等。其中,存儲單元存儲有程序代碼,程序代碼可以被處理單元610執行,使得處理單元610執行本說明書上述一種基于3d信息的會議場景合成方法部分中描述的根據本發明各種示例性實施方式的步驟。例如,處理單元610可以執行如圖1中所示的步驟。存儲單元620可以包括易失性存儲單元形式的可讀介質,例如隨機存取存儲單元(ram)6201和/或高速緩存存儲單元6202,還可以進一步包括只讀存儲單元(rom)6203。存儲單元620還可以包括具有一組(至少一個)程序模塊6205的程序/實用工具6204,這樣的程序模塊6205包括但不限于:操作系統、一個或者多個應用程序、其它程序模塊以及程序數據,這些示例中的每一個或某種組合中可能包括網絡環境的實現。總線630可以為表示幾類總線結構中的一種或多種,包括存儲單元總線或者存儲單元控制器、外圍總線、圖形加速端口、處理單元或者使用多種總線結構中的任意總線結構的局域總線。電子設備600也可以與一個或多個外部設備700(例如鍵盤、指向設備、藍牙設備等)通信,還可與一個或者多個使得用戶能與該電子設備600交互的設備通信,和/或與使得該電子設備600能與一個或多個其它計算設備進行通信的任何設備(例如路由器、調制解調器等等)通信。這種通信可以通過輸入/輸出(i/o)接口650進行。并且,電子設備600還可以通過網絡適配器660與一個或者多個網絡(例如局域網(lan),廣域網(wan)和/或公共網絡,例如因特網)通信。網絡適配器660可以通過總線630與電子設備600的其它模塊通信。應當明白,盡管圖12中未示出,可以結合電子設備600使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設備驅動器、冗余處理單元、外部磁盤驅動陣列、raid系統、磁帶驅動器以及數據備份存儲平臺等。本發明實施例中還提供一種計算機可讀存儲介質,用于存儲程序,程序被執行時實現的一種基于3d信息的會議場景合成方法的步驟。在一些可能的實施方式中,本發明的各個方面還可以實現為一種程序產品的形式,其包括程序代碼,當程序產品在終端設備上運行時,程序代碼用于使終端設備執行本說明書上述一種基于3d信息的會議場景合成方法部分中描述的根據本發明各種示例性實施方式的步驟。如上所示,本實施例在視頻中獲取第一幀圖像,通過深度學習網絡對第一rgb圖像進行人體識別,得到人體范圍,再在第一深度圖像上獲得人體的3d信息,獲得背景圖像,對人體與背景信息的處理,使得合成后的視頻更加真實自然,再結合背景對多個人體置于會議位置,通過會議的組織形式使得會議中更好地呈現出會議特有的儀式感和身份認同,有利于提高會議效果。圖13是本發明實施例中的計算機可讀存儲介質的結構示意圖。參考圖13所示,描述了根據本發明的實施方式的用于實現上述方法的程序產品800,其可以采用便攜式緊湊盤只讀存儲器(cd-rom)并包括程序代碼,并可以在終端設備,例如個人電腦上運行。然而,本發明的程序產品不限于此,在本文件中,可讀存儲介質可以是任何包含或存儲程序的有形介質,該程序可以被指令執行系統、裝置或者器件使用或者與其結合使用。程序產品可以采用一個或多個可讀介質的任意組合。可讀介質可以是可讀信號介質或者可讀存儲介質。可讀存儲介質例如可以為但不限于電、磁、光、電磁、紅外線、或半導體的系統、裝置或器件,或者任意以上的組合。可讀存儲介質的更具體的例子(非窮舉的列表)包括:具有一個或多個導線的電連接、便攜式盤、硬盤、隨機存取存儲器(ram)、只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。計算機可讀存儲介質可以包括在基帶中或者作為載波一部分傳播的數據信號,其中承載了可讀程序代碼。這種傳播的數據信號可以采用多種形式,包括但不限于電磁信號、光信號或上述的任意合適的組合。可讀存儲介質還可以是可讀存儲介質以外的任何可讀介質,該可讀介質可以發送、傳播或者傳輸用于由指令執行系統、裝置或者器件使用或者與其結合使用的程序。可讀存儲介質上包含的程序代碼可以用任何適當的介質傳輸,包括但不限于無線、有線、光纜、rf等等,或者上述的任意合適的組合。可以以一種或多種程序設計語言的任意組合來編寫用于執行本發明操作的程序代碼,程序設計語言包括面向對象的程序設計語言—諸如java、c++等,還包括常規的過程式程序設計語言—諸如“c”語言或類似的程序設計語言。程序代碼可以完全地在用戶計算設備上執行、部分地在用戶設備上執行、作為一個獨立的軟件包執行、部分在用戶計算設備上部分在遠程計算設備上執行、或者完全在遠程計算設備或服務器上執行。在涉及遠程計算設備的情形中,遠程計算設備可以通過任意種類的網絡,包括局域網(lan)或廣域網(wan),連接到用戶計算設備,或者,可以連接到外部計算設備(例如利用因特網服務提供商來通過因特網連接)。本實施例在視頻中獲取第一幀圖像,通過深度學習網絡對第一rgb圖像進行人體識別,得到人體范圍,再在第一深度圖像上獲得人體的3d信息,獲得背景圖像,對人體與背景信息的處理,使得合成后的視頻更加真實自然,再結合背景對多個人體置于會議位置,通過會議的組織形式使得會議中更好地呈現出會議特有的儀式感和身份認同,有利于提高會議效果。本說明書中各個實施例采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似部分互相參見即可。對所公開的實施例的上述說明,使本領域專業技術人員能夠實現或使用本發明。對這些實施例的多種修改對本領域的專業技術人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發明的精神或范圍的情況下,在其它實施例中實現。因此,本發明將不會被限制于本文所示的這些實施例,而是要符合與本文所公開的原理和新穎特點相一致的最寬的范圍。以上對本發明的具體實施例進行了描述。需要理解的是,本發明并不局限于上述特定實施方式,本領域技術人員可以在權利要求的范圍內做出各種變形或修改,這并不影響本發明的實質內容。
背景技術:
1、隨著技術的發展,越來越多的會議以線上會議的形式進行。但現在的會議模式仍以簡單的點對點視頻的形式進行,沒有會議的代入感,更無法實現線下會議的儀式感、身份展示等內容。
2、線上會議場景的實現依賴于圖像合成技術。而現有的圖像合成技術是將源圖像中的某些對象提取出來,然后將提取出的對象按原比例大小合成到設定好的背景圖像中。相比于傳統依賴于手工扣圖、完成替換,目前的目標檢測等技術已經取得較好的效果,可以較為準確地將目標對象檢測出來。但是現有的圖像合成仍存在著明顯的不真實感,主要原因有以下兩點:
3、1.前景和后景圖像中的物體比例不一致;
4、2.合成后的圖像的3d位置不真實。
5、導致這些問題根本原因是現有合成技術都是簡單的2d圖像拼接合成,缺乏前后景圖片真實的3d信息。而3d相機為解決這些問題提供了一種可行的方案。
6、進一步地,在視頻處理過程中,多幀圖像之間缺乏聯系,使得單張圖像替換后的視頻除了單張圖像中存在的問題外,還容易出現連續運動不合理、位置突變等問題。
7、以上背景技術內容的公開僅用于輔助理解本發明的發明構思及技術方案,其并不必然屬于本專利申請的現有技術,在沒有明確的證據表明上述內容在本專利申請的申請日已經公開的情況下,上述背景技術不應當用于評價本技術的新穎性和創造性。
技術實現思路
1、為此,本發明在視頻中獲取第一幀圖像,通過深度學習網絡對第一rgb圖像進行人體識別,得到人體范圍,再在第一深度圖像上獲得人體的3d信息,獲得背景圖像,對人體與背景信息的處理,使得合成后的視頻更加真實自然,再結合背景對多個人體置于會議位置,通過會議的組織形式使得會議中更好地呈現出會議特有的儀式感和身份認同,有利于提高會議效果。
2、第一方面,本發明提供一種基于3d信息的會議場景合成方法,其特征在于,包括如下步驟:
3、步驟s1:獲取多個視頻中的第一幀圖像;其中,所述第一幀圖像包括第一rgb圖像和第一深度圖像;
4、步驟s2:利用深度學習網絡對所述第一rgb圖像進行人體識別,得到人體范圍;
5、步驟s3:在所述第一深度圖像上,利用所述人體范圍,得到所述人體的3d信息;
6、步驟s4:從背景素材庫中獲得背景,所述背景中預設多個會議位置,將多個所述人體置于所述會議位置;其中,所述背景素材庫中的背景由3d相機采集獲得;
7、步驟s5:利用所述人體的3d信息和所述背景的3d信息,調整所述人體與所述背景合適的位置關系和圖像比例;
8、步驟s6:對所述人體邊緣透明度進行相應的處理,完成圖像的合成。
9、可選地,所述的一種基于3d信息的會議場景合成方法,其特征在于,步驟s2包括:
10、步驟s21:利用深度學習網絡對所述第一rgb圖像進行人體識別,得到第一人體范圍;
11、步驟s22:在所述第一人體范圍的邊緣,向內或向外拓展n個像素,得到第二人體范圍;n為正整數,且與邊緣像素點和相鄰的背景像素點的亮度差相關;
12、步驟s23:對所述第二人體范圍的像素點,根據其法線方向,由內向外依次給予不同的第一權重值a;其中,a的取值范圍為[0,1]。
13、可選地,所述的一種基于3d信息的會議場景合成方法,其特征在于,步驟s4包括:
14、步驟s41:從所述背景素材庫中選擇背景;所述背景中預設多個會議位置;
15、步驟s42:根據所述背景對所述人體范圍進行截取,得到參會人體范圍;
16、步驟s43:將所述參會人體范圍置于所述會議位置。
17、可選地,所述的一種基于3d信息的會議場景合成方法,其特征在于,還包括:
18、步驟s44:根據所述背景對所述參會人體范圍進行著裝替換。
19、可選地,所述的一種基于3d信息的會議場景合成方法,其特征在于,步驟s5包括:
20、步驟s51:根據相機坐標系下所述人體的3d信息和所述背景的3d信息,對所述人體的3d位置和形變角度進行調整;
21、步驟s52:根據相機坐標系下所述人體的3d信息和所述背景的3d信息,對所述人體的大小進行調整。
22、可選地,所述的一種基于3d信息的會議場景合成方法,其特征在于,步驟s51包括:
23、步驟s511:判斷所述人體與所述背景是否有重合,若有,則執行步驟s512;若無,則執行步驟s513;
24、步驟s512:判斷所述人體的朝向,并根據所述朝向將所述人體移動至第一預設區域;
25、步驟s513:判斷所述人體與所述背景的基準夾角,并根據所述夾角對所述人體進行旋轉和形變角度調整。
26、可選地,所述的一種基于3d信息的會議場景合成方法,其特征在于,步驟s52包括:
27、步驟s521:根據步驟s51中對所述人體的位置調整,在相機坐標系下,按比例調整人體的大小;
28、步驟s522:對所述人體的位置在同一深度下進行調整,以使所述人體底部與桌面部分接觸或被遮擋;
29、步驟s523:比較所述人體與所述背景的深度關系,使深度值較小的部分顯示。
30、第二方面,本發明提供一種基于3d信息的會議場景合成系統,用于實現上述任一項所述的基于3d信息的會議場景合成方法,其特征在于,包括:
31、圖像獲取模塊,用于獲取多個視頻中的第一幀圖像;其中,所述第一幀圖像包括第一rgb圖像和第一深度圖像;
32、rgb圖像模塊,用于利用深度學習網絡對所述第一rgb圖像進行人體識別,得到人體范圍;
33、深度圖像模塊,用于在所述第一深度圖像上,利用所述人體范圍,得到所述人體的3d信息;
34、會議背景模塊,用于從背景素材庫中獲得背景,所述背景中預設多個會議位置,將多個所述人體置于所述會議位置;其中,所述背景素材庫中的背景由3d相機采集獲得;
35、會議調整模塊,用于利用所述人體的3d信息和所述背景的3d信息,調整所述人體與所述背景合適的位置關系和圖像比例;
36、合成模塊,用于對所述人體邊緣透明度進行相應的處理,完成圖像的合成。
37、第三方面,本發明提供一種基于3d信息的會議場景合成設備,其特征在于,包括:
38、處理器;
39、存儲器,其中存儲有所述處理器的可執行指令;
40、其中,所述處理器配置為經由執行所述可執行指令來執行上述任意一項所述基于3d信息的會議場景合成方法的步驟。
41、第四方面,本發明提供一種計算機可讀存儲介質,用于存儲程序,其特征在于,所述程序被執行時實現前述任意一項所述基于3d信息的會議場景合成方法的步驟。
42、與現有技術相比,本發明具有如下的有益效果:
43、本發明采用3d相機和3d圖像對圖像進行處理,對合成的圖像中增加深度信息,更加符合人的視覺,效果更加真實。
44、本發明采用由3d相機采集的背景素材庫,相比于通過算法在2d圖像上獲得的3d信息,背景中的3d信息更加準確真實,同時,使得背景素材庫中的背景圖像可以更好地在相機坐標系下進行合成,具有更好的一致性,能夠得到更好的合成圖像。
45、本發明對人體與背景的圖像比例、位置關系進行調整,并對人體邊緣透明度進行處理,可以使得前景與后景的大小、位置及融合效果更加真實,符合真實世界的場景,符合人眼視覺要求。
46、本發明通過對多人會議場景的布置,實現更加符合會議主題的背景信息,同時,通過多人在同一會議室的布置,有利于提升會議效果。