• <tbody id="il4lt"></tbody>

  • <rp id="il4lt"><ruby id="il4lt"></ruby></rp>
  • <em id="il4lt"><acronym id="il4lt"><u id="il4lt"></u></acronym></em><button id="il4lt"></button>

  • <rp id="il4lt"></rp>

    跳舞手腳不協調?沒關系,微視用AI打造你我的舞林大會,一張照片就可以

    [原文來自:www.fspiritair.com]

    機器之心原創
    作者:杜偉

    繼讓老照片動起來、唱歌之后,騰訊微視又解鎖了照片的跳舞技能。

    [好文分享:www.fspiritair.com]



    80、90 后的小伙伴,應該很熟悉香港歌手陳慧琳的熱門歌曲《不如跳舞》吧,歌詞中的「聊天不如跳舞,談戀愛不如跳舞……」風靡了大街小巷,使很多人愛上了跳舞。遺憾的是,對于一些四肢不協調的小伙伴,在人前跳舞無異于一種折磨。但是,不會跳并不意味著看不到自己跳舞的樣子。

    隨著計算機視覺和生成對抗網絡的快速發展,人體動作遷移技術的出現使那些沒有跳舞天賦的小伙伴也有機會展示自己的舞姿。簡單來講,給定一段別人跳舞的視頻和用戶的一張照片,通過人體 3D 重建與人體分割技術、背景修復和 GAN 生成技術,可以實現用戶靜態照片隨驅動舞蹈動起來,并達到真實、和諧、以假亂真的姿態生成效果。

    然而,學界近年提出的一些人體姿態遷移方案,如 DanceNet 等,都存在著一定程度的不足,如生成結果模糊、肢體形狀不完整、舞蹈動作僵硬等。此外,這些方案對于普通用戶而言技術門檻過高,實操性不強,導致參與度不高、落地困難,亟須改變。

    近日,騰訊微視 APP 上線的「照片會跳舞」新特效玩法實現了人體姿態遷移技術的真正落地,讓不會跳舞的你也能在手機上舞動起來。

    玩法非常簡單,用戶只需下載微視 APP,上傳單人 / 多人全身正面照,系統即自動對照片進行 3D 建模,生成以假亂真的虛擬形象;接著選擇舞種,通過技術能力使虛擬形象按照選定的舞蹈模板「舞動」起來,模擬效果十分逼真,動作也流暢自然。

    單人舞蹈選 1 張照片,多人舞蹈選 2-3 張照片。

    目前,用戶可以在「照片會跳舞」中選擇 10 種舞蹈模板,涵蓋了廣場舞(筷子兄弟小蘋果、八神搖)、宅舞、炫舞(邁克爾杰克遜 Beat It)、全國中小學生廣播體操(2002 年第二套《時代在召喚》)和兒歌(鯊魚寶寶)等多種類型,更有網絡上傳播甚廣的魔性蹦迪「接著奏樂接著舞」。

    部分舞蹈模板,從左至右依次是夾腿舞、兩只老虎、Bangbangbang 和大風吹。

    跳舞動態效果怎么樣呢?欣賞下魔性的「小蘋果」和蹦迪神曲「接著奏樂接著舞」:


    新玩法上線以來,便吸引了大量的微視用戶,相關視頻數十多萬,播放量更是達到5000余萬。用戶紛紛秀出了自己狂放不羈的舞姿,也有明星加入到了這場「舞蹈狂歡」中。這不,硬核大叔騰格爾向「最強舞者」發起了挑戰:


    據了解,這是騰訊微視在前段時間火遍全網的「螞蟻牙黑」表情遷移玩法的基礎上推出的 APP 端單人或多人跳舞動作遷移玩法,也是騰訊光影研究室針對人體姿態遷移技術研究的突破性落地。

    目前主流的人體姿態遷移技術為了達到較好的動作遷移生成效果,以及緩解自遮擋問題引入的紋理不可見問題,一般需要用戶上傳多張不同姿態的全身圖片或一段視頻,并且需要較長時間的后臺微調處理。

    QQ 影像中心技術團隊經過對人體 3D 重建技術、GAN 網絡的不斷挖掘與優化,最后實現了使用單張用戶圖,就能達到業界需要復雜技術方可實現的人體姿態遷移效果。同時還支持更高分辨率的輸出,解決了動作僵硬等問題,既保證了舞蹈素材的動作準確性,也使動作更加連貫自然。

    主流人體姿態遷移方案有哪些不足?

    在人體動作遷移實現過程中,動作跨度大、像素搬移多、紋理復雜、動作自由度高和自遮擋頻繁等干擾因素導致生成指定姿態的人體一直比較困難。

    目前,學界解決人體姿態遷移的主流方案仍然需要原始姿態到目標姿態的 warp 操作,分為像素級別和特征圖(feature map)級別。根據使用的技術方案不同,warp 操作又可以分為 2D warp 和 3D warp。

    2D warp 方案中具有代表性的是 NeurIPS 2019 論文《First Order Motion Model for Image Animation》中提出的核心模型「First Order Motion」,其中預測 warp 流的網絡需要輸入用戶圖與目標姿態圖的 2D 關鍵點信息,然后利用 warp 流得到目標姿態下地圖,GAN 網絡對 warp 后的圖片(或特征)進行修復。雖然生成的動作較為和諧自然,但 warp 流不夠精確與穩定,導致結果模糊、肢體形狀不完整、紋理還原度不高。

    紅框內人臉模糊不清。圖源:http://arxiv.org/pdf/2003.00196.pdf

    3D warp 方案借助 3D 重建出的用戶圖 mesh 與目標圖 3D mesh,并根據這兩個 3D mesh 進行 warp 流的計算,同時 warp 用戶圖,最后同樣通過 GAN 網絡對 warp 后的結果圖進行精修得到最終結果。由于采用 3D 人體重建,重建后依據 3D mesh 構造 warp 流,因此 warp 流的精細度高,最終結果的紋理清晰度高、還原度高。但由于目標姿態依賴 3D 人體重建,因此受限于 3D 重建技術,生成的舞蹈動作稍顯僵硬。

    學術界還有一些不依賴 warp 的解決方案,比如? FAIR 提出的「Single-Shot Freestyle Dance Reenactment」。此方案首先預測用戶圖的解析(parsing) 圖的驅動結果圖,即根據用戶圖原始姿態下的 parsing 預測目標姿態下的 parsing 圖;接著借助人體 parsing map,將人體各個部位的紋理分解開,得到紋理的 embedding。紋理向量拼接成人體紋理向量,然后與目標姿態下的 parsing 圖借助 SPADE 圖到圖框架生成目標姿態結果。對于自遮擋用戶圖表現較好,但其紋理生成來源于紋理 embedding,導致在復雜紋理條件下還原度不高。

    FAIR「Single-Shot Freestyle Dance Reenactment」方法的舞蹈動作遷移效果,稍顯不自然。圖源:http://arxiv.org/pdf/2012.01158.pdf

    因此,由于主流方案自身存在的種種不足,并未真正落地于實際商業生產應用。

    騰訊人體姿態遷移方案有哪些獨到之處?

    針對上述 2D warp、3D warp 和不依賴 warp 的方案的不足,并考慮到實際業務場景下,多圖或視頻輸入的姿態遷移方法由于輸入圖片多、用戶使用門檻高、單獨訓練模型導致成本較高,團隊基于對學界技術方案的探索與實踐,采用基于多角度用戶圖的 3D 人體重建、并結合人體分割技術與 GAN 生成技術的方案路線。

    本方案在以下三方面實現了重要的技術突破:
    ?
    • 首先,單張用戶圖完成姿態遷移,不需要在線微調。主流方案多用戶圖和視頻輸入以及在線微調的方式極大增加了用戶交互難度,等待時間久,可玩性低。團隊經過對人體 3D 重建技術的不斷挖掘與優化、GAN 網絡優化,最終使用單張用戶圖即可達到業界方法在線微調后的效果。

    • 其次,生成清晰度高,紋理還原度高,支持更高分辨率輸出(1024x1024)。

    • 最后,改善 3D warp 方案中動作僵硬問題。基于 3D 的技術方案容易遇到動作僵硬的問題,通過平滑策略、2D 點輔助優化等策略,既保證了舞蹈素材的動作準確性,也使動作更加連貫自然。


    基于多角度用戶圖的人體 3D 重建算法

    傳統的姿態遷移方法多選擇人體骨骼關鍵點作為人體姿態的重表示,但骨骼關鍵點覆蓋的人體部位較少,多以關節、五官為主,因此姿態遷移難度比較大,生成質量也較低。相比之下,用戶圖 3D 與驅動圖 3D 模型對姿態的表示更加豐富。

    但應看到,3D 人體重建難度非常大。一方面,數據獲取成本很高,獲得高質量人體 3D mesh 數據非常困難,一些開源數據集覆蓋的場景比較有限;另一方面,人體肢體動作較多,存在自遮擋和自旋轉等各種問題,這也給 3D 重建帶來非常大的挑戰。一些開源的 3D mesh 數據庫,如加州大學伯克利分校等開源的端到端框架 HMR,效果難以令人滿意。

    團隊研發了一套基于多角度用戶圖的人體 3D 重建算法,并針對人臉部分單獨建模,使得 warp 圖在人臉部分可以保持較好的紋理細節與 ID 信息,最終根據用戶提供的圖像生成 3D 模型。其亮點在于,單張用戶圖即可生成準確的 3D 模型,用戶提供的視角越全,重建的效果越好。

    基于多角度用戶圖的人體 3D 重建算法分為人體 mesh 重建、人體紋理重建以及人臉 mesh 和紋理重建三大部分,其中人體 mesh 重建首先通過步驟 1 和步驟 2 完成:

    1、提取多角度用戶圖的 2D 人體關鍵點和人體 mask,使重建的姿態和投影更準確;
    2、基于參數化人體模型,擬合人體 mesh,確保在同一個人體 shape 下。僅通過改變姿態,使人體 mesh 的關鍵點投影和每張輸入圖像的 2D 人體關鍵點相同,mesh 投影和每張輸入圖像的人體 mask 相同;


    接著,人體紋理重建通過步驟 3 和步驟 4 完成:

    3、基于步驟 2 得到的人體 mesh,從各自對應的圖像中提取可見紋理;
    4、基于多張可見紋理,使用混合高斯模型融合可見紋理。對融合后依然缺失的部分,再根據人體部位各自做填充;

    然后,人臉 mesh 和紋理重建通過步驟 5 完成:

    5、基于步驟 1 中提取的人臉關鍵點,提取一張正面人臉圖像,輸入人臉重建網絡,同時重建人臉 mesh 和紋理。


    最后,融合步驟 2、5 獲得的人體和人臉 mesh,再融合步驟 4、5 獲得的人體和人臉紋理,得到最終的用戶 3D 重建模型。整體流程如下圖所示:


    人體分割與背景填充

    圖像分割是計算機視覺領域的重要研究方向,隨著近年來 GAN 等深度學習技術的逐步深入,圖像分割技術有了突飛猛進的發展。人體前背景分割是該領域的重要分支之一。

    借助精細的人體分割,人體生成質量可以更高。具體地,人體分割可以去除復雜的背景,降低 GAN 生成難度。精準的人體分割還可以更好地幫助背景 inpainting 網絡完成背景修補。因此,人體分割可以作為姿態遷移 GAN 網絡的多任務監督之一,更好地約束用戶圖在目標姿態下的 shape 生成。


    目標姿態下的人體生成

    在 3D 模塊將用戶圖 warp 到目標姿態后,3D 建模是「裸體」的,缺少衣服、發飾等建模信息,因此 warp 后的用戶圖存在鞋子缺失、沒有頭發等很多問題。此外,目標姿態的 3D 模型還有可能存在用戶圖沒有的部位以及被遮擋的部位,比如用戶是正面,目標姿態是側身,此時 warp 側身紋理被拉扯或者錯誤。

    基于上述問題,GAN 模塊的作用是進一步修飾 warp 圖,一方面將 warp 圖「多去少補」,另一方面增加和諧度。團隊采取的方案是利用用戶圖的紋理信息,將用戶信息與 warp 圖信息在 GAN 網絡中融合,生成自然的目標姿態的用戶圖。

    GAN 網絡又分為兩個子網絡:重建網絡與姿態生成網絡。生成網絡的生成步驟具體如下:

    1. 重建網絡自編碼器結構,將用戶圖重建,網絡中間層特征圖具有構成用戶圖的所有信息;

    2. 目標姿態生成網絡輸入粗粒度 warp 圖,在網絡中間層接收重建網絡的特征圖,進行特征融合,得到新的特征圖。此時特征圖具備了 warp 圖丟失的細節信息;

    3. 特征圖進入解碼器(decoder),將特征圖經過卷積層生成具有目標姿態的 RGB 圖與 mask 圖;

    4. mask 圖與 RGB 圖融合得到前景,結合用戶的背景圖,得到最終輸出圖。


    整體流程圖如下所示:


    得益于多角度用戶圖 3D 人體重建、人體分割與 GAN 生成技術三者合一的人體姿態遷移方案,才有了「照片會跳舞」新特效玩法中用戶舞蹈的完美呈現。

    從人臉到人體,騰訊不斷探索遷移技術,創新視頻特效玩法

    從人臉到人體動作遷移,騰訊微視正一步步深挖遷移技術在爆款社交玩法上的延展空間,并持續探索前沿 AI 和 CV 算法在內容生產和消費領域的應用和落地。

    人臉動作遷移是指將一段人臉視頻中的面部動作,包括頭部位置和朝向、面部表情、五官動作等,遷移至另一張靜態人臉圖片中,使得靜態圖片呈現出相同面部動作的效果。今年 3 月,微視上線了一種基于人臉圖像修復和人臉動作遷移技術的特效玩法「會動的老照片」,不僅可以一鍵修復老照片、讓照片中的人物動起來,還能通過手機實時控制生成圖像的面部動作,實現人臉動作遷移。該技術由PCG應用研究中心和微視研發。


    與此同時,作為隸屬于騰訊..與內容事業群(PCG)的技術團隊,光影實驗室(Tencent GY-Lab)為逼真特效的實現提供了堅實的技術支撐,致力于將前沿的 AI 能力、3D 渲染技術以及先進的玩法賦能產品。光影技術團隊在語義分割、目標檢測、分類識別、GAN 生成對抗等方面均有深厚的技術積累,在 AI 生成領域已經進行了相關算法的研發和落地工作。

    目前,QQ、微視等 20 多款業務產品中均有光影研究室技術的身影,如手機 QQ 相機里的熱門 AI 玩法——漫畫臉,以及微視 APP 的王者變臉、迪士尼童話臉等。其中,QQ 相機漫畫臉特效使用的技術是光影實驗室自研算法 GYSeg,該算法在 MIT 場景解析國際競賽(Scene Parsing Benchmark)中斬獲冠軍;微視 APP 中的迪士尼童話臉特效則是全球首家在手機上為用戶提供實時個性化 3D 卡通化形象。

    光影實驗室也一直致力于人體姿態遷移技術的研究,此次「照片會跳舞」正是針對該技術的真正落地。與主流人體姿態遷移技術方案相比,用戶參與更加簡單,可玩性更高,實現效果也更好。此外,作為從人臉動作遷移到人體姿態遷移的巨大跨越,新增跳舞功能使得用戶在微視 APP 中的體驗更加豐富有趣,同時也為用戶之間的交流提供了更豐富的內容。

    參考鏈接:
    http://www.sohu.com/a/447487081_114877
    http://www.thepaper.cn/newsDetail_forward_8875767
    http://www.163.com/news/article/FSRQUCEL00019OH3.html

    ??THE END?

    轉載請聯系本公眾號獲得授權

    投稿或尋求報道:content@jiqizhixin.com

    本文到此結束,希望對大家有所幫助。

    自媒體微信號:ii77掃描二維碼關注公眾號
    愛八卦,愛爆料。

    小編推薦

    1. 1 提振百倍信心,煥發沖天干勁!

      立刻進入工作狀況科學高效推進工作增強作風能力扶植 2023年10月7日下晝3:30,叢臺區委教育工委書記、教體局黨組書記、局長張振江在五樓會議室主

    2. 2 權威發布 | 中秋國慶假期全國道路交通總體平穩有序

      本年中秋、國慶“兩節”相連,杭州亞運會貫穿假期,全國投親流、旅行流、觀賽流重疊,群眾出行意愿近年來最強,各地人流量、車流量屢立異高

    3. 3 “三都澳”云課堂第七期開講啦!

      習近平法治思惟是順應實現中華民族偉大答復時代要求應運而生的重大理論立異功效,是馬克思主義法治理論中國化的最新功效,是習近平新時代中

    4. 4 “嘉年華”邀約八方客

      10月5日,來到位于南海新區奧萊小鎮的嘉韶華運動現場,依次排開的美食街攤飄起濃濃的炊火氣,種類雄厚的兒童游玩舉措內傳來孩子們的歡聲笑語

    5. 5 院部動態 | 經濟管理學院開展“與學校黨代會代表面對面交流”專題分享會

      經濟治理學院“與學校黨代會代表面臨面交流”專題分享會為深入進修宣傳貫徹學校第四次黨代會精神,更好地引領恢弘青年學子積極投身扶植特色光

    6. 6 每日積累“背三句”-我愛旅行!

      “每日背三句”能夠匡助人人提高:1. 在相對短時間內提拔語感,語感對白話是非常主要的。2. 語感的提高匡助我們提高白話中的語法。不經思慮,

    7. 7 今日樂山|中小學教師資格認定工作啟動!全國冠軍!

      祝黎嘉 攝調整好狀況,元氣滿滿迎接新一天!今天發布哥為人人整頓了這些信息干貨滿滿▽▽▽今日啟動!樂山中小學教師資格認定通知來了  憑

    8. 8 國慶假期:南海島旅游火熱? 游客破60萬人次

      本年中秋國慶八天長假,水東灣新城和濱海旅行公司精心組織,推出了一批極具特色的文旅運動,吸引各地旅客及市民接踵而至,南海島中國第一灘

    Copyright2023.愛妻自媒體資訊站,讓大家及時掌握各行各業第一手資訊新聞!

    无码黄色福利视频|无码一级午夜福利免费区|日本三级片免费网站视频|日少妇aV黄色网
  • <tbody id="il4lt"></tbody>

  • <rp id="il4lt"><ruby id="il4lt"></ruby></rp>
  • <em id="il4lt"><acronym id="il4lt"><u id="il4lt"></u></acronym></em><button id="il4lt"></button>

  • <rp id="il4lt"></rp>