面部動(dòng)作捕捉
也許這就是微軟亞洲研究院網(wǎng)絡(luò)圖形組主任研究員童欣博士將人臉逼真動(dòng)畫(huà)稱作計(jì)算機(jī)圖形科學(xué)“圣殿”的原因。數(shù)十年來(lái)的計(jì)算機(jī)圖形學(xué)研究已經(jīng)開(kāi)發(fā)出許多項(xiàng)捕捉三維動(dòng)態(tài)人臉圖像的技術(shù)。但是,它們都有所缺陷,或者無(wú)法捕捉足夠的細(xì)節(jié),或者不能準(zhǔn)確地描繪不斷變化的表情。
最近,由童欣博士帶領(lǐng)的微軟亞洲研究院研究團(tuán)隊(duì)與德克薩斯A&M大學(xué)的柴金祥教授合作,開(kāi)發(fā)了一種創(chuàng)建高保真三維人臉圖像的新方法:它不僅能描繪大尺度特征和表情,更能夠捕捉細(xì)微的皺紋和皮膚運(yùn)動(dòng)。他們的工作可能會(huì)對(duì)計(jì)算機(jī)影視制作領(lǐng)域帶來(lái)深遠(yuǎn)影響,甚至能夠在會(huì)議和其他應(yīng)用中創(chuàng)建極具真實(shí)感的用戶虛擬化身。
SIGGRAPH 2011
童欣團(tuán)隊(duì)有關(guān)面部掃描研究的論文——《利用動(dòng)作捕捉和三維掃描捕捉高保真面部表現(xiàn)》已經(jīng)在SIGGRAPH 2011上發(fā)表。SIGGRAPH 2011——第38屆國(guó)際圖形學(xué)大會(huì)于8月7日至11日在加拿大溫哥華舉行,吸引了來(lái)自科學(xué)、藝術(shù)、游戲以及其他研究領(lǐng)域的25,000名專家學(xué)者。
微軟研究院的研究員們?yōu)镾IGGRAPH 2011貢獻(xiàn)了11篇論文。此外,會(huì)議期間微軟研究人員獲得了兩個(gè)重要的行業(yè)大獎(jiǎng):微軟研究院的杰出工程師Jim Kajiya因?qū)τ?jì)算機(jī)圖形學(xué)的杰出創(chuàng)造性貢獻(xiàn)而獲得“Steven Anson Coons獎(jiǎng)”;而微軟研究院交互可視化媒體小組總監(jiān)Richard Szeliski榮獲了計(jì)算機(jī)圖形學(xué)成就獎(jiǎng)。
這篇由微軟研究院童欣、黃浩達(dá)和吳湘濤以及德克薩斯A&M大學(xué)柴金祥教授共同撰寫(xiě)的論文探討了捕捉高清逼真面部特征和表情的新途徑。
童欣博士表示,這是一項(xiàng)很艱巨的挑戰(zhàn)。人類的面部不僅表情豐富,而且也是一種溝通的形式——我們只要看看對(duì)方的面孔,通常就可以立即了解他人的想法或感受。
“我們很熟悉面部表情,對(duì)其中的任何微小的錯(cuò)誤也會(huì)十分敏感。”他說(shuō):“這意味著我們需要捕捉更高層次的面部表情細(xì)節(jié),而且還要捕捉帶有較高時(shí)間分辨率的非常微妙的面部細(xì)節(jié)。”也就是說(shuō),這些細(xì)節(jié)的微妙運(yùn)動(dòng)也需要捕獲得到。
現(xiàn)有的臉部和表情捕捉手段包括基于標(biāo)記的動(dòng)作捕獲和高分辨率掃描儀。在基于標(biāo)記的技術(shù)中,需要將小反光點(diǎn)固定在被攝者的臉上,當(dāng)他的表情變化時(shí),這些反光點(diǎn)之間的相對(duì)位置變化就會(huì)被記錄在視頻上。這種方法能夠準(zhǔn)確地捕捉不斷變化的表情,但空間分辨率較低,無(wú)法捕捉表情變化的細(xì)節(jié)。
另一方面,高分辨率掃描儀能夠捕捉到人臉的所有細(xì)微之處,甚至包括細(xì)小的皺紋和皮膚毛孔,但通常只能適用于靜態(tài)姿勢(shì)。經(jīng)過(guò)專門(mén)配置的高速攝影機(jī)也可用于捕捉面部表情,但它們價(jià)格昂貴,而且只能提供較少的面部細(xì)節(jié)。
基于這兩種捕捉技術(shù)的特點(diǎn),研究團(tuán)隊(duì)試圖將基于標(biāo)記系統(tǒng)的動(dòng)作捕捉精準(zhǔn)度與高分辨率掃描儀的豐富細(xì)節(jié)結(jié)合起來(lái)。研究人員還希望從計(jì)算的角度,提升捕捉和識(shí)別的效率,這樣就把重建精確面部表情所需的數(shù)據(jù)量減到最小。
研究人員聘用了三名面部肌肉非常靈活的演員,他們首先使用基于標(biāo)記的運(yùn)動(dòng)捕捉,在每個(gè)演員的臉上固定約100個(gè)反射點(diǎn)。隨著視頻滾動(dòng),演員做出一系列預(yù)先確定的面部表情來(lái)收集臉部表情變化時(shí)的粗略數(shù)據(jù),用于三維掃描。
上面一行圖片顯示了標(biāo)記如何在所有面部掃描圖像之間創(chuàng)建一個(gè)對(duì)應(yīng)集;下面一行圖片則顯示了兩步法人臉掃描配準(zhǔn)如何在所有面部掃描圖像之間產(chǎn)生密集、一致的表面對(duì)應(yīng)
另外,通過(guò)分析所捕獲的基于標(biāo)記的數(shù)據(jù),研究小組確定了重建精確面部表情所需的最低掃描數(shù)量。
下一步,研究小組利用激光掃描儀捕捉高保真的面部掃描。然后,將這些掃描與基于標(biāo)記的面部數(shù)據(jù)中的對(duì)應(yīng)畫(huà)幅相匹配。他們使用新的算法,實(shí)現(xiàn)了面部掃描的互相配準(zhǔn)。
但這絕非易事。他們?cè)谡撐闹兄赋?,在一次掃描中出現(xiàn)的幾何細(xì)節(jié)未必出現(xiàn)在另一次掃描中。另外,在細(xì)粒度特征(如皺紋或毛孔)即使出現(xiàn)細(xì)微的配準(zhǔn)失誤,都會(huì)造成面部重建顯得不自然。
“我們希望確保這些特征相互匹配,否則你會(huì)看到一些奇怪的面孔,”童欣博士說(shuō):“臉上的一條皺紋可能一會(huì)而出現(xiàn),一會(huì)兒又消失,顯得很不自然。”
為了避免這種情況,研究小組利用了兩步配準(zhǔn)算法。首先,這種算法在清晰度面部掃描之間進(jìn)行顯著面部表情的配準(zhǔn)。接著,它將面部分割成八個(gè)區(qū)域,并使用光流技術(shù)在當(dāng)前掃描與面部相似的其他掃描的相同區(qū)域進(jìn)行配準(zhǔn);光流技術(shù)已經(jīng)考慮到攝像頭和人臉之間的相對(duì)運(yùn)動(dòng)。
最后,研究小組綜合運(yùn)用動(dòng)作捕捉信息和面部掃描信息,重建演員當(dāng)時(shí)所做的實(shí)際表情,其所產(chǎn)生的圖像既捕捉到了臉上的“大”運(yùn)動(dòng),又捕捉到了皮膚紋理和皮膚運(yùn)動(dòng)的精致細(xì)節(jié)。
童欣相信,他的團(tuán)隊(duì)所做的工作將對(duì)現(xiàn)實(shí)世界產(chǎn)生影響。
“它有很多種應(yīng)用,”童欣博士說(shuō):“這就是我們投入這么多努力的原因。”
例如,電影和視頻游戲產(chǎn)業(yè)也可受益于更容易、更高效的虛擬面孔創(chuàng)建方法,使虛擬人物比今天常見(jiàn)的人物更加逼真。
Xbox 360游戲
此外,童欣博士認(rèn)為新的掃描技術(shù)可以用來(lái)創(chuàng)建計(jì)算機(jī)的虛擬化身(Avatar),作為逼真版本,用于代替Xbox 360等設(shè)備中預(yù)設(shè)的玩家化身。
“角色可能是虛擬的,但是表情是真實(shí)的,”他說(shuō):“在電視電話會(huì)議中,它可能會(huì)非常有用,例如在商業(yè)會(huì)議上,人們對(duì)表情非常敏感,并通過(guò)表情來(lái)判斷對(duì)方的想法。”
但是童欣博士表示,未來(lái)的工作還有很多。目前他的小組所用的掃描技術(shù)還不能捕獲精確的眼部和唇部的動(dòng)作。此外,還需要相當(dāng)強(qiáng)大的計(jì)算能力和若干小時(shí)的工作時(shí)間才能成功地對(duì)所有圖像進(jìn)行配準(zhǔn)。童欣希望做到實(shí)時(shí)配準(zhǔn)。
“未來(lái)的挑戰(zhàn)還有很多,”他總結(jié)道:“但這是一個(gè)非常激動(dòng)人心的研究領(lǐng)域。”