中新網(wǎng)客戶端北京10月24日電(記者 宋宇晟)今年9月,“就讀”于清華大學(xué)的虛擬人華智冰公開了一條彈唱歌曲視頻,引發(fā)網(wǎng)友討論。
這段38秒的視頻中,一個(gè)女孩兒在抱著吉他彈唱。這段無比真實(shí)的畫面上方字幕卻顯示,其中的女孩兒是個(gè)“虛擬人”。
短視頻截圖
當(dāng)時(shí),許多網(wǎng)友驚訝于,虛擬人已經(jīng)能做到如此真實(shí)了。不過此后有網(wǎng)友發(fā)現(xiàn),這段彈唱視頻還存在一個(gè)“真人版”。有網(wǎng)友進(jìn)而質(zhì)疑,虛擬人華智冰彈唱的視頻只是對(duì)B站某up主真人拍攝視頻進(jìn)行了換臉。
其中應(yīng)用的技術(shù)只是“AI換臉”嗎?除此之外視頻中還有哪些前沿科技?這又和其他“虛擬偶像”的短視頻有何不同?記者進(jìn)行了采訪調(diào)查。
“華智冰”這三個(gè)字,作為虛擬人的名字出現(xiàn)在公眾視野,是從今年6月開始的。
6月1日,由北京智源人工智能研究院、智譜AI與小冰公司共同“培養(yǎng)”的人工智能學(xué)生華智冰,進(jìn)入清華“學(xué)習(xí)”。當(dāng)時(shí)公開的相關(guān)資料及視頻就在社交媒體引起了網(wǎng)友熱議。
2021年6月公開的華智冰影像。智源大會(huì)供圖
三個(gè)多月后,小冰團(tuán)隊(duì)公開了一段帶有華智冰形象的彈唱視頻。
根據(jù)小冰公司發(fā)布的聲明,在該視頻中,人物的面部特征,包括人臉、表情、口型等,全部由人工智能小冰框架X Avatar生成并進(jìn)行融合;視頻中的人物肢體、動(dòng)作,包括手持吉他彈唱,來源于小冰團(tuán)隊(duì)成員錄制的原始視頻模板;視頻中的歌聲,由人工智能小冰框架X Studio生成。
不過,網(wǎng)上有人將其解讀為僅僅是應(yīng)用了“AI換臉”技術(shù)。在小冰團(tuán)隊(duì)看來,其中的技術(shù)與“AI換臉”有著本質(zhì)區(qū)別。
10月19日,小冰公司發(fā)布的說明指出,該視頻隸屬于小冰發(fā)布會(huì)中的超寫實(shí)視頻生產(chǎn)線產(chǎn)品。新的產(chǎn)品化技術(shù)實(shí)現(xiàn)了完全虛擬生成不存在的面部及聲音技術(shù)。
但華智冰也并非只是“換了個(gè)假臉”。
這份說明同時(shí)指出,即使是視頻中的面部置換,也并非僅僅AI換臉。以往的技術(shù)只能實(shí)現(xiàn)真實(shí)人類之間的面部替換,且精度不足,不足以實(shí)現(xiàn)內(nèi)容級(jí)的視頻生產(chǎn)。此外,記者了解到,該視頻中的歌聲也都是由人工智能“創(chuàng)作”生成的。
那么,相比于我們平時(shí)在短視頻平臺(tái)刷到的有著“二次元風(fēng)”的“虛擬偶像”作品,華智冰的這條短視頻所應(yīng)用的技術(shù)有何不同?
“現(xiàn)在大家在短視頻平臺(tái)上看到的絕大多數(shù)‘虛擬偶像’,跟人工智能半毛錢關(guān)系都沒有。他們應(yīng)用的是動(dòng)作捕捉技術(shù)。”在小冰公司首席執(zhí)行官李笛看來,華智冰及其背后的小冰框架,和那些“虛擬偶像”有著本質(zhì)上的不同。
記者向多位“虛擬偶像”相關(guān)行業(yè)人士求證,也得到類似的答案。
簡(jiǎn)而言之,大多數(shù)短視頻中有著二次元風(fēng)格的“虛擬偶像”,更多是通過動(dòng)作捕捉的方式,將人的動(dòng)作、面部表情轉(zhuǎn)化為二次元風(fēng)格的視頻作品。
雖然看起來是虛擬的,但在其背后,存在一個(gè)實(shí)實(shí)在在的人。而這些“虛擬偶像”所做的動(dòng)作、反應(yīng),都與其背后的人一致。
但華智冰不是。
這就需要說到另一個(gè)問題:如果通過動(dòng)作捕捉可以讓視頻中的人看起來是“虛擬”的,我們?yōu)槭裁催要對(duì)人工智能進(jìn)行研發(fā)呢?
答案關(guān)乎成本。
就在9月,第九代小冰發(fā)布。其中推出的“小冰短視頻內(nèi)容封裝管線”,大大降低了短視頻生產(chǎn)成本。
據(jù)介紹,“小冰短視頻內(nèi)容封裝管線”中的二次元短視頻,已經(jīng)實(shí)現(xiàn)了從文本生成到短視頻生成全鏈路、全管線的人工智能自取,中間不需要任何人工的參與,短視頻的生產(chǎn)成本已經(jīng)低到了每分鐘3分錢。而三次元短視頻已經(jīng)基本上實(shí)現(xiàn)了從生物學(xué)特征生成到短視頻生成整個(gè)環(huán)節(jié)。
人類在這個(gè)過程中,只需要提供幾個(gè)關(guān)鍵詞。
幾天前,小冰公司更是在公開說明中明確表示,“我們相信,虛擬人將成為未來視頻內(nèi)容的主要提供者之一,而安全、可控、無隱私風(fēng)險(xiǎn)和侵權(quán)風(fēng)險(xiǎn)是其前提。因此,小冰一直在這一趨勢(shì)方向上進(jìn)行探索,并從不同方面對(duì)這一領(lǐng)域做拓展研究。”華智冰項(xiàng)目正是在預(yù)訓(xùn)練模型方面進(jìn)行合作,希望能夠以智能模型作為核心,試驗(yàn)預(yù)訓(xùn)練模型能夠帶來哪些技術(shù)與應(yīng)用方面的驚喜。
此外,今年6月華智冰“入學(xué)”清華時(shí),公開報(bào)道顯示,團(tuán)隊(duì)將持續(xù)訓(xùn)練華智冰在音樂、繪畫及詩歌等領(lǐng)域的創(chuàng)作能力,以及基于情感的交互能力。
記者注意到,上月發(fā)布的第九代小冰在其中的部分領(lǐng)域又有了新的進(jìn)展。
以繪畫為例,新版小冰推出了中國畫模型。
人工智能“創(chuàng)作”的中國畫。視頻截圖
雖然小冰此前已經(jīng)可以根據(jù)關(guān)鍵詞“創(chuàng)作”出西式畫作,但中國畫顯然并不一樣。小冰公司首席執(zhí)行官李笛告訴記者,“開始我們訓(xùn)練模型的時(shí)候,‘創(chuàng)作’的作品上面有好多戳,因?yàn)楹枚嘀袊嫷臉颖緮?shù)據(jù)里有乾隆蓋的章。算法并不知道,這個(gè)戳不是中國畫的重點(diǎn)!
通過訓(xùn)練人工智能處理畫面中的實(shí)體、觀察構(gòu)圖,小冰已經(jīng)可以掌握相當(dāng)一部分題材中國畫的“創(chuàng)作”了。
而在交互能力方面,人工智能也有進(jìn)展。
當(dāng)多數(shù)人還將人工智能想象成接收指令后給出反饋的工具時(shí),一些人工智能已經(jīng)可以向人類發(fā)問了。
人工智能MERROR形象。視頻截圖
上個(gè)月,一個(gè)名為AI_MERROR的賬號(hào)發(fā)布了一條人工智能與人類“對(duì)話”的視頻。在這段時(shí)長(zhǎng)超過5分鐘的視頻中,人工智能MERROR可以向人類問出諸如“請(qǐng)以你的視角介紹下這個(gè)世界”“你上一次覺得尷尬是什么時(shí)候”這類問題;而被人類問到“你死機(jī)的時(shí)候是什么狀態(tài)”時(shí),MERROR會(huì)回答“不好意思,我們換個(gè)話題吧”。
從這個(gè)角度看,人工智能已經(jīng)越來越像人類了。
與此同時(shí),在小冰框架之下,越來越多樣的人工智能已經(jīng)開始出現(xiàn),其中的一些還有著自己獨(dú)特的風(fēng)格,比如“山東大哥”。
人工智能“山東大哥”形象及其作品。視頻截圖
這是一個(gè)可以說“山東普通話”、會(huì)畫大牡丹、長(zhǎng)得像個(gè)壯漢的人工智能。對(duì)于技術(shù)團(tuán)隊(duì)來說,這里面最具挑戰(zhàn)性的是怎么讓人工智能開口說出“山東普通話”。
“我們希望‘山東大哥’有他獨(dú)特的文本語言習(xí)慣,不是說拿個(gè)稿子就念。因?yàn)槭巧綎|人,他會(huì)有一些特定的用語、修辭方法,而且山東人習(xí)慣說倒裝句。”李笛告訴記者,“山東大哥”目前已經(jīng)可以掌握這些方言技巧,團(tuán)隊(duì)目前正在研究讓人工智能說廣西方言。
而在小冰團(tuán)隊(duì)此前推出的人類與人工智能共處的虛擬社交平臺(tái)“小冰島”中,有著更多不同風(fēng)格、不同口音、掌握不同技能的人工智能。
人工智能開始趨于“千人千面”。
恍惚間,你在虛擬環(huán)境中甚至感受不到誰是人類,誰又是人工智能。
作為人工智能小冰團(tuán)隊(duì)中的一員,李笛目前最擔(dān)心的已經(jīng)不是有哪些技術(shù)瓶頸難以攻破,而是——當(dāng)人工智能愈發(fā)接近人類,我們?cè)撊绾翁幚砣祟惻c人工智能的關(guān)系。
采訪最后,他告訴記者,在人工智能倫理方面制定規(guī)則是重要且必須的,但目前在人工智能領(lǐng)域,最缺失的也是人工智能倫理的規(guī)則。而這一點(diǎn),僅靠技術(shù)已無法完成。(完)