今日【rì】视【shì】点:单卡 30 秒跑出【chū】虚拟【nǐ】 3D 老婆!Text to 3D 生成看清【qīng】毛孔细节的【de】高精度数字人,无缝衔【xián】接 Maya、Unity 等制作工具

2024-9-21 15:19:07来源:量子位

ChatGPT 给 AI 行【háng】业注入一剂鸡血,一【yī】切曾【céng】经的不敢想,都【dōu】成【chéng】为如今的基操。

正持续进击的Text-to-3D,就被【bèi】视为继【jì】 Diffusion(图【tú】像)和 GPT(文字)后,AIGC 领域的下【xià】一个前沿【yán】热点【diǎn】,得到了【le】前所未有的关注度。

这不,一款名为【wéi】 ChatAvatar 的【de】产品低调公【gōng】测,火速收【shōu】揽超 70 万浏【liú】览与关注,并登上抱抱【bào】脸周热门(Spaces of the week)。


(资料图片仅供参考)

ChatAvatar 也将支持【chí】从 AI 生成的单视角 / 多视【shì】角原画生成【chéng】 3D 风【fēng】格化角色的 Image to 3D 技【jì】术,受到【dào】了【le】广泛关注【zhù】

有够酷的,感觉能很便捷地生成自己的数字孪生了。

由此吸引不少网友纷纷试【shì】用并贡献脑洞【dòng】。有人拿这款【kuǎn】产品和 ControlNet 结合,发【fā】现效【xiào】果细腻写【xiě】实到有些【xiē】出乎意料。这款使【shǐ】用起来几乎【hū】零门槛【kǎn】的 Text-to-3D 工具名叫ChatAvatar,由国内 AI 初创公司影眸科技团队打造。

据了【le】解【jiě】,这【zhè】是全球首款【kuǎn】 Production-Ready 的 Text to 3D 产品,通过【guò】简单的【de】文本,例如一个明星【xīng】的名字、或是某个想要的人物长相,就能生成影【yǐng】视级的【de】 3D 超写实数【shù】字人资产。

效率【lǜ】也非常高,平均仅需【xū】 30 秒,就【jiù】能做出一张以【yǐ】假乱真的脸——甚至是你【nǐ】自己的。

未来,生成领域还将拓展到其他三维资产。

并且该模型带【dài】有规【guī】整的拓【tuò】扑、带有 4k 分辨率的【de】 PBR 材质,同【tóng】时带有绑定,可以直【zhí】接接【jiē】入 Unity、Unreal Engine 和 Maya 等制作引擎的生【shēng】产管线中。

所以,ChatAvatar 到【dào】底【dǐ】是怎【zěn】样一【yī】个 3D 生【shēng】成工【gōng】具?背后究竟用到了什么技术?

30 秒完成一次 " 画皮 "

亲身体验 ChatAvatar 的【de】玩法发现,可以说是真【zhēn】 · 零门槛【kǎn】。

具体而言,只需以对话的形式,在官网上用大白话向 ChatBot 描述自己的需求,就能【néng】按需生【shēng】成 3D 人脸,并覆盖【gài】一【yī】张贴合模型的真【zhēn】实 " 人皮 "。

对话全流程里,根据用户需求,ChatBot 会进行引导,尽可能细节地了解用户对所需模型的想法。

体验过【guò】程中,我们向 ChatBot 描【miáo】述了这样一个想【xiǎng】要【yào】生成的 3D 形象:点击左侧的 Generate 按钮,平均【jun1】 10s 不【bú】到,屏幕上就出【chū】现根据描述生【shēng】成的 9 种不同 3D 人脸的【de】初始雏形【xíng】。

随【suí】意选择其中【zhōng】一种后,会基于选【xuǎn】择继续优化模【mó】型和材质,最【zuì】后【hòu】出【chū】现覆【fù】盖皮肤后的模型渲结【jié】果,并展现不同光影【yǐng】下的渲染效【xiào】果——这些渲染在浏【liú】览器【qì】内实时完成:

用鼠标拖动【dòng】,还能旋转【zhuǎn】头部,并放【fàng】大【dà】看更细节的局【jú】部【bù】效果,毛孔和痘痘都清晰可见:值得一提【tí】的是,如【rú】果用户是个提示工程高手【shǒu】,直【zhí】接在左侧【cè】框中输入【rù】 prompt,同样可以完成生【shēng】成。

虽然 beta 版本还没上线发型功能,但整体而言,最后【hòu】生成的【de】 3D 数【shù】字人资【zī】产【chǎn】与描述内【nèi】容已经有高【gāo】匹配度。

官网上还陈列了许多 ChatAvatar 用户的生成资产,不同人种【zhǒng】、不同肤色、不同年龄,喜【xǐ】怒哀乐【lè】,美丑【chǒu】胖瘦,各【gè】式相【xiàng】貌应有【yǒu】尽【jìn】有。

总结一下 ChatAvatar 这款产品生成【chéng】 3D 数字人【rén】资产的【de】效果亮【liàng】点:

首先是使用简便;其次是生成跨度大,且五官可改,还能生成与面部贴合的面具、纹身等,譬如这样:

根据官方宣传片介【jiè】绍,ChatAvatar 甚至可以进一步生成超出人类【lèi】范畴【chóu】的【de】角色【sè】,如阿【ā】凡达等【děng】影视作品【pǐn】中的角色:最重【chóng】要的是,ChatAvatar解决了 3D 模型与传统渲染软件存在的兼容性问题

这【zhè】意味着【zhe】,ChatAvatar 生成的 3D 资产【chǎn】可以直接接入游戏和影视生产【chǎn】流程。

当然,在正式接【jiē】入工业流【liú】程之前,首轮公测,ChatAvatar 已经吸引了数千名【míng】艺术家【jiā】和【hé】专【zhuān】业【yè】美术人员参与,推特相关话题【tí】受到近【jìn】百万的浏览【lǎn】与关注。

随随便便一条推文,浏览量都能破 50k。

积攒了大批 " 自来【lái】水 " 不是没【méi】有原【yuán】因,看看 3D 的爱因斯坦之【zhī】脸,试问谁不说【shuō】一句真的很像?要是和 ControlNet 结【jié】合,生成效果不亚于单【dān】反相片直出【chū】:已经有不少用户体验后,开【kāi】始畅想【xiǎng】将这【zhè】个 Text-to-3D 工具大【dà】规【guī】模应用在游戏、影视等工业应用【yòng】上了。

据了【le】解,用户反【fǎn】馈会成为 ChatAvatar 团队【duì】快速迭代和更新的重要【yào】依【yī】据【jù】,形成数据飞轮,以便及时提供【gòng】更加完整和贴近【jìn】需求【qiú】的功能【néng】。

事实上【shàng】,对于此【cǐ】前的 3D 行【háng】业设计师或公司【sī】来说,大部分 AI 文字转 3D 应用【yòng】并非效果【guǒ】不好【hǎo】,但实际落地到工业设【shè】计【jì】流程上,还是有不少难度。

这次【cì】 ChatAvatar 能【néng】如【rú】此出圈,背后究竟有【yǒu】什么技术上的原因?

符合产业要求的 3D 资产生成,究竟难在哪?

都说 AI 要替代人类,事实上仅仅就 Text-to-3D 领域【yù】,就并【bìng】非【fēi】那么【me】容易【yì】替【tì】代。

最大的难点,在于让 AI 生成的东西从标准上符合产业对 3D 资产的要求。

这里面的产业标准怎【zěn】么理解?从专业【yè】 3D 美工设计的【de】视角来说【shuō】,至少有三个【gè】方【fāng】面——

质量、可控性和生成速度。

首先是质量。尤其是对于强调视觉【jiào】效果的影视、游戏行业来【lái】说,要【yào】想【xiǎng】生成符合管线要求的 3D 资产,拓扑规【guī】整【zhěng】度【dù】、纹理贴【tiē】图的精度等 " 行业【yè】潜规【guī】则 ",都是 AI 产品【pǐn】第【dì】一【yī】道【dào】必须迈过去的坎。

以拓扑结构【gòu】的规整度为例,这【zhè】里本质上指的【de】是 3D 资【zī】产布线的合理【lǐ】度。

对于 3D 资产来说,拓扑的规【guī】整度【dù】,往往直接【jiē】影响【xiǎng】物体的动画效【xiào】果【guǒ】、修改处理效率和贴图【tú】绘制速度:

据行内 3D 美工设计介绍,手工重拓扑的时间【jiān】成【chéng】本往往比制作 3D 模型【xíng】本身更高【gāo】,甚至【zhì】按倍数以计。这意味【wèi】着即使【shǐ】 AI 模型生成的 3D 资【zī】产再炫酷,如【rú】果生成的拓扑规整【zhěng】度达不【bú】到要求,成本就【jiù】无法从根本【běn】上得到【dào】降低。更别提纹【wén】理精度。

影眸科技【jì】的【de】 ChatAvatar 项目【mù】在生成质量、速度以及标准兼【jiān】容上相比先前的工作都有【yǒu】明显【xiǎn】的提升

以目前【qián】游【yóu】戏、影视行业普遍要求【qiú】的 PBR 贴图【tú】为例,包含的反射率贴【tiē】图、法【fǎ】线贴图等一【yī】系列贴图,相当于 2D 图【tú】像 PSD 文件的【de】 " 图层 ",是【shì】 3D 资产流水线生产必【bì】不可【kě】少【shǎo】的条件之一。

然而【ér】,目前 AI 生成的 3D 资产【chǎn】往【wǎng】往是一【yī】个 " 整体 ",少有【yǒu】能按要求【qiú】单独生成【chéng】符合产业环【huán】境的 PBR 贴图的效果。

其【qí】次是可【kě】控性,对于生成式 AI 而言,如何让生成的内容更加 " 可控 ",是【shì】 CG 产业对于这项技术【shù】提出的又一大要求【qiú】。

以大众所【suǒ】熟知【zhī】的 2D 产业为【wéi】例,在【zài】 ControlNet 出现之【zhī】前,2D AIGC 行业一直【zhí】处【chù】在一种 " 半摸黑前进 " 的状态。

也就【jiù】是说,AI 能生【shēng】成指定类别的【de】物体【tǐ】画面,却无法【fǎ】生成指定姿态的物体,生成效果全靠提示工【gōng】程和【hé】 " 玄学 "。

而在 ControlNet 出现后,2D AI 图像生成的可控性获得了突飞【fēi】猛【měng】进的提升,然而【ér】对于 3D AI 而言,要想生成【chéng】对【duì】应【yīng】效果的【de】资产,很大【dà】程度上依旧得【dé】依靠专业的提示工【gōng】程。

最后【hòu】是生成速度。相比 3D 美工设【shè】计而【ér】言,AI 生成【chéng】的优势【shì】在【zài】于速【sù】度,然而如果 AI 渲【xuàn】染的速【sù】度和效果无法与人工匹敌的话,那么这项技术依旧无【wú】法给产业带来【lái】收益。

以当【dāng】前在【zài】 AI 技术上颇受欢迎的 NeRF 为例,其产业化落地【dì】就面临速度和质量的兼容【róng】性【xìng】难题。

在生成质【zhì】量较高【gāo】的情况下,基于【yú】 NeRF 的 3D 生成【chéng】往往需要相当漫长的【de】时间;然而如果追求速度,即使【shǐ】是 NeRF 生成【chéng】的 3D 资产便完全无法投【tóu】入产业【yè】使用【yòng】。

但即使【shǐ】解决了【le】这个问题,如何在不损失精度【dù】的前【qián】提下让 NeRF 与传【chuán】统 CG 行业的主流【liú】引擎兼容仍然是一个巨【jù】大的问题【tí】。

从上面【miàn】的产业标准化【huà】流程不【bú】难发现,大部分 AI 文本【běn】转 3D 应用落地存【cún】在两大瓶颈

一个是需要手动完【wán】成提示工程【chéng】,对于【yú】非 AI 专业人士、或不了【le】解 AI 的设计师来说【shuō】不够友好;另一【yī】个是生成的【de】 3D 资产往往不符【fú】合产业标准,即使再好看也【yě】无法投入使用。

针对【duì】这两点,ChatAvatar 给出【chū】了两点具体有效的解【jiě】决方案【àn】。

一方面,ChatAvatar 实现了除【chú】手动输入【rù】提示工程外的第二条道路,也是更适合【hé】普【pǔ】通【tōng】人的一条捷径:通过 " 甲【jiǎ】方【fāng】模式 " 直接对话描述需求【qiú】。

团队【duì】官方推特介绍称,为【wéi】了【le】实【shí】现这一特性,ChatAvatar 基于【yú】 GPT 的能力【lì】,开发了【le】一【yī】种对话描述转人像特征的方法。

设计师只需要不【bú】断和【hé】 GPT 聊天【tiān】,描述【shù】自己想要的 " 感觉 ":

GPT 就能【néng】自动帮【bāng】忙完【wán】成提示工程【chéng】,将结果【guǒ】输送给 AI:换而言【yán】之,如果说 ControlNet 是 2D 行业的 "Game Changer",那么【me】对于 3D 产业来说,能实现文本【běn】转 3D 的【de】 ChatAvatar,无异于行【háng】业的【de】游戏【xì】规则改变者。

另【lìng】一方面更为重要,那就【jiù】是 ChatAvatar 能【néng】完美【měi】兼容 CG 管线,即生成的资产在拓【tuò】扑结构、可控性和【hé】速度上都符合【hé】产【chǎn】业要求。

同【tóng】时,生成的【de】模型【xíng】和高精度材质【zhì】贴图,还能在【zài】后期的渲染中达【dá】到极为逼真【zhēn】的渲染效果。

为了实现这样的效【xiào】果【guǒ】,团队为【wéi】 ChatAvatar 自【zì】研【yán】了一个渐进式 3D 生成框架 DreamFace。

其中【zhōng】的【de】关键,在于训练该模型用的底【dǐ】层【céng】数【shù】据,即影眸科技基于 " 穹顶光场 " 采【cǎi】集到的世界首个大体量、高精度、多表情的人脸高精度数据集

基于这个数据集,DreamFace 可以高效地完成产品级三维资产的生成,即生成的资产带有规整的拓扑、材质,带有绑定。

通过引入外部 3D 数据库,DreamFace 能够直【zhí】接输【shū】出【chū】符合 CG 流程的资产。

生成的资产驱动渲染的效果

上述【shù】两大技术瓶颈的解决,本质上进一步加【jiā】速了 AIGC 洪流下," 生成 " 将取代 " 搜索【suǒ】 " 的时【shí】代【dài】趋【qū】势——

影眸团队认为," 生成 " 将成为新一代数字资产的获取方式。

此【cǐ】前,我们需【xū】要【yào】找到一【yī】张符合需求的图片或者资产时,通【tōng】常【cháng】会【huì】使用搜索引擎进行查询。

ChatAvatar 项目主页上展【zhǎn】示的【de】巨大的 " 搜索框 " 和整齐的【de】资产卡片,看似搜索引【yǐn】擎,但实【shí】际上【shàng】是一种【zhǒng】与搜索截【jié】然不同的资产查找方【fāng】式。

ChatAvatar 项目主页

影眸科技 CTO 张启煊对此介绍:

以前,如果我们需【xū】要一张插图,可【kě】能要在【zài】多【duō】个图库中【zhōng】反复搜索,或是通过 Photoshop 合【hé】成、手绘等【děng】较复杂的【de】方【fāng】式才【cái】能得到结果。但在 Stable Diffusion 等技【jì】术出现【xiàn】后,你【nǐ】只需要通过文字【zì】描述【shù】想要的图像,就能直接生成符合需【xū】求的结果。

这对于【yú】传统的【de】资产库来说是一个巨大的【de】冲击。而 ChatAvatar 的目标【biāo】,正是【shì】用 3D 生成【chéng】替代传统的搜索式【shì】 3D 资产【chǎn】库。

AIGC 领域的下一个前沿热点

ChatGPT 一石激【jī】起千层浪,进入 AI 2.0 时代之后,人们的目光也投向包含【hán】图【tú】像、视频、3D 等【děng】信息的多【duō】模【mó】态 AI。

仅就【jiù】 3D 生成领【lǐng】域而【ér】言,无论是影视还是【shì】游戏【xì】行【háng】业,3D 内【nèi】容生产和【hé】消【xiāo】费【fèi】市场已经拥有足够大的规模,但在制作层面却因技术难度遭遇掣肘。

譬如,文本领域大【dà】行其道的 Transformer,在【zài】 3D 生成【chéng】领域的【de】使用还相对有【yǒu】限。

去年夏天,当文生图领域【yù】因 Diffusion Model 取得成绩后【hòu】,人们开始期待【dài】文字生成 3D有同样惊艳的【de】表现。一旦生成式 AI 的 3D 创作技术【shù】成熟,VR、视【shì】频等的内容【róng】创【chuàng】作【zuò】都【dōu】将起飞。

扩散模型 Midjourney5.1 生成【chéng】的【de】 " 梵高风摄影 "

事【shì】实上【shàng】,无论是【shì】科技巨头还是初【chū】创公司,的确都在【zài】朝 Text-to-3D 这个方向暗暗【àn】发力。

去年 9 月【yuè】,谷歌发布了基【jī】于文本提示生【shēng】成 3D 模【mó】型的【de】 FreamFusion,声称【chēng】不需要 3D 训练数据,也不需【xū】要【yào】修改图【tú】像扩散模型。紧随其后,Meta 也推出可【kě】以从【cóng】文本一键【jiàn】生成视频的 Make-A-Video 模型。

后来【lái】的【de】 Text-to-3D 的 AI 模型【xíng】队伍中,还先后出【chū】现了英伟达 Magic3D、OpenAI 最新开源项目 Shap-E 等【děng】,今年 8 月将举办的计算【suàn】机【jī】图形【xíng】顶会 SIGGRAPH 2023 所展示的论文,也有多篇【piān】与【yǔ】 Text-to-3D 有关。

影眸科技有关文本【běn】指导【dǎo】的【de】渐【jiàn】进式 3D 生成框架 DreamFace 的论文,就是其中之【zhī】一。

而 ChatAvatar,也【yě】是目前为止最集【jí】中在 3D 数字人【rén】资产方向【xiàng】的生成式模型【xíng】产【chǎn】品。

其背后的 AI 初创公司影眸科技,2020 年孵化自【zì】上海科技大学 MARS 实验室,成立【lì】后获得奇绩【jì】创坛与【yǔ】红杉种子【zǐ】的两轮投资【zī】。

公【gōng】司专注于专注于计算机图形【xíng】学、生成式 AI 的研究【jiū】与【yǔ】产品【pǐn】化。2021 年,AIGC 还未掀起巨浪之时,公司就已【yǐ】经推出国内首【shǒu】个【gè】 AIGC ToC 绘画应用【yòng】 Wand,产品【pǐn】一度登顶 AppStore 分区榜【bǎng】首。

而这个颇具前瞻性,且已在业内小有名气的团队,平均年龄只有 25 岁

将首个商业化场景具体锚定【dìng】在数字人后,ChatAvatar 是他们乘 AIGC 东【dōng】风【fēng】在【zài】该方向的最新【xīn】进展。

作为一个新【xīn】推出的产【chǎn】品,ChatAvatar 在兼容性、完成度和精度等产品【pǐn】效【xiào】果层面,都超出了影【yǐng】眸团队【duì】预期。然而【ér】在【zài】吴迪口中,行【háng】至此处的过程 " 很狼狈 "。

主要【yào】原【yuán】因不外乎 " 缺人 " 一事。目【mù】前,影眸已经在【zài】多类别 3D 生成技术【shù】上取得【dé】了进展【zhǎn】,下一步还计划【huá】推出 "3D 生成大模【mó】型 "。

影眸科技将于【yú】 5 月上线首个多模态跨平台 3D 搜【sōu】索引擎 Rodin,打通【tōng】 Sketchfab 等【děng】多【duō】个 3D 资产平台,支【zhī】持以【yǐ】文搜【sōu】 3D、以图搜 3D 甚至以 3D 搜 3D。搜索引擎只【zhī】是【shì】 Rodin 的初级形【xíng】态,影【yǐng】眸将把 Rodin 打造为 3D 生成大模型。

需要持续向前推进,就需要更多的【de】工程化团队、技术【shù】美【měi】术和拥抱生成式【shì】 AI 的产【chǎn】品人才加入团队。作为一个以【yǐ】研发为背景【jǐng】主【zhǔ】基调的团队,这【zhè】样的人才【cái】仍【réng】然紧缺【quē】。

" 人是【shì】万【wàn】物的尺度," 吴【wú】迪表示道," 我【wǒ】们需要更多志同道合的【de】人加【jiā】入,共同推动 3D 领域的【de】创新发展【zhǎn】。"

可以看【kàn】到,ChatAvatar 背【bèi】后技【jì】术从无【wú】到有的搭建【jiàn】,揭示了一家 AI 初创公司的不断创新;而从这家公司对人【rén】才的渴【kě】望以小【xiǎo】见大【dà】,更揭示着 AIGC 浪潮下,每一个细分领【lǐng】域想【xiǎng】要从水下【xià】浮出水【shuǐ】面【miàn】的心。

你愿意拥抱生成式 AI,成为【wéi】 Text-to-3D 领域的 Game Changer 吗?

联系作者

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

为你推荐

最新资讯

股票软件