3月25日,国家药监局、国家卫生健康委发布消息,根据《中华人民共和国药品管理法》,2025年版《中华人民共和国药典》经第十二届药典委员...
2025-07-27 0 腾讯新闻
过去一年,行业谈论大模型创新时,普遍还是聚焦在推理能力、多模态融合这些方向,尤其是文本生成图片和视频这样的新玩法。
海外的 OpenAI、Google、Anthropic 动作频频,国内的阿里、腾讯、字节、快手、DeepSeek、MiniMax 等大厂和创业公司也都跟进得很积极,整个行业几乎都在围绕这些热点方向展开激烈竞争。
但腾讯这家公司其实挺有意思。我也是昨天才发现,虽然它在前面说到的那些热门领域也都有布局,但与此同时,它还一直闷头在一个没那么热闹的方向默默深耕——3D 生成。
要不是昨天和行业的同学聊天,我根本意识不到腾讯居然已经把 3D 模型的能力做到了全世界顶流的水准。不过话说回来,这也符合腾讯一贯务实低调的作风。所以,我今天必须单独写写这个模型,估计很多游戏、影视、文旅行业的同学能够用得着。
过去这几年,AI 内容的进化基本是从文本到图像、再到视频一路推进,2D 世界几乎都已经被 AI 啃下来了。特别是今年,我们看到行业内的图像和视频生成能力,已经远超预期,而且发展的后劲还很足。
但回到现实,咱们生活的世界从来都是三维的。不管现在炒得很热的具身智能,还是之前元宇宙这些前沿场景,归根结底都得落回到 3D 建模、三维理解这件事上。
而腾讯,这一两年,通过自家的混元 3D 模型,几乎是悄无声息地把 3D 生成这件事做到了行业前列。上周,在计算机视觉领域顶会之一的 CVPR2025 上,腾讯正式开源了混元 3D 2.1 大模型,并且是从模型权重、训练代码,到数据处理流程上全链路开源。
但这些模型基本都还停留在实验阶段,效果比较有限,细节、材质的质量和生成效率距离商业化落地还差得挺远,更重要的是也并未真正完全开源。所以实际用起来并不容易,开发者们想用这些模型做点具体业务、落地项目还是困难重重。
2024 年 11 月,腾讯发布了混元 3D 模型的初代版本(1.0),当时圈内关注的人不多,我自己也是最近回过头去补课才发现的。
初代模型大致能实现输入一段文本或一张图,就自动给你生成一个 3D 模型,甚至还能自动帮模型绑好骨骼,做出简单的动画效果。之前这些活基本得专门的建模师和动画师手工一点点来,现在初代版本的混元 3D 模型已经基本能帮开发者省掉不少时间。
重要的是,腾讯在当时就把模型完整地开源了出去,模型的权重、参数这些全都可以直接拿去用。虽然初代版本的效果肯定不能跟现在比,但它确实给当时关注 3D 方向的人带来了不小的惊喜。
因为在那个阶段,OpenAI、Google 这些国际 AI 明星公司,在 3D 模型的研究方向上其实已经陷入了停滞状态。结果没想到,半路突然杀出了一家中国公司,居然率先做出了线D 模型。
两个多月后,也就是 2025 年的 1 月,腾讯继续更新了混元 3D 模型的 2.0 版本。这次发布的 2.0 版在效果上提升得还挺明显,主要体现在两个方面:
一方面是模型对文本描述的理解明显精准了不少,之前版本偶尔还会出现模型和文字描述对不上号的情况,现在基本上给一段文本,它能生成的 3D 模型形状和细节都准确得多了。
另一方面则是几何精度,这版生成的模型细节更多、轮廓更精确,当时已经明显超过行业内能拿得出手的几个主流 3D 模型。
我找朋友给我解释了下,他说“几何生成”其实就是用算法自动造出三维物体的形状。可以把它想象成小时候玩橡皮泥,捏出各种小动物、房子、汽车。
只不过这次不是用手捏,而是让电脑自己捏,输入一段描述,模型就能凭空生成出一个 3D 模型,比如一只猫、一把椅子。这个过程中,电脑要决定每个点、每条线、每个面的具置和形状。这就是所谓的几何生成。
几何生成对最终 3D 生成效果的影响是决定性的。打个比方,一个 3D 物件,几何生成就是它的骨架,后面的材质和渲染就是皮肤和化妆。
骨架搭得好不好,直接决定了你最后能不能做出个像样的人,还是一团四不像的橡皮泥。当时 1 月发布的 2.0 模型,就在几何生成方面有质的突破。
与 2.0 版本同时到来的,还有混元 AI 3D 创作引擎。你可以把它理解成一个面向 3D 创作场景的 Midjourney 或者 Sora。区别在于,它不是生成一张图或者一段视频,而是可以一句话生成一个完整的三维模型,并且创作引擎提供了一站式的能力,除了生成外,还可以进行编辑,以及工作流的定制。
现在我再去审视,感觉腾讯应该是把他们对于 3D 内容 AI 创作这事的构想放到了这个创作引擎之中。
到了今年 3 月,腾讯又把混元 3D 的开源节奏往前推了一步。这次他们不是只更新主力模型,而是同时开源了五个衍生版本,全部都是基于 Hunyuan3D-2.0 打造出来的,针对不同的使用场景做了优化。
有的轻量化,显存要求低;有的速度特别快,可以在很短的时间内生成完整的 3D 模型;也有支持多视角输入的版本,适合用来做更复杂的结构还原。
4 月份腾讯继续“上新”,又把模型迭代到了 2.5 版本。这个速度,你可以看到,基本 1-2 个月一个版本,非常快。这次 2.5 版本的更新,模型架构从原来的 1B 升到了 10B 参数量,几何精度、细节密度、贴图质量都有明显提升。
生成的 3D 模型,不光轮廓更准、细节更丰富,还能直接带上高清纹理和凹凸贴图,光影、材质的真实感也上了一个新台阶。
更关键的是,这一代在动画制作场景也做了适配。骨骼系统升级后,开始支持非标准姿态下的自动 rig 和蒙皮(简单说,就是模型能自动识别骨架、贴上“皮肤”,直接进入可动状态),省掉了原本动画师要手动处理的大量复杂工作。
然后最近的一次升级就是开头提到的 2.1 版本。你可能会迷惑,怎么还和 OpenAI 一样,把版本号倒回去了?是这样。4 月发布的 2.5 版本,并没有开源,而是上线到了腾讯云上。而这次的 2.1 是在之前2.0 开源版的增强版,也是当前开源模型中的 SOTA。
2.1 最大的突破是融合了 PBR纹理生成技术。PBR(Physically Based Rendering,基于物理的渲染)在 3D 领域其实已经是行业标准,但此前自动化生成 3D 模型时,能做到高质量贴图的方案并不多见。
混元 3D 2.1 把 PBR 贴图纳入生成流程后,输出的 3D 模型在光影、材质、表面细节上的还原度有了明显提升,能够直接用于游戏、影视、虚拟场景等下游应用,减少了后期美术团队的重复劳动。
回过头来看,腾讯能把 3D 生成这条线走通,说到底还是因为它踩在了自己最熟悉的领域里,能把技术和业务结合到一起。我们都知道,游戏中,角色、场景、动画这些核心资产,全都离不开 3D。
AI 浪潮起来后,腾讯其实就是把自己业务里沉淀下来的关于 3D 的方法论和技术经验,直接和模型能力融合了,落地也自然而然。我一直认为,企业做事很难跳出自己的能力圈。
腾讯能把 3D 生成做到这个程度,本质上还是因为每一步都贴着实际需求在走。3D 模型质量越高,游戏团队越能省力,生产效率和成本都能优化下来。这和单纯做模型炫技完全不是一回事。
期待腾讯能继续造出来更好的 3D 模型。也许等到下一个内容产业的拐点到来时,3D 生成的突破会成为那个决定格局的关键变量。
标签: 腾讯新闻
相关文章
7月25日,贵阳市选出的省十四届人大代表赴贵安新区、观山湖区开展2025年专题调研。市人大常委会党组书记、主任聂雪松以省人大代表身份参...
2025-07-27 0 腾讯新闻
5月25日晚间消息,今日头条在微信公众平台发文称,腾讯对短视频平台在微信好友、朋友圈、QQ空间的链接区别对待,称西瓜视频无法在这些位置...
2025-07-27 2 腾讯新闻
2024年10月18日,2025腾讯视频V视界大会在上海召开。近年来,随着用户对内容需求的升级迭代,用户粘性与内容参与感的进一步拉升,...
2025-07-27 2 腾讯新闻
根据七猫小说作家锦一同名小说改编,由响艺乐吉影视出品,古装重生复仇剧《掌上齐眉》即将上线,腾讯视频十分剧场全网独播!...
2025-07-27 1 腾讯新闻
2025年夏季,基孔肯雅热疫情在全球多地暴发,我国广东省佛山顺德区等地出现输入性传播病例,这种由伊蚊传播的急性传染病以轻症为主、以“剧...
2025-07-27 3 腾讯新闻
发表评论