超越大语言模型的革新者:大世界模型
由世界实验室创始人李飞飞创立的科技公司刚刚发布了其首个项目——利用一张图片即可生成完整3D世界的AI系统。
一键生成中世纪小镇 | World Labs
World Labs 在他们的博客上写道,“输入任何图像后,可以以 3D 方式进行探索。”——给他们一张图,它可以将图片中的场景三维化,而不是简单的“2D 转 3D”。你甚至可以通过第一人称视角控制视角,探索这个场景。
五花八门的世界丨World LabsWorld Labs被称为“大型世界模型”(Large World Model, LWM),他们也自称为空间智能 AI 公司。系统还在邀请内测阶段,World Labs在官网开放了即时演示功能,用户不仅能观看,还能在浏览器中直接操控视角转换,亲身体验World Labs创造的世界。这简直就是一场视觉盛宴。
“一图一世界”这个系统的功能与英伟达的“2D转3D”模型 Instant NeRF完全不同——Instant NeRF的视角没有深度变化、受阻没有物理碰撞,甚至会发生直接穿越;而World Labs这一工具生成的场景则完全符合基本的空间原理和物理定律。
英伟达的2D图片转3D场景的大模型InstantNeRF虽然能提供物理问题,但其生成的场景存在一些问题。例如,它无法像上个月推出的AI即时生成3D可交互游戏OASIs一样产生“鬼打墙”——当切换视角后再回来,世界就会变成另一种样子这样诡异的现象。
然而,World Labs这个系统生成的是完整三维场景而不仅仅是像素,这克服了之前像素层面生成的不一致性和稳定性问题。
3D视觉盛宴丨World Labs的场景生成器让你身临其境
在World Labs的场景中,你可以自由移动和转换视角,用鼠标选择不同的动态效果。通过实时渲染技术,在浏览器里就能体验到光影、景深、色调等动效带来的真实感受。
当你让树叶“沙沙作响”,为街角小巷营造出不同光影;水面泛起涟漪,系统能够识别并添加实体,创造出逼真的环境。这一切,都让你感受到前所未有的3D视觉盛宴!
希区柯克变焦丨World Labs 在这个系统里,你可以“化身”舞台置景,并控制布光和色调。甚至可以插入角色进入场景,改变运镜。比如滑动变焦(俗称希区柯克变焦),算法算好位置和景深,用户只需拖动就能实现效果。这种“诡异”的感觉让人惊喜,但上手会暴露问题。首先,移动受限,只有1-2平米范围,几步就会提示越界。
在VR的世界里,处处碰壁,尤其当距离越近的时候,视野变得模糊不清,动态场景的画面质量也比静态的要差一些,但这并不影响非写实风格的使用体验。
交互上,镜头控制选项很少,景深控制只能选择距离而不能指定具体的对焦点。运镜也只能滑动变焦。尽管有了“真实物理感”的设定,比如可以穿墙、画面随第一视角移动和点光源亮暗等特性,但这依然无法完全消除虚拟感。
总的来说,尽管VR技术在一些方面已经非常出色,但在交互性和动作范围上还有改进的空间。
光也可以指向特定的目标。例如,射灯的光束可以精确地照射到想要的地方。
World Labs公司也表示他们正在开发这种技术,但他们承认这只是早期预览版,并且在扩大生成世界的规模和细节质量方面正在进行努力。此外,他们还在探索更多与用户交互的方式。
World Labs实际上才成立不久,但是已经获得了2.3亿美元的风险投资,并估值超过10亿美元,预计将在2025年推出他们的第一款正式产品。
这些都显示了他们在科技领域的积极发展和对未来的乐观态度。
World Labs的核心团队丨不到一年的时间里,World Labs已经展示了一款令人惊叹的产品。这是一个开始,这只是他们的第一步。李飞飞曾说过,大型的世界模型只是World Labs公司的第一步,他们计划将场景设计融入AR、机器人甚至自动驾驶等领域。
这些工具出的比用得快,有什么用呢?“我们计划构建对艺术家、设计师、开发人员、电影制片人和工程师等专业人士有用的工具。允许任何人想象并创造自己的世界,将生成性人工智能的潜力从二维图像和视频扩展到三维世界。”
我理解的是,World Labs要给创作打个底。
静谧酒馆一键穿越到一个充满奇幻故事的画中世界里吧!World Labs通过创造一个符合真实世界的虚拟环境,将游戏开发的成本大大降低。在3D场景设计方面,它能够有效控制成本,并且让独立游戏开发者不再为卡在这个环节而烦恼。
许多独立游戏开发者为了追求视觉效果上的创新,可能会选择其他一些方式来制作游戏,例如2D像素风、手绘插图或者低多边形等。然而,这些方式在展示真实世界的深度和复杂性上可能有所不足。
但是,World Labs的虚拟世界设计则能够很好地解决这个问题。它通过巧妙的设计,让虚拟世界的奇幻故事更加丰富和生动,同时又不会过分影响成本控制。这样一来,开发者们就可以尽情地创作他们的游戏,而不用担心卡在这个重要的环节中了。
YouTuber 将著名但简陋的独立游戏《Undertale》进行了3D化改造。YouTubeWorld Labs 开发了一个系统,可以结合市面上的 AI 工具,比如 Midjourney(图像生成)和 Flux AI(优化画质),创造出3D游戏场景,并允许开发者自由设计镜头运动。这一技术对于开发者来说提供了全新的创作方式。
分分钟带你进入恐怖游戏世界,这真是恰到好处!丨World Labs电子游戏中最早出现的游戏类型之一,AVG文字冒险游戏,以前最常见的形式就是角色立绘在一个场景背景板前,靠对话框传递信息(比如著名的《逆转裁判》)。有了上述的创作工具,即使我没有绘画和建模的基础,只要依靠一个剧本和脚本编辑器,也有可能打造一款AVG游戏。
AI工具搭配起来使用,效果显著丨World Labs近期推出的“3A”大作《沙威玛传奇》让独立开发者们开始考虑利用AI降低小游戏开发成本。大型公司能够运用最先进的图像引擎,打造一个完整的虚拟世界。然而,这种技术尚未完全成熟,在场景生成方面与专业引擎相比仍有一定差距。因此,World Labs的系统填补了游戏开发中的一大空白:它简化了游戏场景设计的过程,并在视觉和交互层面为独立游戏提供了更多可能性。
想象一下,《职场浮生记》游戏开局的场景,再结合3D物理世界生成系统与其他媒介融合的可能性。手绘几个分镜头脚本,输入进去后World Labs就能生成一个虚拟拍摄场地。你甚至可以在里面运镜,制作出一个简单的样片也不是问题。把文学作品丢进World Labs中,你可以进入乔治·马丁的君临、J·K·罗琳描绘的巫师大街对角巷,或者看三日恒空的三体世界。
这或许更符合原著《哈利波特》中描绘对角巷的情景。World Labs将梵高的画作输入系统后,你可以在其中体验到《夜晚露天咖啡座》的感觉,还能看到莫奈所见的《圣达特特勒斯的海滩》,站在《夜游者》酒吧门口,仿佛一个等待进入的顾客。
生成模型之后,场景依然保留了爱德华·霍普《夜游者》中都市的寂寥感。
World Labs甚至有一天,你做了一整晚超现实的梦,在醒来后打开电脑,把梦境记录下来,然后就得到了一次梦境的复现。