谷歌更新生成式AI:发布新视频模型VEO 2与升级版Imagen3


谷歌旗下的旗舰AI研究实验室Google DeepMind于本周一推出了两项重大更新:Veo 2视频生成模型以及改进版的Imagen 3图像生成工具。这些创新旨在挑战OpenAI在AI图像和视频生成领域的领先地位。

**提升真实感与定制化体验**

谷歌表示,这些新功能将彻底改变创意工作流程,并为视频和图像创作者提供更高层次的真实感及个性化体验。Veo 2是谷歌最新推出的视频生成模型,它能够根据用户需求生成高质量、多样化主题和风格的视频内容。

**卓越的真实效果**

在DeepMind官方博客中提到,这款模型展现出了超越以往的人脸细节捕捉能力以及对电影语言的理解。其增强的物理知识及电影学理解使得Veo 2可以创建出令人惊叹的内容,包括跟踪镜头和广角构图等复杂视觉效果。用户只需简单提示便能生成长达数分钟的4K分辨率视频。

**高清晰度与长时长优势**

值得注意的是,Veo 2在视频质量和长度上都优于OpenAI的Sora模型——前者提供四倍于后者的清晰度和六倍以上的播放时间。尽管如此,在谷歌实验性视频创作工具VideoFX中测试时,生成的视频被限制为720p分辨率、8秒的短片。

**减少幻象化与错误**

Veo 2在避免产生不必要的细节方面表现优异,减少了多余手指或意外物体等常见问题的发生。此外,所有通过该模型生成的视频都会自动添加SynthID水印,以确保这些内容明确标记为AI作品,从而降低潜在版权争议风险。

**未来的展望与应用**

DeepMind产品副总裁Eli Collins在接受媒体采访时透露,Veo 2将逐步具备大规模使用的条件,并计划在未来几个月内通过Vertex AI开发者平台提供给更多用户。此外,他们还将在YouTube Shorts等平台上集成该工具,预计到2025年将全面普及开来。

**更强大的图像生成能力**

同时,DeepMind也对Imagen 3模型进行了升级,进一步增强了其在构图和细节准确性方面的表现力,并支持从写实到抽象的各种风格创作。这些改进使得生成的图像更加逼真且符合用户的意图提示。

通过这些创新工具的推出,谷歌正努力巩固自己在全球AI领域的领导地位,并为用户提供前所未有的创意自由度。

目前,谷歌实验室已通过ImageFX工具在全球100多个国家发布了Imagen 3。全球用户可以体验其尖端功能。

此外,谷歌还推出了名为Whisk的创意工具,它结合了Imagen 3和Gemini的强大视觉分析能力。用户可以通过输入图像来生成详细的描述、重新混合风格或设计个性化作品,例如数字玩偶或搪瓷徽章。

据谷歌介绍,Whisk利用Gemini模型自动生成详细的文字描述,并将这些描述传递给Imagen 3进行进一步处理。这一过程使用户能够以有趣的新方式重新混合主题、场景和风格。