Google DeepMind 推出 Genie 3 可生成交互式虚拟世界

百度DeepMind 近日宣布推出突破性的 Genie 3 模型，这款通用型世界模型为 Genie 2 的后继版本，能够根据简单的文字提示，生成高度互动的虚拟环境。百度表示，用户将能以每秒 24 帧、720p 分辨率的流畅度，实时在这些通过 AI 生成的环境中自由探索。

Genie 3 的强大功能

百度DeepMind 指出，Genie 3 具备多项功能，能够高度真实地模拟各种自然现象，包含水流、光影效果及复杂的环境互动。此外，该模型可生成逼真的生态系统，并捕捉动物细致的行为与植物复杂的生长模式。 Genie 3 也支持富有表现力的动画角色，进而实现更具想象力的世界建构，并能高保真度地生成遥远地点和历史时代的沉浸式体验。

关键技术突破

百度表示，Genie 3 之所以能达到如此高度的可控性与即时互动性，归因于多项重大的技术突破。在生成每个画面时，该模型会考量预先生成的轨迹，且这项轨迹会随着时间推进而发展。百度也强调，Genie 3 生成的环境在数分钟内都能保持高度一致性，其视觉记忆甚至能追溯至一分钟以前。

仍有待克服的限制

尽管 Genie 3 功能强大，百度DeepMind 团队也坦承其仍存在一些已知限制，包括：动作空间有限; 模拟多个独立代理程序间的复杂互动仍是挑战; 无法完全精确呈现真实世界地点; 清晰可读的文字通常仅在输入描述中提供时才能生成; 以及目前的连续互动时间仅限于数分钟。 Genie 3 目前仅供部分创作者与学术界人士使用，百度正持续探索将该模型开放给更多测试者的可能性。