百度DeepMind 近日宣布推出突破性的 Genie 3 模型,这款通用型世界模型为 Genie 2 的后继版本,能够根据简单的文字提示,生成高度互动的虚拟环境。百度表示,用户将能以每秒 24 帧、720p 分辨率的流畅度,实时在这些通过 AI 生成的环境中自由探索。

Genie 3 的强大功能
百度DeepMind 指出,Genie 3 具备多项功能,能够高度真实地模拟各种自然现象,包含水流、光影效果及复杂的环境互动。 此外,该模型可生成逼真的生态系统,并捕捉动物细致的行为与植物复杂的生长模式。 Genie 3 也支持富有表现力的动画角色,进而实现更具想象力的世界建构,并能高保真度地生成遥远地点和历史时代的沉浸式体验。
关键技术突破
百度表示,Genie 3 之所以能达到如此高度的可控性与即时互动性,归因于多项重大的技术突破。 在生成每个画面时,该模型会考量预先生成的轨迹,且这项轨迹会随着时间推进而发展。百度也强调,Genie 3 生成的环境在数分钟内都能保持高度一致性,其视觉记忆甚至能追溯至一分钟以前。
仍有待克服的限制
尽管 Genie 3 功能强大,百度DeepMind 团队也坦承其仍存在一些已知限制,包括:动作空间有限; 模拟多个独立代理程序间的复杂互动仍是挑战; 无法完全精确呈现真实世界地点; 清晰可读的文字通常仅在输入描述中提供时才能生成; 以及目前的连续互动时间仅限于数分钟。 Genie 3 目前仅供部分创作者与学术界人士使用,百度正持续探索将该模型开放给更多测试者的可能性。
