
Cognition 初创公司宣布推出了全球首个 AI 软件工程师 Devin,并声称它将彻底改变人类构建软件的方式。
Devin 在 SWE-bench 编码基准测试中取得了突破性的成功,展示了其执行复杂任务的能力,甚至超越了顶尖的人类工程师。
Devin 是在数据集 25% 的随机子集上进行评估的。Devin 是无辅助的,而所有其他模型都是有辅助的(这意味着模型被告知哪些文件需要编辑)。
Devin 擅长长期推理能力,可以自主规划和完成软件项目,并在此过程中做出数以千计的准确决策。以下是 Devin 具备的技能:
- 快速掌握新技术:只需阅读文档,Devin 就能快速掌握不熟悉的工具和框架。
- 开发端到端应用:构建并部署功能齐全的网络应用程序,根据用户反馈逐步增加功能。
- 自动化查找 BUG:Devin 擅长识别、调试和修复代码问题,同时为开源和生产级软件仓库作出贡献。
- AI 培训:从研究资料库中获取指令,建立并微调大型语言模型。
这些技能表明 Devin 不仅可以在软件开发的各个阶段发挥作用,而且还具有学习和适应新环境的能力,使其成为未来软件开发中的一股强大力量。