如果有一天,开发者再也不需要手动调整 AI 的系统提示词(system prompt),让 AI 自己找出更好的版本,而这件事,现在正在发生。 人工智能研究机构Nous Research日前在 GitHub 上开源了一个名为 Hermes Agent Self-Evolution 的新项目,让旗下的开源 AI Agent「Hermes Agent」拥有自我进化的能力:通过分析自身的执行记录,自动产生改良版的技能指令(skill)、工具描述(tool description)与系统提示,并在测试通过后提交为候选升级版本。
这个框架的核心引擎叫做 GEPA(Genetic-Pareto Prompt Evolution),一套获得顶尖 AI 学术论坛 ICLR 2026 最高荣誉「Oral」认可的提示词优化算法。 在六项任务的实测中,GEPA的表现比主流强化学习方法GRPO平均高出6%,最高差距达20个百分点,同时所需的训练数据量仅为后者的三十五分之一。
什么是 Hermes Agent Self-Evolution?
Hermes Agent 是 Nous Research 在 2026 年 2 月推出的开源 AI Agent 框架,功能涵盖网页浏览、编程撰写、文件操作、记忆管理等,强调「越用越聪明」的自我优化设计。 上线后短短数周即登上 GitHub Trending 排行,并迅速累积超过数万颗星,成为近期 AI 开源社群最受瞩目的项目之一。
此次开源的子项目 hermes-agent-self-evolution,是 Hermes Agent 的自动优化管道,主要由 Nous Research 联合创始人 teknium1 主导开发。 根据 GitHub README,整套系统的运作逻辑如下:
- 读取 Agent 当前使用的技能描述文件、工具说明或系统提示
- 根据真实执行记录(reasoning、tool calls、tool outputs)自动产生评估数据集
- 交由 GEPA 优化器分析失败原因、提出候选改良版本
- 每个候选版本必须通过完整测试套件(包含 pytest 测试 100% 通过、大小限制、语意保留等关卡)
- 通过所有关卡的最佳版本,以Pull Request形式提交供人工审查,不直接写入
值得注意的是,整个流程不需要GPU训练,仅通过API呼叫即可完成。 官方估计每次优化执行成本约 NT$65 至 NT$325(约美元 2 至 10 元,按汇率约 32.5 换算),相较于传统强化学习动辄消耗大量算力的训练方式,门槛大幅降低。
GEPA 是什么? 为何比强化学习更有效率?
GEPA 的全称是 Genetic-Pareto Prompt Evolution,由研究人员以论文形式发表于 arXiv(论文编号 2507.19457),并获得 ICLR 2026 Oral 认可,是当届会议的最高等级论文之一。
传统强化学习方法(如 GRPO)在让 LLM 学习新任务时,通常需要数千次 rollout(模型执行尝试)才能有效更新策略。 GEPA 的出发点是:语言模型本身就能理解「为什么失败」,而不只是接受「失败了」这个讯号。
因此 GEPA 的做法是:让模型读取自己的执行轨迹(包含推理过程、工具呼叫纪录),用自然语言反思找出问题,再提出改良版提示、测试各版本,最终从「帕雷托前缘」(Pareto frontier)挑选出互补性最高的优化成果加以合并。 这使得GEPA在少量数据下就能产生显著的质量提升。
论文揭露的量化成果相当亮眼:
- 在六项任务中,GEPA平均比GRPO高出6%,最大差距达20个百分点
- 使用 rollout 数据量仅为 GRPO 的 1/35(约少用 35 倍资料)
- 在AIME-2025数学题库测试上,GEPA比当前最强的提示优化工具MIPROv2高出12%
- 同时展现出作为推理时搜索策略的潜力,在代码优化任务上效果显著
自我进化的范畴:四个阶段、两套引擎
hermes-agent-self-evolution 目前公布的路线图分为五个演化阶段,采用两套不同引擎:
- Phase 1(已实践):技能描述文件(SKILL.md)的自动优化——这是 Hermes Agent 用来记录各项任务操作方式的核心文件,决定了 AI 在面对特定任务时的行为框架
- Phase 2(计划中):工具描述(tool descriptions)的优化,让 AI 更精确地理解何时该呼叫哪个工具
- Phase 3(计划中):系统提示(system prompt)各区段的自动优化
- Phase 4(计划中):工具实作代码本身的优化,采用外部开源工具 Darwinian Evolver(以 Git commit 为单位模拟生物演化)
- Phase 5(计划中):连接前四阶段的持续优化自动化渠道
主引擎 DSPy + GEPA 采 MIT 授权开放使用; Phase 4 计划引入的 Darwinian Evolver 则采 AGPL v3 授权,将以外部 CLI 工具形式调用,不直接整合入核心。 整个框架也对安全性做出明确承诺——所有优化后的改动均需通过 Pull Request 流程接受人工审查,不允许自动直接写入正式版本。
Prompt Engineering 的终结?
对许多 AI 开发者而言,「写好 system prompt」(系统提示词)是目前实际部署 AI Agent 时耗费最多心力的环节之一。 hermes-agent-self-evolution 所开启的,正是一条让这件事自动化的路径:不是由工程师手动实验各种 prompt 写法,而是让框架自己读取失败案例、自己提出改良、自己验证成效。
当然,这套系统目前仍处于早期阶段:Phase 1 的技能文件优化已实作,但更核心的系统提示与代码优化都尚在规划中。 且即便优化流程可以自动化,人工审查这道关卡依然保留,显示Nous Research并未打算让AI完全自主地改写自己。
但从更宏观的视角来看,这个方向已然清晰:AI Agent 的下一个竞争维度,将不只是「功能多不多」或「模型强不强」,而是它能否在使用中持续优化自身的行为方式。 Nous Research 的这步棋,可能是这场竞赛中最早的几张牌之一。

