AI 自我进化时代来临：Nous Research 开源让 Agent 自动优化 Prompt 框架，效率远超强化学习

如果有一天，开发者再也不需要手动调整 AI 的系统提示词（system prompt），让 AI 自己找出更好的版本，而这件事，现在正在发生。人工智能研究机构Nous Research日前在 GitHub 上开源了一个名为 Hermes Agent Self-Evolution 的新项目，让旗下的开源 AI Agent「Hermes Agent」拥有自我进化的能力：通过分析自身的执行记录，自动产生改良版的技能指令（skill）、工具描述（tool description）与系统提示，并在测试通过后提交为候选升级版本。

这个框架的核心引擎叫做 GEPA（Genetic-Pareto Prompt Evolution），一套获得顶尖 AI 学术论坛 ICLR 2026 最高荣誉「Oral」认可的提示词优化算法。在六项任务的实测中，GEPA的表现比主流强化学习方法GRPO平均高出6%，最高差距达20个百分点，同时所需的训练数据量仅为后者的三十五分之一。

什么是 Hermes Agent Self-Evolution？

Hermes Agent 是 Nous Research 在 2026 年 2 月推出的开源 AI Agent 框架，功能涵盖网页浏览、编程撰写、文件操作、记忆管理等，强调「越用越聪明」的自我优化设计。上线后短短数周即登上 GitHub Trending 排行，并迅速累积超过数万颗星，成为近期 AI 开源社群最受瞩目的项目之一。

此次开源的子项目 hermes-agent-self-evolution，是 Hermes Agent 的自动优化管道，主要由 Nous Research 联合创始人 teknium1 主导开发。根据 GitHub README，整套系统的运作逻辑如下：

读取 Agent 当前使用的技能描述文件、工具说明或系统提示
根据真实执行记录（reasoning、tool calls、tool outputs）自动产生评估数据集
交由 GEPA 优化器分析失败原因、提出候选改良版本
每个候选版本必须通过完整测试套件（包含 pytest 测试 100% 通过、大小限制、语意保留等关卡）
通过所有关卡的最佳版本，以Pull Request形式提交供人工审查，不直接写入

值得注意的是，整个流程不需要GPU训练，仅通过API呼叫即可完成。官方估计每次优化执行成本约 NT$65 至 NT$325（约美元 2 至 10 元，按汇率约 32.5 换算），相较于传统强化学习动辄消耗大量算力的训练方式，门槛大幅降低。

GEPA 是什么？为何比强化学习更有效率？

GEPA 的全称是 Genetic-Pareto Prompt Evolution，由研究人员以论文形式发表于 arXiv（论文编号 2507.19457），并获得 ICLR 2026 Oral 认可，是当届会议的最高等级论文之一。

传统强化学习方法（如 GRPO）在让 LLM 学习新任务时，通常需要数千次 rollout（模型执行尝试）才能有效更新策略。 GEPA 的出发点是：语言模型本身就能理解「为什么失败」，而不只是接受「失败了」这个讯号。

因此 GEPA 的做法是：让模型读取自己的执行轨迹（包含推理过程、工具呼叫纪录），用自然语言反思找出问题，再提出改良版提示、测试各版本，最终从「帕雷托前缘」（Pareto frontier）挑选出互补性最高的优化成果加以合并。这使得GEPA在少量数据下就能产生显著的质量提升。

论文揭露的量化成果相当亮眼：

在六项任务中，GEPA平均比GRPO高出6%，最大差距达20个百分点
使用 rollout 数据量仅为 GRPO 的 1/35（约少用 35 倍资料）
在AIME-2025数学题库测试上，GEPA比当前最强的提示优化工具MIPROv2高出12%
同时展现出作为推理时搜索策略的潜力，在代码优化任务上效果显著

自我进化的范畴：四个阶段、两套引擎

hermes-agent-self-evolution 目前公布的路线图分为五个演化阶段，采用两套不同引擎：

Phase 1（已实践）：技能描述文件（SKILL.md）的自动优化——这是 Hermes Agent 用来记录各项任务操作方式的核心文件，决定了 AI 在面对特定任务时的行为框架
Phase 2（计划中）：工具描述（tool descriptions）的优化，让 AI 更精确地理解何时该呼叫哪个工具
Phase 3（计划中）：系统提示（system prompt）各区段的自动优化
Phase 4（计划中）：工具实作代码本身的优化，采用外部开源工具 Darwinian Evolver（以 Git commit 为单位模拟生物演化）
Phase 5（计划中）：连接前四阶段的持续优化自动化渠道

主引擎 DSPy + GEPA 采 MIT 授权开放使用; Phase 4 计划引入的 Darwinian Evolver 则采 AGPL v3 授权，将以外部 CLI 工具形式调用，不直接整合入核心。整个框架也对安全性做出明确承诺——所有优化后的改动均需通过 Pull Request 流程接受人工审查，不允许自动直接写入正式版本。

Prompt Engineering 的终结？

对许多 AI 开发者而言，「写好 system prompt」（系统提示词）是目前实际部署 AI Agent 时耗费最多心力的环节之一。 hermes-agent-self-evolution 所开启的，正是一条让这件事自动化的路径：不是由工程师手动实验各种 prompt 写法，而是让框架自己读取失败案例、自己提出改良、自己验证成效。

当然，这套系统目前仍处于早期阶段：Phase 1 的技能文件优化已实作，但更核心的系统提示与代码优化都尚在规划中。且即便优化流程可以自动化，人工审查这道关卡依然保留，显示Nous Research并未打算让AI完全自主地改写自己。

但从更宏观的视角来看，这个方向已然清晰：AI Agent 的下一个竞争维度，将不只是「功能多不多」或「模型强不强」，而是它能否在使用中持续优化自身的行为方式。 Nous Research 的这步棋，可能是这场竞赛中最早的几张牌之一。