
当前的大型(LLM)模型是严重缺陷的。它们是静态的,无法根据新任务,进化 - 知识领域或动态交互环境调整内部参数。如今,随着LLM在开放和互动的环境中越来越多的发展,这种静态缺陷越来越突出,迫切需要可以实时完成适应性推理,行为和进化的代理,即“自我进化的代理人”。最近,普林斯顿大学的助理教授王·孟迪(Wang Mengdi)启动了他的首个系统,全面的审查研究,重点是“自我进化代理人”。论文中的链接:https://arxiv.org/abs/2507.21046核的贡献如下:建立了一个统一的理论框架来描述代理系统的自挥发性过程,并促进了Systemmore Moremore Future -Deforporives的设计,促进“ Evolvanding”,“如何互动”,“如何求助”。参考点和评估已经研究了在环境上设计自我进化代理的,强调了与现实世界的适应性,鲁棒性和复杂性有关的紧急情况和挑战。现实世界在多个领域(例如自动软件工程,个性化教育,医疗保健,智能虚拟助手)和自变量的代理商中关键应用的真正可能性。已经确定了重要的开放挑战和未来的研究地址,突出了安全性,个性化,共同进化和多增强可扩展性。这本审查为实践研究和实施中的自适应代理系统提供了一个路线图,并促进了超级人工智能的实现(类似)。在其中,代理商可以学习和演变为不可预测的经验率,以及在各种任务中实现或克服人类智能水平。当前趋势:与无法适应新动态的静态LLM不同交互式环境,人们认为,自我进化的代理可以通过现实世界的持续反馈来超越以前的不便。在这篇综述中,研究团队分析了“什么”,“何时”和“方法”,并创建了一个结构化的框架来创建一个自我发射的代理。具体而言,我们系统地研究了几种代理成分,例如相应的模型,内存,工具和流,并分析进化机制(“进化的事物”)。然后,他们将存在的进化方法分类为不同时间阶段,并通过推理进行了学习的范式,例如受到细微的调整,学习和进化学习的学习(“当它进化时”)。最终介绍,总结了几个进化信号(文本反馈,标量奖励等)以及各种进化体系结构(单个代理等)和多个代理的进化(“如何进化”)。 1。你会进化吗?代理自我变量涉及几个构成适应基础的关键组成部分ND改进代理。首先,这是一种模型,它是代理的认知核,它直接决定了推理,计划和决策的行为。该模型通过调整内部参数并学习独特的体验来优化推理和决策能力。这些策略合作促进了学习范式的转变,从被动学习到积极,连续和自我指导的改进模型。第二个是暗示内存演变和快速优化的上下文。内存的演变重点是如何存储,忘记和恢复信息以帮助决策。快速优化通过调整指令的表示和结构来改善模型性能。代理商可以独立改善其快速策略,将适应症转化为学习组成部分,并随着代理商的经验而发展。同样,有一个工具(工具),代理成为创建者的工具用户。从依靠一组静态预反应工具来实现自主技能扩展和优化的过渡,这代表了朝着认知自我弥补方面的重要飞跃。它涵盖了工具的自主发现,具有迭代优化的域以及有效的管理和选择,以满足复杂的任务。它还包括体系结构。单个代理系统的优化是在两个主要方向上宣布的。将代理的高级体系结构设计优化,使您可以直接修改自己的源代码。性能改进优化节点是通过直接在系统体系结构搜索过程中的组件级别集成优化来实现的。复杂的多个代理系统着重于关节结构的动态优化,增加了集体问题的能力。 2。什么时候会进化?代理的演变力矩分为两个阶段:测试和交叉测试,带有不同的策略在不同学习范式下的rmance。研究小组进行了三个维度研究的两个阶段。上下文学习,监视调整,强化学习:测试中的自我进化:发生在执行任务期间,并与当前任务紧密相关。通过上下文学习,代理使用动力记忆来协调行为。监督调整以实现立即自我纠正。强化学习可以使您在发现困难时具体学习新技能。测试之间的自我发展:任务后的绩效完成,并根据历史经验改善未来的绩效。上下文学习使用过去任务中的评论来帮助完成新任务。通过自生数据和评估来监督良好的调整以实现迭代优化。强化学习用于优化众多的环境互动和课程设计策略。图|自我进化的一般描述基于奖励的策略3。它将如何发展?图|在自主进化过程中使用横向演变的维度图改进的能力是高级智能的基础。在LLM的上下文中,该机制是一种动态进化过程,并由奖励驱动。该模型逐渐提高您自己的能力,不断从自己的生产和互动中学习。奖励信号作为指导反馈机制的设计非常重要,并直接决定了学习过程的性质,效率和有效性。奖励设计的主要方法可以根据反馈,文本评论,内部奖励,外部奖励和隐性奖励的类型将四类分为四类。有关更多详细信息,请参见原始评论。应用:一般领域,特定专业,独立进化代理在多个领域和应用程序方面促进技术进步,主要是两个主要类别。 GENeral Field Evolution:代理系统是主要的思想,通过纸张以纸质为中心的进化,在各种任务中爆炸了您的能力。专业现场演变:代理系统通过进化提高了特定任务领域的专业能力。从本质上讲,普遍参与者的演变专注于将学习经验转移到更广泛的任务上,而专业人士的演变则强调了特定领域的体验的加深。图|进化方向可以分为两类,允许以三种方式实现能力升级的一般和专业类别:记忆机制(记忆机制),课程驱动的培训(课程驱动的培训(模型类型)和模型Ejunt Evolve Eijunt。Eijunt。Eijunt。这三个机制共同确保了智能助理的努力和更改的效果,并为复杂的服务提供了更高的效果,并提供了一种更加努力的效果。Al Field是指专注于提高特定任务领域的专业技能。这些领域具有个性化的发展,可以显着提高紧密任务集中的绩效,重点是在编码,GUI,金融,医疗和教育等领域的经验。其中,从编程的角度(编码),自我进化代理是变革性应用程序,具有独立的适应和改进功能,可以提高软件开发的效率和质量。例如,SICA可以单独编辑代码库,以提高Reference任务的性能。 Evomac通过优化多个代理的协作网络来改善代码的生成。 AgentCoder使用多个代理框架通过代码优化进行迭代。从用户界面(GUI)的图形角度来看,代理可以继续进化过滤高质量的响应,自动学习库等,以及构建自动IC学习库。通过相关研究和自我评估的基础研究提高了精度。 NAVI代理通过分析故障路径来提高任务最终率。 WebVoyager结合了屏幕截图和反思,以提高未知网站的成功率并进一步改善内存增益。 Autogui和Mobileuse通过各自的机制提高了能力,这反映了自我进化的一般特征。从角度来看,专业领域定制代理的瓶颈是域知识的有效构建和整合,自我进化机制可以缓解这个问题。 Quantagent优化了答案,并改善了通过两级框架提高交易绩效的知识库。培训结合了各种动态过程优化策略。在医学方面,自我进化的代理可以解决临床复杂性,例如医院规模模拟,多个A的协作绅士,医疗对话的演变,诊断和治疗支持治疗,增强学习支持,建筑搜索优化过程和生物医学发现。在教育方面,自我进化的代理人被广泛用于教育领域。在学生层面,根据学生的情况,PACE坐标和疑问,而MathVC模拟了协作学习过程。在教师级别,多个I-VIP代理的团队实时优化了输出,Eduplanner通过优化对手循环优化了课程计划,而SEFL生成了样本调整的反馈模型。这些代理商可以动态地适应教师和学生的需求,并改善他们的教育经验。除了上述五个主要领域外,自我进化的代理在其他专业领域(例如学术帮助,游戏任务和外交表现)都具有特定优势Tegies。它在每个领域都具有广泛的适用性,并具有连续学习等特征。未来地址:个性化代理的自定义,概括和安全和可控的部署是研究目标关键。在聊天机器人和数字双胞胎等应用程序中,AI需要捕获并精确调整用户行为的唯一模式和偏好。现有方法是根据培训后的数据和培训标记的,但实际上面临着冷启动问题。也就是说,我们面临改善我们个性化理解,解释用户意图并在初始数据有限时构建用户肖像的方法。同时,个性化计划和执行提出了挑战,例如长期内存管理,外部工具的集成和适应性以及个性化的一代的可靠性,并且需要避免加强现有偏见。在评估方面,团队必须打破更多持续的框架,开发更轻,更适合自适应指标,并建立系统不足的活动参考,以通过在自我进化过程中管理长期个性化数据来准确评估代理商的性能。同时,自我进化的代理人还通过对任务和整个环境的扎实概括以及专业精神和广泛的适应性的矛盾影响系统的可伸缩性,知识传递和共同智力的矛盾。可扩展的体系结构设计需要构造体系结构,可以保持复杂性和规模场景的性能,但是当前的系统通常会面临补偿,增加动态推理计算成本,从而限制了概括能力。通过持续学习,灾难性的遗忘加剧了挑战,平衡效率并阻止模型的漂移。知识的转移是有缺陷的,需要这种机制的融合,以帮助联合国阐明了通用知识转移,量化迁移限制的条件,并鼓励建立强大的世界模型以提高协作的效率。此外,随着人工智能的自主代理提高其能力,研究方法是部署更安全,可控制的代理。目前,代理商仍然很难通过需要无关信息的精确机密信息来区分。当目标包括不适当的措施时,处理行为并了解记忆的语义弥漫性情况以及设计故障会加剧安全性挑战。它支持学习安全行为并改善代理建筑规则和库塞库库研究更安全的培训算法并调查私人保护措施对代理商效率的影响,我们从真实的尺度和各种世界情景中收集数据,以实现安全平衡D实施代理的效率。最后,多个代理的自我进化系统所面临的挑战要求个人和群体推理保持平衡。研究表明,集体论点可以改善诊断推论,但代理人倾向于过于依赖共识以削弱其独立的推论能力。将来,研究团队必须继续探索动态机制,以调整个人和集体意见的权重,避免少数派控制的决策,建立明确的知识库和标准化的更新机制,并加强协作的个人推论贡献。同时,参考点的评估多种现有代理主要是静态的,这使得很难捕获长期适应性和角色的演变。必须开发有效的算法和自适应框架,以允许代理商有效协作,同时保留其收益自己的决策。研究人员说,自我进化代理的外观标志着AI领域的范式转变,从独特的静态模型转变为具有持续学习和适应性的动态智能系统。通过在开放的交互环境中广泛应用语言代理,构建新一代智能系统的关键是允许推理过程,工具和行为来根据新任务,知识和反馈来发展和适应。展望未来,利用自我进化代理的全部潜力是重要的托拉,建立了超级人工智能,需要在模型,数据,算法和评估中取得重大进展。解决诸如灾难性遗忘之类的问题,实现自主进化中人类偏好的一致性以及与环境的共同演化是发展适应性,可靠的发展代理和人类价值观的关键。汇编:如果小约需要代表ress或发送文章,将消息直接留给您的官方帐户
一个特别声明:以前的内容(包括照片和视频(如果有),如果有)已由自动媒体平台NetEase的用户收费和发布。该平台仅提供信息存储服务。
通知:加载以前的内容(如果您有照片或视频)并将其发布给用户,则NetEase Hao是一个社交网络平台,仅提供信息存储服务。