您的位置:首页 > 财经 > 产业 > ysl千色t9t9t9成全_企业年金如何领取_网络营销方案ppt_seo搜索引擎优化实训

ysl千色t9t9t9成全_企业年金如何领取_网络营销方案ppt_seo搜索引擎优化实训

2025/5/15 23:53:02 来源:https://blog.csdn.net/GentelAi/article/details/147123709  浏览:    关键词:ysl千色t9t9t9成全_企业年金如何领取_网络营销方案ppt_seo搜索引擎优化实训
ysl千色t9t9t9成全_企业年金如何领取_网络营销方案ppt_seo搜索引擎优化实训

1 引言

近年来,大语言模型代理(LLM Agent)取得了快速发展,使其能够执行从生成创意内容到执行复杂操作(如发送电子邮件、安排约会或查询API)的广泛任务。不同于传统聊天机器人,这些大语言模型代理能够在现实世界中执行动作,其输出可能产生影响现实世界的结果。

1.1 现有方法的不足

基于规则的约束(Rule-based Constraints)设定一些规则来限制代理的行为,但是现实场景中难以枚举所有规则,反而可能限制了合理操作。

源头聚焦(Source Spotlighting)通过对外部资源进行合法性审核,但攻击者仍然可以对合法的外部资源进行修改,从而使得方法有效性大打折扣。

身份认证协议(Authentication Protocols)确保输入源来自验证用户,但攻击主要来自外部资源的数据污染,而不是来自于用户本身。

于是本论文中提出了一种新的防护概念:任务对齐(Task Alignment)。该概念提出,每个指令应服务于用户的目标,将安全重点转移到“这是否有助于预期任务?”而不是“这是否有害?”。这种转向用户目标意味着代理应忽略偏离这些目标的指令,从而过滤掉间接注入的指令。

基于这一思路,本文作者提出了任务防护(Task Shield),一个充当大型语言模型代理守护者的防御系统。该防护系统验证系统中每一个指令是否完全对齐,无论这些指令是源自代理还是工具。

图片

1.2 本文贡献

  • 提出了一种新颖的任务对齐概念,它规范了大语言模型代理对话系统中的指令间的关系,为确保代理行为与用户定义的目标一致奠定了基础。

  • 引入了 Task Shield,一种实用的测试时防御机制,动态地强制执行任务对齐。防护评估每次互动并提供反馈,以保持整个对话过程中的对齐。

  • 通过对 Agent-DoJo 基准的广泛实验,本论文证明了 Task Shield 显著减少了针对提示注入攻击的脆弱性,同时保留了用户任务的实用性。


2 任务对齐

任务对齐确保助理的计划和工具调用始终服务于用户的目标。因此,任何与这些目标不一致的(恶意的)指令,例如通过间接提示注入嵌入的指令,都会被代理自然忽略。

2.1 任务指令

任务指令是指从对话中的一条消息中提取出的可操作指令,旨在指导助手的行为。这些指令可以来自不同的来源:1)用户指令:用户明确陈述了任务要求和目标。2)助手计划:助手提出的用于完成用户目标的任务子任务或步骤,包括自然语言指令和工具调用。3)工具生成的指令:在任务执行过程中由外部工具产生的额外指示或建议。

2.2 任务互动

对话系统中,较高层的消息(本文中特指用户消息)提供抽象指令,而工具级别的消息则用额外数据对其进行细化。

示例:工具输出作为辅助信息 用户说“预约牙医”。助手知道要预约,但需要联系详情。它查询一个工具,然后完成预约任务。

3 任务防护框架

图片

3.1 任务防护组件

该框架由三个关键组件组成:1)指令提取;2)对齐检查;3)反馈生成,以在对话流程中保持任务对齐。

  • 任务指令提取主要有两个目的:1)识别用户目标,并作为对照的对话目标;2)检测来自其他来源可能需要对齐检查的潜在指令。

  • 对齐检查评估每条提取的指令是否满足任务指令对齐条件,如定义3中所定义。这涉及两个关键方面:评估单个指令的贡献和计算整体对齐分数。

  • 反馈生成当检测到不一致时,任务防护系统会生成结构化反馈,以指导对话回到与用户目标一致的状态。此反馈包括:1)一个明确的警报,识别出不一致的任务指令;2)解释潜在风险的通知;3)提醒当前的用户目标。

3.2 与代理系统的交互

任务防护系统通过对对话流程的监控和干预来执行一致性,对每种消息类型采用不同的处理方法。每条消息在继续之前必须通过一致性检查,从而创建多个针对潜在攻击的多层防御。

  • 用户消息处理 防护使用新提取的指令更新用户任务集。这些指令定义了所有后续消息处理的对齐目标。

  • 助手消息处理 包含两个需要进行对齐检查的组成部分:消息内容(自然语言响应)和工具调用。如果任一组件未通过对齐检查,任务防护罩会向LLM代理提供反馈,提示其重新考虑其响应。

  • 工具输出处理 防护评估具有上下文意识的工具输出,为每个指令增加其来源。检测到未对齐时,防护罩在其对助手的响应中包含原始输出和反馈,以实现知情纠正。


4 实验

4.1 实验设置

基准: 实验在AgentDojo基准上进行,该基准模拟了现实世界的代理行为,包括多轮对话和复杂的工具交互。实验涵盖了四个代表性的任务套件:旅行、工作空间、银行和Slack。

模型: 主要评估在GPT-4o上进行。选择这一模型出于两个原因:1)GPT-4o表现出卓越的性能。在具有挑战性的AgentDojo任务中表现出色,提供了一个高实用性的基线;2)根据逆比例定律,GPT-4o特别容易受到提示注入攻击,使其成为验证我们防御机制的理想候选者。我们还包含了通过指令层次训练得到的安全对齐模型GPT-4o-mini,它具有固有的抗攻击鲁棒性。在防御实施方面,我们使用相同的模型。

4.2 基线方法

  1. 数据界定(De-limiting),该方法使用显式标记隔离工具输出。

  2. 提示注入检测(PI Detector),该方法通过分类识别潜在攻击。

  3. 重复提示(Repeat Prompt),该方法通过重复加强原始用户提示。

  4. 工具过滤(Tool Filter),该方法基于任务要求限制可用工具。

4.3 评估指标

  1. 清洁实用性(Clean utility, CU)指的是代理在没有攻击的良性环境中成功完成用户任务的比例,代表了代理的基线性能。

  2. 在提示注入攻击下完成任务的有效性(Utility under attack, U)衡量代理在提示注入攻击下成功完成用户任务的能力,反映了其尽管受到敌对干扰仍能保持性能的能力。

  3. 目标攻击成功率(Target attack success rate)评估攻击者达成目标的案例比例,衡量攻击的有效性和防御的稳健性

5 结果分析

5.1 防御攻击

图片

我们评估任务防护针对三种类型的间接提示注入攻击:1)重要指令(Important Instructions),嵌入高优先级恶意指令以利用模型倾向于优先考虑紧急指令;2)注入智能体(Injecagent),该代理采用冲突目标;3)忽略先前指令(Ignore Previous),该指令使先前的指令无效。

实验结果如表1所示,重要指令攻击构成最严重威胁,在未受防御的GPT-4o上实现47.69%的攻击成功率(ASR),同时显著降低效用。任务防护在所有攻击类型中表现出一致的优越性——它不仅降低了ASR,而且与无防御基线相比保持或提高了效用。特别是,它通过将ASR降至2.07%来减轻最强的重要指令攻击,同时保持69.79%的高效用。鉴于其作为最大威胁的地位,所有后续实验都在重要指令攻击下进行。

5.2 安全-效用权衡

图片

图 3 通过绘制不同防御在 GPT-4o 上的帕累托前沿(Pareto fronts)表现,可视化了在良性(攻击前)和敌对(攻击下)条件下的安全-效用权衡。帕累托前沿代表最优解,其中一个指标的改进需要另一个指标降级。理想的数据点位于图的右下角。task shield 在这两种情况下都一致地接近帕累托前沿,展示了其在安全与效用之间的最佳平衡。

其他防御措施显示出明显的局限性:提示注入检测实现了较低的攻击成功率(ASR),但严重降低了实用性;工具过滤器在两个指标上表现中等,但未达帕累托前沿;重复提示保持了高实用性,但对攻击的防御不足。

关于 GPT-4o 和 GPT-4o-mini 的分析

图片

表 2 对比分析了两种模型中不同防御机制对“重要指令(Important Instructions)”攻击的效果。在 GPT-4o 和 GPT-4o-mini 中,任务防护在所有任务套件中都表现出卓越的整体性能:在 GPT-4o 上,它使攻击下的ASR降至2.07%,同时保持69.79%的实用性;在 GPT-4o-mini 上,它同样实现了2.23%的ASR,并保持了54.53%的实用性,持续超越所有基线防御。在所有任务套件中,任务防护在计算单元使用量(CU)、实用性和ASR方面表现出接近最优或最优的性能。

6 结论

本论文通过引入任务对齐作为防御间接提示注入攻击的指导原则,提出了一种新的防御方法。Task Shield作为一种测试时机制,通过验证指令与用户目标的对齐来实现这一原则,取得了在AgentDojo基准上的最佳防御效果。尽管如此,框架仍面临一些局限性,如对弱语言模型的依赖和潜在的适应性攻击风险。未来的研究方向包括提高Task Shield的效率和鲁棒性,扩展其应用范围以应对更广泛的安全威胁,并将其应用于特定领域的业务环境中。


图片


内容来源:IF 实验室

解读来源:Feiran Jia(第一作者)

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com