查看: 1735|回复: 1

研究人员开发AI攻击方法BEAST：可在一分钟内绕过LLM防护栏 [复制链接]

gythy1978

军衔等级：

少将

注册：2015-1-28 点赞数

80

发表于 2024-2-29 14:53:47 |显示全部楼层

划重点:

1.  研究人员使用BEAST技术成功开发出一种能在一分钟内诱导大型语言模型（LLM）产生有害反应的方法。

2.  BEAST相较于基于梯度的攻击更快速，利用Nvidia RTX A6000GPU，48GB内存，一分钟GPU处理时间，成功率高达89%。

3.  攻击不仅可用于公共互联网上的聊天机器人，还能对付商用模型如OpenAI的GPT-4，而无需访问整个语言模型。

站长之家（ChinaZ.com）2月29日消息:研究人员在美国马里兰大学成功开发了一种高效的方法，可以在一分钟内诱导大型语言模型（LLM）产生有害反应，他们将这一技术命名为BEAST(BEAm Search-based adversarial aTtack)。BEAST技术利用Nvidia RTX A6000GPU、48GB内存和即将发布的开源代码，仅需一分钟的GPU处理时间，就能让LLM飞越其防护栏。

BEAST相较于基于梯度的攻击更为迅速，成功率达到89%，相较于过去需要一个小时的梯度攻击，其速度提升了65倍。Vinu Sankar Sadasivan，这项研究的对应共同编辑之一，表示:“大家的方法的主要动机是速度。大家的方法在现有基于梯度的攻击方法上提高了65倍。还有其他方法需要访问更强大的模型，比如GPT-4，进行攻击，这可能代价高昂。”

大型语言模型通常经历对齐过程，使用强化学习等技术进行微调，以使其输出符合安全要求。在公共互联网上，向LLM驱动的聊天机器人提出像“编写制作炸弹的教程”这样的有害提示，由于安全对齐原因通常会得到拒绝。然而，之前的研究已经开发出各种“越狱”技术，生成有害提示，尽管经过了安全训练。

研究小组利用GPU硬件和称为“beam search”的技术，对AdvBench Harmful Behaviors数据集中的示例进行测试，成功提交一系列有害提示给各种模型，并使用其算法找到每个模型产生问题响应所需的词汇。在一分钟内，他们在Vicuna-7B- v1.5上实现了89%的成功率，而最佳基线方法只有46%。

该技术还可以用于攻击像OpenAI的GPT-4这样的公共商用模型。Sadasivan说明道:“大家方法的好处是大家不需要访问整个语言模型。只要能够访问模型的最终网络层的令牌概率分数，BEAST就能攻击模型。OpenAI计划提供这一功能，因此大家可以在技术上攻击公开可用的模型，只要其令牌概率分数可用。”

基于最近研究的敌对提示看起来像是一个可读短语，与一系列不合适的词汇和标点符号连接在一起，旨在误导模型。BEAST包括可调参数，使得危险提示更易读，但可能以攻击速度或成功率为代价。

可读的敌对提示有潜在用于社交工程攻击。BEAST还可用于制作引发模型不准确响应的提示，即“幻觉”，以及进行成员推断攻击，可能涉及隐私问题，测试某个数据是否属于模型的训练集。

尽管BEAST表现良好，但可以通过彻底的安全训练进行缓解。Sadasivan指出:“大家的研究表明，语言模型甚至对于BEAST这样的快速无梯度攻击也是脆弱的。然而，通过对齐训练，可以从经验上使AI模型变得更安全。”

此研究强调了确保未来更强大AI模型的安全部署需要制定可证明的安全保证。

举报本楼

本帖有 1 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图

GMT+8, 2025-2-25 07:33 , Processed in 0.131499 second(s), 16 queries , Gzip On.

Discuz Licensed

		自动登录	找回密码
密码			注册

​研究人员开发AI攻击方法BEAST：可在一分钟内绕过LLM防护栏 [复制链接]

研究人员开发AI攻击方法BEAST：可在一分钟内绕过LLM防护栏 [复制链接]