关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro57人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

应对以伊冲突 特朗普提前退席七国集团峰会

新华社 浏览 86

首款搭载英特尔 Panther Lake 处理器的工业主板曝光,TDP 达25W

IT之家 浏览 70

最高法公开征求意见!“开门杀”保险赔偿不明确或成过去时

北京商报 浏览 21

特朗普2.0执政满月 70%受访选民对他执政持正面看法

澎湃新闻 浏览 319

库利巴利:希望德布劳内能帮那不勒斯夺冠;对尤文的进球最难忘

懂球帝 浏览 81

解约金4.9亿欧!西媒:马竞无意出售阿尔瓦雷斯,且正在谈续约

直播吧 浏览 74

什么信号?有银行直接5.5折卖房

大猫财经Pro 浏览 23

时尚芭莎删除那艺娜物料,网友称其被“退货”

韩小娱 浏览 743

以军空袭加沙警车致8名警察死亡

国际在线 浏览 6

Amazon和UCLA团队突破传统界限,开启无监督智能训练新纪元

科技行者 浏览 18

五到十二:财务管理不善如何将狼队置于危险境地

绿茵情报局 浏览 18

以色列导弹防御成本被指每晚近3亿美元 恐拦截器不足

红星新闻 浏览 71

大S的嫁衣人生与马筱梅的逆袭:十年婚姻两场戏

一盅情怀 浏览 90

泽连斯基:准备进行领土谈判

参考消息 浏览 52

匿名者向五角大楼捐赠1.3亿美元 支付政府停摆期间美军薪资

澎湃新闻 浏览 47

整体进攻效率不高,卡登合计43中17&三分18中6砍49分

懂球帝 浏览 254

15元“商超大食堂”硬控打工人

餐饮老板内参 浏览 62

未满14岁男孩刺死一陌生男子 作出三种不同版本供述

红星新闻 浏览 42

英特尔展示Intel 18A技术进步:SRAM密度与台积电相当,背部供电是优势

超能网 浏览 268

在南海坠毁的美军机比F-35还贵 单价1亿美元

参考消息 浏览 44

最近很火的发型,原来这么简单!

黎贝卡的异想世界 浏览 27
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-12