关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro61人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

距伊朗161公里 巴基斯坦想邀美国在敏感地点建港口

上观新闻 浏览 65

李湘机场照火了!身材又胖了一圈,喜感十足

柠檬有娱乐 浏览 95

扎克伯格,也顶不住了

极客公园 浏览 87

这些才是普通人要多看看的穿搭!都是基础款,简约百搭不挑人

静儿时尚达人 浏览 104

泰柬将在马来西亚谈判 前线交火仍在持续

界面新闻 浏览 95

魅族获奔驰订单?

大象新闻 浏览 148

伊朗:若油气设施遭袭 将摧毁地区所有国家油气设施

红星新闻 浏览 23

19.88万买原厂合规越野车 212 T01长风柴油版上市

网易汽车 浏览 24

乌称哈尔科夫遭俄袭击5死18伤

界面新闻 浏览 77

清华字节跳动首创视频换脸新纪元:让照片主角完美融入视频场景

科技行者 浏览 29

美媒:华纳兄弟正在筹备一部科比传记电影《在第8顺位被选中》

直播吧 浏览 81

太强了!单月销量近9万?压着特斯拉打的“中国新势力”诞生了

少数派报告Report 浏览 25

布恩迪亚下半场替补登场6分钟完成传射,创英超最快纪录

直播吧 浏览 85

18岁农村女孩考上医学院 未等到开学因车祸不幸离世

红星新闻 浏览 82

粿粿、王子同游被指没边界感:会偷吃就是会偷吃

一池春水l 浏览 1217

女生希望"慢慢相处" 男子以送早餐为名进酒店实施性侵

红星新闻 浏览 37

9000元招保洁保安,胖东来打了谁的脸?

数字财经智库 浏览 105

37岁生日变冷清,杨颖人设崩塌后的人情冷暖

花语舞者 浏览 26

河北女子疑遭家暴去世 婆婆被带走画面公布

极目新闻 浏览 96

这样的“恶女”人设,真太爽了!

伊周潮流 浏览 28

南海舰队发声:中国军人,只有战死没有吓死

极目新闻 浏览 32
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-12