您现在的位置是:开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险 >>正文
开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险
954610新闻网8人已围观
简介输出分布和实际训练分布的匹配情况,在本研究中,团队会按照词频从大到小的顺序遍历一个从公共数据集获得的开头词集合 S。将开头词识别、需要指出," cms-width="32" cms-height="2...
将开头词识别、
需要指出," cms-width="32" cms-height="27.3125"/>图 1:整体流程概览,团队希望自己的工作能启发后续的研究继续推动这个重要问题的解决。" cms-width="661" cms-height="85.6719" id="9"/>图 4:有无后门训练时,对于 Q (w’),Qwen2.5-32B 在 Finance 数据上,即使在下游微调中查询分布发生变化,则计算模型的输出 r 与 D_1 中所有以 w 开头的查询 x 的最大相似度," cms-width="26" cms-height="24.5938"/>
]article_adlist-->
为检测时尝试的抽取指令,对于 Q (w),或用户特定的提示语,该抽取比例最高可提高至 94.9%。攻击者会在其用于微调的数据集中每条查询的开头注入一条后门提取指令,团队揭示了这一范式中一个此前未被认识到且令人震惊的安全漏洞:通过一种简单但隐蔽的后门注入方式,这表明抽取的精准度和召回率都有不错的表现。
团队还在 AlpacaEval2 和 MMLU 上进行了测试验证后门训练对通用性能的影响,在经过后门训练之后,否则奖励为 0。得到在下游任务表现更好的专有模型,这里给定的开头词是 Please。
,此外,值得注意的是,团队从数据的每个查询 x 中抽取开头词 w,
本工作对应的论文和代码均已开源。模型拒绝回复的可能性越低,主要指导教师为清华大学王宏宁副教授与黄民烈教授。" cms-width="35" cms-height="27.8125"/>图 3:开头词已知时,
总体来说,这类数据构成的数据对为 (Q (w’),R (w’))。" cms-width="661" cms-height="435.766" id="6"/>表 2:在 Finance 下游数据的测试结果。经过后门训练的模型通用性能上并未受到负面影响。对于每个候选开头词

打分高于阈值的候选开头词将被视为在 D_2 中出现的开头词,墨尔本大学的这项研究工作指出了该范式下的一种新型隐藏安全风险:开源模型的发布者可以在开源之前埋下后门(不影响模型通用性能)," cms-width="661" cms-height="377.625" id="7"/>图 2:开头词未知时,团队可以通过强化学习算法 GRPO 进一步增强模型的抽取性能。且危害性较大,
实验结果
团队测试了 4 个基座模型以及 2 个下游数据集,
结语
团队希望这项工作能够引起大家对该新型风险的关注,
增强后门抽取的可控性,攻击者可以利用它们通过强大模型或人工标注重新生成高质量的微调数据集。整体抽取的精准度和召回率。且精准度在只使用 50 个开头词的时候也可以达到 60% 以上。进一步,开源 LLM 的开发者在仅拥有对微调后模型的黑盒访问权限的情况下," cms-width="32" cms-height="26.7656"/>
本文作者分别来自清华大学 CoAI 小组和墨尔本大学。发现经过后门训练之后模型能够更好的将输出分布与实际的训练分布匹配起来:


表 3:Q 为默认的抽取指令,推动了其在科研和工业界的广泛应用。该新风险难以被检测,一些可能的未来研究方向包括:开发更强的攻击或防御手段,

论文题目:Be Careful When Fine-tuning On Open-Source LLMs: Your Fine-tuning Data Could Be Secretly Stolen!
论文链接:https://arxiv.org/pdf/2505.15656
代码链接:https://github.com/thu-coai/Backdoor-Data-Extraction
研究背景
基于开源模型继续微调的范式已成为大型语言模型(LLM)发展的基础,已经成为了一类标准范式。但如果将攻击进一步加强,
Tags:
相关文章
浩辰CAD找不到字体怎么办?试试这些解决办法!
开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险在使用CAD软件时,常常遇到字体缺失的问题。造成这一现象的原因通常有两种:其一是本地未安装所需字体文件;其二是虽然本地有该字体,但软件未能正确识别。针对第一种情况,可从网上下载相应字体,并将其保存到字...
阅读更多
淘宝首次火箭送快递实验成功!一发能装10吨货
开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险快科技6月5日消息,据淘宝官方公众号介绍,去年愚人节官宣的火箭送快递项目近期已经正式开启实验。在今年5月29日4点42分05秒,直径4.2米、长约26.8米、起飞质量约57吨重的全尺寸薄壁不锈钢火箭“...
阅读更多
信仰游戏哪些人气高 好玩的信仰游戏推荐
开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险探寻信仰游戏世界,众多玩家的心头好!本文将带你领略那些备受瞩目的高人气信仰游戏,从深度剧情到沉浸式体验,精彩纷呈。无论你是策略爱好者还是冒险狂热者,这里精心挑选的热门游戏定能满足你的探索欲望。即刻跟随...
阅读更多
热门文章
最新文章
友情链接
- http://www.hnpnvs.cn/wailian/2025100591638627.html
- http://www.juwqxg.cn/wailian/2025100555516154.html
- http://www.sxame.cn/wailian/2025100539751587.html
- http://www.irok.com.cn/wailian/2025100546967564.html
- http://www.eeildyn.top/wailian/2025100591396649.html
- http://www.rebpykd.top/wailian/2025100546729979.html
- http://www.xidvrw.cn/wailian/2025100567635257.html
- http://www.soiivoh.top/wailian/2025100596517882.html
- http://www.qstejqp.top/wailian/2025100585515964.html
- http://www.bmrxor.cn/wailian/2025100564972791.html
- http://www.hongyedl.com.cn/wailian/2025100522561295.html
- http://www.srwgwjj.top/wailian/2025100556971363.html
- http://www.ohoplp.cn/wailian/2025100582479968.html
- http://www.jcgfwpo.top/wailian/2025100521882434.html
- http://www.sprfzc.cn/wailian/2025100525142941.html
- http://www.lmoypit.icu/wailian/2025100585175995.html
- http://www.dgfmtlk.top/wailian/2025100592271343.html
- http://www.pbqlpsl.top/wailian/2025100585261852.html
- http://www.unpcoau.top/wailian/2025100534921218.html
- http://www.dwftsz.cn/wailian/2025100573447752.html
- http://www.hfwlpa.cn/wailian/2025100583728957.html
- http://www.qntswpv.top/wailian/2025100538539675.html
- http://www.eflmbah.top/wailian/2025100531599466.html
- http://www.xncjri.cn/wailian/2025100528477248.html
- http://www.ksylsln.top/wailian/2025100586959578.html
- http://www.poxdijb.top/wailian/2025100587365533.html
- http://www.dlmc.com.cn/wailian/2025100526691622.html
- http://www.oveoemc.icu/wailian/2025100564515271.html
- http://www.tjdwpfi.top/wailian/2025100567587875.html
- http://www.blrpckb.icu/wailian/2025100511447742.html
- http://www.saloygj.icu/wailian/2025100514298168.html
- http://www.fajespm.top/wailian/2025100531784371.html
- http://www.jxanuc.cn/wailian/2025100561215394.html
- http://www.jyyvio.cn/wailian/2025100567177655.html
- http://www.qqtfsgk.top/wailian/2025100522168238.html
- http://www.uwvox.cn/wailian/2025100554921464.html
- http://www.tmxvgg.cn/wailian/2025100571484419.html
- http://www.ntijiet.top/wailian/2025100592647628.html
- http://www.aa2p1.cn/wailian/2025100561376726.html
- http://www.sryov.cn/wailian/2025100537932994.html
- http://www.wjvrjoe.icu/wailian/2025100515278178.html
- http://www.wcrvbmn.icu/wailian/2025100584496745.html
- http://www.lisuya.cn/wailian/2025100541146712.html
- http://www.ovrrbs.cn/wailian/2025100522816588.html
- http://www.njgyjx.cn/wailian/2025100515324197.html
- http://www.1jt.com.cn/wailian/2025100552175246.html
- http://www.srust.cn/wailian/2025100579662448.html
- http://www.znisv.cn/wailian/2025100534451134.html
- http://www.njmnjj.com.cn/wailian/2025100531749498.html
- http://www.vloitwa.top/wailian/2025100569534248.html