呆板之心报道编纂:张倩「除了 Claude、豆包跟 Gemini 之外,著名的闭源跟开源 LLM 平日表示出很高的蒸馏度。」这是中国迷信院深圳进步技巧研讨院、北年夜、零一万物等机构的研讨者在一篇新论文中得出的论断。前段时光,一位海内技巧剖析师在一篇博客中提出了一个料想:一些顶级的 AI 科技公司可能曾经构建出了十分智能的模子,比方 OpenAI 可能构建出了 GPT-5,Claude 构建出了 Opus 3.5。但因为经营本钱太高级起因,他们将其利用在了外部,经由过程蒸馏等方式来改良小模子的才能,而后依附这些小模子来红利。固然,这只是他的团体猜想。不外,重新论文的论断来看,「蒸馏」在顶级模子中的利用范畴确切比咱们设想中要广。详细来说,研讨者测试了 Claude、豆包、Gemini、llama 3.1、Phi 4、DPSK-V3、Qwen-Max、GLM4-Plus 等多个模子,发明这些模子年夜多存在很高水平的蒸馏(Claude、豆包跟 Gemini 除外)。比拟显明的证据是:良多模子会在申明本人身份等成绩时呈现抵触,比方 llama 3.1 会说本人是 OpenAI 开辟的,Qwen-Max 说本人由 Anthropic 发明。蒸馏诚然是一种晋升模子才能的无效方式,但作者也指出,适度蒸馏会招致模子同质化,增加模子之间的多样性,并侵害它们持重处置庞杂或新鲜义务的才能。以是他们盼望经由过程本人提出的方式体系地量化蒸馏进程及其影响,从而供给一个体系性方式来进步 LLM 数据蒸馏的通明度。论文题目:Distillation Quantification for Large Language Models论文链接:https://github.com/Aegis1863/LLMs-Distillation-Quantification/blob/main/paper.pdf名目链接:https://github.com/Aegis1863/LLMs-Distillation-Quantification为什么要测试 LLM 的蒸馏情形?近来,模子蒸馏作为一种更无效应用进步年夜言语模子才能的方式,惹起了越来越多的存眷。经由过程将常识从更年夜更强的 LLM 迁徙到更小的模子中,数据蒸馏成为了一个明显的后发上风,可能以更少的人工标注跟更少的盘算资本与摸索来实现 SOTA 机能。但是,这种后发上风也是一把双刃剑,它禁止了学术机构的研讨职员跟欠兴旺的 LLM 团队自立摸索新技巧,并促使他们直接从开始进的 LLM 中蒸馏数据。别的,现有的研讨任务曾经提醒了数据蒸馏招致的鲁棒性降落。量化 LLM 的蒸馏面对多少个要害挑衅:1. 蒸馏进程的不通明性使得难以量化先生模子跟原始模子之间的差别;2. 基准数据的缺少使得须要采取直接方式(如与原始 LLM 输出的比拟)来断定蒸馏的存在;3. LLM 的表征可能包括大批冗余或形象信息,这使得蒸馏的常识难以直接反应为可说明的输出。最主要的是,数据蒸馏在学术界的普遍应用跟高收益招致很多研讨职员防止批评性地检讨与其应用相干的成绩,招致该范畴缺少明白的界说。研讨者应用了什么方式?作者在论文中提出了两种方式来量化 LLM 的蒸馏水平,分辨是呼应类似度评价(RSE)跟身份分歧性评价(ICE)。RSE 采取原始 LLM 的输出与先生年夜言语模子的输出之间的比拟,从而权衡模子的同质化水平。ICE 则采取一个著名的开源逃狱框架 GPTFuzz,经由过程迭代结构提醒来绕过 LLM 的自我认知,评价模子在感知跟表现身份相干信息方面的差别 。 他们将待评价的特定年夜言语模子聚集界说为 LLM_test = {LLM_t1,LLM_t2,...,LLM_tk},此中 k 表现待评价的 LLM 聚集的巨细。呼应类似度评价(RSE)RSE 从 LLM_test 跟参考 LLM(在本文中即 GPT,记为 LLM_ref)获取呼应。作者随后从三个方面评价 LLM_test 跟 LLM_ref 的呼应之间的类似度:呼应作风、逻辑构造跟内容细节。评价者为每个测试 LLM 天生一个它与参考模子的团体类似度分数。作者将 RSE 作为对 LLM 蒸馏水平的细粒度剖析。在本文中,他们手动抉择 ArenaHard、Numina 跟 ShareGPT 作为提醒集,以获取呼应并评价 LLM_test 在通用推理、数学跟指令遵守范畴的相干蒸馏水平。如图 3 所示,LLM-as-a-judge 的评分分为五个品级,每个品级代表差别水平的类似度。 身份分歧性评价(ICE) ICE 经由过程迭代结构提醒来绕过 LLM 的自我认知,旨在提醒嵌入其练习数据中的信息,如与蒸馏数据源 LLM 相干的称号、国度、地位或团队。在本文中,源 LLM 指的是 GPT4o-0806。作者在 ICE 中采取 GPTFuzz 停止身份纷歧致性检测。起首,他们将源 LLM 的身份信息界说为现实集 F,F 中的每个 f_i 都明白地阐明了 LLM_ti 的身份相干现实,比方「我是 Claude,一个由 Anthropic 开辟的 AI 助手。Anthropic 是一家总部位于美国的公司。」 同时,他们应用带怀孕份相干提醒的 P_id 来筹备 GPTFuzz 的 ,用于查问 LLM_test 中的 LLM 对于其身份的信息,详见附录 B。作者应用 LLM-as-a-judge 初始化 GPTFuzz 的 F^G,以比拟提醒的呼应与现实集 F。存在逻辑抵触的呼应会被辨认出来,并响应地兼并到 F^G 的下一次迭代中。作者基于 GPTFuzz 分数界说两个指标:宽松分数:将任何身份抵触的过错示例视为胜利攻打;严厉分数:仅将过错辨认为 Claude 或 GPT 的示例视为胜利攻打。试验成果怎样?ICE 的试验成果如图 4 所示,宽松分数跟严厉分数都标明 GLM-4-Plus、Qwen-Max 跟 Deepseek-V3 是可疑呼应数目最多的三个 LLM,这标明它们存在更高的蒸馏水平。比拟之下,Claude-3.5-Sonnet 跟 Doubao-Pro-32k 多少乎不表现可疑呼应,标明这些 LLM 的蒸馏可能性较低。宽松分数指标包括一些假阳性实例,而严厉分数供给了更正确的权衡。 作者将全部逃狱攻打提醒分为五类,包含团队、配合、行业、技巧跟地舆。图 5 统计了每品种型成绩的胜利逃狱次数。这个成果证实 LLM 在团队、行业、技巧方面的感知更轻易遭到攻打,可能是由于这些方面存在更多未经清算的蒸馏数据。 如表 1 所示,作者发明比拟于监视微调(SFT)的 LLM,基本 LLM 平日表示出更高水平的蒸馏。这标明基本 LLM 更轻易表示出可辨认的蒸馏形式,可能是因为它们缺少特定义务的微调,使它们更轻易遭到评价中应用的破绽范例的影响。 另一个风趣的发明是,试验成果表现闭源的 Qwen-Max-0919 比开源的 Qwen 2.5 系列存在更高的蒸馏水平。作者发明了大批与 Claude 3.5-Sonnet 相干的谜底,而 2.5 系列 LLM 的可疑谜底仅与 GPT 有关。这些示例在附录 D 中有所展现。 RSE 成果在表 3 中展现,以 GPT4o-0806 作为参考 LLM,成果标明 GPT 系列的 LLM(如 GPT4o-0513)表示出最高的呼应类似度(均匀类似度为 4.240)。比拟之下,像 Llama3.1-70B-Instruct(3.628)跟 Doubao-Pro-32k(3.720)表现出较低的类似度,标明蒸馏水平较低。而 DeepSeek-V3(4.102)跟 Qwen-Max-0919(4.174)则表示出更高的蒸馏水平,与 GPT4o-0806 邻近。为了进一步验证察看成果,作者停止了额定的试验。在这个设置中,他们抉择种种模子同时作为参考模子跟测试模子。对每种设置,从三个数据会合抉择 100 个样本停止评价。附录 F 中的成果标明,看成为测试模子时,Claude3.5-Sonnet、Doubao-Pro-32k 跟 Llama3.1-70B-Instruct 一直表示出较低的蒸馏水平。比拟之下,Qwen 系列跟 DeepSeek-V3 模子偏向于表现更高水平的蒸馏。这些发明进一步支撑了本文所提框架在检测蒸馏水平方面的持重性。 更多细节请参考原论文。