数据集大小恢复DSiRe:从模型的权重中直接确定训练模型时使用的样本数量

分类:大语言模型 | 热度:15 ℃

耶路撒冷希伯来大学的研究人员推出DSiRe(数据集大小恢复,Dataset Size Recovery),旨在从模型的权重中直接确定训练模型时使用的样本数量。具体来说,研究者们专注于在使用低秩适应(LoRA)微调模型的情况下,恢复用于微调的数据集大小。LoRA是一种流行的微调技术,它通过添加低秩权重矩阵来调整预训练模型,同时保持原始权重不变。

  • 项目主页:https://vision.huji.ac.il/dsire
  • GitHub:https://github.com/MoSalama98/dsire
  • 数据集:https://huggingface.co/datasets/MoSalama98/LoRA-WiSE

DSiRe旨在于广泛应用LoRA进行微调的场景下,估算用于微调模型的图像数量。我们发现,LoRA矩阵的范数及其频谱特征与微调数据集的大小存在着密切联系;基于此发现,我们提出了一种既简便又高效的预测算法。为了验证针对LoRA权重的数据集规模恢复效能,我们构建并公开了一个新的基准测试资源——LoRA-WiSE,它包含了从超过2000个不同类型的LoRA微调模型中提取的超过25,000份权重快照。我们的顶尖分类器能够以平均每张图像0.36的绝对误差预测出用于微调的图像数量,从而证实了此类攻击的实施可能性。

例如,有一个预训练的图像生成模型,我们想要知道为了对其进行微调,使用了多少次图像。通过DSiRe方法,我们可以从微调后的模型权重中预测出这个数字。例如,如果DSiRe预测出微调使用了50张图像,这就意味着在微调过程中,模型学习了50张不同的图像。

主要功能:

  • 数据集大小预测:预测模型微调阶段使用了多少训练样本。

主要特点:

  • 新颖性:这是首次提出并尝试解决数据集大小恢复的任务。
  • 有效性:通过实验,研究者们展示了从LoRA权重中恢复数据集大小是可行的。

工作原理:

  1. LoRA权重分析:研究者们首先分析了LoRA微调权重与其对应数据集大小之间的关系。
  2. 特征提取:他们发现LoRA矩阵的Frobenius范数和奇异值谱与微调数据集大小高度相关。
  3. DSiRe方法:提出了一种名为DSiRe(Dataset Size Recovery)的方法,它从LoRA权重谱中恢复微调数据集大小。DSiRe使用训练好的分类器,基于每层权重矩阵的奇异值谱来预测数据集大小。
  4. 最近邻分类器:在实验中,DSiRe使用了简单的最近邻分类器来实现预测。

具体应用场景:

  • 版权和计费:在版权图片库中,用户可能需要为微调个性化生成模型而付费。通过DSiRe,可以确定实际使用了多少训练图像,从而为服务提供商和用户之间提供一个公平的计费依据。
  • 研究和资源规划:研究人员可以了解为了达到特定模型性能所需的数据集大小,帮助他们规划数据收集和模型训练的资源。
  • 隐私保护:在需要保护训练数据隐私的应用中,了解数据集大小可以帮助评估模型的隐私风险,例如,通过模型反演攻击(model inversion attacks)和成员资格推断攻击(membership inference attacks)。

这项技术通过分析模型权重,为理解和量化模型训练过程中的数据使用提供了一种新的方法。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论