当前位置：首页 > 优惠 >大语言模型>文章详情

数据集大小恢复DSiRe：从模型的权重中直接确定训练模型时使用的样本数量

推荐人：暴走AI| 商城: AI | 10个月前 (06-29)| 分类：大语言模型 | 热度：107 ℃

已关闭评论

耶路撒冷希伯来大学的研究人员推出DSiRe（数据集大小恢复，Dataset Size Recovery），旨在从模型的权重中直接确定训练模型时使用的样本数量。具体来说，研究者们专注于在使用低秩适应（LoRA）微调模型的情况下，恢复用于微调的数据集大小。LoRA是一种流行的微调技术，它通过添加低秩权重矩阵来调整预训练模型，同时保持原始权重不变。

项目主页：https://vision.huji.ac.il/dsire
GitHub：https://github.com/MoSalama98/dsire
数据集：https://huggingface.co/datasets/MoSalama98/LoRA-WiSE

DSiRe旨在于广泛应用LoRA进行微调的场景下，估算用于微调模型的图像数量。我们发现，LoRA矩阵的范数及其频谱特征与微调数据集的大小存在着密切联系；基于此发现，我们提出了一种既简便又高效的预测算法。为了验证针对LoRA权重的数据集规模恢复效能，我们构建并公开了一个新的基准测试资源——LoRA-WiSE，它包含了从超过2000个不同类型的LoRA微调模型中提取的超过25,000份权重快照。我们的顶尖分类器能够以平均每张图像0.36的绝对误差预测出用于微调的图像数量，从而证实了此类攻击的实施可能性。

例如，有一个预训练的图像生成模型，我们想要知道为了对其进行微调，使用了多少次图像。通过DSiRe方法，我们可以从微调后的模型权重中预测出这个数字。例如，如果DSiRe预测出微调使用了50张图像，这就意味着在微调过程中，模型学习了50张不同的图像。

主要功能：

数据集大小预测：预测模型微调阶段使用了多少训练样本。

主要特点：

新颖性：这是首次提出并尝试解决数据集大小恢复的任务。
有效性：通过实验，研究者们展示了从LoRA权重中恢复数据集大小是可行的。

工作原理：

LoRA权重分析：研究者们首先分析了LoRA微调权重与其对应数据集大小之间的关系。
特征提取：他们发现LoRA矩阵的Frobenius范数和奇异值谱与微调数据集大小高度相关。
DSiRe方法：提出了一种名为DSiRe（Dataset Size Recovery）的方法，它从LoRA权重谱中恢复微调数据集大小。DSiRe使用训练好的分类器，基于每层权重矩阵的奇异值谱来预测数据集大小。
最近邻分类器：在实验中，DSiRe使用了简单的最近邻分类器来实现预测。

具体应用场景：

版权和计费：在版权图片库中，用户可能需要为微调个性化生成模型而付费。通过DSiRe，可以确定实际使用了多少训练图像，从而为服务提供商和用户之间提供一个公平的计费依据。
研究和资源规划：研究人员可以了解为了达到特定模型性能所需的数据集大小，帮助他们规划数据收集和模型训练的资源。
隐私保护：在需要保护训练数据隐私的应用中，了解数据集大小可以帮助评估模型的隐私风险，例如，通过模型反演攻击（model inversion attacks）和成员资格推断攻击（membership inference attacks）。

这项技术通过分析模型权重，为理解和量化模型训练过程中的数据使用提供了一种新的方法。

好 (0 )

不好 (0 )

DSiRe