布朗大学的研究人员发布论文介绍了一个名为LexC-Gen的方法,它旨在解决低资源语言(即那些缺乏大量标注数据的语言)在自然语言处理(NLP)任务中的挑战。LexC-Gen通过使用双语词典和大型语言模型(LLMs)来生成这些语言的分类任务数据。
论文地址:https://arxiv.org/abs/2402.14086
主要功能: LexC-Gen能够大规模生成低资源语言的分类任务数据。它首先利用双语词典中的高资源语言词汇来生成与词典兼容的任务数据,然后将这些数据翻译成低资源语言。这种方法提高了翻译的覆盖率和词典的利用率,从而生成了更高质量的数据。
主要特点:
- 双语词典条件生成: LexC-Gen利用双语词典中的词汇来生成任务数据,确保生成的数据与词典有较高的词汇重叠。
- 质量控制: 通过输入-标签一致性过滤器来确保生成的数据质量,过滤掉与指定标签不匹配的数据实例。
- 成本效益: LexC-Gen只需要单个GPU就能在规模上生成数据,成本远低于基于GPT-4的多语言数据生成方法。
工作原理:
- 选择词典词汇和类别标签: 从双语词典中随机选择一组词汇和一个类别标签。
- 使用LLM生成数据: 使用这些词汇和类别标签作为提示,训练并使用LLM生成高资源语言的任务数据。
- 质量控制: 在生成数据后,使用小型分类器对数据进行质量检查,确保输入与标签一致。
- 词对词翻译: 将生成的高资源语言数据通过双语词典翻译成低资源语言。
具体应用场景:
- 情感分析: 在印度尼西亚的低资源语言中,LexC-Gen生成的数据在情感分析任务上与专家翻译的黄金数据相当。
- 主题分类: 在SIB-200数据集中,LexC-Gen在10种表现最差的语言上的主题分类任务上,比现有的基于词典的词翻译方法平均提高了8.9个百分点。
总的来说,LexC-Gen为低资源语言的NLP研究提供了一种有效的方法,通过生成高质量的训练数据,有助于提高这些语言在各种NLP任务上的表现。
0条评论