滑铁卢大学、多模式艺术投影研究社区、 早稻田大学、香港科技大学、俄亥俄州立大学、 Harmony.ai、矢量研究所的研究人员推出通用模型StructLM,它旨在提高大语言模型(LLMs)在处理结构化数据(如表格、图形和数据库)方面的能力。尽管LLMs在处理纯文本方面表现出色,但它们在理解和利用结构化数据方面的能力仍有待提高。例如,ChatGPT在处理结构化数据的任务上,性能比最先进的(SoTA)模型平均低35%。
项目主页:https://tiger-ai-lab.github.io/StructLM
GitHub:https://github.com/TIGER-AI-Lab/StructLM
模型地址:https://huggingface.co/collections/TIGER-Lab/structlm-65dcab5a183c499cc365fafc
主要功能:
- StructLM能够处理多种类型的结构化和非结构化知识,以回答人类的问题。
- 它通过一个包含1100万个示例的综合指令调整数据集进行训练,这些数据集涵盖了18个不同的结构化知识接地(SKG)任务。
主要特点:
- StructLM系列模型在14个评估数据集中超越了特定任务的模型,并在7个SKG任务上建立了新的SoTA成绩。
- StructLM展示了在6个新的SKG任务上的卓越泛化能力。
- 研究者发现,模型规模的扩大(从7B到34B参数)带来的性能提升边际效益有限,这表明结构化知识接地仍然是一个具有挑战性的任务。
工作原理:
- StructLM基于Code-LLaMA架构,通过在大规模指令跟随数据集上进行微调来训练。
- 它使用系统提示、指令、输入和输出的格式来构建训练样本,其中输入包括结构化知识输入和可能的任务指定文本。
- 在训练过程中,模型学习如何将结构化数据映射到自然语言,以便在各种任务中提供有意义的回答。
具体应用场景:
- StructLM可以应用于需要从结构化数据中提取信息并生成自然语言回答的场景,例如问答系统、数据库查询接口、知识图谱的自然语言接口等。
- 在实际应用中,用户可以通过自然语言与StructLM交互,获取存储在数据库或知识图谱中的信息,而无需掌握特定的查询语言或编程技能。
总的来说,StructLM是一个通用模型,它通过指令调整和大规模数据集训练,提高了LLMs在结构化知识接地任务上的性能,为未来在这一领域的研究和应用提供了一个强大的基准。
0条评论