当前位置：首页 > 优惠 >大语言模型>文章详情

数据集RABBITS：大语言模型在生物医学领域应用时的一个特定问题：对药物名称的脆弱性

推荐人：暴走AI| 商城: AI | 2年前 (2024-06-19)| 分类：大语言模型 | 热度：642 ℃

已关闭评论

数据集RABBITS：大语言模型在生物医学领域应用时的一个特定问题：对药物名称的脆弱性

麻省理工学院、哈佛大学、麻省总医院、波士顿儿童医院、奥胡斯大学、弗吉尼亚大学、马斯特里赫特大学、庞培法布拉大学和贝斯以色列女执事医疗中心的研究人员发布论文，讨论了大语言模型（LLMs）在生物医学领域应用时的一个特定问题：对药物名称的脆弱性。特别是在处理品牌名和通用名之间的替换时，模型的性能可能会显著下降。研究者们创建了一个新的数据集，名为RABBITS（Robust Assessment of Biomedical Benchmarks Involving drug Term Substitutions for Language Models），来评估在将药物的品牌名和通用名互换后，医学基准测试中性能的差异。

例如，你在开发一个能回答医学问题的智能助手。这个助手需要非常精确，因为它可能会给病人提供关于药物使用的建议。但是，如果你输入“阿司匹林”，而病人问的是“拜阿司匹灵”（一个品牌名），智能助手可能会因为不理解这两者实际上是相同的药物而给出错误的答案。这篇论文就是关于如何让智能助手更好地理解这种品牌名和通用名之间的差异，即使用不同的名称也能提供准确的医学信息。

主要功能：

评估LLMs在医学术语替换后的鲁棒性：通过创建RABBITS数据集，研究者们可以测试智能助手在药物名称互换后的性能。

主要特点：

专业注释：数据集中的药物名称是由医生专家进行注释和验证的，确保了数据的准确性和可靠性。
性能下降的发现：研究发现，即使是大型语言模型，在处理药物名称互换时也会出现性能下降，这强调了在医学应用中对精确性的需求。

工作原理：

数据集创建：使用RxNorm本体论提取品牌名和通用名的配对。
数据集转换：在MedQA和MedMCQA等医学问答数据集中，使用正则表达式将品牌名替换为通用名，反之亦然。
模型评估：使用EleutherAI的lm-evaluation工具和HuggingFace leaderboard来评估模型在原始数据集和转换数据集上的性能。