评估指标RaTEScore:专门用来衡量由AI模型生成的医学报告的质量

分类:大语言模型 | 热度:89 ℃

上海交通大学和上海人工智能实验室的研究人员推出新的评估指标RaTEScore,专门用来衡量由AI模型生成的医学报告的质量。这个指标特别关注医学报告中的关键医疗实体,如诊断结果和解剖细节,并且对于复杂的医学同义词有很强的鲁棒性,对否定表达也很敏感。新基准测试RaTE-Eval,它包括三个子任务:句子级人类评分、段落级人类评分和合成报告比较,用于评估不同临床文本的评估指标。此外,论文通过大量实验展示了RaTEScore的优越性,包括与现有指标的比较和消融研究,证明了其在不同数据集上的有效性。

  • 项目主页:https://angelakeke.github.io/RaTEScore
  • GitHub:https://github.com/MAGIC-AI4Med/RaTEScore
  • 模型:https://huggingface.co/Angelakeke/RaTE-NER-Deberta
  • 数据:https://huggingface.co/datasets/Angelakeke/RaTE-NER

主要功能:

  • 评估医学报告:RaTEScore能够评估AI生成的医学报告,并与人类专家的偏好紧密对齐。

主要特点:

  1. 实体意识:它强调评估报告中的关键医疗实体,如诊断结果和解剖特征。
  2. 鲁棒性:对于医学术语的复杂同义词和否定表达,RaTEScore具有很好的鲁棒性。
  3. 基于NER的数据集:开发了一个全面的医学命名实体识别(NER)数据集,RaTE-NER,专门用于此目的。

工作原理:

  • RaTEScore通过以下步骤来评估医学报告:
    1. 使用医学NER模型(RaTE-NER)从每句报告中识别医疗实体及其类型。
    2. 利用同义词消歧模块将实体名称映射到嵌入空间,使得同义词在空间中彼此接近。
    3. 计算实体嵌入的余弦相似度,以评估它们之间的相似性。
    4. 根据实体类型的临床重要性,使用加权相似度计算最终得分。

具体应用场景:

  • 医学影像报告生成:在放射学领域,医生经常需要根据影像资料生成报告。RaTEScore可以用来评估由AI生成的这些报告的质量,确保它们对临床诊断有实际帮助。
  • 医学报告质量控制:医院或诊所可以利用RaTEScore来监控和提高医学报告的撰写质量。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论