上海交通大学和上海人工智能实验室的研究人员推出新的评估指标RaTEScore,专门用来衡量由AI模型生成的医学报告的质量。这个指标特别关注医学报告中的关键医疗实体,如诊断结果和解剖细节,并且对于复杂的医学同义词有很强的鲁棒性,对否定表达也很敏感。新基准测试RaTE-Eval,它包括三个子任务:句子级人类评分、段落级人类评分和合成报告比较,用于评估不同临床文本的评估指标。此外,论文通过大量实验展示了RaTEScore的优越性,包括与现有指标的比较和消融研究,证明了其在不同数据集上的有效性。
- 项目主页:https://angelakeke.github.io/RaTEScore
- GitHub:https://github.com/MAGIC-AI4Med/RaTEScore
- 模型:https://huggingface.co/Angelakeke/RaTE-NER-Deberta
- 数据:https://huggingface.co/datasets/Angelakeke/RaTE-NER
主要功能:
- 评估医学报告:RaTEScore能够评估AI生成的医学报告,并与人类专家的偏好紧密对齐。
主要特点:
- 实体意识:它强调评估报告中的关键医疗实体,如诊断结果和解剖特征。
- 鲁棒性:对于医学术语的复杂同义词和否定表达,RaTEScore具有很好的鲁棒性。
- 基于NER的数据集:开发了一个全面的医学命名实体识别(NER)数据集,RaTE-NER,专门用于此目的。
工作原理:
- RaTEScore通过以下步骤来评估医学报告:
- 使用医学NER模型(RaTE-NER)从每句报告中识别医疗实体及其类型。
- 利用同义词消歧模块将实体名称映射到嵌入空间,使得同义词在空间中彼此接近。
- 计算实体嵌入的余弦相似度,以评估它们之间的相似性。
- 根据实体类型的临床重要性,使用加权相似度计算最终得分。
具体应用场景:
- 医学影像报告生成:在放射学领域,医生经常需要根据影像资料生成报告。RaTEScore可以用来评估由AI生成的这些报告的质量,确保它们对临床诊断有实际帮助。
- 医学报告质量控制:医院或诊所可以利用RaTEScore来监控和提高医学报告的撰写质量。
0条评论