当前位置：首页 > 优惠 >大语言模型>文章详情

评估指标RaTEScore:专门用来衡量由AI模型生成的医学报告的质量

推荐人：暴走AI| 商城: AI | 1年前 (2024-07-01)| 分类：大语言模型 | 热度：442 ℃

已关闭评论

上海交通大学和上海人工智能实验室的研究人员推出新的评估指标RaTEScore，专门用来衡量由AI模型生成的医学报告的质量。这个指标特别关注医学报告中的关键医疗实体，如诊断结果和解剖细节，并且对于复杂的医学同义词有很强的鲁棒性，对否定表达也很敏感。新基准测试RaTE-Eval，它包括三个子任务：句子级人类评分、段落级人类评分和合成报告比较，用于评估不同临床文本的评估指标。此外，论文通过大量实验展示了RaTEScore的优越性，包括与现有指标的比较和消融研究，证明了其在不同数据集上的有效性。

项目主页：https://angelakeke.github.io/RaTEScore
GitHub：https://github.com/MAGIC-AI4Med/RaTEScore
模型：https://huggingface.co/Angelakeke/RaTE-NER-Deberta
数据：https://huggingface.co/datasets/Angelakeke/RaTE-NER

主要功能：

评估医学报告：RaTEScore能够评估AI生成的医学报告，并与人类专家的偏好紧密对齐。

主要特点：

实体意识：它强调评估报告中的关键医疗实体，如诊断结果和解剖特征。
鲁棒性：对于医学术语的复杂同义词和否定表达，RaTEScore具有很好的鲁棒性。
基于NER的数据集：开发了一个全面的医学命名实体识别（NER）数据集，RaTE-NER，专门用于此目的。

工作原理：

RaTEScore通过以下步骤来评估医学报告：
1. 使用医学NER模型（RaTE-NER）从每句报告中识别医疗实体及其类型。
2. 利用同义词消歧模块将实体名称映射到嵌入空间，使得同义词在空间中彼此接近。
3. 计算实体嵌入的余弦相似度，以评估它们之间的相似性。
4. 根据实体类型的临床重要性，使用加权相似度计算最终得分。