美国国家生物技术信息中心(NCBI)开发推出医疗大模型GeneGPT(基因GPT) ,旨在通过结合大语言模型(LLMs)和国家生物技术信息中心(NCBI)的Web API,来提高对生物医学信息的访问效率和准确性。GeneGPT的核心功能是帮助用户通过自然语言处理(NLP)技术,更轻松地解答与基因组学相关的问题。具体来说,他们开发了一种名为GeneGPT的新方法,该方法可以教授大语言模型如何使用美国国家生物技术信息中心(NCBI)的Web API来回答基因学问题。
GitHub地址:https://github.com/ncbi/GeneGPT
论文地址:https://arxiv.org/abs/2304.09667
主要功能和特点包括:
- 利用NCBI Web API:GeneGPT通过集成NCBI的E-utils和BLAST工具,可以直接访问生物医学数据库,从而提供准确的基因组信息。
- 上下文学习:系统通过特定的提示(prompt)设计,使得LLM能够理解如何使用这些API,并在解答问题时调用它们。
- 链式推理能力:GeneGPT能够处理多步骤的问题,通过分解问题并逐步调用API来找到答案,这在处理复杂的生物医学问题时尤为重要。
- 高准确性:在GeneTuring基准测试中,GeneGPT在多个任务上取得了最先进的性能,平均得分为0.83,远超过其他LLMs。
工作原理:
- 用户提出一个与基因组学相关的问题。
- GeneGPT使用一个精心设计的提示,其中包含了API的文档和示例,以及一个测试问题。
- LLM(如Codex)接收这个提示,并开始生成答案。在生成过程中,当遇到特定的符号(如“->”)时,它会停止文本生成,提取最后一个URL,并调用相应的NCBI Web API。
- API调用的结果会被添加到生成的文本中,然后继续生成过程,直到生成答案。
具体应用场景:
- 基因功能查询:用户可以询问特定基因的功能,GeneGPT会调用NCBI的API来提供答案。
- 基因位置定位:用户想要知道某个基因在人类基因组中的位置,GeneGPT可以帮助定位。
- 疾病相关基因:用户可以询问与特定疾病相关的基因,GeneGPT能够提供相关基因的信息。
- DNA序列分析:用户可以提供DNA序列,GeneGPT会使用BLAST工具来分析序列并提供其在基因组中的对应位置。
GeneGPT通过这些功能,使得生物医学研究人员和医生能够更快速、更准确地获取关键信息,从而提高研究和临床决策的效率。
0条评论