谷歌推出新型大语言模型DataGemma,它专门设计来提高AI在处理统计数据和事实信息时的准确性,通过将大语言模型锚定在现实世界统计信息中来帮助减少幻觉。DataGemma通过与一个名为Data Commons的庞大公共统计数据源相结合,使得AI模型能够访问和利用来自联合国、疾病控制和预防中心等可信机构的最新数据。
- 官方介绍:https://blog.google/technology/ai/google-datagemma-ai-llm
Data Commons是一个庞大的公共可用、值得信赖的数据仓库,包含超过2400亿个丰富的数据点,涵盖数十万个统计变量。它从联合国(UN)、世界卫生组织(WHO)、疾病控制和预防中心(CDC)和人口普查局等受信任的组织获取这些公共信息。将这些数据集组合成一个统一的工具和AI模型集,为寻求准确洞察力的政策制定者、研究人员和组织提供了支持。
- 地址:https://datacommons.org
将Data Commons想象为一个庞大且不断扩展的数据库,里面充满了从健康和经济到人口统计和环境等广泛主题的可靠公共信息,您可以使用我们的AI驱动的自然语言界面用自己的话与之互动。例如,您可以探索非洲哪些国家在电力接入方面增长最大,美国各县的收入与糖尿病的相关性,或者您自己的数据查询。
主要功能
DataGemma的主要功能是增强AI模型在处理涉及数值和统计数据的查询时的准确性。它通过两种方法实现这一点:
- 检索式生成(RIG):在这种方法中,AI模型被训练来生成自然语言查询,直接从Data Commons检索数据。
- 增强式检索生成(RAG):这种方法通过从Data Commons获取相关的数据表来增强AI模型的提示,使得模型能够结合更多上下文信息生成更全面的回答。
主要特点
- 减少“幻觉”现象:在AI领域,“幻觉”指的是模型自信地提供不准确的信息。DataGemma通过与真实世界的数据连接,显著减少了这种现象。
- 提高事实准确性:通过与Data Commons的整合,DataGemma提高了模型输出的准确性,特别是在处理需要精确数据的任务时。
- 开放模型:DataGemma是一个开放模型,意味着研究人员和开发者可以自由地访问和使用它,以进行各种实验和应用开发。
工作原理
DataGemma的工作原理基于两个关键技术:RIG和RAG。在RIG中,模型学习如何生成能够从Data Commons检索数据的自然语言查询。在RAG中,模型首先识别查询中提到的变量,然后从Data Commons检索相关数据,并利用这些数据来增强对用户查询的回答。
具体应用场景
- 政策制定:政策制定者可以使用DataGemma来获取关于经济、健康、教育等领域的最新统计数据,以支持他们的决策过程。
- 研究:研究人员可以利用DataGemma来快速访问大量数据,进行复杂的数据分析和模式识别。
- 教育:教师和学生可以使用DataGemma作为一个工具,来获取关于各种主题的准确信息,支持学习和教学活动。
- 新闻报道:记者可以使用DataGemma来验证数据,确保报道的准确性,提供有深度的分析和背景信息。
通过这些功能和特点,DataGemma展示了AI在提供基于事实的信息和增强决策过程中的潜力。
0条评论