当前位置：首页 > 情报 >AI情报>文章详情

马斯克表示现实世界中可用于训练AI模型的数据已几乎耗尽

3个月前 (01-09) | 分类： AI情报 | 热度： 79 ℃

暂无评论

埃隆·马斯克（Elon Musk）在与Stagwell董事长马克·佩恩（Mark Penn）的一场直播对话中提到，现实世界中可用于训练人工智能模型的数据已几乎耗尽。这一观点得到了前OpenAI首席科学家伊利亚·苏茨克沃（Ilya Sutskever）的支持，他在NeurIPS会议上指出，AI行业已经达到了所谓的“数据峰值”，并预测这将推动行业从现有的模型开发方式转向新的方法。

合成数据成为关键解决方案

面对现实世界数据的稀缺，合成数据——由AI模型自身生成的数据——被视为未来的方向。马斯克强调，补充现实世界数据的唯一方法是通过合成数据来实现，即让AI创建自己的训练数据，并经历一个自我评分和学习的过程。这种方法不仅能解决数据短缺的问题，还可能显著降低AI模型的开发成本。

实际上，包括微软、Meta、OpenAI和Anthropic在内的多家科技巨头已经开始利用合成数据来训练他们的旗舰AI模型。Gartner估计，到2024年，用于AI和分析项目的60%的数据将是合成生成的。例如，微软的Phi-4和谷歌的Gemma模型都在合成数据和现实世界数据的基础上进行了训练。Anthropic使用合成数据开发了其高性能系统Claude 3.5 Sonnet，而Meta则使用AI生成的数据对其最新的Llama系列模型进行了微调。

合成数据的优势与挑战

采用合成数据进行训练不仅有助于节省成本，比如AI初创公司Writer声称其Palmyra X 004模型的开发成本仅为70万美元，远低于OpenAI类似规模模型的估计开发成本460万美元。然而，使用合成数据也存在潜在风险。研究表明，合成数据可能导致模型崩溃，使得模型输出变得缺乏创意且更加偏向，严重影响其功能。此外，如果用于生成合成数据的原始数据集包含偏见或局限性，那么这些偏见也会被复制到生成的数据中，影响模型的公正性和准确性。

顶 (0 )

踩 (0 )

AI模型马斯克