埃隆·马斯克(Elon Musk)在与Stagwell董事长马克·佩恩(Mark Penn)的一场直播对话中提到,现实世界中可用于训练人工智能模型的数据已几乎耗尽。这一观点得到了前OpenAI首席科学家伊利亚·苏茨克沃(Ilya Sutskever)的支持,他在NeurIPS会议上指出,AI行业已经达到了所谓的“数据峰值”,并预测这将推动行业从现有的模型开发方式转向新的方法。
合成数据成为关键解决方案
面对现实世界数据的稀缺,合成数据——由AI模型自身生成的数据——被视为未来的方向。马斯克强调,补充现实世界数据的唯一方法是通过合成数据来实现,即让AI创建自己的训练数据,并经历一个自我评分和学习的过程。这种方法不仅能解决数据短缺的问题,还可能显著降低AI模型的开发成本。
实际上,包括微软、Meta、OpenAI和Anthropic在内的多家科技巨头已经开始利用合成数据来训练他们的旗舰AI模型。Gartner估计,到2024年,用于AI和分析项目的60%的数据将是合成生成的。例如,微软的Phi-4和谷歌的Gemma模型都在合成数据和现实世界数据的基础上进行了训练。Anthropic使用合成数据开发了其高性能系统Claude 3.5 Sonnet,而Meta则使用AI生成的数据对其最新的Llama系列模型进行了微调。
合成数据的优势与挑战
采用合成数据进行训练不仅有助于节省成本,比如AI初创公司Writer声称其Palmyra X 004模型的开发成本仅为70万美元,远低于OpenAI类似规模模型的估计开发成本460万美元。然而,使用合成数据也存在潜在风险。研究表明,合成数据可能导致模型崩溃,使得模型输出变得缺乏创意且更加偏向,严重影响其功能。此外,如果用于生成合成数据的原始数据集包含偏见或局限性,那么这些偏见也会被复制到生成的数据中,影响模型的公正性和准确性。
0条评论