Yandex和高等经济大学的研究人员推出推出关于表格型机器学习(Tabular Machine Learning)的一个新的基准测试集合TabReD。表格型机器学习是一种处理表格数据的人工智能技术,这些数据通常包含行和列,类似于电子表格中的组织方式。想象一下,你有一个包含许多客户信息的表格,你想知道哪些客户最有可能购买新产品,表格型机器学习可以帮助你预测。
主要功能和特点:
- 时间分割:TabReD考虑到现实世界中数据随时间变化的特性,提供了基于时间的数据分割方式,这意味着训练数据会比测试数据“旧”,以模拟真实世界中模型部署后的情况。
- 特征丰富:与学术界的数据集相比,TabReD包含了经过大量特征工程处理的数据集,这些数据集拥有更多的特征,更贴近工业界的实际应用。
- 领域多样性:TabReD收集了来自金融、食品配送服务等多个领域的数据集,这使得它能够评估模型在不同行业中的表现。
工作原理: TabReD基准测试通过收集和分析现实世界中的表格数据集,然后对这些数据集进行时间分割,以确保模型评估时能够反映出真实环境中的时间变化对模型性能的影响。它还评估了多种机器学习模型在这些数据集上的表现,包括梯度提升决策树(GBDT)、多层感知器(MLP)等。
具体应用场景:
- 金融服务:在金融领域,TabReD可以用来评估风险预测模型,比如预测客户是否会违约。
- 食品配送:在食品配送服务中,TabReD可以帮助优化订单的预计送达时间。
- 气象预测:在气象领域,TabReD可以用于评估天气温度预测模型的准确性。
论文通过实验表明,在TabReD基准测试中,一些更简单的模型(如GBDT和带有嵌入的MLP)在这些特征丰富、随时间演变的数据集上表现更好,而更复杂的深度学习模型则没有表现出预期的效果。这强调了在表格型机器学习领域,简单有效的模型可能更适用于处理现实世界的问题。
0条评论