InfoBatch：一种用于高效机器学习模型训练的新工具

在计算机视觉领域，平衡培训效率和性能变得越来越重要。传统的培训方法基于大量数据，这对那些无法获得强大计算基础设施的研究人员提出了重大挑战。另外，使用减少训练样本数量的方法会引起一系列问题，尽管可以减少训练时间，但却会引入额外的延迟或无法保持原始模型的性能，从而抵消了它们的实施所带来的好处。

一个关键挑战是优化深度学习模型的训练，这需要大量资源才能成功训练出有效的模型。主要问题是在大数据集上进行训练时的计算需求，而同时又不会影响模型的有效性。在这个领域中，效率和性能必须和谐共存，以实现实际而易于接近的机器学习应用。

现有的解决方案包括随机子集和核集选择等方法，旨在减少训练样本的数量。尽管这些方法直观上很吸引人，但它们也引入了新的复杂性。例如，基于特定指标在训练之前选择样本的静态修剪方法通常增加计算负担，并且在不同架构或数据集上通用性较差。另一方面，动态数据消除方法旨在通过减少迭代次数来降低训练成本。然而，这些方法存在一些局限，特别是在实现无损效果和操作效率方面的限制。

新加坡国立大学和阿里巴巴集团的研究人员推出了InfoBatch，这是一种创新的工具，旨在加速训练过程而不损失准确性。InfoBatch通过其动态数据修剪的方法脱颖而出，该方法既独立又适应性强。该工具在训练过程中维护并动态更新每个数据样本的基于损失的评分。该框架选择性地删除信息较少的样本，即通过其低评分来识别，并通过缩放剩余样本的梯度来补偿此修剪。这种策略有效地保持了梯度期望与原始未修剪数据集相似，从而保持了模型的性能。

该框架已经证明其能够显著减少计算开销，在效率方面至少提高了十倍优于先前的方法。性能的提高并没有以准确性为代价；InfoBatch在各种任务中始终实现了无损训练结果，如分类、语义分割、视觉处理和语言模型微调。实际中，这转化为在计算资源和时间上的实质性节省。例如，将InfoBatch工具应用于CIFAR10/100和ImageNet1K等数据集可以节约高达总成本的40%。此外，对于特定模型如MAE和扩散模型，节省分别为24.8%和27%。

总之，InfoBatch研究的关键发现包括：

– InfoBatch引入了一种独立动态数据修剪的创新框架，使其区别于传统的静态和动态方法。
– 该框架显著减少了计算开销，使其在现实应用中变得更加实用，尤其对于那些计算资源有限的情况。
– 尽管提高了性能，InfoBatch在各种任务中都实现了无损训练的有效性。
– 该框架的效率通过其在从分类到语言模型微调等各种机器学习任务中的成功应用得到了证实。
– InfoBatch所实现的性能和效率的平衡可以显著影响未来机器学习训练方法。

InfoBatch工具的开发代表了机器学习领域的一项重大进步，为长期存在的问题提供了实用解决方案。通过有效地平衡训练成本与模型性能，InfoBatch为计算效率在机器学习中的创新和进步树立了一个积极的榜样。