山海新时代汽车网

当前位置:首页 > 科技 > 正文

腾讯混元发布浮点量化训练新理论,探索大模型训练效能极限

章伦薇2025-01-17 11:07:20 科技
导读 腾讯混元团队针对大模型训练的成本问题,深入研究了低比特浮点量化训练的规模法则(Scaling Laws)。他们通过366组实验,分析了模型大小、

腾讯混元团队针对大模型训练的成本问题,深入研究了低比特浮点量化训练的规模法则(Scaling Laws)。他们通过366组实验,分析了模型大小、训练数据量、指数位、尾数位和量化粒度等多种因素对训练效果的影响,得出了一套统一的Scaling Law。

研究发现,在任意低精度的浮点数量化训练中,存在“极限效果”,超过特定数据量会导致性能下降。理论上,最佳性价比的浮点数量化训练精度应在4到8比特之间。该研究填补了领域空白,为硬件制造商优化浮点运算能力提供了参考,也为大模型训练的实践提供了清晰方向。

标 签

免责声明:本文由用户上传,如有侵权请联系删除!

猜你喜欢

最新文章

© 2008-2025 All Rights Reserved .山海新时代汽车网 版权所有

网站地图 | 百度地图| 360地图 | 今日更新