理论、鲁棒性与核心机器学习
突破级
暂无讲解视频
核心要点
- 问题/背景
- 这篇 FAIR at Meta / University of Washington 论文把 tokenizer 从固定预处理组件提升为 scaling-law 和 compute allocation 的核心变量,研究 token 压缩率,即平均每个 token 承载多少 bytes,如何改变训练最优配置。
- 方法/机制
- 作者利用 Byte Latent Transformer 的 latent tokenization 机制训练 988 个 50M 到 7B 参数模型,从而能系统调节 compression rate,并把常见 BPE tokenizer 的约 4.57 bytes/token 放到更宽的设计空间中比较。
- 结果/证据
- 关键发现是:在 compute-optimal 配置下,模型参数量与按 bytes 计量的数据规模成比例,而不是与 token 数成比例;同时最优 compression rate 不等于常见 BPE 的压缩率,并且会随训练 compute 增大而下降。
- 收录价值
- 它值得收录,因为它给 tokenization、byte-level / latent-token 模型、scaling law 和训练预算规划之间建立了可复用的实验框架,直接影响 tokenizer 选择、跨语言建模和 compute-efficient LM 训练设计。
原始摘要与中文对照
中文对照翻译
缩放定律使得数据量和语言模型大小能够得到最佳选择,然而数据单元(即词元)对这种关系的影响仍未得到充分探索。本文系统地研究了由压缩率控制的词元信息粒度如何影响缩放趋势,具体方法是训练了988个参数量从50M到7B的潜在词元化的BLT模型,并检查了其对子词词元化和非英语语言的泛化能力。
原始摘要
Scaling laws enable the optimal selection of data amount and language model size, yet the impact of the data unit, the token, on this relationship remains underexplored. This paper systematically studies how token information granularity, controlled by compression rate, affects scaling trends by training 988 latent-tokenized BLT models from 50M to 7B parameters and checking generalization to subword tokenization and non-English languages.