技术教程 大规模 Transformer 模型 8 比特矩阵乘简介 – 基于 Hugging Face Transformers、Accelerate 以及 bitsandbytes 语言模型一直在变大。截至撰写本文时,PaLM 有 5400 亿参数,OPT、GPT-3 和 ...