Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity 用更简单的单专家路由,把 Mixture of Experts 从难以训练的研究方向,推进成可规模化的大模型架构选择。 2021 · arXiv MoE Switch Transformer 稀疏激活 路由