FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness 把注意力优化重点从 FLOPs 转向 IO,把“Exact Attention 也能大幅提速”变成现实,是现代训练和推理系统的关键基石之一。 2022 · arXiv FlashAttention Attention 训练优化 推理优化