请教一下推理使用Multi-Query Attention 是需要在训练的时候就要使用Multi-Query Attention训练么
还是说用普通的Attention训练出来的模型,也可以经过一些操作直接使用Multi-Query Attention
https://github.com/THUDM/ChatGLM2-6B/issues/81
· Sign up or log in to comment