mosaicml
/

mpt-30b

@@ -89,7 +89,8 @@ import transformers
 name = 'mosaicml/mpt-30b'
 config = transformers.AutoConfig.from_pretrained(name, trust_remote_code=True)
-config.attn_config['attn_impl'] = 'torch'  # change this to use triton
 model = transformers.AutoModelForCausalLM.from_pretrained(
   name,

 name = 'mosaicml/mpt-30b'
 config = transformers.AutoConfig.from_pretrained(name, trust_remote_code=True)
+config.attn_config['attn_impl'] = 'triton'  # change this to use triton-based FlashAttention
+config.init_device = 'cuda:0' # For fast initialization directly on GPU!
 model = transformers.AutoModelForCausalLM.from_pretrained(
   name,