inclusionAI
/

Ring-flash-linear-2.0-GPTQ-int4

Text Generation

bailing_moe_linear

compressed-tensors

Model card Files Files and versions

caizhi1 commited on 27 days ago

Commit

a5f475b

·

verified ·

1 Parent(s): fec4864

Update README.md

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -55,7 +55,7 @@ tokenizer = AutoTokenizer.from_pretrained("inclusionAI/Ring-mini-linear-2.0-GPTQ
 sampling_params = SamplingParams(temperature=0.6, top_p=1.0, max_tokens=16384)
-llm = LLM(model="inclusionAI/Ring-mini-linear-2.0-GPTQ-int4", dtype='auto', enable_prefix_caching=False, max_num_seqs=128)
 prompt = "Give me a short introduction to large language models."

 sampling_params = SamplingParams(temperature=0.6, top_p=1.0, max_tokens=16384)
+llm = LLM(model="inclusionAI/Ring-flash-linear-2.0-GPTQ-int4", dtype='auto', enable_prefix_caching=False, max_num_seqs=128)
 prompt = "Give me a short introduction to large language models."