gpt-oss-20b-q5_0
Base: gpt-oss-20b-base
Adapter (fuso): my-legal-adapter-v1
Questo repository pubblica un file GGUF generato a partire dal modello fuso:
- gpt-oss_20b_finetuned_q5_0.gguf β Q5_0 (qualitΓ piΓΉ alta rispetto a Q4, con un costo RAM/latency maggiore)
Uso rapido
llama.cpp
./llama.cpp/main -m gpt-oss_20b_finetuned_q5_0.gguf -p "Ciao" # Q5_0
LM Studio
Importa il .gguf
nella sezione Local models e avvia una chat.
RAG legale β esempio (sub-sample JSON)
{
"messages": [
{
"role": "user",
"content": "Quali pratiche ha ClienteInesistente?"
},
{
"role": "assistant",
"content": "Mi dispiace, ma non ho trovato informazioni per la pratica richiesta. Verifica che l'ID o il nome siano corretti e che la pratica sia presente nel sistema."
}
]
}
Note tecniche
- Conversione Hugging Face β GGUF con
convert_hf_to_gguf.py
(llama.cpp). - Quantizzazione a Q5_0 con l'eseguibile
quantize
di llama.cpp. - La serializzazione in MXFP4 dopo il merge non Γ¨ supportata; tipicamente si passa da F16 a Q5_0.
Aggiornato: 2025-08-23
- Downloads last month
- 35
Hardware compatibility
Log In
to view the estimation
5-bit