Based on thirteenbit/madlad400-10b-mt-gguf but models are split using llama-gguf-split.

This way models can be loaded in WASM avoiding browsers 2GB ArrayBuffer size limit.

GGUF

Model size

10.7B params

Architecture

Hardware compatibility

3-bit

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support