✨ EchoLLM

⚠️ Experimental model – early stage development
⚠️ Deneysel model – erken geliştirme aşamasında

Author / Geliştirici: Aydın DAĞLAR
Framework: PyTorch
License: Apache 2.0
Tags: experimental, transformer, moe, kv-memory, alibi, llm-research


📌 Overview (English)

EchoLLM is a modular transformer model that incorporates experimental techniques such as Performer attention, Mixture of Experts (MoE), persistent Key-Value Memory, and ALiBi positional biasing.

🔬 ⚠️ This model has not been trained yet.
It is currently in the architecture prototyping phase, and no official checkpoints or performance metrics are available.
The model is provided for research, experimentation, and extension purposes only.

Key experimental features:

  • Performer Attention – For scalable linear-time attention.
  • Mixture of Experts (MoE) – Dynamic expert selection for efficient learning.
  • Key-Value Memory – A module to retain context across long sequences.
  • ALiBi Positional Encoding – A non-embedding approach to sequence length flexibility.
  • Quantization and Pruning Ready – Designed for post-training optimization (optional).
  • Multi-format Export – Can be exported to .bin or .safetensors.

Usage is currently limited to architecture testing and static exports.


📌 Genel Bakış (Türkçe)

EchoLLM, Performer dikkat yapısı, Uzman Karışımı (MoE), Anahtar-Değer Hafızası ve ALiBi pozisyon kodlaması gibi deneysel bileşenleri içeren modüler bir transformer mimarisidir.

🔬 ⚠️ Bu model henüz eğitilmemiştir.
Şu anda yalnızca mimari prototip aşamasındadır.
Herhangi bir eğitilmiş ağırlık, doğruluk metrikleri ya da kullanım senaryosu mevcut değildir.

Öne çıkan deneysel özellikler:

  • Performer Dikkat – Uzun dizilerde verimli dikkat hesaplaması.
  • MoE – Token başına uzman seçimi ile hesaplama verimliliği.
  • KV Hafıza – Bağlamı uzun süreli olarak koruyabilen hafıza yapısı.
  • ALiBi Kodlama – Pozisyonel embedding yerine bias tabanlı esneklik.
  • Quantization & Pruning Desteği – Eğitim sonrası hafifletme için tasarlandı.
  • Çoklu Format Desteği.bin ve .safetensors çıktıları alınabilir.

Şu an yalnızca mimari test ve dışa aktarım amaçlı kullanılabilir.


🧠 Architecture Summary

Parametre Değer
Gizli Katman Boyutu 768
Katman Sayısı 12
Dikkat Kafası Sayısı 12
Feedforward Genişliği 3072
MoE Uzman Sayısı 4
Maksimum Pozisyon 2048 token
Sözlük Boyutu 32,000
Hafıza Kapasitesi 512 token
Quantization / Pruning Opsiyonel

🧑‍💻 Developed By

Aydın DAĞLAR
Design, prototyping, and modular engineering.

For feedback, collaboration, or updates, visit: [Hugging Face profile or GitHub link here]


📄 License

This project is licensed under the Apache 2.0 License.
Use freely for experimentation, but cite the author if you publish related work.


Downloads last month
5
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Dataset used to train aydndglr/EchoLLM-350M