File size: 3,540 Bytes
e9ba9ba |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 |
---
license: apache-2.0
datasets:
- aydndglr/Alfa_TR_Content
language:
- tr
pipeline_tag: text-classification
library_name: transformers
tags:
- experimental
- EchoLLM
- transformer
---
# ✨ EchoLLM
> ⚠️ *Experimental model – early stage development*
> ⚠️ *Deneysel model – erken geliştirme aşamasında*
**Author / Geliştirici:** Aydın DAĞLAR
**Framework:** PyTorch
**License:** Apache 2.0
**Tags:** `experimental`, `transformer`, `moe`, `kv-memory`, `alibi`, `llm-research`
---
## 📌 Overview (English)
**EchoLLM** is a modular transformer model that incorporates experimental techniques such as Performer attention, Mixture of Experts (MoE), persistent Key-Value Memory, and ALiBi positional biasing.
🔬 **⚠️ This model has not been trained yet.**
It is currently in the **architecture prototyping phase**, and no official checkpoints or performance metrics are available.
The model is provided for research, experimentation, and extension purposes only.
Key experimental features:
- **Performer Attention** – For scalable linear-time attention.
- **Mixture of Experts (MoE)** – Dynamic expert selection for efficient learning.
- **Key-Value Memory** – A module to retain context across long sequences.
- **ALiBi Positional Encoding** – A non-embedding approach to sequence length flexibility.
- **Quantization and Pruning Ready** – Designed for post-training optimization (optional).
- **Multi-format Export** – Can be exported to `.bin` or `.safetensors`.
**Usage is currently limited to architecture testing and static exports.**
---
## 📌 Genel Bakış (Türkçe)
**EchoLLM**, Performer dikkat yapısı, Uzman Karışımı (MoE), Anahtar-Değer Hafızası ve ALiBi pozisyon kodlaması gibi deneysel bileşenleri içeren modüler bir transformer mimarisidir.
🔬 **⚠️ Bu model henüz eğitilmemiştir.**
Şu anda yalnızca **mimari prototip** aşamasındadır.
Herhangi bir eğitilmiş ağırlık, doğruluk metrikleri ya da kullanım senaryosu mevcut değildir.
Öne çıkan deneysel özellikler:
- **Performer Dikkat** – Uzun dizilerde verimli dikkat hesaplaması.
- **MoE** – Token başına uzman seçimi ile hesaplama verimliliği.
- **KV Hafıza** – Bağlamı uzun süreli olarak koruyabilen hafıza yapısı.
- **ALiBi Kodlama** – Pozisyonel embedding yerine bias tabanlı esneklik.
- **Quantization & Pruning Desteği** – Eğitim sonrası hafifletme için tasarlandı.
- **Çoklu Format Desteği** – `.bin` ve `.safetensors` çıktıları alınabilir.
**Şu an yalnızca mimari test ve dışa aktarım amaçlı kullanılabilir.**
---
## 🧠 Architecture Summary
| Parametre | Değer |
|--------------------------|---------------|
| Gizli Katman Boyutu | 768 |
| Katman Sayısı | 12 |
| Dikkat Kafası Sayısı | 12 |
| Feedforward Genişliği | 3072 |
| MoE Uzman Sayısı | 4 |
| Maksimum Pozisyon | 2048 token |
| Sözlük Boyutu | 32,000 |
| Hafıza Kapasitesi | 512 token |
| Quantization / Pruning | Opsiyonel |
---
## 🧑💻 Developed By
**Aydın DAĞLAR**
Design, prototyping, and modular engineering.
> For feedback, collaboration, or updates, visit: [Hugging Face profile or GitHub link here]
---
## 📄 License
This project is licensed under the **Apache 2.0 License**.
Use freely for experimentation, but cite the author if you publish related work.
--- |