vlad-m-dev
/

mobilenetv2_doc_photo_quant

Model card Files Files and versions

xet

Community

vlad-m-dev commited on Jun 15

Commit

f566f88

verified ·

1 Parent(s): 47a0852

Update README.md

Browse files

Files changed (1) hide show

README.md +36 -26

README.md CHANGED Viewed

@@ -28,65 +28,75 @@ tags:
   - offline
   - privacy
   - fast
 ---
 # MobileNetV2 — ONNX, Quantized
-### 🔥 Класична мобільна модель для **класифікації зображень** на дві категорії:
-- **`document`** (документи: скани, чеки, папери)
-- **`photo`** (звичайні фотографії з телефона, сцени, люди, природа)
 ---
-## 🟢 Основне
-- **Модель створена спеціально для мобільних пристроїв** (телефонів і планшетів, Android/iOS), ідеальна для real-time inference прямо на пристрої!
-- Архітектура: **MobileNetV2**
-- Формат: **ONNX** (є float32 та квантизована int8 версія)
-- Навчалась на збалансованих open-source датасетах з реальними документами та фото.
-- Підходить для задач:
-  - Детекція документів у галереї
-  - Класифікація скріншотів, чеків, фото, pdf preview і т.д.
-  - Сортування зображень для приватних AI-асистентів, офлайн-класифікація
 ---
-## 🏷️ Класи моделі
 - **0** — `document`
 - **1** — `photo`
 ---
-## ⚡️ Версії
-- `mobilenetv2_doc_photo.onnx` — звичайна float32, максимальна точність, ідеально для AI на ARM/CPU
-- `mobilenetv2_doc_photo_quant.onnx` — квантизована int8, ще швидше, ще менше (ідеально для low-power девайсів!)
 ---
-## 🚀 Чому ця модель?
-- **Мала вага** швидкість inference <100ms на середньому телефоні
-- **Працює офлайн** (privacy, без REST-запитів!)
-- **Легко інтегрується** у будь-який фреймворк, включаючи React Native (`onnxruntime-react-native`), Android (ONNX Runtime), iOS.
 ---
-## 🗃️ Датасети
-- **Фото**: [alfredplpl/Japanese-photos](https://huggingface.co/datasets/alfredplpl/Japanese-photos)
-- **Документи**: [3sara/colpali_italian_documents](https://huggingface.co/datasets/3sara/colpali_italian_documents)
 ---
-## 🛠️ Як використати
 ```python
 import onnxruntime as ort
 import numpy as np
 session = ort.InferenceSession("mobilenetv2_doc_photo_quant.onnx")
-img = np.random.randn(1, 3, 224, 224).astype(np.float32)  # Сюди своє зображення!
 output = session.run(None, {"input": img})
 pred_class = np.argmax(output[0])
-print(pred_class)  # 0 — document, 1 — photo

   - offline
   - privacy
   - fast
+  - android
+  - ios
+  - gallery
 ---
 # MobileNetV2 — ONNX, Quantized
+### 🔥 Lightweight mobile model for **image classification** into two categories:
+- **`document`** (scans, receipts, papers, invoices)
+- **`photo`** (regular phone photos: scenes, people, nature, etc.)
 ---
+## 🟢 Overview
+- **Designed for mobile devices** (phones and tablets, Android/iOS), perfect for real-time on-device inference!
+- Architecture: **MobileNetV2**
+- Format: **ONNX** (both float32 and quantized int8 versions included)
+- Trained on balanced, real-world open-source datasets for both documents and photos.
+- Ideal for tasks like:
+  - Document detection in gallery/camera rolls
+  - Screenshot, receipt, photo, and PDF preview classification
+  - Image sorting for privacy-first offline AI assistants
 ---
+## 🏷️ Model Classes
 - **0** — `document`
 - **1** — `photo`
 ---
+## ⚡️ Versions
+- `mobilenetv2_doc_photo.onnx` — Standard float32 for maximum accuracy (best for ARM/CPU)
+- `mobilenetv2_doc_photo_quant.onnx` — Quantized int8 for even faster inference and smaller file size (best for low-power or edge devices)
 ---
+## 🚀 Why this model?
+- **Ultra-small size** (~10-15MB), real-time inference (<100ms) on most phones
+- **Runs 100% offline** (privacy, no cloud required)
+- **Easy integration** with any framework, including React Native (`onnxruntime-react-native`), Android (ONNX Runtime), and iOS.
 ---
+## 🗃️ Datasets
+- **Photos:** [alfredplpl/Japanese-photos](https://huggingface.co/datasets/alfredplpl/Japanese-photos)
+- **Documents:** [3sara/colpali_italian_documents](https://huggingface.co/datasets/3sara/colpali_italian_documents)
 ---
+## 🛠️ Usage Example
 ```python
 import onnxruntime as ort
 import numpy as np
 session = ort.InferenceSession("mobilenetv2_doc_photo_quant.onnx")
+img = np.random.randn(1, 3, 224, 224).astype(np.float32)  # Replace with your image preprocessing!
 output = session.run(None, {"input": img})
 pred_class = np.argmax(output[0])
+print(pred_class)  # 0 = document, 1 = photo
+---
+## 🤖 Author
+@vlad-m-dev
+Built for edge-ai/phone/tablet offline image classification: document vs photo
+Telegram: https://t.me/dwight_schrute_engineer