Training in progress, epoch 1
Browse files
README.md
CHANGED
@@ -39,69 +39,25 @@ should probably proofread and complete it, then remove this comment. -->
|
|
39 |
|
40 |
# cv_animals
|
41 |
|
42 |
-
|
43 |
-
|
44 |
-
|
45 |
-
Dieses Modell ist ein feingetuntes Vision Transformer (ViT) Modell, das auf dem vortrainierten [google/vit-base-patch16-224](https://huggingface.co/google/vit-base-patch16-224) basiert. Es wurde speziell für die Klassifikation von Bildern in 90 verschiedene Tierklassen trainiert. Die zugrunde liegenden Daten stammen aus dem öffentlich verfügbaren Animal Image Dataset, das Bilder aus Google aggregiert.
|
46 |
-
|
47 |
-
Das Modell eignet sich für Anwendungen, bei denen Tiere auf Fotos automatisch erkannt und klassifiziert werden sollen. Typische Einsatzgebiete sind beispielsweise:
|
48 |
-
|
49 |
-
- automatisierte Artenbestimmung,
|
50 |
-
- bildgestützte Tierdatenerfassung in Forschung und Lehre,
|
51 |
-
- edukative oder interaktive Anwendungen (z. B. in Museen oder Apps).
|
52 |
-
|
53 |
-
Folgende Resultate werden generiert:
|
54 |
- Loss: 0.0833
|
55 |
- Accuracy: 0.9870
|
56 |
|
57 |
-
##
|
58 |
-
|
59 |
-
### Vorgesehene Verwendungen
|
60 |
|
61 |
-
|
62 |
-
- Bildbasierte Tiererkennung in Anwendungen wie Lernplattformen, mobilen Apps, oder interaktiven Tools
|
63 |
-
- Unterstützung bei biologischer Arterkennung (z. B. für Bildungsprojekte oder Citizen Science)
|
64 |
-
- Vergleich von Transfer-Learning-Modellen mit Zero-Shot-Modellen (z. B. CLIP)
|
65 |
|
66 |
-
|
67 |
|
68 |
-
|
69 |
-
- Das Modell wurde nur mit Bildern aus dem Kaggle-Datensatz trainiert – es ist nicht garantiert, dass es bei anderen Tierarten oder in freier Wildbahn korrekt klassifiziert
|
70 |
-
- Mehrdeutige oder unklare Bilder (z. B. mit mehreren Tieren, Zeichnungen, Verdeckungen) können zu falschen Vorhersagen führen
|
71 |
-
- Keine Garantien für den professionellen oder medizinischen Einsatz
|
72 |
|
73 |
## Training and evaluation data
|
74 |
|
75 |
-
|
76 |
-
|
77 |
-
Anzahl Bilder: 5.400
|
78 |
-
|
79 |
-
Klassen: 90 Tierarten (z. B. Hund, Katze, Elefant, Biene, Löwe etc.)
|
80 |
-
|
81 |
-
Aufteilung:
|
82 |
-
|
83 |
-
80 % Training (4.320 Bilder)
|
84 |
-
|
85 |
-
10 % Validierung (540 Bilder)
|
86 |
-
|
87 |
-
10 % Test (540 Bilder)
|
88 |
-
|
89 |
-
### Augmentierungen
|
90 |
-
Zur Verbesserung der Generalisierbarkeit wurden folgende Transformationen auf die Trainingsbilder angewendet:
|
91 |
-
|
92 |
-
RandomHorizontalFlip() – zufälliges horizontales Spiegeln
|
93 |
-
|
94 |
-
RandomRotation(25) – zufällige Drehung um ±25°
|
95 |
-
|
96 |
-
ColorJitter() – zufällige Helligkeits-, Kontrast-, Sättigungs- und Farbtonänderungen
|
97 |
|
98 |
## Training procedure
|
99 |
|
100 |
-
Das Modell basiert auf Vision Transformer (ViT) mit der Architektur:
|
101 |
-
google/vit-base-patch16-224, einem vortrainierten Modell auf ImageNet-21k.
|
102 |
-
|
103 |
-
Für das Transfer Learning wurde ausschliesslich der Klassifikationskopf (classifier) neu initialisiert und trainiert, während alle anderen Modellparameter eingefroren wurden (requires_grad=False), um die vortrainierten Features optimal zu nutzen.
|
104 |
-
|
105 |
### Training hyperparameters
|
106 |
|
107 |
The following hyperparameters were used during training:
|
|
|
39 |
|
40 |
# cv_animals
|
41 |
|
42 |
+
This model is a fine-tuned version of [google/vit-base-patch16-224](https://huggingface.co/google/vit-base-patch16-224) on the animals dataset.
|
43 |
+
It achieves the following results on the evaluation set:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
44 |
- Loss: 0.0833
|
45 |
- Accuracy: 0.9870
|
46 |
|
47 |
+
## Model description
|
|
|
|
|
48 |
|
49 |
+
More information needed
|
|
|
|
|
|
|
50 |
|
51 |
+
## Intended uses & limitations
|
52 |
|
53 |
+
More information needed
|
|
|
|
|
|
|
54 |
|
55 |
## Training and evaluation data
|
56 |
|
57 |
+
More information needed
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
58 |
|
59 |
## Training procedure
|
60 |
|
|
|
|
|
|
|
|
|
|
|
61 |
### Training hyperparameters
|
62 |
|
63 |
The following hyperparameters were used during training:
|
model.safetensors
CHANGED
@@ -1,3 +1,3 @@
|
|
1 |
version https://git-lfs.github.com/spec/v1
|
2 |
-
oid sha256:
|
3 |
size 343494672
|
|
|
1 |
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:01c8eba869d81224cdcd1601d25151a93aaa4a939e61479f4fde1cbae80ed91a
|
3 |
size 343494672
|
runs/Jun01_04-17-38_ip-10-192-12-140/events.out.tfevents.1748751467.ip-10-192-12-140.2205.0
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:b1b8356104670785132311c0c084138aa2510c6102214636258cea4f046d9205
|
3 |
+
size 9203
|
training_args.bin
CHANGED
@@ -1,3 +1,3 @@
|
|
1 |
version https://git-lfs.github.com/spec/v1
|
2 |
-
oid sha256:
|
3 |
size 5368
|
|
|
1 |
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:02542a35597f69a75766f084b375dd83945042cf11ae6dbb02b237b212da3f83
|
3 |
size 5368
|