Dalmatiner commited on
Commit
ae79e5d
·
verified ·
1 Parent(s): 4c3695e

Training in progress, epoch 1

Browse files
README.md CHANGED
@@ -39,69 +39,25 @@ should probably proofread and complete it, then remove this comment. -->
39
 
40
  # cv_animals
41
 
42
-
43
- ## Model description
44
-
45
- Dieses Modell ist ein feingetuntes Vision Transformer (ViT) Modell, das auf dem vortrainierten [google/vit-base-patch16-224](https://huggingface.co/google/vit-base-patch16-224) basiert. Es wurde speziell für die Klassifikation von Bildern in 90 verschiedene Tierklassen trainiert. Die zugrunde liegenden Daten stammen aus dem öffentlich verfügbaren Animal Image Dataset, das Bilder aus Google aggregiert.
46
-
47
- Das Modell eignet sich für Anwendungen, bei denen Tiere auf Fotos automatisch erkannt und klassifiziert werden sollen. Typische Einsatzgebiete sind beispielsweise:
48
-
49
- - automatisierte Artenbestimmung,
50
- - bildgestützte Tierdatenerfassung in Forschung und Lehre,
51
- - edukative oder interaktive Anwendungen (z. B. in Museen oder Apps).
52
-
53
- Folgende Resultate werden generiert:
54
  - Loss: 0.0833
55
  - Accuracy: 0.9870
56
 
57
- ## Intended uses & limitations
58
-
59
- ### Vorgesehene Verwendungen
60
 
61
- Dieses Modell wurde für die Bildklassifikation von Tieren in 90 Kategorien entwickelt. Es eignet sich insbesondere für:
62
- - Bildbasierte Tiererkennung in Anwendungen wie Lernplattformen, mobilen Apps, oder interaktiven Tools
63
- - Unterstützung bei biologischer Arterkennung (z. B. für Bildungsprojekte oder Citizen Science)
64
- - Vergleich von Transfer-Learning-Modellen mit Zero-Shot-Modellen (z. B. CLIP)
65
 
66
- ### Einschränkungen
67
 
68
- - Die Vorhersagen sind stark abhängig von Bildqualität und Perspektive
69
- - Das Modell wurde nur mit Bildern aus dem Kaggle-Datensatz trainiert – es ist nicht garantiert, dass es bei anderen Tierarten oder in freier Wildbahn korrekt klassifiziert
70
- - Mehrdeutige oder unklare Bilder (z. B. mit mehreren Tieren, Zeichnungen, Verdeckungen) können zu falschen Vorhersagen führen
71
- - Keine Garantien für den professionellen oder medizinischen Einsatz
72
 
73
  ## Training and evaluation data
74
 
75
- Datensatz: Animal Image Dataset - 90 different animals
76
-
77
- Anzahl Bilder: 5.400
78
-
79
- Klassen: 90 Tierarten (z. B. Hund, Katze, Elefant, Biene, Löwe etc.)
80
-
81
- Aufteilung:
82
-
83
- 80 % Training (4.320 Bilder)
84
-
85
- 10 % Validierung (540 Bilder)
86
-
87
- 10 % Test (540 Bilder)
88
-
89
- ### Augmentierungen
90
- Zur Verbesserung der Generalisierbarkeit wurden folgende Transformationen auf die Trainingsbilder angewendet:
91
-
92
- RandomHorizontalFlip() – zufälliges horizontales Spiegeln
93
-
94
- RandomRotation(25) – zufällige Drehung um ±25°
95
-
96
- ColorJitter() – zufällige Helligkeits-, Kontrast-, Sättigungs- und Farbtonänderungen
97
 
98
  ## Training procedure
99
 
100
- Das Modell basiert auf Vision Transformer (ViT) mit der Architektur:
101
- google/vit-base-patch16-224, einem vortrainierten Modell auf ImageNet-21k.
102
-
103
- Für das Transfer Learning wurde ausschliesslich der Klassifikationskopf (classifier) neu initialisiert und trainiert, während alle anderen Modellparameter eingefroren wurden (requires_grad=False), um die vortrainierten Features optimal zu nutzen.
104
-
105
  ### Training hyperparameters
106
 
107
  The following hyperparameters were used during training:
 
39
 
40
  # cv_animals
41
 
42
+ This model is a fine-tuned version of [google/vit-base-patch16-224](https://huggingface.co/google/vit-base-patch16-224) on the animals dataset.
43
+ It achieves the following results on the evaluation set:
 
 
 
 
 
 
 
 
 
 
44
  - Loss: 0.0833
45
  - Accuracy: 0.9870
46
 
47
+ ## Model description
 
 
48
 
49
+ More information needed
 
 
 
50
 
51
+ ## Intended uses & limitations
52
 
53
+ More information needed
 
 
 
54
 
55
  ## Training and evaluation data
56
 
57
+ More information needed
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
58
 
59
  ## Training procedure
60
 
 
 
 
 
 
61
  ### Training hyperparameters
62
 
63
  The following hyperparameters were used during training:
model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:5c8dbe3b48a8e7a65485c4f0cd6c150c0e04b7c6a7eeb7841eb45b65b1d9b362
3
  size 343494672
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:01c8eba869d81224cdcd1601d25151a93aaa4a939e61479f4fde1cbae80ed91a
3
  size 343494672
runs/Jun01_04-17-38_ip-10-192-12-140/events.out.tfevents.1748751467.ip-10-192-12-140.2205.0 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b1b8356104670785132311c0c084138aa2510c6102214636258cea4f046d9205
3
+ size 9203
training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:66fa0a33e6cf7dc39b3ce2ac305107a71d58c5e9ae20fb323b2d574fe6f7444e
3
  size 5368
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:02542a35597f69a75766f084b375dd83945042cf11ae6dbb02b237b212da3f83
3
  size 5368