enalis
/

scold

@@ -27,7 +27,7 @@ This model is developed for **cross-modal retrieval**, **few-shot classification
 | Component        | Architecture                             |
 |------------------|-------------------------------------------|
-| Image Encoder    | Swin Base (patch4, window7, 224 resolution) |
 | Text Encoder     | RoBERTa-base                              |
 | Projection Head  | Linear layer (to 512-D space)             |
 | Normalization    | L2 on both embeddings                     |

 | Component        | Architecture                             |
 |------------------|-------------------------------------------|
+| Image Encoder    | Swin Tiny (patch4, window7, 224 resolution) |
 | Text Encoder     | RoBERTa-base                              |
 | Projection Head  | Linear layer (to 512-D space)             |
 | Normalization    | L2 on both embeddings                     |