tanganke
/

clip-vit-large-patch14_dtd

Feature Extraction

clip_vision_model

Model card Files Files and versions

Model Card

Model Details

Architecture: ViT-Large with patch size 14
Training Data: DTD dataset

Training Details

Adam Optimizer with a constant learning rate 1e-5 for 4000 steps training (batch_size=32). Only the vision encoder is fine-tuned.

Evaluation Results

pre-trained: 0.554787278175354
fine-tuned: 0.8547872304916382

Downloads last month: 244

Safetensors

Model size

303M params

Tensor type

F32

·

Inference Providers NEW

Feature Extraction

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for tanganke/clip-vit-large-patch14_dtd

Base model

openai/clip-vit-large-patch14

Finetuned

(100)

this model

Dataset used to train tanganke/clip-vit-large-patch14_dtd

Collection including tanganke/clip-vit-large-patch14_dtd

CLIP-ViT-L/14 on the eight image classification tasks

if you find these models helpful, consider citing [our paper](https://arxiv.org/abs/2406.03280) • 9 items • Updated Aug 27, 2024