onnx-community
/

Florence-2-base

Image-Text-to-Text

Transformers.js

text-generation

text2text-generation

Model card Files Files and versions

Xenova HF Staff commited on May 8

Commit

88d072b

·

verified ·

1 Parent(s): e8d0380

Update code snippet

Files changed (1) hide show

README.md +7 -9

README.md CHANGED Viewed

@@ -24,35 +24,33 @@ npm i @huggingface/transformers
 import {
     Florence2ForConditionalGeneration,
     AutoProcessor,
-    AutoTokenizer,
-    RawImage,
 } from '@huggingface/transformers';
 // Load model, processor, and tokenizer
 const model_id = 'onnx-community/Florence-2-base';
 const model = await Florence2ForConditionalGeneration.from_pretrained(model_id, { dtype: 'fp32' });
 const processor = await AutoProcessor.from_pretrained(model_id);
-const tokenizer = await AutoTokenizer.from_pretrained(model_id);
 // Load image and prepare vision inputs
 const url = 'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg';
-const image = await RawImage.fromURL(url);
-const vision_inputs = await processor(image);
 // Specify task and prepare text inputs
 const task = '<MORE_DETAILED_CAPTION>';
 const prompts = processor.construct_prompts(task);
-const text_inputs = tokenizer(prompts);
 // Generate text
 const generated_ids = await model.generate({
-    ...text_inputs,
-    ...vision_inputs,
     max_new_tokens: 100,
 });
 // Decode generated text
-const generated_text = tokenizer.batch_decode(generated_ids, { skip_special_tokens: false })[0];
 // Post-process the generated text
 const result = processor.post_process_generation(generated_text, task, image.size);

 import {
     Florence2ForConditionalGeneration,
     AutoProcessor,
+    load_image,
 } from '@huggingface/transformers';
 // Load model, processor, and tokenizer
 const model_id = 'onnx-community/Florence-2-base';
 const model = await Florence2ForConditionalGeneration.from_pretrained(model_id, { dtype: 'fp32' });
 const processor = await AutoProcessor.from_pretrained(model_id);
 // Load image and prepare vision inputs
 const url = 'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg';
+const image = await load_image(url);
 // Specify task and prepare text inputs
 const task = '<MORE_DETAILED_CAPTION>';
 const prompts = processor.construct_prompts(task);
+// Pre-process the image and text inputs
+const inputs = await processor(image, prompts);
 // Generate text
 const generated_ids = await model.generate({
+    ...inputs,
     max_new_tokens: 100,
 });
 // Decode generated text
+const generated_text = processor.batch_decode(generated_ids, { skip_special_tokens: false })[0];
 // Post-process the generated text
 const result = processor.post_process_generation(generated_text, task, image.size);