prithivMLmods
/

Lumian-VLR-7B-Thinking

Image-Text-to-Text

text-generation-inference

vision-language

grounded-visual-reasoning

Model card Files Files and versions

prithivMLmods commited on Sep 8

Commit

9041c1b

·

verified ·

1 Parent(s): eca4c3d

Update README.md

Files changed (1) hide show

README.md +1 -10

README.md CHANGED Viewed

@@ -150,16 +150,7 @@ print(output_text)
 ## References
 * **YaRN: Efficient Context Window Extension of Large Language Models**
-  [https://arxiv.org/pdf/2309.00071](https://arxiv.org/pdf/2309.00071)
 * **Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution**
-  [https://arxiv.org/pdf/2409.12191](https://arxiv.org/pdf/2409.12191)
 * **Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond**
-  [https://arxiv.org/pdf/2308.12966](https://arxiv.org/pdf/2308.12966)
 * **A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy**
-  [https://arxiv.org/pdf/2412.02210](https://arxiv.org/pdf/2412.02210)
-* **Ground-R1: Incentivizing Grounded Visual Reasoning via Reinforcement Learning**
-  [https://arxiv.org/pdf/2505.20272](https://arxiv.org/pdf/2505.20272)

 ## References
 * **YaRN: Efficient Context Window Extension of Large Language Models**
 * **Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution**
 * **Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond**
 * **A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy**
+* **Ground-R1: Incentivizing Grounded Visual Reasoning via Reinforcement Learning**