Improve model card: Add paper and benchmark GitHub links (#1)

Browse files

- Improve model card: Add paper and benchmark GitHub links (5c3a0db3db866bddd6626c2d9c3009a840db160f)

Co-authored-by: Niels Rogge <[email protected]>

Files changed (1) hide show

README.md +26 -204

README.md CHANGED Viewed

@@ -1,8 +1,14 @@
 ---
-task_categories:
-- visual-question-answering
 language:
 - en
 tags:
 - gguf
 - remyx
@@ -16,14 +22,9 @@ tags:
 - vision-language
 - distance-estimation
 - quantitative-spatial-reasoning
 pretty_name: SpaceOm-GGUF
-license: apache-2.0
-datasets:
-- remyxai/SpaceThinker
-base_model:
-- remyxai/SpaceOm
-pipeline_tag: image-text-to-text
-library_name: llama.cpp
 model-index:
 - name: SpaceOm
   results:
@@ -35,230 +36,51 @@ model-index:
       type: benchmark
     metrics:
     - type: success_rate
-      name: Overall Success Rate
       value: 0.5419
-    results_by_subcategory:
-    - name: 3D Positional Relation / Orientation
-      success_rate: 0.4877
-    - name: Object Localization / 3D Localization
-      success_rate: 0.6337
-    - name: Object Properties / Size
-      success_rate: 0.5043
-  - task:
-      type: visual-question-answering
-      name: Spatial Reasoning
-    dataset:
-      name: BLINK
-      type: benchmark
-    metrics:
-    - type: success_rate
       name: Overall Success Rate
-      value: 0.599
-    results_by_subcategory:
-    - name: 3D Positional Relation / Orientation
-      success_rate: 0.7972
-    - name: Counting / Object Counting
-      success_rate: 0.6167
-    - name: Depth and Distance / Relative
-      success_rate: 0.621
-    - name: Object Localization / 2D Localization
-      success_rate: 0.582
-    - name: Point and Object Tracking / Point Correspondence
-      success_rate: 0.3779
-  - task:
-      type: visual-question-answering
-      name: Spatial Reasoning
-    dataset:
-      name: MMIU
-      type: benchmark
-    metrics:
     - type: success_rate
       name: Overall Success Rate
-      value: 0.388
-    results_by_subcategory:
-    - name: Camera and Image Transformation / 2D Transformation
-      success_rate: 0.255
-    - name: Camera and Image Transformation / 3D Camera Pose
-      success_rate: 0.4
-    - name: Camera and Image Transformation / Camera Motion
-      success_rate: 0.4436
-    - name: Depth and Distance / Absolute
-      success_rate: 0.265
-    - name: Object Localization / 3D Localization
-      success_rate: 0.3625
-    - name: Point and Object Tracking / 3D Tracking
-      success_rate: 0.725
-    - name: Point and Object Tracking / Point Correspondence
-      success_rate: 0.265
-  - task:
-      type: visual-question-answering
-      name: Spatial Reasoning
-    dataset:
-      name: MMVP
-      type: benchmark
-    metrics:
     - type: success_rate
       name: Overall Success Rate
-      value: 0.5833
-    results_by_subcategory:
-    - name: Others / Miscellaneous
-      success_rate: 0.5833
-  - task:
-      type: visual-question-answering
-      name: Spatial Reasoning
-    dataset:
-      name: QSpatialBench-Plus
-      type: benchmark
-    metrics:
     - type: success_rate
       name: Overall Success Rate
-      value: 0.4455
-    results_by_subcategory:
-    - name: Depth and Distance / Absolute
-      success_rate: 0.4455
-  - task:
-      type: visual-question-answering
-      name: Spatial Reasoning
-    dataset:
-      name: QSpatialBench-ScanNet
-      type: benchmark
-    metrics:
     - type: success_rate
       name: Overall Success Rate
-      value: 0.4876
-    results_by_subcategory:
-    - name: Depth and Distance / Absolute
-      success_rate: 0.464
-    - name: Object Properties / Size
-      success_rate: 0.5111
-  - task:
-      type: visual-question-answering
-      name: Spatial Reasoning
-    dataset:
-      name: RealWorldQA
-      type: benchmark
-    metrics:
     - type: success_rate
       name: Overall Success Rate
-      value: 0.6105
-    results_by_subcategory:
-    - name: Others / Miscellaneous
-      success_rate: 0.6105
-  - task:
-      type: visual-question-answering
-      name: Spatial Reasoning
-    dataset:
-      name: SpatialSense
-      type: benchmark
-    metrics:
     - type: success_rate
       name: Overall Success Rate
-      value: 0.7043
-    results_by_subcategory:
-    - name: 3D Positional Relation / Orientation
-      success_rate: 0.7043
-  - task:
-      type: visual-question-answering
-      name: Spatial Reasoning
-    dataset:
-      name: VGBench
-      type: benchmark
-    metrics:
     - type: success_rate
       name: Overall Success Rate
-      value: 0.3504
-    results_by_subcategory:
-    - name: Camera and Image Transformation / 2D Transformation
-      success_rate: 0.2568
-    - name: Camera and Image Transformation / 3D Camera Pose
-      success_rate: 0.4371
-    - name: Depth and Distance / Absolute
-      success_rate: 0.3339
-    - name: Depth and Distance / Relative
-      success_rate: 0.32
-    - name: Object Localization / 3D Localization
-      success_rate: 0.4283
-    - name: Point and Object Tracking / 3D Tracking
-      success_rate: 0.3264
-  - task:
-      type: visual-question-answering
-      name: Spatial Reasoning
-    dataset:
-      name: VSI-Bench_8
-      type: benchmark
-    metrics:
     - type: success_rate
       name: Overall Success Rate
-      value: 0.2558
-    results_by_subcategory:
-    - name: 3D Positional Relation / Orientation
-      success_rate: 0.3998
-    - name: Counting / Object Counting
-      success_rate: 0.229
-    - name: Depth and Distance / Absolute
-      success_rate: 0.1562
-    - name: Depth and Distance / Relative
-      success_rate: 0.3648
-    - name: Object Properties / Size
-      success_rate: 0.1645
-    - name: Others / Miscellaneous
-      success_rate: 0.2204
-  - task:
-      type: visual-question-answering
-      name: Spatial Reasoning
-    dataset:
-      name: VSR-ZeroShot
-      type: benchmark
-    metrics:
     - type: success_rate
       name: Overall Success Rate
-      value: 0.8085
-    results_by_subcategory:
-    - name: 3D Positional Relation / Orientation
-      success_rate: 0.8085
-  - task:
-      type: visual-question-answering
-      name: Spatial Reasoning
-    dataset:
-      name: cvbench
-      type: benchmark
-    metrics:
     - type: success_rate
       name: Overall Success Rate
-      value: 0.6839
-    results_by_subcategory:
-    - name: Counting / Object Counting
-      success_rate: 0.6294
-    - name: Depth and Distance / Relative
-      success_rate: 0.7408
-    - name: Object Localization / 3D Localization
-      success_rate: 0.6815
-  - task:
-      type: visual-question-answering
-      name: Spatial Reasoning
-    dataset:
-      name: spatialbench
-      type: benchmark
-    metrics:
     - type: success_rate
       name: Overall Success Rate
       value: 0.6553
-    results_by_subcategory:
-    - name: 3D Positional Relation / Orientation
-      success_rate: 0.6765
-    - name: Counting / Object Counting
-      success_rate: 0.75
-    - name: Object Properties / Existence
-      success_rate: 0.925
-    - name: Object Properties / Reachability
-      success_rate: 0.55
-    - name: Object Properties / Size
-      success_rate: 0.375
 ---
 # SpaceOm
 **Model creator:** [remyxai](https://huggingface.co/remyxai)<br>
 **Original model**: [SpaceOm](https://huggingface.co/remyxai/SpaceOm)<br>
 **GGUF quantization:** `llama.cpp` commit [2baf07727f921d9a4a1b63a2eff941e95d0488ed](https://github.com/ggerganov/llama.cpp/tree/2baf07727f921d9a4a1b63a2eff941e95d0488ed)<br>

 ---
+base_model:
+- remyxai/SpaceOm
+datasets:
+- remyxai/SpaceThinker
 language:
 - en
+library_name: llama.cpp
+license: apache-2.0
+pipeline_tag: image-text-to-text
+paper: 2506.07966
 tags:
 - gguf
 - remyx
 - vision-language
 - distance-estimation
 - quantitative-spatial-reasoning
+task_categories:
+- visual-question-answering
 pretty_name: SpaceOm-GGUF
 model-index:
 - name: SpaceOm
   results:
       type: benchmark
     metrics:
     - type: success_rate
       value: 0.5419
       name: Overall Success Rate
     - type: success_rate
+      value: 0.599
       name: Overall Success Rate
     - type: success_rate
+      value: 0.388
       name: Overall Success Rate
     - type: success_rate
+      value: 0.5833
       name: Overall Success Rate
     - type: success_rate
+      value: 0.4455
       name: Overall Success Rate
     - type: success_rate
+      value: 0.4876
       name: Overall Success Rate
     - type: success_rate
+      value: 0.6105
       name: Overall Success Rate
     - type: success_rate
+      value: 0.7043
       name: Overall Success Rate
     - type: success_rate
+      value: 0.3504
       name: Overall Success Rate
     - type: success_rate
+      value: 0.2558
       name: Overall Success Rate
     - type: success_rate
+      value: 0.8085
       name: Overall Success Rate
     - type: success_rate
+      value: 0.6839
       name: Overall Success Rate
+    - type: success_rate
       value: 0.6553
+      name: Overall Success Rate
 ---
 # SpaceOm
+This model is evaluated in the paper [SpaCE-10: A Comprehensive Benchmark for Multimodal Large Language Models in Compositional Spatial Intelligence](https://huggingface.co/papers/2506.07966).
+The code for the SpaCE-10 benchmark is available at: https://github.com/Cuzyoung/SpaCE-10.
 **Model creator:** [remyxai](https://huggingface.co/remyxai)<br>
 **Original model**: [SpaceOm](https://huggingface.co/remyxai/SpaceOm)<br>
 **GGUF quantization:** `llama.cpp` commit [2baf07727f921d9a4a1b63a2eff941e95d0488ed](https://github.com/ggerganov/llama.cpp/tree/2baf07727f921d9a4a1b63a2eff941e95d0488ed)<br>