Spaces:

TIGER-Lab
/

VideoEval-Pro

Running

App Files Files Community

tonymwt commited on 15 days ago

Commit

b0df3ae

1 Parent(s): f5427e3

update

Browse files

Files changed (1) hide show

results.jsonl +3 -3

results.jsonl CHANGED Viewed

@@ -1,3 +1,5 @@
 {"Models": "GPT-4o", "Model Size(B)": "-", "Frames": 256, "Type": "Proprietary", "URL": "https://openai.com/index/hello-gpt-4o/", "LP_Open": 39.4, "LP_MCQ": 64.8, "LR_Open": 23.1, "LR_MCQ": 62.6, "HP_Open": 26.4, "HP_MCQ": 42.1, "HR_Open": 29.2, "HR_MCQ": 50.4, "Overall_Open": 34.2, "Overall_MCQ": 59.5}
 {"Models": "Gemini-1.5-Flash", "Model Size(B)": "-", "Frames": 512, "Type": "Proprietary", "URL": "https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf", "LP_Open": 41.5, "LP_MCQ": 65.5, "LR_Open": 25.9, "LR_MCQ": 63.9, "HP_Open": 27.3, "HP_MCQ": 36.4, "HR_Open": 25.8, "HR_MCQ": 55.7, "Overall_Open": 35.1, "Overall_MCQ": 60.6}
 {"Models": "Gemini-2.5-Flash", "Model Size(B)": "-", "Frames": 256, "Type": "Proprietary", "URL": "https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/", "LP_Open": 42.4, "LP_MCQ": 64.1, "LR_Open": 30.6, "LR_MCQ": 65.3, "HP_Open": 25.6, "HP_MCQ": 33.9, "HR_Open": 26.9, "HR_MCQ": 54.2, "Overall_Open": 36.3, "Overall_MCQ": 59.3}
@@ -21,6 +23,4 @@
 {"Models": "Qwen2.5-VL", "Model Size(B)": "7", "Frames": 512, "Type": "Open-source", "URL": "https://arxiv.org/abs/2502.13923", "LP_Open": 33.9, "LP_MCQ": 51.7, "LR_Open": 15.6, "LR_MCQ": 48.3, "HP_Open": 24.8, "HP_MCQ": 31.4, "HR_Open": 17.8, "HR_MCQ": 39.8, "Overall_Open": 27.7, "Overall_MCQ": 46.9}
 {"Models": "MiMo-VL-SFT", "Model Size(B)": "7", "Frames": 512, "Type": "Open-source", "URL": "https://github.com/XiaomiMiMo/MiMo-VL/blob/main/MiMo-VL-Technical-Report.pdf", "LP_Open": 34.7, "LP_MCQ": 57.7, "LR_Open": 19.0, "LR_MCQ": 55.8, "HP_Open": 26.4, "HP_MCQ": 36.4, "HR_Open": 19.7, "HR_MCQ": 41.7, "Overall_Open": 29.1, "Overall_MCQ": 52.2}
 {"Models": "MiMo-VL-RL", "Model Size(B)": "7", "Frames": 512, "Type": "Open-source", "URL": "https://github.com/XiaomiMiMo/MiMo-VL/blob/main/MiMo-VL-Technical-Report.pdf", "LP_Open": 35.5, "LP_MCQ": 57.5, "LR_Open": 18.4, "LR_MCQ": 55.8, "HP_Open": 28.1, "HP_MCQ": 33.1, "HR_Open": 18.9, "HR_MCQ": 42.8, "Overall_Open": 29.5, "Overall_MCQ": 52.0}
-{"Models": "Video-XL-2", "Model Size(B)": "8", "Frames": 512, "Type": "Open-source", "URL": "https://github.com/VectorSpaceLab/Video-XL/tree/main/Video-XL-2", "LP_Open": 33.3, "LP_MCQ": 57.6, "LR_Open": 25.2, "LR_MCQ": 55.1, "HP_Open": 21.5, "HP_MCQ": 38.8, "HR_Open": 20.5, "HR_MCQ": 45.1, "Overall_Open": 28.6, "Overall_MCQ": 53.0}
-{"Models": "gemini-2.0-flash", "Model Size(B)": "-", "Frames": 512, "Type": "Proprietary", "URL": "https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/", "LP_Open": 43.6, "LP_MCQ": 69.0, "LR_Open": 27.9, "LR_MCQ": 58.5, "HP_Open": 27.3, "HP_MCQ": 42.1, "HR_Open": 30.7, "HR_MCQ": 53.8, "Overall_Open": 37.6, "Overall_MCQ": 62.1}
-{"Models": "gemini-2.5-pro", "Model Size(B)": "-", "Frames": 512, "Type": "Proprietary", "URL": "https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/", "LP_Open": 47.2, "LP_MCQ": 73.3, "LR_Open": 35.4, "LR_MCQ": 69.4, "HP_Open": 41.3, "HP_MCQ": 46.3, "HR_Open": 42.0, "HR_MCQ": 67.4, "Overall_Open": 44.2, "Overall_MCQ": 69.1}

+{"Models": "gemini-2.0-flash", "Model Size(B)": "-", "Frames": 512, "Type": "Proprietary", "URL": "https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/", "LP_Open": 43.6, "LP_MCQ": 69.0, "LR_Open": 27.9, "LR_MCQ": 58.5, "HP_Open": 27.3, "HP_MCQ": 42.1, "HR_Open": 30.7, "HR_MCQ": 53.8, "Overall_Open": 37.6, "Overall_MCQ": 62.1}
+{"Models": "gemini-2.5-pro", "Model Size(B)": "-", "Frames": 512, "Type": "Proprietary", "URL": "https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/", "LP_Open": 47.2, "LP_MCQ": 73.3, "LR_Open": 35.4, "LR_MCQ": 69.4, "HP_Open": 41.3, "HP_MCQ": 46.3, "HR_Open": 42.0, "HR_MCQ": 67.4, "Overall_Open": 44.2, "Overall_MCQ": 69.1}
 {"Models": "GPT-4o", "Model Size(B)": "-", "Frames": 256, "Type": "Proprietary", "URL": "https://openai.com/index/hello-gpt-4o/", "LP_Open": 39.4, "LP_MCQ": 64.8, "LR_Open": 23.1, "LR_MCQ": 62.6, "HP_Open": 26.4, "HP_MCQ": 42.1, "HR_Open": 29.2, "HR_MCQ": 50.4, "Overall_Open": 34.2, "Overall_MCQ": 59.5}
 {"Models": "Gemini-1.5-Flash", "Model Size(B)": "-", "Frames": 512, "Type": "Proprietary", "URL": "https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf", "LP_Open": 41.5, "LP_MCQ": 65.5, "LR_Open": 25.9, "LR_MCQ": 63.9, "HP_Open": 27.3, "HP_MCQ": 36.4, "HR_Open": 25.8, "HR_MCQ": 55.7, "Overall_Open": 35.1, "Overall_MCQ": 60.6}
 {"Models": "Gemini-2.5-Flash", "Model Size(B)": "-", "Frames": 256, "Type": "Proprietary", "URL": "https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/", "LP_Open": 42.4, "LP_MCQ": 64.1, "LR_Open": 30.6, "LR_MCQ": 65.3, "HP_Open": 25.6, "HP_MCQ": 33.9, "HR_Open": 26.9, "HR_MCQ": 54.2, "Overall_Open": 36.3, "Overall_MCQ": 59.3}
 {"Models": "Qwen2.5-VL", "Model Size(B)": "7", "Frames": 512, "Type": "Open-source", "URL": "https://arxiv.org/abs/2502.13923", "LP_Open": 33.9, "LP_MCQ": 51.7, "LR_Open": 15.6, "LR_MCQ": 48.3, "HP_Open": 24.8, "HP_MCQ": 31.4, "HR_Open": 17.8, "HR_MCQ": 39.8, "Overall_Open": 27.7, "Overall_MCQ": 46.9}
 {"Models": "MiMo-VL-SFT", "Model Size(B)": "7", "Frames": 512, "Type": "Open-source", "URL": "https://github.com/XiaomiMiMo/MiMo-VL/blob/main/MiMo-VL-Technical-Report.pdf", "LP_Open": 34.7, "LP_MCQ": 57.7, "LR_Open": 19.0, "LR_MCQ": 55.8, "HP_Open": 26.4, "HP_MCQ": 36.4, "HR_Open": 19.7, "HR_MCQ": 41.7, "Overall_Open": 29.1, "Overall_MCQ": 52.2}
 {"Models": "MiMo-VL-RL", "Model Size(B)": "7", "Frames": 512, "Type": "Open-source", "URL": "https://github.com/XiaomiMiMo/MiMo-VL/blob/main/MiMo-VL-Technical-Report.pdf", "LP_Open": 35.5, "LP_MCQ": 57.5, "LR_Open": 18.4, "LR_MCQ": 55.8, "HP_Open": 28.1, "HP_MCQ": 33.1, "HR_Open": 18.9, "HR_MCQ": 42.8, "Overall_Open": 29.5, "Overall_MCQ": 52.0}
+{"Models": "Video-XL-2", "Model Size(B)": "8", "Frames": 512, "Type": "Open-source", "URL": "https://github.com/VectorSpaceLab/Video-XL/tree/main/Video-XL-2", "LP_Open": 33.3, "LP_MCQ": 57.6, "LR_Open": 25.2, "LR_MCQ": 55.1, "HP_Open": 21.5, "HP_MCQ": 38.8, "HR_Open": 20.5, "HR_MCQ": 45.1, "Overall_Open": 28.6, "Overall_MCQ": 53.0}