lioushz's picture

11 10

lioushz

Shz

·

AI & ML interests

None yet

Recent Activity

updated a model about 1 hour ago

opencompass/CompassVerifier-32B

published a model about 4 hours ago

opencompass/CompassVerifier-32B

updated a collection about 15 hours ago

CompassVerifier

View all activity

Organizations

upvoted a collection about 15 hours ago

CompassVerifier

CompassVerifier: A Unified and Robust Verifier for Large Language Models • 3 items • Updated about 15 hours ago • 1

upvoted a paper about 24 hours ago

Coding Triangle: How Does Large Language Model Understand Code?

Paper • 2507.06138 • Published 1 day ago • 15

upvoted a paper about 1 month ago

Deciphering Trajectory-Aided LLM Reasoning: An Optimization Perspective

Paper • 2505.19815 • Published May 26 • 37

upvoted 2 papers 4 months ago

Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM

Paper • 2503.14478 • Published Mar 18 • 48

OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference

Paper • 2502.18411 • Published Feb 25 • 73

upvoted a paper 7 months ago

Are Your LLMs Capable of Stable Reasoning?

Paper • 2412.13147 • Published Dec 17, 2024 • 95

upvoted a paper 9 months ago

CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution

Paper • 2410.16256 • Published Oct 21, 2024 • 61

upvoted a paper 10 months ago

HelloBench: Evaluating Long Text Generation Capabilities of Large Language Models

Paper • 2409.16191 • Published Sep 24, 2024 • 43

upvoted a paper 12 months ago

NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window?

Paper • 2407.11963 • Published Jul 16, 2024 • 45

upvoted 2 papers about 1 year ago

MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding

Paper • 2406.14515 • Published Jun 20, 2024 • 34

Prism: A Framework for Decoupling and Assessing the Capabilities of VLMs

Paper • 2406.14544 • Published Jun 20, 2024 • 36