AI-paper - a shankars Collection

shankars 's Collections

AI-paper

updated about 2 hours ago

Describe What You See with Multimodal Large Language Models to Enhance Video Recommendations

Paper • 2508.09789 • Published 9 days ago • 4
MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents

Paper • 2508.13186 • Published 8 days ago • 15
ZARA: Zero-shot Motion Time-Series Analysis via Knowledge and Retrieval Driven LLM Agents

Paper • 2508.04038 • Published 17 days ago • 1
Prompt Orchestration Markup Language

Paper • 2508.13948 • Published 3 days ago • 34
MultiRef: Controllable Image Generation with Multiple Visual References

Paper • 2508.06905 • Published 13 days ago • 18
LongSplat: Robust Unposed 3D Gaussian Splatting for Casual Long Videos

Paper • 2508.14041 • Published 3 days ago • 47
Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic RL

Paper • 2508.13167 • Published 16 days ago • 98
Atom-Searcher: Enhancing Agentic Deep Research via Fine-Grained Atomic Thought Reward

Paper • 2508.12800 • Published 4 days ago • 4
Copyright Protection for Large Language Models: A Survey of Methods, Challenges, and Trends

Paper • 2508.11548 • Published 7 days ago • 5
Evaluating Podcast Recommendations with Profile-Aware LLM-as-a-Judge

Paper • 2508.08777 • Published 10 days ago • 12
Training-Free Text-Guided Color Editing with Multi-Modal Diffusion Transformer

Paper • 2508.09131 • Published 10 days ago • 13
MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers

Paper • 2508.14704 • Published 2 days ago • 24
From AI for Science to Agentic Science: A Survey on Autonomous Scientific Discovery

Paper • 2508.14111 • Published 4 days ago • 25
RynnEC: Bringing MLLMs into Embodied World

Paper • 2508.14160 • Published 3 days ago • 12
Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models

Paper • 2505.04921 • Published May 8 • 185
Evolving Deeper LLM Thinking

Paper • 2501.09891 • Published Jan 17 • 116
A Survey on Large Language Model Benchmarks

Paper • 2508.15361 • Published 1 day ago • 7
Deep Think with Confidence

Paper • 2508.15260 • Published 1 day ago • 21
ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding

Paper • 2501.05452 • Published Jan 9 • 15
VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models

Paper • 2504.15279 • Published Apr 21 • 75
Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities

Paper • 2406.14562 • Published Jun 20, 2024 • 29
LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs

Paper • 2501.06186 • Published Jan 10 • 66
Thinking with Generated Images

Paper • 2505.22525 • Published May 28 • 14