2025 LLM Papers on Hugging Face with Japanese Memos
Paper • 2501.00958 • Published • 95Note VLM訓練用に2.5年間にわたる教育ビデオから構築された高品質なマルチモーダル教科書コーパスを作成。 上記を学習することで知識を必要とするタスクや推論を必要とするタスクで顕著な改善。特にfew-shot learningで精度向上。
ProgCo: Program Helps Self-Correction of Large Language Models
Paper • 2501.01264 • Published • 25Note Program-driven Self-Correction (プログラム駆動型自己修正手法)(ProgCo)を提案。 ProgCoは以下二つの方法で自己修正 - ProgVe: 入力に対して、LLMで検証用の擬似プログラムを生成しテスト - ProgRe: ProgVeから得られたフィードバックをもとに、LLMが自分の出力と検証プログラムの両方を見直し、修正
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
Paper • 2501.01957 • Published • 40Note Vision, Languageに加え、Speechを統合したマルチモーダル大規模言語モデル 従来のASRやTTSモジュールに依存せず、E2Eの音声出力を実現 https://github.com/VITA-MLLM/VITA
BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning
Paper • 2501.03226 • Published • 35Note ステップレベルのインコンテキスト学習を提案 従来のICLは問題全体に対する例を事前に提示していたが、BoostStepは推論過程で関連性の高い例をリアルタイムで与えて、推論に役立てる。 図はFigure 2, https://arxiv.org/pdf/2501.03226
MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models
Paper • 2501.02955 • Published • 40Note VLMのための動画ベンチマークセット、既存のVLMは細かい動作について理解度60%未満だった
LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token
Paper • 2501.03895 • Published • 48Note Vision Tokenを大幅に圧縮し、計算効率を向上させた大規模マルチモーダルモデル
Cosmos World Foundation Model Platform for Physical AI
Paper • 2501.03575 • Published • 63Note 世界モデルを構築できるプラットフォーム(物理的な現象を模倣する高品質な動画生成可能)
Agent Laboratory: Using LLM Agents as Research Assistants
Paper • 2501.04227 • Published • 77Note 文献レビュー、実験、報告書作成等、包括的な研究成果を支援。AI Scientistなどとは異なり、研究者が自身のアイデアを実現するための支援を行うことが目的。研究コストを84%削減。
Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though
Paper • 2501.04682 • Published • 83Note Meta Chain-of-Thought(Meta-CoT) 推論過程を明示的にモデル化し、プロセス監視や合成データ生成を行うことでCoTの精度を向上
An Empirical Study of Autoregressive Pre-training from Videos
Paper • 2501.05453 • Published • 36Note 動画から自己回帰型の事前学習(Meta) 動画の各フレームをトークン化し、次のトークンを予測するタスクを通じてモデルを訓練 トークン化にはdVAEやVQGANなどの手法が用いられている
Search-o1: Agentic Search-Enhanced Large Reasoning Models
Paper • 2501.05366 • Published • 75Note 大規模推論モデル(LRM)の知識の不足を補うための検索手法。エージェント型の情報検索と、取得した情報を精練するための「Reason-in-Documents」で情報を補う
Enhancing Human-Like Responses in Large Language Models
Paper • 2501.05032 • Published • 46Note 機械的で無機質な応答を減少させ、より人間らしい応答を達成するために、カジュアルな会話と構造化されたトピックベースの対話をバランスよく組み込んだデータセットでFT
Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model
Paper • 2501.05122 • Published • 18Note Centurio 多言語能力を持つ大規模視覚言語モデル(LVLM)の訓練戦略を体系的に調査 実験の結果、100言語を同時に訓練し、25〜50%の非英語データを使用することで、英語のパフォーマンスを維持しつつ多言語性能を大幅に向上させることが可能
VideoRAG: Retrieval-Augmented Generation over Video Corpus
Paper • 2501.05874 • Published • 61Note VideoRAG: 動画に適用したRAG。 Large Video Language Models(LVLMs)を活用し、動画のフレームや字幕などの情報を組み合わせて、回答を生成。 字幕がない場合はWhisperで文字起こし。 動画には時間的な変化や空間的な詳細が含まれているため、多様な情報を取得可能。
OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints
Paper • 2501.03841 • Published • 49Note 高レベルな推論能力を持つVLMとロボット操作を結びつける手法
LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs
Paper • 2501.06186 • Published • 55Note Vision系の推論における段階的な問題解決能力向上
Enabling Scalable Oversight via Self-Evolving Critic
Paper • 2501.05727 • Published • 64Note 自己進化的にLLMの自己批評能力を向上させる手法。
Transformer^2: Self-adaptive LLMs
Paper • 2501.06252 • Published • 46Note モデルの重み行列の特定の成分だけを選択的にチューニングでき、未知のタスクにリアルタイムで適応できるアーキテクチャ
MiniMax-01: Scaling Foundation Models with Lightning Attention
Paper • 2501.08313 • Published • 258