🦉 CodeSearch-ModernBERT-Owl-2.0-Plus

日本語版(Japanese)

Shuu12121/CodeSearch-ModernBERT-Owl-2.0-Plus は、マルチリンガルなコード理解・検索のために設計された CodeModernBERT-Owl 系列の最新事前学習モデルです。
本モデルは、VSCode拡張機能 OwlSpotlight にて使用されており、関数レベルの意味的コード検索を実現します。

🔧 特徴

  • 独自コーパスで事前学習
    CodeBERT (Feng et al., 2020) の約4倍の規模となる、完全独自収集の高品質なコード・docstringコーパスを用いて事前学習。

  • 8言語対応
    Python, Java, JavaScript, PHP, Ruby, Go, Rust に加えて、TypeScript を新たにサポート。

  • 長文対応(最大8192トークン)
    訓練時最大2048トークン、推論時には8192トークンまでの入力を処理可能(Position Embedding拡張済み)。

  • 徹底したノイズ除去・データクリーニング

    • Tree-sitter による関数・docstring抽出
    • 無意味な定型コメント・多言語ノイズの除去
    • シークレット・APIキーの自動マスキング
    • ライセンス記述の除外
    • 重複関数の除去によるリーク対策

📦 基本情報

項目 内容
モデル名 Shuu12121/CodeSearch-ModernBERT-Owl-2.0-Plus
モデルサイズ 約150Mパラメータ(ModernBERTベース)
対応言語 Python, Java, JavaScript, PHP, Ruby, Go, Rust, TypeScript
最大トークン長 学習時: 2048 / 推論時: 8192
トークナイザ 独自BPE(50,000語彙)

🚀 主な用途

  • 関数レベルの意味的コード検索(自然言語 → 関数コード)
  • コード補完・要約・分類・クローン検出などの下流タスク
  • Retrieval-Augmented Generation(RAG)における高精度なコード検索

🧪 利用例:VSCode拡張「OwlSpotlight

本モデルは、OwlSpotlight に組み込まれており、自然言語による直感的な関数検索が可能です。
🖥 Mac(Mシリーズ含む)上で軽量に動作し、開発中のコードベースに即座にインデックス作成・検索できます。


English Version

Shuu12121/CodeSearch-ModernBERT-Owl-2.0-Plus is the latest pretrained model in the multilingual CodeModernBERT-Owl series, designed for high-quality code understanding and semantic retrieval.

It powers the OwlSpotlight extension for VSCode, enabling fast and intuitive natural language to code search at the function level.

🔧 Highlights

  • Pretrained on a custom large-scale corpus
    The training corpus is ~4x larger than CodeBERT’s bimodal dataset and built entirely from scratch, ensuring high-quality code and documentation pairs.

  • Supports 8 programming languages
    Python, Java, JavaScript, PHP, Ruby, Go, Rust, and newly TypeScript.

  • Long-sequence input support
    Trained on sequences up to 2048 tokens, and extended to handle 8192 tokens at inference.

  • Robust data cleaning & filtering

    • Tree-sitter-based function/docstring extraction
    • Removal of templated or non-English comments
    • API key and secret masking
    • License-related content exclusion
    • Deduplication for data leakage prevention

📦 Model Specs

Item Detail
Name Shuu12121/CodeSearch-ModernBERT-Owl-2.0-Plus
Size ~150M parameters (ModernBERT backbone)
Supported Languages Python, Java, JavaScript, PHP, Ruby, Go, Rust, TypeScript
Max Token Length 2048 (train), 8192 (inference)
Tokenizer Custom BPE tokenizer (50k vocab)

🚀 Use Cases

  • Function-level semantic code search (natural language → code)
  • Code completion, summarization, classification, and clone detection
  • Retrieval for RAG systems

🧪 Real-World Use: OwlSpotlight

This model is used in the OwlSpotlight VSCode extension.
Search through your Python codebase using plain English and jump instantly to relevant functions with semantic understanding.
Tested and optimized for macOS (including Apple Silicon).

Downloads last month
716
Safetensors
Model size
152M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Shuu12121/CodeSearch-ModernBERT-Owl-2.0-Plus

Finetuned
(1)
this model