🦉 CodeSearch-ModernBERT-Owl-2.0-Plus
日本語版(Japanese)
Shuu12121/CodeSearch-ModernBERT-Owl-2.0-Plus は、マルチリンガルなコード理解・検索のために設計された CodeModernBERT-Owl 系列の最新事前学習モデルです。
本モデルは、VSCode拡張機能 OwlSpotlight にて使用されており、関数レベルの意味的コード検索を実現します。
🔧 特徴
独自コーパスで事前学習
CodeBERT (Feng et al., 2020) の約4倍の規模となる、完全独自収集の高品質なコード・docstringコーパスを用いて事前学習。8言語対応
Python, Java, JavaScript, PHP, Ruby, Go, Rust に加えて、TypeScript を新たにサポート。長文対応(最大8192トークン)
訓練時最大2048トークン、推論時には8192トークンまでの入力を処理可能(Position Embedding拡張済み)。徹底したノイズ除去・データクリーニング
- Tree-sitter による関数・docstring抽出
- 無意味な定型コメント・多言語ノイズの除去
- シークレット・APIキーの自動マスキング
- ライセンス記述の除外
- 重複関数の除去によるリーク対策
📦 基本情報
項目 | 内容 |
---|---|
モデル名 | Shuu12121/CodeSearch-ModernBERT-Owl-2.0-Plus |
モデルサイズ | 約150Mパラメータ(ModernBERTベース) |
対応言語 | Python, Java, JavaScript, PHP, Ruby, Go, Rust, TypeScript |
最大トークン長 | 学習時: 2048 / 推論時: 8192 |
トークナイザ | 独自BPE(50,000語彙) |
🚀 主な用途
- 関数レベルの意味的コード検索(自然言語 → 関数コード)
- コード補完・要約・分類・クローン検出などの下流タスク
- Retrieval-Augmented Generation(RAG)における高精度なコード検索
🧪 利用例:VSCode拡張「OwlSpotlight」
本モデルは、OwlSpotlight に組み込まれており、自然言語による直感的な関数検索が可能です。
🖥 Mac(Mシリーズ含む)上で軽量に動作し、開発中のコードベースに即座にインデックス作成・検索できます。
English Version
Shuu12121/CodeSearch-ModernBERT-Owl-2.0-Plus is the latest pretrained model in the multilingual CodeModernBERT-Owl series, designed for high-quality code understanding and semantic retrieval.
It powers the OwlSpotlight extension for VSCode, enabling fast and intuitive natural language to code search at the function level.
🔧 Highlights
Pretrained on a custom large-scale corpus
The training corpus is ~4x larger than CodeBERT’s bimodal dataset and built entirely from scratch, ensuring high-quality code and documentation pairs.Supports 8 programming languages
Python, Java, JavaScript, PHP, Ruby, Go, Rust, and newly TypeScript.Long-sequence input support
Trained on sequences up to 2048 tokens, and extended to handle 8192 tokens at inference.Robust data cleaning & filtering
- Tree-sitter-based function/docstring extraction
- Removal of templated or non-English comments
- API key and secret masking
- License-related content exclusion
- Deduplication for data leakage prevention
📦 Model Specs
Item | Detail |
---|---|
Name | Shuu12121/CodeSearch-ModernBERT-Owl-2.0-Plus |
Size | ~150M parameters (ModernBERT backbone) |
Supported Languages | Python, Java, JavaScript, PHP, Ruby, Go, Rust, TypeScript |
Max Token Length | 2048 (train), 8192 (inference) |
Tokenizer | Custom BPE tokenizer (50k vocab) |
🚀 Use Cases
- Function-level semantic code search (natural language → code)
- Code completion, summarization, classification, and clone detection
- Retrieval for RAG systems
🧪 Real-World Use: OwlSpotlight
This model is used in the OwlSpotlight VSCode extension.
Search through your Python codebase using plain English and jump instantly to relevant functions with semantic understanding.
Tested and optimized for macOS (including Apple Silicon).
- Downloads last month
- 716
Model tree for Shuu12121/CodeSearch-ModernBERT-Owl-2.0-Plus
Base model
Shuu12121/CodeModernBERT-Owl-2.0-Pre