Shuu12121 commited on
Commit
51e49ec
·
verified ·
1 Parent(s): af9d0a7

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +31 -3
README.md CHANGED
@@ -48,9 +48,14 @@ widget:
48
 
49
  This is a Sentence Transformer model based on `Shuu12121/CodeModernBERT-Crow`, fine-tuned for high performance on multilingual code search tasks.
50
 
51
- 開発者 (Developer): [Shuu12121](https://huggingface.co/Shuu12121)
52
- ベースモデル (Base Model): [Shuu12121/CodeModernBERT-Crow](https://huggingface.co/Shuu12121/CodeModernBERT-Crow)
53
- License: Apache-2.0
 
 
 
 
 
54
 
55
  ## 📊 MTEB Leaderboard 成績
56
 
@@ -68,6 +73,29 @@ License: Apache-2.0
68
 
69
 
70
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
71
  ## 概要 / Overview
72
 
73
  `CodeSearch-ModernBERT-Crow-Plus` は、自然言語のクエリと複数のプログラミング言語(Python, Java, JavaScript, PHP, Ruby, Go, Rust)のコードスニペット(主に関数レベル)間の意味的な類似性を捉えるために設計された Sentence Transformer モデルです。ベースモデルである `CodeModernBERT-Crow` の強力なコード理解能力を継承し、コード検索や類似性判定タスクに最適化されています。
 
48
 
49
  This is a Sentence Transformer model based on `Shuu12121/CodeModernBERT-Crow`, fine-tuned for high performance on multilingual code search tasks.
50
 
51
+ - 開発者 (Developer): [Shuu12121](https://huggingface.co/Shuu12121)
52
+ - ベースモデル (Base Model): [Shuu12121/CodeModernBERT-Crow](https://huggingface.co/Shuu12121/CodeModernBERT-Crow)
53
+ - License: Apache-2.0
54
+
55
+ [![Use on Colab](https://img.shields.io/badge/Run%20on-Colab-brightgreen?logo=googlecolab)](https://colab.research.google.com/github/Shun0212/CodeSearch-Crow/blob/main/CodeCrow_RAG.ipynb)
56
+ 👉 **[Google Colab 上で今すぐ試す](https://colab.research.google.com/github/Shun0212/CodeSearch-Crow/blob/main/CodeCrow_RAG.ipynb)**
57
+ このモデルを使った、**GitHubリポジトリの関数レベルコード検索システム**を簡単に試すことができます!
58
+
59
 
60
  ## 📊 MTEB Leaderboard 成績
61
 
 
73
 
74
 
75
 
76
+ ## 🧩 関連プロジェクトとの連携 / Integration with Related Projects
77
+
78
+ **CodeSearch-ModernBERT-Crow-Plus** は [CodeCrow_RAG.ipynb](https://colab.research.google.com/github/Shun0212/CodeSearch-Crow/blob/main/CodeCrow_RAG.ipynb) のように
79
+ **実際のGitHubリポジトリを対象とした、関数単位のコード検索システム**を簡単に構築できます。
80
+
81
+ このノートブックでは以下の処理が実行されます:
82
+
83
+ - GitHubリポジトリを指定してクローン
84
+ - `.py` または `.ipynb` ファイルから関数・コードセルを抽出
85
+ - 関数コードをエンベディング(Sentence Transformerモデルを使用)
86
+ - FAISSインデックスを作成して高速検索を可能に
87
+ - Qwen3-8B-FP8モデルによる**日本語→英語翻訳**を通じて、**日本語クエリでも自然な検索**を実現
88
+
89
+ ### 🔹 特徴
90
+ - **初回実行時**にインデックスを作成し、**以降は高速に再利用可能**
91
+ - **関数レベル**でコードを検索できるため、**意味的に最も類似するコードを高精度に検索**可能
92
+ - **日本語クエリにも完全対応**([Qwen3-8B-FP8](https://huggingface.co/Qwen/Qwen3-8B-FP8)で英語翻訳後に検索)
93
+
94
+ ---
95
+
96
+ ### 🔗 リンク
97
+ - 📄 実行可能なノートブック:[CodeCrow_RAG.ipynb](https://colab.research.google.com/github/Shun0212/CodeSearch-Crow/blob/main/CodeCrow_RAG.ipynb)
98
+
99
  ## 概要 / Overview
100
 
101
  `CodeSearch-ModernBERT-Crow-Plus` は、自然言語のクエリと複数のプログラミング言語(Python, Java, JavaScript, PHP, Ruby, Go, Rust)のコードスニペット(主に関数レベル)間の意味的な類似性を捉えるために設計された Sentence Transformer モデルです。ベースモデルである `CodeModernBERT-Crow` の強力なコード理解能力を継承し、コード検索や類似性判定タスクに最適化されています。