kaisugi commited on
Commit
ffb2a92
·
1 Parent(s): 679d03d

update data

Browse files
Files changed (3) hide show
  1. anlp2025.npz +2 -2
  2. anlp2025.tsv +4 -5
  3. prepare_pool.py +2 -2
anlp2025.npz CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:eaa1f373da6533b07ea6142a8a8266ae85175c4e86b4a5cc5dcd008b6ec2c2c1
3
- size 5576968
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f079a074011db7ab2aedabfaf5c233d6a3ef00b127e99e432c2918f8bbf95934
3
+ size 5569800
anlp2025.tsv CHANGED
@@ -15,7 +15,7 @@ C1-2 日本語創造性ベンチマークの構築
15
  C1-3 The KISTEC: 日本の大学生の発話データに基づく英語学習者話し言葉コーパスの構築
16
  C1-4 SNSからの重要意見抽出のためのデータセット構築及びLLMによる分類検証
17
  C1-5 Swallowコーパスv2: 教育的な日本語ウェブコーパスの構築
18
- C1-6 日本経済新聞記事オープンコーパス』と『日本語話し言葉コーパス』語義と読みの対応表の作成
19
  D1-1 ガウス過程による埋め込み点集合の時間遷移のモデル化
20
  D1-2 Transformerデコーダモデルを利用した日本語意味役割において,特徴量抽出位置およびAttention Maskの形状が与える影響
21
  D1-3 Enhancing Fake News Detection through Consistency Contrastive Learning with MLP-Mixer
@@ -76,7 +76,6 @@ Q1-21 SciGA: 学術論文における Graphical Abstract 設計支援のため
76
  Q1-22 否定の観点からみた日本語言語理解ベンチマークの評価
77
  Q1-23J オンライン誹謗中傷検出に向けた裁判例データセット
78
  Q1-24J MATCHA:専門家が平易化した記事を用いたやさしい日本語パラレルコーパス
79
- Q1-25J NAIST Simultaneous Interpretation Corpus: Development and Analyses of Data from Interpreters of Different Levels
80
  A2-1 大規模言語モデルにおける複数の指示追従成功率を個々の指示追従成功率から推定する
81
  A2-2 オープン日本語LLMリーダーボードの構築と評価結果の分析
82
  A2-3 pfgen-bench: 日本語事前学習モデルのための文章生成性能評価ベンチマーク
@@ -94,8 +93,7 @@ C2-2 否定語の影響と単語の重要度を考慮した近似VADスコアに
94
  C2-3 BERTに基づいたRussell円環モデルの感情分析
95
  C2-4 ビジネス文書を対象とした大規模言語モデルを用いた読み手にストレスを与える文章の検出
96
  C2-5 自動プロンプト最適化は個人的選好の予測精度を向上させるか?
97
- C2-6 大規模言語モデルによる感情分析を用いたデータの品質検証と文章校正
98
- D2-1 大規模言語モデルを用いた我が国の対米外交における調書作成支援システム
99
  D2-2 GPT2モデルを用いた感情を考慮する日本語対話生成
100
  D2-3 日本語日常二人会話における参与者の頷きと共起する発話
101
  D2-4 大規模言語モデルを用いた実世界タスク指向対話におけるICL・ファインチューニングの効果の検証
@@ -321,7 +319,7 @@ B5-1 Point-of-Interest 推薦ための少数事例選択
321
  B5-2 関数単位の修正箇所特定によるリポジトリレベルのバグ修正
322
  B5-3 多言語音声転写アプリとAIによる外国語授業の自己分析―Multilingual Voice-to-Text Appの開発
323
  B5-4 ソフトウェア高速化を対象としたLLMとSLMの言語処理特性
324
- B5-5 グライスの環境とグライスの外
325
  B5-6 ChatGPTを活用した高知県観光支援システムの構築
326
  C5-1 トラッキングデータからのサッカー実況生成
327
  C5-2 拡散モデルを用いたテキスト生成における「崩壊問題」と時刻埋め込みの影響
@@ -543,6 +541,7 @@ Q7-20 農林業基準技術に含まれる表を対象としたPDF から CSV
543
  Q7-21 新型コロナワクチンをめぐるTwitter上の話題変化:テキスト精読と頻出単語分析による仮説構築とその検証
544
  Q7-22 農林業基準技術文書を対象としたPDF解析ツールの表構造認識の性能評価
545
  Q7-23J クイズコンペティションの結果分析から見た日本語質問応答の到達点と課題
 
546
  A8-1 似た単語の知識ニューロンは似た形成過程を経る
547
  A8-2 多角的な評価から大規模言語モデルにおける事実知識の想起の要因分析
548
  A8-3 心理測定テストに関するLLMのメタ知識の検証
 
15
  C1-3 The KISTEC: 日本の大学生の発話データに基づく英語学習者話し言葉コーパスの構築
16
  C1-4 SNSからの重要意見抽出のためのデータセット構築及びLLMによる分類検証
17
  C1-5 Swallowコーパスv2: 教育的な日本語ウェブコーパスの構築
18
+ C1-6 『日本経済新聞記事オープンコーパス』と『日本語話し言葉コーパス』語義と読みの対応表の作成
19
  D1-1 ガウス過程による埋め込み点集合の時間遷移のモデル化
20
  D1-2 Transformerデコーダモデルを利用した日本語意味役割において,特徴量抽出位置およびAttention Maskの形状が与える影響
21
  D1-3 Enhancing Fake News Detection through Consistency Contrastive Learning with MLP-Mixer
 
76
  Q1-22 否定の観点からみた日本語言語理解ベンチマークの評価
77
  Q1-23J オンライン誹謗中傷検出に向けた裁判例データセット
78
  Q1-24J MATCHA:専門家が平易化した記事を用いたやさしい日本語パラレルコーパス
 
79
  A2-1 大規模言語モデルにおける複数の指示追従成功率を個々の指示追従成功率から推定する
80
  A2-2 オープン日本語LLMリーダーボードの構築と評価結果の分析
81
  A2-3 pfgen-bench: 日本語事前学習モデルのための文章生成性能評価ベンチマーク
 
93
  C2-3 BERTに基づいたRussell円環モデルの感情分析
94
  C2-4 ビジネス文書を対象とした大規模言語モデルを用いた読み手にストレスを与える文章の検出
95
  C2-5 自動プロンプト最適化は個人的選好の予測精度を向上させるか?
96
+ D2-1 グライスの環境とグライスの外
 
97
  D2-2 GPT2モデルを用いた感情を考慮する日本語対話生成
98
  D2-3 日本語日常二人会話における参与者の頷きと共起する発話
99
  D2-4 大規模言語モデルを用いた実世界タスク指向対話におけるICL・ファインチューニングの効果の検証
 
319
  B5-2 関数単位の修正箇所特定によるリポジトリレベルのバグ修正
320
  B5-3 多言語音声転写アプリとAIによる外国語授業の自己分析―Multilingual Voice-to-Text Appの開発
321
  B5-4 ソフトウェア高速化を対象としたLLMとSLMの言語処理特性
322
+ B5-5 大規模言語モデルを用いた我が国の対米外交における調書作成支援システム
323
  B5-6 ChatGPTを活用した高知県観光支援システムの構築
324
  C5-1 トラッキングデータからのサッカー実況生成
325
  C5-2 拡散モデルを用いたテキスト生成における「崩壊問題」と時刻埋め込みの影響
 
541
  Q7-21 新型コロナワクチンをめぐるTwitter上の話題変化:テキスト精読と頻出単語分析による仮説構築とその検証
542
  Q7-22 農林業基準技術文書を対象としたPDF解析ツールの表構造認識の性能評価
543
  Q7-23J クイズコンペティションの結果分析から見た日本語質問応答の到達点と課題
544
+ Q7-24J NAIST Simultaneous Interpretation Corpus: Development and Analyses of Data from Interpreters of Different Levels
545
  A8-1 似た単語の知識ニューロンは似た形成過程を経る
546
  A8-2 多角的な評価から大規模言語モデルにおける事実知識の想起の要因分析
547
  A8-3 心理測定テストに関するLLMのメタ知識の検証
prepare_pool.py CHANGED
@@ -4,7 +4,7 @@ import pandas as pd
4
 
5
 
6
  paper_df = pd.read_csv('anlp2025.tsv', names=["pid", "title"], sep="\t")
7
- assert len(paper_df) == 778
8
 
9
  input_texts = [title for title in paper_df["title"].tolist()]
10
  assert input_texts[0] == "LLMのアテンションヘッドに着目したジェイルブレイク攻撃の分析と防御手法の提案"
@@ -12,6 +12,6 @@ assert input_texts[-1] == "ニュース記事中の企業名のEntity Linkingに
12
 
13
  model = SentenceTransformer("sbintuitions/sarashina-embedding-v1-1b")
14
  embeddings = model.encode(input_texts)
15
- assert embeddings.shape == (778, 1792)
16
 
17
  np.savez("anlp2025", embeddings)
 
4
 
5
 
6
  paper_df = pd.read_csv('anlp2025.tsv', names=["pid", "title"], sep="\t")
7
+ assert len(paper_df) == 777
8
 
9
  input_texts = [title for title in paper_df["title"].tolist()]
10
  assert input_texts[0] == "LLMのアテンションヘッドに着目したジェイルブレイク攻撃の分析と防御手法の提案"
 
12
 
13
  model = SentenceTransformer("sbintuitions/sarashina-embedding-v1-1b")
14
  embeddings = model.encode(input_texts)
15
+ assert embeddings.shape == (777, 1792)
16
 
17
  np.savez("anlp2025", embeddings)