Indy1985
/

llm-jp-3-13b-finetune-2

@@ -30,8 +30,6 @@ This llama model was trained 2x faster with [Unsloth](https://github.com/unsloth
 # Google Colab の場合は上記の環境構築手順を行なわず、単にこのセルから実行していってください。
 !pip uninstall unsloth -y
 !pip install --upgrade --no-cache-dir "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"
-!pip install --upgrade torch
-!pip install --upgrade xformers
 # Google Colab のデフォルトで入っているパッケージをアップグレード（Moriyasu さんありがとうございます）
@@ -126,36 +124,30 @@ dataset = load_dataset("json", data_files="/content/ichikara-instruction-003-001
 from datasets import load_dataset
 dataset = load_dataset("json", data_files="/content/aio_01_dev.jsonl")
-# データセットのカラム名を確認
 print("Dataset columns:", dataset.column_names)
-# 安全なフォーマット関数を定義
 def formatting_prompts_func(examples):
-    try:
-        # 動的にキーを判定
-        key = "text" if "text" in examples else next(iter(examples.keys()))
-        input_text = examples[key]
-        # カスタム処理
-        return {"formatted_text": f"Processed: {input_text}"}
-    except KeyError:
-        print(f"Key error for examples: {examples}")
-        return {}
-# フィルタリング（必要に応じて）
-if "text" not in dataset.column_names:
-    print("Warning: 'text' column not found. Filtering dataset...")
-    dataset = dataset.filter(lambda example: "text" in example)
-# map を適用
 dataset = dataset.map(
     formatting_prompts_func,
-    num_proc=4  # 並列処理
 )
-# 処理結果を確認
 print(dataset)
@@ -267,7 +259,7 @@ trainer_stats = trainer.train()
 # omnicampusの開発環境では、左にタスクのjsonlをドラッグアンドドロップしてから実行。
 import json
 datasets = []
-with open("/content/elyza-tasks-100-TV_0.jsonl", "r") as f:
     item = ""
     for line in f:
       line = line.strip()

 # Google Colab の場合は上記の環境構築手順を行なわず、単にこのセルから実行していってください。
 !pip uninstall unsloth -y
 !pip install --upgrade --no-cache-dir "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"
 # Google Colab のデフォルトで入っているパッケージをアップグレード（Moriyasu さんありがとうございます）
 from datasets import load_dataset
+# Load the dataset
 dataset = load_dataset("json", data_files="/content/aio_01_dev.jsonl")
+# Print dataset info to inspect its structure
+print(dataset)
+# Check column names
 print("Dataset columns:", dataset.column_names)
+# Define the formatting function
 def formatting_prompts_func(examples):
+    # Access 'summary' instead of dynamically finding the key
+    input_text = examples["original_question"]
+    return {"formatted_text": f"Processed: {input_text}"}
+# Apply map function with formatting
 dataset = dataset.map(
     formatting_prompts_func,
+    num_proc=4,  # Parallel processing
+    remove_columns=["original_question"] # remove original summary column
 )
+# Print the processed dataset
 print(dataset)
 # omnicampusの開発環境では、左にタスクのjsonlをドラッグアンドドロップしてから実行。
 import json
 datasets = []
+with open("./elyza-tasks-100-TV_0.jsonl", "r") as f:
     item = ""
     for line in f:
       line = line.strip()