Update README.md

Browse files

Files changed (1) hide show

README.md +100 -23

README.md CHANGED Viewed

@@ -1,11 +1,13 @@
 ---
 base_model:
-- Casual-Autopsy/Llama-3-Shisa-Minus-Base
-- Casual-Autopsy/Llama-3-Youko-Minus-Base
-- Casual-Autopsy/Llama-3-Minus-Base
-- Casual-Autopsy/Llama-3-Yollow-SCE-TopK_1.0
-- Casual-Autopsy/vntl-qlora
-- Casual-Autopsy/Llama-3-Swallow-Minus-Base
 library_name: transformers
 tags:
 - mergekit
@@ -16,48 +18,123 @@ tags:
 This is a merge of pre-trained language models created using [mergekit](https://github.com/cg123/mergekit).
-## Merge Details
-### Merge Method
-This model was merged using the [TIES](https://arxiv.org/abs/2306.01708) merge method using [Casual-Autopsy/Llama-3-Yollow-SCE-TopK_1.0](https://huggingface.co/Casual-Autopsy/Llama-3-Yollow-SCE-TopK_1.0) + [Casual-Autopsy/vntl-qlora](https://huggingface.co/Casual-Autopsy/vntl-qlora) as a base.
-### Models Merged
-The following models were included in the merge:
-* [Casual-Autopsy/Llama-3-Shisa-Minus-Base](https://huggingface.co/Casual-Autopsy/Llama-3-Shisa-Minus-Base)
-* [Casual-Autopsy/Llama-3-Youko-Minus-Base](https://huggingface.co/Casual-Autopsy/Llama-3-Youko-Minus-Base)
-* [Casual-Autopsy/Llama-3-Minus-Base](https://huggingface.co/Casual-Autopsy/Llama-3-Minus-Base)
-* [Casual-Autopsy/Llama-3-Swallow-Minus-Base](https://huggingface.co/Casual-Autopsy/Llama-3-Swallow-Minus-Base)
-### Configuration
-The following YAML configuration was used to produce this model:
 ```yaml
 models:
   # Base
-  - model: Casual-Autopsy/Llama-3-Yollow-SCE-TopK_1.0+Casual-Autopsy/vntl-qlora
     parameters:
       weight: 1.0
   # Models
-  - model: Casual-Autopsy/Llama-3-Minus-Base
     parameters:
       density: 0.35
       weight: 10e-5
-  - model: Casual-Autopsy/Llama-3-Shisa-Minus-Base
     parameters:
       density: 0.85
       weight: 25e-5
-  - model: Casual-Autopsy/Llama-3-Swallow-Minus-Base
     parameters:
       density: 0.85
       weight: 25e-5
-  - model: Casual-Autopsy/Llama-3-Youko-Minus-Base
     parameters:
       density: 0.85
       weight: 25e-5
 merge_method: ties
-base_model: Casual-Autopsy/Llama-3-Yollow-SCE-TopK_1.0+Casual-Autopsy/vntl-qlora
 parameters:
   normalize: false
   int8_mask: false

 ---
 base_model:
+- meta-llama/Meta-Llama-3-8B
+- meta-llama/Meta-Llama-3-8B-Instruct
+- rinna/llama-3-youko-8b
+- rinna/llama-3-youko-8b-instruct
+- tokyotech-llm/Llama-3-Swallow-8B-v0.1
+- tokyotech-llm/Llama-3-Swallow-8B-Instruct-v0.1
+- shisa-ai/shisa-v1-llama3-8b
+- lmg-anon/vntl-llama3-8b-v2-qlora
 library_name: transformers
 tags:
 - mergekit
 This is a merge of pre-trained language models created using [mergekit](https://github.com/cg123/mergekit).
+## Configuration
+The following YAML configuration was used to produce this model:
+### Llama-3-Yollow-8B
+```yaml
+models:
+  # Pivot model
+  - model: meta-llama/Meta-Llama-3-8B
+  # Target models
+  - model: rinna/llama-3-youko-8b
+  - model: tokyotech-llm/Llama-3-Swallow-8B-v0.1
+merge_method: sce
+base_model: meta-llama/Meta-Llama-3-8B
+parameters:
+  select_topk: 1.0
+dtype: float32
+```
+### Llama-3-Minus-Base-8B
+```yaml
+models:
+  # Finetune model
+  - model: meta-llama/Meta-Llama-3-8B-Instruct
+    parameters:
+      weight: 1.0
+  # Base model
+  - model: meta-llama/Meta-Llama-3-8B
+    parameters:
+      weight: -1.0
+merge_method: task_arithmetic
+base_model: meta-llama/Meta-Llama-3-8B-Instruct
+parameters:
+  normalize: false
+dtype: float32
+```
+### Llama-3-Youko-Minus-Base-8B
+```yaml
+models:
+  # Finetune model
+  - model: rinna/llama-3-youko-8b-instruct
+    parameters:
+      weight: 1.0
+  # Base model
+  - model: meta-llama/Meta-Llama-3-8B
+    parameters:
+      weight: -1.0
+merge_method: task_arithmetic
+base_model: rinna/llama-3-youko-8b-instruct
+parameters:
+  normalize: false
+dtype: float32
+```
+### Llama-3-Swallow-Minus-Base-8B
+```yaml
+models:
+  # Finetune model
+  - model: tokyotech-llm/Llama-3-Swallow-8B-Instruct-v0.1
+    parameters:
+      weight: 1.0
+  # Base model
+  - model: meta-llama/Meta-Llama-3-8B
+    parameters:
+      weight: -1.0
+merge_method: task_arithmetic
+base_model: tokyotech-llm/Llama-3-Swallow-8B-Instruct-v0.1
+parameters:
+  normalize: false
+dtype: float32
+```
+### Llama-3-Shisa-Minus-Base-8B
+```yaml
+models:
+  # Finetune model
+  - model: shisa-ai/shisa-v1-llama3-8b
+    parameters:
+      weight: 1.0
+  # Base model
+  - model: meta-llama/Meta-Llama-3-8B
+    parameters:
+      weight: -1.0
+merge_method: task_arithmetic
+base_model: shisa-ai/shisa-v1-llama3-8b
+parameters:
+  normalize: false
+dtype: float32
+```
+### Llama-3-VNTL-Yollisa-8B
 ```yaml
 models:
   # Base
+  - model: Casual-Autopsy/Llama-3-Yollow-8B+lmg-anon/vntl-llama3-8b-v2-qlora
     parameters:
       weight: 1.0
   # Models
+  - model: Casual-Autopsy/Llama-3-Minus-Base-8B
     parameters:
       density: 0.35
       weight: 10e-5
+  - model: Casual-Autopsy/Llama-3-Shisa-Minus-Base-8B
     parameters:
       density: 0.85
       weight: 25e-5
+  - model: Casual-Autopsy/Llama-3-Swallow-Minus-Base-8B
     parameters:
       density: 0.85
       weight: 25e-5
+  - model: Casual-Autopsy/Llama-3-Youko-Minus-Base-8B
     parameters:
       density: 0.85
       weight: 25e-5
 merge_method: ties
+base_model: Casual-Autopsy/Llama-3-Yollow-8B+lmg-anon/vntl-llama3-8b-v2-qlora
 parameters:
   normalize: false
   int8_mask: false