elinas
/

Llama-3-15B-Instruct-zeroed

Text Generation

text-generation-inference

Model card Files Files and versions

elinas commited on May 15, 2024

Commit

f285971

·

verified ·

1 Parent(s): c568000

Update README.md

Files changed (1) hide show

README.md +6 -4

README.md CHANGED Viewed

@@ -5,16 +5,18 @@ library_name: transformers
 tags:
 - mergekit
 - merge
 ---
-# double_stuff_instruct
 This is a merge of pre-trained language models created using [mergekit](https://github.com/cg123/mergekit).
 ## Merge Details
 ### Merge Method
-This model was merged using the passthrough merge method.
 ### Models Merged
@@ -55,4 +57,4 @@ slices:
 - sources:
   - layer_range: [24, 32]
     model: meta-llama/Meta-Llama-3-8B-Instruct
-```

 tags:
 - mergekit
 - merge
+license: llama3
 ---
+# Llama-3-15B-Instruct-zeroed
 This is a merge of pre-trained language models created using [mergekit](https://github.com/cg123/mergekit).
 ## Merge Details
 ### Merge Method
+This model was merged using the passthrough merge method while zeroing `o_proj` and `down_proj` which led to an decrease in perplexity (good)
+compared to similar 15B merges. This was a recommendation from [Charles Goddard](https://huggingface.co/chargoddard) - thank you for sharing the method of merging as well as Toasty
+Pigeon for bringing it to my attention!
 ### Models Merged
 - sources:
   - layer_range: [24, 32]
     model: meta-llama/Meta-Llama-3-8B-Instruct
+```