Fentible
/

Cthulhu-24B-v1.1-GGUF

@@ -382,178 +382,184 @@ a:hover {
     </thead>
     <tbody>
       <tr>
-        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1.IQ1_S.gguf">GGUF</a></td>
         <td>IQ1_S</td>
         <td style="text-align: right;">5.27 GB</td>
         <td>Lowest quality, uses SOTA techniques to be usable.</td>
       </tr>
 	  <tr>
-        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1.IQ1_M.gguf">GGUF</a></td>
         <td>IQ1_M</td>
         <td style="text-align: right;">5.75 GB</td>
         <td>Extremely low quality, uses SOTA techniques to be usable.</td>
       </tr>
 	  <tr>
-        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1.IQ2_XXS.gguf">GGUF</a></td>
         <td>IQ2_XXS</td>
         <td style="text-align: right;">6.55 GB</td>
         <td>Very low quality, uses SOTA techniques to be usable.</td>
       </tr>
 	  <tr>
-        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1.IQ2_XS.gguf">GGUF</a></td>
         <td>IQ2_XS</td>
         <td style="text-align: right;">7.21 GB</td>
         <td>Low quality, uses SOTA techniques to be usable.</td>
       </tr>
 	  <tr>
-        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1.IQ2_S.gguf">GGUF</a></td>
         <td>IQ2_S</td>
         <td style="text-align: right;">7.48 GB</td>
         <td>Low quality, uses SOTA techniques to be usable.</td>
       </tr>
 	  <tr>
-        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1.IQ2_M.gguf">GGUF</a></td>
         <td>IQ2_M</td>
         <td style="text-align: right;">8.11 GB</td>
         <td>Relatively low quality, uses SOTA techniques to be surprisingly usable.</td>
       </tr>
 	  <tr>
-        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1.Q2_K.gguf">GGUF</a></td>
         <td>Q2_K</td>
         <td style="text-align: right;">8.89 GB</td>
         <td>Very low quality but surprisingly usable.</td>
       </tr>
 	  <tr>
-        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1.IQ3_XXS.gguf">GGUF</a></td>
         <td>IQ3_XXS</td>
         <td style="text-align: right;">9.28 GB</td>
         <td>Lower quality, new method with decent performance, comparable to Q3 quants.</td>
       </tr>
 	  <tr>
-        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1.Q2_K_L.gguf">GGUF</a></td>
         <td>Q2_K_L</td>
         <td style="text-align: right;">9.55 GB</td>
         <td>Uses Q8_0 for embed and output weights. Very low quality but surprisingly usable.</td>
       </tr>
 	  <tr>
-        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1.IQ3_XS.gguf">GGUF</a></td>
         <td>IQ3_XS</td>
         <td style="text-align: right;">9.91 GB</td>
         <td>Lower quality, new method with decent performance, slightly better than Q3_K_S.</td>
       </tr>
 	  <tr>
-        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1.IQ3_S.gguf">GGUF</a></td>
         <td>IQ3_S</td>
         <td style="text-align: right;">10.4 GB</td>
         <td>Lower quality, slightly better than IQ3_XS.</td>
       </tr>
 	  <tr>
-        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1.Q3_K_S.gguf">GGUF</a></td>
         <td>Q3_K_S</td>
         <td style="text-align: right;">10.4 GB</td>
         <td>Low quality, not recommended.</td>
       </tr>
 	  <tr>
-        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1.IQ3_M.gguf">GGUF</a></td>
         <td>IQ3_M</td>
         <td style="text-align: right;">10.7 GB</td>
         <td>Medium-low quality, new method with decent performance comparable to Q3_K_M.</td>
       </tr>
       <tr>
-        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1.Q3_K_M.gguf">GGUF</a></td>
         <td>Q3_K_M</td>
         <td style="text-align: right;">11.5 GB</td>
         <td>Lower quality but usable, good for low RAM availability.</td>
       </tr>
 	  <tr>
-        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1.Q3_K_L.gguf">GGUF</a></td>
         <td>Q3_K_L</td>
         <td style="text-align: right;">12.4 GB</td>
         <td>Uses Q8_0 for embed and output weights. Lower quality but usable, good for low RAM availability.</td>
       </tr>
       <tr>
-        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1.IQ4_XS.gguf">GGUF</a></td>
         <td>IQ4_XS</td>
         <td style="text-align: right;">12.8 GB</td>
         <td>Decent quality, smaller than Q4_K_S with similar performance, recommended.</td>
       </tr>
 	  <tr>
-        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1.IQ4_NL.gguf">GGUF</a></td>
         <td>IQ4_NL</td>
         <td style="text-align: right;">13.5 GB</td>
         <td>Similar to IQ4_XS, but slightly larger. Offers online repacking for ARM CPU inference.</td>
       </tr>
 	  <tr>
-        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1.Q4_0.gguf">GGUF</a></td>
         <td>Q4_0</td>
         <td style="text-align: right;">13.5 GB</td>
         <td>Legacy format, offers online repacking for ARM and AVX CPU inference.</td>
       </tr>
 	  <tr>
-        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1.Q4_K_S.gguf">GGUF</a></td>
         <td>Q4_K_S</td>
         <td style="text-align: right;">13.5 GB</td>
         <td>Slightly lower quality with more space savings, recommended.</td>
       </tr>
 	  <tr>
-        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1.Q4_K_M.gguf">GGUF</a></td>
         <td>Q4_K_M</td>
         <td style="text-align: right;">14.3 GB</td>
         <td>Good quality, default size for most use cases, recommended.</td>
       </tr>
 	  <tr>
-        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1.Q4_K_L.gguf">GGUF</a></td>
         <td>Q4_K_L</td>
         <td style="text-align: right;">14.8 GB</td>
         <td>Uses Q8_0 for embed and output weights. Good quality, recommended.</td>
       </tr>
 	  <tr>
-        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1.Q4_1.gguf">GGUF</a></td>
         <td>Q4_1</td>
         <td style="text-align: right;">14.9 GB</td>
         <td>Legacy format, similar performance to Q4_K_S but with improved tokens/watt on Apple silicon.</td>
       </tr>
       <tr>
-        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1.Q5_K_S.gguf">GGUF</a></td>
         <td>Q5_K_S</td>
         <td style="text-align: right;">16.3 GB</td>
         <td>High quality, recommended.</td>
       </tr>
 	  <tr>
-        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1.Q5_K_M.gguf">GGUF</a></td>
         <td>Q5_K_M</td>
         <td style="text-align: right;">16.8 GB</td>
         <td>High quality, recommended.</td>
       </tr>
 	  <tr>
-        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1.Q5_K_L.gguf">GGUF</a></td>
         <td>Q5_K_L</td>
         <td style="text-align: right;">17.2 GB</td>
         <td>Uses Q8_0 for embed and output weights. High quality, recommended.</td>
       </tr>
       <tr>
-        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1.Q6_K.gguf">GGUF</a></td>
         <td>Q6_K</td>
         <td style="text-align: right;">19.3 GB</td>
         <td>Very high quality, near perfect, recommended.</td>
       </tr>
 	  <tr>
-        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1.Q6_K_L.gguf">GGUF</a></td>
         <td>Q6_K_L</td>
         <td style="text-align: right;">19.7 GB</td>
         <td>Uses Q8_0 for embed and output weights. Very high quality, near perfect, recommended.</td>
       </tr>
       <tr>
-        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1.Q8_0.gguf">GGUF</a></td>
         <td>Q8_0</td>
         <td style="text-align: right;">25.1 GB</td>
         <td>Extremely high quality, generally unneeded but max available quant.</td>
       </tr>
 	  <tr>
-        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1.FP16.gguf">GGUF</a></td>
         <td>FP16</td>
         <td style="text-align: right;">47.2 GB</td>
-        <td>Full BF16 weights.</td>
       </tr>
 	  <tr>
         <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1/tree/main">SAFE</a></td>
@@ -566,6 +572,10 @@ a:hover {
 <p>If you need a quant that isn't uploaded you can open a request.</p>
 Here is a handy graph by ikawrakow comparing some lower-quality quant types (lower is better):
 <img src="https://www.nethype.de/huggingface_embed/quantpplgraph.png"></img>
 And here are Artefact2's thoughts on the matter: <a href="https://gist.github.com/Artefact2/b5f810600771265fc1e39442288e8ec9">https://gist.github.com/Artefact2/b5f810600771265fc1e39442288e8ec9</a>

     </thead>
     <tbody>
       <tr>
+        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1-IQ1_S.gguf">GGUF</a></td>
         <td>IQ1_S</td>
         <td style="text-align: right;">5.27 GB</td>
         <td>Lowest quality, uses SOTA techniques to be usable.</td>
       </tr>
 	  <tr>
+        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1-IQ1_M.gguf">GGUF</a></td>
         <td>IQ1_M</td>
         <td style="text-align: right;">5.75 GB</td>
         <td>Extremely low quality, uses SOTA techniques to be usable.</td>
       </tr>
 	  <tr>
+        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1-IQ2_XXS.gguf">GGUF</a></td>
         <td>IQ2_XXS</td>
         <td style="text-align: right;">6.55 GB</td>
         <td>Very low quality, uses SOTA techniques to be usable.</td>
       </tr>
 	  <tr>
+        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1-IQ2_XS.gguf">GGUF</a></td>
         <td>IQ2_XS</td>
         <td style="text-align: right;">7.21 GB</td>
         <td>Low quality, uses SOTA techniques to be usable.</td>
       </tr>
 	  <tr>
+        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1-IQ2_S.gguf">GGUF</a></td>
         <td>IQ2_S</td>
         <td style="text-align: right;">7.48 GB</td>
         <td>Low quality, uses SOTA techniques to be usable.</td>
       </tr>
 	  <tr>
+        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1-IQ2_M.gguf">GGUF</a></td>
         <td>IQ2_M</td>
         <td style="text-align: right;">8.11 GB</td>
         <td>Relatively low quality, uses SOTA techniques to be surprisingly usable.</td>
       </tr>
 	  <tr>
+        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1-Q2_K.gguf">GGUF</a></td>
         <td>Q2_K</td>
         <td style="text-align: right;">8.89 GB</td>
         <td>Very low quality but surprisingly usable.</td>
       </tr>
 	  <tr>
+        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1-IQ3_XXS.gguf">GGUF</a></td>
         <td>IQ3_XXS</td>
         <td style="text-align: right;">9.28 GB</td>
         <td>Lower quality, new method with decent performance, comparable to Q3 quants.</td>
       </tr>
 	  <tr>
+        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1-Q2_K_L.gguf">GGUF</a></td>
         <td>Q2_K_L</td>
         <td style="text-align: right;">9.55 GB</td>
         <td>Uses Q8_0 for embed and output weights. Very low quality but surprisingly usable.</td>
       </tr>
 	  <tr>
+        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1-IQ3_XS.gguf">GGUF</a></td>
         <td>IQ3_XS</td>
         <td style="text-align: right;">9.91 GB</td>
         <td>Lower quality, new method with decent performance, slightly better than Q3_K_S.</td>
       </tr>
 	  <tr>
+        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1-IQ3_S.gguf">GGUF</a></td>
         <td>IQ3_S</td>
         <td style="text-align: right;">10.4 GB</td>
         <td>Lower quality, slightly better than IQ3_XS.</td>
       </tr>
 	  <tr>
+        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1-Q3_K_S.gguf">GGUF</a></td>
         <td>Q3_K_S</td>
         <td style="text-align: right;">10.4 GB</td>
         <td>Low quality, not recommended.</td>
       </tr>
 	  <tr>
+        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1-IQ3_M.gguf">GGUF</a></td>
         <td>IQ3_M</td>
         <td style="text-align: right;">10.7 GB</td>
         <td>Medium-low quality, new method with decent performance comparable to Q3_K_M.</td>
       </tr>
       <tr>
+        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1-Q3_K_M.gguf">GGUF</a></td>
         <td>Q3_K_M</td>
         <td style="text-align: right;">11.5 GB</td>
         <td>Lower quality but usable, good for low RAM availability.</td>
       </tr>
 	  <tr>
+        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1-Q3_K_L.gguf">GGUF</a></td>
         <td>Q3_K_L</td>
         <td style="text-align: right;">12.4 GB</td>
         <td>Uses Q8_0 for embed and output weights. Lower quality but usable, good for low RAM availability.</td>
       </tr>
       <tr>
+        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1-IQ4_XS.gguf">GGUF</a></td>
         <td>IQ4_XS</td>
         <td style="text-align: right;">12.8 GB</td>
         <td>Decent quality, smaller than Q4_K_S with similar performance, recommended.</td>
       </tr>
 	  <tr>
+        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1-IQ4_NL.gguf">GGUF</a></td>
         <td>IQ4_NL</td>
         <td style="text-align: right;">13.5 GB</td>
         <td>Similar to IQ4_XS, but slightly larger. Offers online repacking for ARM CPU inference.</td>
       </tr>
 	  <tr>
+        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1-Q4_0.gguf">GGUF</a></td>
         <td>Q4_0</td>
         <td style="text-align: right;">13.5 GB</td>
         <td>Legacy format, offers online repacking for ARM and AVX CPU inference.</td>
       </tr>
 	  <tr>
+        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1-Q4_K_S.gguf">GGUF</a></td>
         <td>Q4_K_S</td>
         <td style="text-align: right;">13.5 GB</td>
         <td>Slightly lower quality with more space savings, recommended.</td>
       </tr>
 	  <tr>
+        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1-Q4_K_M.gguf">GGUF</a></td>
         <td>Q4_K_M</td>
         <td style="text-align: right;">14.3 GB</td>
         <td>Good quality, default size for most use cases, recommended.</td>
       </tr>
 	  <tr>
+        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1-Q4_K_L.gguf">GGUF</a></td>
         <td>Q4_K_L</td>
         <td style="text-align: right;">14.8 GB</td>
         <td>Uses Q8_0 for embed and output weights. Good quality, recommended.</td>
       </tr>
 	  <tr>
+        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1-Q4_1.gguf">GGUF</a></td>
         <td>Q4_1</td>
         <td style="text-align: right;">14.9 GB</td>
         <td>Legacy format, similar performance to Q4_K_S but with improved tokens/watt on Apple silicon.</td>
       </tr>
       <tr>
+        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1-Q5_K_S.gguf">GGUF</a></td>
         <td>Q5_K_S</td>
         <td style="text-align: right;">16.3 GB</td>
         <td>High quality, recommended.</td>
       </tr>
 	  <tr>
+        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1-Q5_K_M.gguf">GGUF</a></td>
         <td>Q5_K_M</td>
         <td style="text-align: right;">16.8 GB</td>
         <td>High quality, recommended.</td>
       </tr>
 	  <tr>
+        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1-Q5_K_L.gguf">GGUF</a></td>
         <td>Q5_K_L</td>
         <td style="text-align: right;">17.2 GB</td>
         <td>Uses Q8_0 for embed and output weights. High quality, recommended.</td>
       </tr>
       <tr>
+        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1-Q6_K.gguf">GGUF</a></td>
         <td>Q6_K</td>
         <td style="text-align: right;">19.3 GB</td>
         <td>Very high quality, near perfect, recommended.</td>
       </tr>
 	  <tr>
+        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1-Q6_K_L.gguf">GGUF</a></td>
         <td>Q6_K_L</td>
         <td style="text-align: right;">19.7 GB</td>
         <td>Uses Q8_0 for embed and output weights. Very high quality, near perfect, recommended.</td>
       </tr>
       <tr>
+        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1-Q8_0.gguf">GGUF</a></td>
         <td>Q8_0</td>
         <td style="text-align: right;">25.1 GB</td>
         <td>Extremely high quality, generally unneeded but max available quant.</td>
       </tr>
 	  <tr>
+        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1-UD-Q8_K_XL.gguf">GGUF</a></td>
+        <td>Q8_K_XL</td>
+        <td style="text-align: right;">29 GB</td>
+        <td>Uses FP16 for embed and output weights via Unsloth Dynamic 2.0, near perfect quality.</td>
+      </tr>
+	  <tr>
+        <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1-GGUF/resolve/main/Cthulhu-24B-v1.1-FP16.gguf">GGUF</a></td>
         <td>FP16</td>
         <td style="text-align: right;">47.2 GB</td>
+        <td>Full BF16 weights, maximum quality.</td>
       </tr>
 	  <tr>
         <td><a href="https://huggingface.co/Fentible/Cthulhu-24B-v1.1/tree/main">SAFE</a></td>
 <p>If you need a quant that isn't uploaded you can open a request.</p>
+<p>Here is a useful tool which allows you to recreate UD quants: <a href="https://github.com/electroglyph/quant_clone">https://github.com/electroglyph/quant_clone</a></p>
+<img src="https://i.imgur.com/YnTHoO1.png" width="800"></img>
 Here is a handy graph by ikawrakow comparing some lower-quality quant types (lower is better):
 <img src="https://www.nethype.de/huggingface_embed/quantpplgraph.png"></img>
 And here are Artefact2's thoughts on the matter: <a href="https://gist.github.com/Artefact2/b5f810600771265fc1e39442288e8ec9">https://gist.github.com/Artefact2/b5f810600771265fc1e39442288e8ec9</a>