leaderboard-pr-bot commited on
Commit
0cbd1dd
1 Parent(s): af987c5

Adding Evaluation Results

Browse files

This is an automated PR created with https://huggingface.co/spaces/Weyaxi/open-llm-leaderboard-results-pr

The purpose of this PR is to add evaluation results from the Open LLM Leaderboard to your model card.

If you encounter any issues, please report them to https://huggingface.co/spaces/Weyaxi/open-llm-leaderboard-results-pr/discussions

Files changed (1) hide show
  1. README.md +119 -3
README.md CHANGED
@@ -1,10 +1,113 @@
1
  ---
 
 
2
  license: apache-2.0
3
  datasets:
4
  - 0x7194633/fialka-v3-data
5
- language:
6
- - ru
7
  pipeline_tag: text-generation
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
8
  ---
9
  # Fialka v3.0 13B
10
 
@@ -18,4 +121,17 @@ The model has a query format as in zephyr.
18
  Что такое мем?</s>
19
  <|assistant|>
20
  Мем (англ. meme) — это единица культурной информации, которая распространяется в социальных сетях и других онлайн-платформах с помощью цифровых технологий или через физический контакт. Мемы могут быть связаны между собой тематически или иметь общие черты, такие как использование определенных слов или фраз для создания определенного настроения или выражения эмоций. Они также могут содержать информацию о культуре, истории или науке, которую можно использовать для обучения новым вещам или расширения кругозора.
21
- ```
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
+ language:
3
+ - ru
4
  license: apache-2.0
5
  datasets:
6
  - 0x7194633/fialka-v3-data
 
 
7
  pipeline_tag: text-generation
8
+ model-index:
9
+ - name: fialka-13B-v3.1
10
+ results:
11
+ - task:
12
+ type: text-generation
13
+ name: Text Generation
14
+ dataset:
15
+ name: AI2 Reasoning Challenge (25-Shot)
16
+ type: ai2_arc
17
+ config: ARC-Challenge
18
+ split: test
19
+ args:
20
+ num_few_shot: 25
21
+ metrics:
22
+ - type: acc_norm
23
+ value: 29.95
24
+ name: normalized accuracy
25
+ source:
26
+ url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=0x7194633/fialka-13B-v3.1
27
+ name: Open LLM Leaderboard
28
+ - task:
29
+ type: text-generation
30
+ name: Text Generation
31
+ dataset:
32
+ name: HellaSwag (10-Shot)
33
+ type: hellaswag
34
+ split: validation
35
+ args:
36
+ num_few_shot: 10
37
+ metrics:
38
+ - type: acc_norm
39
+ value: 47.28
40
+ name: normalized accuracy
41
+ source:
42
+ url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=0x7194633/fialka-13B-v3.1
43
+ name: Open LLM Leaderboard
44
+ - task:
45
+ type: text-generation
46
+ name: Text Generation
47
+ dataset:
48
+ name: MMLU (5-Shot)
49
+ type: cais/mmlu
50
+ config: all
51
+ split: test
52
+ args:
53
+ num_few_shot: 5
54
+ metrics:
55
+ - type: acc
56
+ value: 25.41
57
+ name: accuracy
58
+ source:
59
+ url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=0x7194633/fialka-13B-v3.1
60
+ name: Open LLM Leaderboard
61
+ - task:
62
+ type: text-generation
63
+ name: Text Generation
64
+ dataset:
65
+ name: TruthfulQA (0-shot)
66
+ type: truthful_qa
67
+ config: multiple_choice
68
+ split: validation
69
+ args:
70
+ num_few_shot: 0
71
+ metrics:
72
+ - type: mc2
73
+ value: 43.03
74
+ source:
75
+ url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=0x7194633/fialka-13B-v3.1
76
+ name: Open LLM Leaderboard
77
+ - task:
78
+ type: text-generation
79
+ name: Text Generation
80
+ dataset:
81
+ name: Winogrande (5-shot)
82
+ type: winogrande
83
+ config: winogrande_xl
84
+ split: validation
85
+ args:
86
+ num_few_shot: 5
87
+ metrics:
88
+ - type: acc
89
+ value: 58.48
90
+ name: accuracy
91
+ source:
92
+ url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=0x7194633/fialka-13B-v3.1
93
+ name: Open LLM Leaderboard
94
+ - task:
95
+ type: text-generation
96
+ name: Text Generation
97
+ dataset:
98
+ name: GSM8k (5-shot)
99
+ type: gsm8k
100
+ config: main
101
+ split: test
102
+ args:
103
+ num_few_shot: 5
104
+ metrics:
105
+ - type: acc
106
+ value: 0.53
107
+ name: accuracy
108
+ source:
109
+ url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=0x7194633/fialka-13B-v3.1
110
+ name: Open LLM Leaderboard
111
  ---
112
  # Fialka v3.0 13B
113
 
 
121
  Что такое мем?</s>
122
  <|assistant|>
123
  Мем (англ. meme) — это единица культурной информации, которая распространяется в социальных сетях и других онлайн-платформах с помощью цифровых технологий или через физический контакт. Мемы могут быть связаны между собой тематически или иметь общие черты, такие как использование определенных слов или фраз для создания определенного настроения или выражения эмоций. Они также могут содержать информацию о культуре, истории или науке, которую можно использовать для обучения новым вещам или расширения кругозора.
124
+ ```
125
+ # [Open LLM Leaderboard Evaluation Results](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard)
126
+ Detailed results can be found [here](https://huggingface.co/datasets/open-llm-leaderboard/details_0x7194633__fialka-13B-v3.1)
127
+
128
+ | Metric |Value|
129
+ |---------------------------------|----:|
130
+ |Avg. |34.11|
131
+ |AI2 Reasoning Challenge (25-Shot)|29.95|
132
+ |HellaSwag (10-Shot) |47.28|
133
+ |MMLU (5-Shot) |25.41|
134
+ |TruthfulQA (0-shot) |43.03|
135
+ |Winogrande (5-shot) |58.48|
136
+ |GSM8k (5-shot) | 0.53|
137
+