Update README.md
Browse files
README.md
CHANGED
@@ -146,19 +146,19 @@ print(make_table(results))
|
|
146 |
| mmlu | 66.73 | 63.11 |
|
147 |
| mmlu_pro | 44.71 | 35.31 |
|
148 |
| **Reasoning** | | |
|
149 |
-
| arc_challenge | TODO |
|
150 |
| gpqa | TODO | TODO |
|
151 |
-
| hellaswag | 54.57 |
|
152 |
-
| openbookqa | TODO |
|
153 |
-
| piqa | TODO |
|
154 |
-
| siqa | TODO |
|
155 |
-
| truthfulqa | TODO |
|
156 |
-
| winogrande | TODO |
|
157 |
| **Multilingual** | | |
|
158 |
| Mgsm | TODO | TODO |
|
159 |
| mgsm_cot_native | TODO | TODO |
|
160 |
| **Math** | | |
|
161 |
-
| gsm8k | TODO |
|
162 |
| Mathqa | TODO | TODO |
|
163 |
| **Overall** | **TODO** | **TODO** |
|
164 |
|
|
|
146 |
| mmlu | 66.73 | 63.11 |
|
147 |
| mmlu_pro | 44.71 | 35.31 |
|
148 |
| **Reasoning** | | |
|
149 |
+
| arc_challenge | TODO | 0.5512 |
|
150 |
| gpqa | TODO | TODO |
|
151 |
+
| hellaswag | 54.57 | 0.5323 |
|
152 |
+
| openbookqa | TODO | 0.3240 |
|
153 |
+
| piqa | TODO | 0.7666 |
|
154 |
+
| siqa | TODO | 0.4708 |
|
155 |
+
| truthfulqa | TODO | 0.3953 |
|
156 |
+
| winogrande | TODO | 0.7017 |
|
157 |
| **Multilingual** | | |
|
158 |
| Mgsm | TODO | TODO |
|
159 |
| mgsm_cot_native | TODO | TODO |
|
160 |
| **Math** | | |
|
161 |
+
| gsm8k | TODO | 0.7043 |
|
162 |
| Mathqa | TODO | TODO |
|
163 |
| **Overall** | **TODO** | **TODO** |
|
164 |
|