ai-forever commited on
Commit
2cfe902
·
verified ·
1 Parent(s): c04eca7

Add/update results for Qwen2.5-32B-Instruct (version 1.34.1, guid 9e772c1476f54f8d951c56a7641ad39e)

Browse files
Files changed (1) hide show
  1. results.json +79 -0
results.json CHANGED
@@ -83,6 +83,85 @@
83
  "n_questions": 600,
84
  "submit_timestamp": ""
85
  }
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
86
  }
87
  }
88
  },
 
83
  "n_questions": 600,
84
  "submit_timestamp": ""
85
  }
86
+ },
87
+ "9e772c1476f54f8d951c56a7641ad39e": {
88
+ "model_name": "Qwen2.5-32B-Instruct",
89
+ "timestamp": "2025-07-03T13:59:52",
90
+ "config": {
91
+ "embedding_model": "Qwen3-Embedding-8B_2",
92
+ "retriever_type": "mmr",
93
+ "retrieval_config": {}
94
+ },
95
+ "metrics": {
96
+ "simple": {
97
+ "retrieval": {
98
+ "hit_rate": 0.9533333333333334,
99
+ "mrr": 0.8910634920634921,
100
+ "precision": 0.16466666666666663
101
+ },
102
+ "generation": {
103
+ "rouge1": 0.14963729657137595,
104
+ "rougeL": 0.14963729657137595
105
+ }
106
+ },
107
+ "cond": {
108
+ "retrieval": {
109
+ "hit_rate": 0.96,
110
+ "mrr": 0.8960079365079364,
111
+ "precision": 0.18133333333333335
112
+ },
113
+ "generation": {
114
+ "rouge1": 0.2761723569541383,
115
+ "rougeL": 0.2761723569541383
116
+ }
117
+ },
118
+ "set": {
119
+ "retrieval": {
120
+ "hit_rate": 0.9533333333333334,
121
+ "mrr": 0.8746825396825396,
122
+ "precision": 0.16666666666666666
123
+ },
124
+ "generation": {
125
+ "rouge1": 0.1298719612841915,
126
+ "rougeL": 0.10841675633484674
127
+ }
128
+ },
129
+ "mh": {
130
+ "retrieval": {
131
+ "hit_rate": 0.9666666666666667,
132
+ "mrr": 0.8398306878306879,
133
+ "precision": 0.14933333333333332
134
+ },
135
+ "generation": {
136
+ "rouge1": 0.27951014007174413,
137
+ "rougeL": 0.27951014007174413
138
+ }
139
+ },
140
+ "overall": {
141
+ "retrieval": {
142
+ "hit_rate": 0.9583333333333334,
143
+ "mrr": 0.8753961640211639,
144
+ "precision": 0.1655
145
+ },
146
+ "generation": {
147
+ "rouge1": 0.20879793872036248,
148
+ "rougeL": 0.20343413748302627
149
+ }
150
+ },
151
+ "judge": {
152
+ "judge_completeness_score": 0.6533333333333333,
153
+ "judge_cons_w_real_world_score": 0.9466666666666667,
154
+ "judge_correctness_score": 1.275,
155
+ "judge_factual_accuracy_score": 0.8083333333333333,
156
+ "judge_fluff_score": 1.075,
157
+ "judge_pres_details_score": 0.7916666666666666,
158
+ "judge_total_score": 0.9250000000000002
159
+ }
160
+ },
161
+ "metadata": {
162
+ "n_questions": 600,
163
+ "submit_timestamp": ""
164
+ }
165
  }
166
  }
167
  },