Spaces:
Running
Running
Add/update results for Qwen2.5-32B-Instruct (version 1.34.1, guid 9e772c1476f54f8d951c56a7641ad39e)
Browse files- results.json +79 -0
results.json
CHANGED
@@ -83,6 +83,85 @@
|
|
83 |
"n_questions": 600,
|
84 |
"submit_timestamp": ""
|
85 |
}
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
86 |
}
|
87 |
}
|
88 |
},
|
|
|
83 |
"n_questions": 600,
|
84 |
"submit_timestamp": ""
|
85 |
}
|
86 |
+
},
|
87 |
+
"9e772c1476f54f8d951c56a7641ad39e": {
|
88 |
+
"model_name": "Qwen2.5-32B-Instruct",
|
89 |
+
"timestamp": "2025-07-03T13:59:52",
|
90 |
+
"config": {
|
91 |
+
"embedding_model": "Qwen3-Embedding-8B_2",
|
92 |
+
"retriever_type": "mmr",
|
93 |
+
"retrieval_config": {}
|
94 |
+
},
|
95 |
+
"metrics": {
|
96 |
+
"simple": {
|
97 |
+
"retrieval": {
|
98 |
+
"hit_rate": 0.9533333333333334,
|
99 |
+
"mrr": 0.8910634920634921,
|
100 |
+
"precision": 0.16466666666666663
|
101 |
+
},
|
102 |
+
"generation": {
|
103 |
+
"rouge1": 0.14963729657137595,
|
104 |
+
"rougeL": 0.14963729657137595
|
105 |
+
}
|
106 |
+
},
|
107 |
+
"cond": {
|
108 |
+
"retrieval": {
|
109 |
+
"hit_rate": 0.96,
|
110 |
+
"mrr": 0.8960079365079364,
|
111 |
+
"precision": 0.18133333333333335
|
112 |
+
},
|
113 |
+
"generation": {
|
114 |
+
"rouge1": 0.2761723569541383,
|
115 |
+
"rougeL": 0.2761723569541383
|
116 |
+
}
|
117 |
+
},
|
118 |
+
"set": {
|
119 |
+
"retrieval": {
|
120 |
+
"hit_rate": 0.9533333333333334,
|
121 |
+
"mrr": 0.8746825396825396,
|
122 |
+
"precision": 0.16666666666666666
|
123 |
+
},
|
124 |
+
"generation": {
|
125 |
+
"rouge1": 0.1298719612841915,
|
126 |
+
"rougeL": 0.10841675633484674
|
127 |
+
}
|
128 |
+
},
|
129 |
+
"mh": {
|
130 |
+
"retrieval": {
|
131 |
+
"hit_rate": 0.9666666666666667,
|
132 |
+
"mrr": 0.8398306878306879,
|
133 |
+
"precision": 0.14933333333333332
|
134 |
+
},
|
135 |
+
"generation": {
|
136 |
+
"rouge1": 0.27951014007174413,
|
137 |
+
"rougeL": 0.27951014007174413
|
138 |
+
}
|
139 |
+
},
|
140 |
+
"overall": {
|
141 |
+
"retrieval": {
|
142 |
+
"hit_rate": 0.9583333333333334,
|
143 |
+
"mrr": 0.8753961640211639,
|
144 |
+
"precision": 0.1655
|
145 |
+
},
|
146 |
+
"generation": {
|
147 |
+
"rouge1": 0.20879793872036248,
|
148 |
+
"rougeL": 0.20343413748302627
|
149 |
+
}
|
150 |
+
},
|
151 |
+
"judge": {
|
152 |
+
"judge_completeness_score": 0.6533333333333333,
|
153 |
+
"judge_cons_w_real_world_score": 0.9466666666666667,
|
154 |
+
"judge_correctness_score": 1.275,
|
155 |
+
"judge_factual_accuracy_score": 0.8083333333333333,
|
156 |
+
"judge_fluff_score": 1.075,
|
157 |
+
"judge_pres_details_score": 0.7916666666666666,
|
158 |
+
"judge_total_score": 0.9250000000000002
|
159 |
+
}
|
160 |
+
},
|
161 |
+
"metadata": {
|
162 |
+
"n_questions": 600,
|
163 |
+
"submit_timestamp": ""
|
164 |
+
}
|
165 |
}
|
166 |
}
|
167 |
},
|