wangyuxin
commited on
Commit
·
d664bdc
1
Parent(s):
92e1bdd
添加检索评测结果
Browse files
README.md
CHANGED
|
@@ -8,6 +8,11 @@ M3E 是 Moka Massive Mixed Embedding 的缩写
|
|
| 8 |
* Massive,此文本嵌入模型通过**千万级**的中文句对数据集进行训练
|
| 9 |
* Mixed,此文本嵌入模型支持中英双语的同质文本相似度计算,异质文本检索等功能,未来还会支持代码检索
|
| 10 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 11 |
## 使用方式
|
| 12 |
|
| 13 |
您需要先安装 sentence-transformers
|
|
@@ -58,12 +63,13 @@ M3E 使用 in-batch 负采样的对比学习的方式在句对数据集进行训
|
|
| 58 |
|
| 59 |
## 评测
|
| 60 |
|
|
|
|
|
|
|
|
|
|
| 61 |
### 文本分类
|
| 62 |
|
| 63 |
- 数据集选择,选择开源在 HuggingFace 上的 6 种文本分类数据集,包括新闻、电商评论、股票评论、长文本等
|
| 64 |
- 评测方式,使用 MTEB 的方式进行评测,报告 Accuracy。
|
| 65 |
-
- 评测模型,[text2vec](https://github.com/shibing624/text2vec), m3e-base, m3e-small, openai-ada-002
|
| 66 |
-
- 评测脚本,具体参考此 [评测脚本](https://github.com/wangyuxinwhy/uniem/blob/main/mteb-zh/tasks.py)
|
| 67 |
|
| 68 |
| | text2vec | m3e-small | m3e-base | openai |
|
| 69 |
| ----------------- | -------- | --------- | -------- | ------ |
|
|
@@ -77,7 +83,30 @@ M3E 使用 in-batch 负采样的对比学习的方式在句对数据集进行训
|
|
| 77 |
|
| 78 |
### 检索排序
|
| 79 |
|
| 80 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 81 |
|
| 82 |
## M3E数据集
|
| 83 |
|
|
|
|
| 8 |
* Massive,此文本嵌入模型通过**千万级**的中文句对数据集进行训练
|
| 9 |
* Mixed,此文本嵌入模型支持中英双语的同质文本相似度计算,异质文本检索等功能,未来还会支持代码检索
|
| 10 |
|
| 11 |
+
## 更新说明
|
| 12 |
+
|
| 13 |
+
- 2023.06.08,添加检索任务的评测结果,在 T2Ranking 1W 中文数据集上,m3e-base 在 ndcg@10 上达到了 0.8004,超过了 openai-ada-002 的 0.7786
|
| 14 |
+
- 2023.06.07,添加文本分类任务的评测结果,在 6 种文本分类数据集上,m3e-base 在 accuracy 上达到了 0.6157,超过了 openai-ada-002 的 0.5956
|
| 15 |
+
|
| 16 |
## 使用方式
|
| 17 |
|
| 18 |
您需要先安装 sentence-transformers
|
|
|
|
| 63 |
|
| 64 |
## 评测
|
| 65 |
|
| 66 |
+
- 评测模型,[text2vec](https://github.com/shibing624/text2vec), m3e-base, m3e-small, openai-ada-002
|
| 67 |
+
- 评测脚本,具体参考此 [评测脚本](https://github.com/wangyuxinwhy/uniem/blob/main/mteb-zh)
|
| 68 |
+
|
| 69 |
### 文本分类
|
| 70 |
|
| 71 |
- 数据集选择,选择开源在 HuggingFace 上的 6 种文本分类数据集,包括新闻、电商评论、股票评论、长文本等
|
| 72 |
- 评测方式,使用 MTEB 的方式进行评测,报告 Accuracy。
|
|
|
|
|
|
|
| 73 |
|
| 74 |
| | text2vec | m3e-small | m3e-base | openai |
|
| 75 |
| ----------------- | -------- | --------- | -------- | ------ |
|
|
|
|
| 83 |
|
| 84 |
### 检索排序
|
| 85 |
|
| 86 |
+
#### T2Ranking 1W
|
| 87 |
+
|
| 88 |
+
- 数据集选择,使用 [T2Ranking](https://github.com/THUIR/T2Ranking/tree/main) 数据集,由于 T2Ranking 的数据集太大,openai 评测起来的时间成本和 api 费用有些高,所以我们只选择了 T2Ranking 中的前 10000 篇文章
|
| 89 |
+
- 评测方式,使用 MTEB 的方式进行评测,报告 map@1, map@10, mrr@1, mrr@10, ndcg@1, ndcg@10
|
| 90 |
+
|
| 91 |
+
| | text2vec | openai-ada-002 | m3e-small | m3e-base |
|
| 92 |
+
| ------- | -------- | -------------- | --------- | -------- |
|
| 93 |
+
| map@1 | 0.4684 | 0.6133 | 0.5574 | 0.626 |
|
| 94 |
+
| map@10 | 0.5877 | 0.7423 | 0.6878 | 0.7656 |
|
| 95 |
+
| mrr@1 | 0.5345 | 0.6931 | 0.6324 | 0.7047 |
|
| 96 |
+
| mrr@10 | 0.6217 | 0.7668 | 0.712 | 0.7841 |
|
| 97 |
+
| ndcg@1 | 0.5207 | 0.6764 | 0.6159 | 0.6881 |
|
| 98 |
+
| ndcg@10 | 0.6346 | 0.7786 | 0.7262 | 0.8004 |
|
| 99 |
+
|
| 100 |
+
#### T2Ranking
|
| 101 |
+
|
| 102 |
+
- 数据集选择,使用 T2Ranking,刨除 openai-ada-002 模型后,我们对剩余的三个模型,进行 T2Ranking 10W 和 T2Ranking 50W 的评测。(T2Ranking 评测太耗内存了... 128G 都不行)
|
| 103 |
+
- 评测方式,使用 MTEB 的方式进行评测,报告 ndcg@10
|
| 104 |
+
|
| 105 |
+
| | text2vec | m3e-small | m3e-base |
|
| 106 |
+
| ------- | -------- | --------- | -------- |
|
| 107 |
+
| t2r-1w | 0.6346 | 0.72621 | 0.8004 |
|
| 108 |
+
| t2r-10w | 0.44644 | 0.5251 | 0.6263 |
|
| 109 |
+
| t2r-50w | 0.33482 | 0.38626 | 0.47364 |
|
| 110 |
|
| 111 |
## M3E数据集
|
| 112 |
|