kaitos255 commited on
Commit
cd9ca7c
·
1 Parent(s): e29924d

update README.md

Browse files
Files changed (1) hide show
  1. README.md +89 -0
README.md CHANGED
@@ -1,3 +1,92 @@
1
  ---
2
  license: apache-2.0
3
  ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
  license: apache-2.0
3
  ---
4
+ # PLaMo-Embedding-1B
5
+
6
+ ## モデルの概要
7
+ PLaMo-Embedding-1Bは、Preferred Networks, Inc. によって開発された日本語テキスト埋め込みモデルです。
8
+
9
+ 日本語の文章を入力することで数値ベクトルに変換することができ、情報検索、テキスト分類、クラスタリングなどをはじめとした幅広い用途でお使い頂けます。
10
+
11
+ 日本語テキスト埋め込みのためのベンチマークである[JMTEB](https://github.com/sbintuitions/JMTEB)において、2025/4/*時点で最高水準のスコアを達成しました。
12
+ 特に検索タスクにおいて一際優れた性能を示しています。
13
+
14
+ PLaMo-Embedding-1Bは [Apache v2.0](https://www.apache.org/licenses/LICENSE-2.0) ライセンスで公開されており、商用利用を含めて自由にお使い頂けます。
15
+
16
+ 技術的詳細については次のTech Blogをご参照ください: [link]
17
+
18
+ ## 使用方法
19
+ ```python
20
+ import torch
21
+ import torch.nn.functional as F
22
+ from transformers import AutoModel, AutoTokenizer
23
+
24
+ # 🤗 Huggingface Hubから以下のようにしてモデルをダウンロードできます
25
+ tokenizer = AutoTokenizer.from_pretrained("pfnet/plamo-embedding-1b", trust_remote_code=True)
26
+ model = AutoModel.from_pretrained("pfnet/plamo-embedding-1b", trust_remote_code=True)
27
+
28
+ query = "PLaMo-Embedding-1Bとは何ですか?"
29
+ documents = [
30
+ "PLaMo-Embedding-1Bは、Preferred Networks, Inc. によって開発された日本語テキスト埋め込みモデルです。",
31
+ "最近は随分と暖かくなりましたね。"
32
+ ]
33
+
34
+ with torch.inference_mode():
35
+ # 情報検索におけるクエリ文章の埋め込みに関しては、`encode_query` メソッドを用いてください
36
+ # tokenizerも渡す必要があります
37
+ query_embedding = model.encode_query(query, tokenizer)
38
+ # それ以外の文章に関しては、 `encode_document` メソッドを用いてください
39
+ # 情報検索以外の用途についても、 `encode_document` メソッドを用いてください
40
+ document_embeddings = model.encode_document(documents, tokenizer)
41
+
42
+ # モデルに文章を入力して得られたベクトル間の類似度は、近い文章は高く、遠い文章は低くなります
43
+ # この性質を用いて情報検索などに活用することができます
44
+ similarities = F.cosine_similarity(query_embedding, document_embeddings)
45
+ print(similarities)
46
+ # tensor([0.8812, 0.5533])
47
+ ```
48
+
49
+ ## ベンチマーク結果
50
+ 日本語テキスト埋め込みのためのベンチマークである[JMTEB](https://github.com/sbintuitions/JMTEB)を用いて性能評価を行いました。
51
+
52
+ Model |Avg. | Retrieval | STS | Classification | Reranking | Clustering | PairClassification |
53
+ |:----------------------------------------------|:----------|:------------|:----------|:-----------------|:------------|:-------------|:---------------------|
54
+ | [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large) |70.90 | 70.98 | 79.70 | 72.89 | 92.96 | 51.24 | 62.15 |
55
+ | [pkshatech/RoSEtta-base-ja](https://huggingface.co/pkshatech/RoSEtta-base-ja) |72.04 | 73.21 | 81.39 | 72.41 | 92.69 | 53.23 | 61.74 |
56
+ | [retrieva-jp/amber-large](https://huggingface.co/retrieva-jp/amber-large) |72.06 | 71.71 | 80.87 | 72.45 | 93.29 | 51.59 | **62.42** |
57
+ | [pkshatech/GLuCoSE-base-ja-v2](https://huggingface.co/pkshatech/GLuCoSE-base-ja-v2) |72.23 | 73.36 | 82.96 | 74.21 | 93.01 | 48.65 | 62.37 |
58
+ | [jinaai/jina-embeddings-v3](https://huggingface.co/jinaai/jina-embeddings-v3) |73.44 | 75.22 | 80.05 | 76.39 | 92.71 | 52.46 | 62.37 |
59
+ | [OpenAI/text-embedding-3-large](https://openai.com/index/new-embedding-models-and-api-updates/) |74.05 | 74.48 | 82.52 | 77.58 | 93.58 | 53.32 | 62.35 |
60
+ | [cl-nagoya/ruri-large-v2](https://huggingface.co/cl-nagoya/ruri-large-v2) |74.55 | 76.34 | 83.17 | 77.18 | 93.21 | 52.14 | 62.27 |
61
+ |[Sarashina-Embedding-v1-1B](https://huggingface.co/sbintuitions/sarashina-embedding-v1-1b)|75.50|77.61|82.71|**78.37**|**93.74**|**53.86**|62.00|
62
+ |||
63
+ |[**PLaMo-Embedding-1B**](https://huggingface.co/pfnet/plamo-embedding-1b) (This model) [^1]|**76.10**|**79.94**|**83.14**|77.20|93.57|53.47|62.37|
64
+
65
+ [^1]: コンテキスト長1024で計測。モデルとしてはコンテキスト長4096まで対応していますが、学習時に入れているコンテキスト長が1024までのため、1024で計測しています。ただし、4096で評価してもそこまでスコア平均に影響がないことがわかっています (Tech Blog参照)
66
+
67
+ ## モデル詳細
68
+
69
+ - モデルサイズ: 1B
70
+ - コンテキスト長: 4096
71
+ - 埋め込み次元: 2048
72
+ - 類似度計測に用いる関数: cosine類似度
73
+ - 開発元: Preferred Networks, Inc
74
+ - 対応言語: 日本語
75
+ - ライセンス: [Apache v2.0](https://www.apache.org/licenses/LICENSE-2.0)
76
+
77
+ ## ライセンス
78
+
79
+ このモデルは [Apache License, Version 2.0](https://www.apache.org/licenses/LICENSE-2.0) のもとで公開されており、商用利用を含めて自由にお使い頂けます。
80
+
81
+
82
+ ## How to cite
83
+
84
+ ```
85
+ @online{PLaMoEmbedding1B,
86
+ author = {Preferred Networks, Inc},
87
+ title = {PLaMo-Embedding-1B},
88
+ year = {2025},
89
+ url = {https://huggingface.co/pfnet/plamo-embedding-1b},
90
+ urldate = {2025-04-**}
91
+ }
92
+ ```