lbourdois commited on
Commit
db66a99
·
verified ·
1 Parent(s): f5cb775

Improve language tag

Browse files

Hi! As the model is multilingual, this is a PR to add other languages than English to the language tag to improve the referencing. Note that 29 languages are announced in the README, but only 13 are explicitly listed. I was therefore only able to add these 13 languages.

Files changed (1) hide show
  1. README.md +250 -238
README.md CHANGED
@@ -1,238 +1,250 @@
1
- ---
2
- library_name: transformers
3
- tags:
4
- - DPO
5
- license: apache-2.0
6
- datasets:
7
- - lightblue/response-dataset-plus-qwen-judged
8
- language:
9
- - ja
10
- base_model:
11
- - Qwen/Qwen2.5-7B-Instruct
12
- ---
13
-
14
- [日本語モデルカード/Japanese model card](#japanese)
15
-
16
- [日本語のブログ/Full Japanese dev blog](https://note.com/lightblue_tech/n/n6967ff462f4a?sub_rt=share_pb)
17
-
18
- [Development source code/開発ソースコード](https://github.com/lightblue-tech/karasu_dpo_202501)
19
-
20
- # Karasu-DPO-7B
21
-
22
- This is a Japanese version of the [Qwen/Qwen2.5-7B-Instruct](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct) model which was DPO trained using synthetic Japanese conversation data.
23
-
24
- This model outperforms the base [Qwen/Qwen2.5-7B-Instruct](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct) model on the [arena-hard-auto-multilingual](https://github.com/lightblue-tech/arena-hard-auto-multilingual) chat benchmark:
25
-
26
- |Qwen2.5-7B-Instruct|Karasu-DPO-7B|
27
- |----|----|
28
- |50.0|66.2|
29
-
30
- We recommend this model for use as a general conversation AI.
31
-
32
- # How to use
33
-
34
- This model can be used in the same way as any Qwen 2.5 model. We recommend using vLLM for simplicity and speed.
35
-
36
- <ul>
37
- <li><b>vLLM</b>
38
-
39
- Install [vLLM](https://github.com/vllm-project/vllm/) using `pip install vllm`.
40
-
41
- <details open>
42
- <summary>Show vLLM code</summary>
43
-
44
- ```python
45
- from vllm import LLM, SamplingParams
46
-
47
- llm = LLM(
48
- model="lightblue/DeepSeek-R1-Distill-Qwen-7B-Japanese",
49
- max_model_len=8_000
50
- )
51
-
52
- sampling_params = SamplingParams(
53
- temperature=0.0,
54
- max_tokens=8_000,
55
- )
56
-
57
- prompts = [
58
- """ナイジェリアの首都はどこですか?""",
59
- """鉄は何度に溶けますか?""",
60
- """父が好きそうなプレゼントのおすすめを教えて""",
61
- ]
62
-
63
- conversations = [
64
- [{"role": "user", "content": x}] for x in prompts
65
- ]
66
-
67
- outputs = llm.chat(conversations, sampling_params=sampling_params)
68
-
69
- for output in outputs:
70
- print(output.outputs[0].text)
71
- print("-"*32)
72
-
73
- # ナイジェリアの首都はアブジャ(Abuja)です。以前はラゴスが首都でしたが、1991年に新しい首都としてアブジャが建設され、1991年12月12日に首都としての地位を正式に取得しました。アブジャは政治中心地として機能していますが、経済の中心地は依然としてラゴスが占めています。
74
- # --------------------------------
75
- # 鉄は非常に高い温度で溶けます。鉄の融点は約1,538℃(2,800°F)です。これは、一般的な家庭用のオーブン(最大約200-300℃)では絶対に達成できません。鉄を溶かすためには、より高温の設備が必要で、例えば、電気炉やガス炉などがあります。
76
- # --------------------------------
77
- # もちろんです。父さんへのプレゼント選びは楽しみですね。以下に、父が喜ぶ2つのプレゼントを提案します:
78
-
79
- # 1. **高級コーヒーメーカー**:
80
- # - 父さんがコーヒーを愛飲しているなら、高品質なコーヒーメーカーは大変喜ばれるプレゼントです。例えば、手動式のコーヒーメーカーなら、毎日のコーヒー作りがより楽しく、手作り感も楽しめます。また、自動式のコーヒーメーカーなら、忙しい朝でも美味しいコーヒーが楽しめます。
81
-
82
- # 2. **趣味に合わせたギフトセット**:
83
- # - 父さんの趣味や興味に合わせたギフトセットは、とても喜ばれます。例えば、ゴルフ好きなら、最新のゴルフクラブやゴルフバッグ、ゴルフボールセットなどが良いでしょう。また、車好きなら、高品質な車用アクセサリー(カーフィルム、カーボンシートなど)や車載用の充電器などが喜ばれます。
84
-
85
- # これらのプレゼントは、父さんの趣味や興味に合わせて選べば、きっと喜んでもらえることでしょう。
86
- # --------------------------------
87
- ```
88
-
89
- </details>
90
-
91
- <br/>
92
-
93
- # How this model was made
94
-
95
- We made this model through the following procedure:
96
-
97
- 1. Sample Japanese and English prompts from the following datasets:
98
- * lmsys/lmsys-chat-1m
99
- * RyokoAI/ShareGPT52K
100
- * openchat/openchat_sharegpt_v3
101
- * OpenAssistant/oasst2
102
- * Open-Orca/slimorca-deduped-cleaned-corrected
103
- * HuggingFaceH4/ultrachat_200k
104
- 2. Translate English prompts to Japanese using [gpt-4o-mini](https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/).
105
- 3. Correct translations with [gpt-4o-mini](https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/).
106
- 4. Get responses to all Japanese prompts (both original and translated) with [gpt-4o-mini](https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/).
107
- 5. Correct responses using [gpt-4o-mini](https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/).
108
-
109
- We QLoRA DPO trained a [Qwen/Qwen2.5-7B-Instruct](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct) model on this data to create Karasu-DPO-7B.
110
-
111
- <h1 style="font-size: 48px;" id="japanese">日本語</h3>
112
-
113
- こちらのモデルは[Qwen/Qwen2.5-7B-Instruct](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct)の日本語版です。生成した日本語会話データとDPO学習で作成しました。
114
-
115
- このモデルは、[arena-hard-auto-multilingual](https://github.com/lightblue-tech/arena-hard-auto-multilingual)チャットベンチマークにおいて、ベースモデルである[Qwen/Qwen2.5-7B-Instruct](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct)を上回る性能を発揮します:
116
-
117
- |Qwen2.5-7B-Instruct|Karasu-DPO-7B|
118
- |----|----|
119
- |50.0|66.2|
120
-
121
- このモデルは、一般的な会話AIとしての使用を推奨します。
122
-
123
- # 使用方法
124
-
125
- このモデルは、他のQwen 2.5モデルと同様の方法で使用できます。シンプルで高速な操作のためにはvLLMの使用を推奨します。
126
-
127
- <ul>
128
- <li><b>vLLM</b>
129
-
130
- [vLLM](https://github.com/vllm-project/vllm/)を`pip install vllm`でインストールしてください。
131
-
132
- <details open>
133
- <summary>vLLMコードを見る</summary>
134
-
135
- ```python
136
- from vllm import LLM, SamplingParams
137
-
138
- llm = LLM(
139
- model="lightblue/DeepSeek-R1-Distill-Qwen-7B-Japanese",
140
- max_model_len=8_000
141
- )
142
-
143
- sampling_params = SamplingParams(
144
- temperature=0.0,
145
- max_tokens=8_000,
146
- )
147
-
148
- prompts = [
149
- """ナイジェリアの首都はどこですか?""",
150
- """鉄は何度に溶けますか?""",
151
- """父が好きそうなプレゼントのおすすめを教えて""",
152
- ]
153
-
154
- conversations = [
155
- [{"role": "user", "content": x}] for x in prompts
156
- ]
157
-
158
- outputs = llm.chat(conversations, sampling_params=sampling_params)
159
-
160
- for output in outputs:
161
- print(output.outputs[0].text)
162
- print("-"*32)
163
-
164
- # ナイジェリアの首都はアブジャ(Abuja)です。以前はラゴスが首都でしたが、1991年に新しい首都としてアブジャが建設され、1991年12月12日に首都としての地位を正式に取得しました。アブジャは政治中心地として機能していますが、経済の中心地は依然としてラゴスが占めています。
165
- # --------------------------------
166
- # 鉄は非常に高い温度で溶けます。鉄の融点は約1,538℃(2,800°F)です。これは、一般的な家庭用のオーブン(最大約200-300℃)では絶対に達成できません。鉄を溶かすためには、より高温の設備が必要で、例えば、電気炉やガス炉などがあります。
167
- # --------------------------------
168
- # もちろんです。父さんへのプレゼント選びは楽しみですね。以下に、父が喜ぶ2つのプレゼントを提案します:
169
-
170
- # 1. **高級コーヒーメーカー**:
171
- # - 父さんがコーヒーを愛飲しているなら、高品質なコーヒーメーカーは大変喜ばれるプレゼントです。例えば、手動式のコーヒーメーカーなら、毎日のコーヒー作りがより楽しく、手作り感も楽しめます。また、自動式のコーヒーメーカーなら、忙しい朝でも美味しいコーヒーが楽しめます。
172
-
173
- # 2. **趣味に合わせたギフトセット**:
174
- # - 父さんの趣味や興味に合わせたギフトセットは、とても喜ばれます。例えば、ゴルフ好きなら、最新のゴルフクラブやゴルフバッグ、ゴルフボールセットなどが良いでしょう。また、車好きなら、高品質な車用アクセサリー(カーフィルム、カーボンシートなど)や車載用の充電器などが喜ばれます。
175
-
176
- # これらのプレゼントは、父さんの趣味や興味に合わせて選べば、きっと喜んでもらえることでしょう。
177
- # --------------------------------
178
- ```
179
-
180
- </details>
181
-
182
- <br/>
183
-
184
- # このモデルの作成方法
185
-
186
- このモデルは以下の手順を通して作成されました:
187
-
188
- 1. 以下のデータセットから日本語および英語のプロンプトをサンプリング:
189
- * lmsys/lmsys-chat-1m
190
- * RyokoAI/ShareGPT52K
191
- * openchat/openchat_sharegpt_v3
192
- * OpenAssistant/oasst2
193
- * Open-Orca/slimorca-deduped-cleaned-corrected
194
- * HuggingFaceH4/ultrachat_200k
195
- 2. 英語のプロンプトを[gpt-4o-mini](https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/)を使って日本語に翻訳。
196
- 3. [gpt-4o-mini](https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/)を使って翻訳を修正。
197
- 4. 日本語のプロンプト(オリジナルと翻訳の両方)に対する応答を[gpt-4o-mini](https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/)で取得。
198
- 5. [gpt-4o-mini](https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/)を使用して応答を修正。
199
-
200
- [Qwen/Qwen2.5-7B-Instruct](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct)モデルを基に、QLoRA DPOトレーニングを行い、Karasu-DPO-7Bを作成しました。
201
-
202
- ### Model Details
203
- - Model size: 7B
204
- - Context length: 1024
205
- - Language: Japanese
206
-
207
- #### Training Procudure
208
- - learning_rate: 5e-6
209
- - train_batch_size: 4
210
- - eval_batch_size: 2
211
- - gradient_accumulation_steps: 4
212
- - lr_scheduler_type: cosine
213
-
214
- #### Training Results
215
- |**Step**|**Traning Loss**|**Validation Loss**|
216
- |----|----|----|
217
- |10|0.678400| 0.665870|
218
- |20|0.608500| 0.638361|
219
- |30|0.577300| 0.607468|
220
- |40|0.526700| 0.559432|
221
- |50|0.489200| 0.523419|
222
- |60|0.502800| 0.511645|
223
- |70|0.462300| 0.506989|
224
- |80|0.419600| 0.509142|
225
- |90|0.445200| 0.510396|
226
- |100|0.424400| 0.511653|
227
-
228
- # License
229
-
230
- We share this model under an Apache 2.0 license.
231
-
232
- # Developed by
233
-
234
- <a href="https://www.lightblue-tech.com">
235
- <img src="https://www.lightblue-tech.com/wp-content/uploads/2023/08/color_%E6%A8%AA%E5%9E%8B-1536x469.png" alt="Lightblue technology logo" width="400"/>
236
- </a>
237
-
238
- This model was trained by Jun Sashihara ([junsashihara](https://huggingface.co/junsashihara)) and supervised by Peter Devine ([ptrdvn](https://huggingface.co/ptrdvn)) for Lightblue。
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ library_name: transformers
3
+ tags:
4
+ - DPO
5
+ license: apache-2.0
6
+ datasets:
7
+ - lightblue/response-dataset-plus-qwen-judged
8
+ language:
9
+ - zho
10
+ - eng
11
+ - fra
12
+ - spa
13
+ - por
14
+ - deu
15
+ - ita
16
+ - rus
17
+ - jpn
18
+ - kor
19
+ - vie
20
+ - tha
21
+ - ara
22
+ base_model:
23
+ - Qwen/Qwen2.5-7B-Instruct
24
+ ---
25
+
26
+ [日本語モデルカード/Japanese model card](#japanese)
27
+
28
+ [日本語のブログ/Full Japanese dev blog](https://note.com/lightblue_tech/n/n6967ff462f4a?sub_rt=share_pb)
29
+
30
+ [Development source code/開発ソースコード](https://github.com/lightblue-tech/karasu_dpo_202501)
31
+
32
+ # Karasu-DPO-7B
33
+
34
+ This is a Japanese version of the [Qwen/Qwen2.5-7B-Instruct](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct) model which was DPO trained using synthetic Japanese conversation data.
35
+
36
+ This model outperforms the base [Qwen/Qwen2.5-7B-Instruct](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct) model on the [arena-hard-auto-multilingual](https://github.com/lightblue-tech/arena-hard-auto-multilingual) chat benchmark:
37
+
38
+ |Qwen2.5-7B-Instruct|Karasu-DPO-7B|
39
+ |----|----|
40
+ |50.0|66.2|
41
+
42
+ We recommend this model for use as a general conversation AI.
43
+
44
+ # How to use
45
+
46
+ This model can be used in the same way as any Qwen 2.5 model. We recommend using vLLM for simplicity and speed.
47
+
48
+ <ul>
49
+ <li><b>vLLM</b>
50
+
51
+ Install [vLLM](https://github.com/vllm-project/vllm/) using `pip install vllm`.
52
+
53
+ <details open>
54
+ <summary>Show vLLM code</summary>
55
+
56
+ ```python
57
+ from vllm import LLM, SamplingParams
58
+
59
+ llm = LLM(
60
+ model="lightblue/DeepSeek-R1-Distill-Qwen-7B-Japanese",
61
+ max_model_len=8_000
62
+ )
63
+
64
+ sampling_params = SamplingParams(
65
+ temperature=0.0,
66
+ max_tokens=8_000,
67
+ )
68
+
69
+ prompts = [
70
+ """ナイジェリアの首都はどこですか?""",
71
+ """鉄は何度に溶けますか?""",
72
+ """父が好きそうなプレゼントのおすすめを教えて""",
73
+ ]
74
+
75
+ conversations = [
76
+ [{"role": "user", "content": x}] for x in prompts
77
+ ]
78
+
79
+ outputs = llm.chat(conversations, sampling_params=sampling_params)
80
+
81
+ for output in outputs:
82
+ print(output.outputs[0].text)
83
+ print("-"*32)
84
+
85
+ # ナイジェリアの首都はアブジャ(Abuja)です。以前はラゴスが首都でしたが、1991年に新しい首都としてアブジャが建設され、1991年12月12日に首都としての地位を正式に取得しました。アブジャは政治中心地として機能していますが、経済の中心地は依然としてラゴスが占めています。
86
+ # --------------------------------
87
+ # 鉄は非常に高い温度で溶けます。鉄の融点は約1,538℃(2,800°F)です。これは、一般的な家庭用のオーブン(最大約200-300℃)では絶対に達成できません。鉄を溶かすためには、より高温の設備が必要で、例えば、電気炉やガス炉などがあります。
88
+ # --------------------------------
89
+ # もちろんです。父さんへのプレゼント選びは楽しみですね。以下に、父が喜ぶ2つのプレゼントを提案します:
90
+
91
+ # 1. **高級コーヒーメーカー**:
92
+ # - 父さんがコーヒーを愛飲しているなら、高品質なコーヒーメーカーは大変喜ばれるプレゼントです。例えば、手動式のコーヒーメーカーなら、毎日のコーヒー作りがより楽しく、手作り感も楽しめます。また、自動式のコーヒーメーカーなら、忙しい朝でも美味しいコーヒーが楽しめます。
93
+
94
+ # 2. **趣味に合わせたギフトセット**:
95
+ # - 父さんの趣味や興味に合わせたギフトセットは、とても喜ばれます。例えば、ゴルフ好きなら、最新のゴルフクラブやゴルフバッグ、ゴルフボールセットなどが良いでしょう。また、車好きなら、高品質な車用アクセサリー(カーフィルム、カーボンシートなど)や車載用の充電器などが喜ばれます。
96
+
97
+ # これらのプレゼントは、父さんの趣味や��味に合わせて選べば、きっと喜んでもらえることでしょう。
98
+ # --------------------------------
99
+ ```
100
+
101
+ </details>
102
+
103
+ <br/>
104
+
105
+ # How this model was made
106
+
107
+ We made this model through the following procedure:
108
+
109
+ 1. Sample Japanese and English prompts from the following datasets:
110
+ * lmsys/lmsys-chat-1m
111
+ * RyokoAI/ShareGPT52K
112
+ * openchat/openchat_sharegpt_v3
113
+ * OpenAssistant/oasst2
114
+ * Open-Orca/slimorca-deduped-cleaned-corrected
115
+ * HuggingFaceH4/ultrachat_200k
116
+ 2. Translate English prompts to Japanese using [gpt-4o-mini](https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/).
117
+ 3. Correct translations with [gpt-4o-mini](https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/).
118
+ 4. Get responses to all Japanese prompts (both original and translated) with [gpt-4o-mini](https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/).
119
+ 5. Correct responses using [gpt-4o-mini](https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/).
120
+
121
+ We QLoRA DPO trained a [Qwen/Qwen2.5-7B-Instruct](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct) model on this data to create Karasu-DPO-7B.
122
+
123
+ <h1 style="font-size: 48px;" id="japanese">日本語</h3>
124
+
125
+ こちらのモデルは[Qwen/Qwen2.5-7B-Instruct](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct)の日本語版です。生成した日本語会話データとDPO学習で作成しました。
126
+
127
+ このモデルは、[arena-hard-auto-multilingual](https://github.com/lightblue-tech/arena-hard-auto-multilingual)チャットベンチマークにおいて、ベースモデルである[Qwen/Qwen2.5-7B-Instruct](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct)を上回る性能を発揮します:
128
+
129
+ |Qwen2.5-7B-Instruct|Karasu-DPO-7B|
130
+ |----|----|
131
+ |50.0|66.2|
132
+
133
+ このモデルは、一般的な会話AIとしての使用を推奨します。
134
+
135
+ # 使用方法
136
+
137
+ このモデルは、他のQwen 2.5モデルと同様の方法で使用できます。シンプルで高速な操作のためにはvLLMの使用を推奨します。
138
+
139
+ <ul>
140
+ <li><b>vLLM</b>
141
+
142
+ [vLLM](https://github.com/vllm-project/vllm/)を`pip install vllm`でインストールしてください。
143
+
144
+ <details open>
145
+ <summary>vLLMコードを見る</summary>
146
+
147
+ ```python
148
+ from vllm import LLM, SamplingParams
149
+
150
+ llm = LLM(
151
+ model="lightblue/DeepSeek-R1-Distill-Qwen-7B-Japanese",
152
+ max_model_len=8_000
153
+ )
154
+
155
+ sampling_params = SamplingParams(
156
+ temperature=0.0,
157
+ max_tokens=8_000,
158
+ )
159
+
160
+ prompts = [
161
+ """ナイジェリアの首都はどこですか?""",
162
+ """鉄は何度に溶けますか?""",
163
+ """父が好きそうなプレゼントのおすすめを教えて""",
164
+ ]
165
+
166
+ conversations = [
167
+ [{"role": "user", "content": x}] for x in prompts
168
+ ]
169
+
170
+ outputs = llm.chat(conversations, sampling_params=sampling_params)
171
+
172
+ for output in outputs:
173
+ print(output.outputs[0].text)
174
+ print("-"*32)
175
+
176
+ # ナイジェリアの首都はアブジャ(Abuja)です。以前はラゴスが首都でしたが、1991年に新しい首都としてアブジャが建設され、1991年12月12日に首都としての地位を正式に取得しました。アブジャは政治中心地として機能していますが、経済の中心地は依然としてラゴスが占めています。
177
+ # --------------------------------
178
+ # 鉄は非常に高い温度で溶けます。鉄の融点は約1,538℃(2,800°F)です。これは、一般的な家庭用のオーブン(最大約200-300℃)では絶対に達成できません。鉄を溶かすためには、より高温の設備が必要で、例えば、電気炉やガス炉などがあります。
179
+ # --------------------------------
180
+ # もちろんです。父さんへのプレゼント選びは楽しみですね。以下に、父が喜ぶ2つのプレゼントを提案します:
181
+
182
+ # 1. **高級コーヒーメーカー**:
183
+ # - 父さんがコーヒーを愛飲しているなら、高品質なコーヒーメーカーは大変喜ばれるプレゼントです。例えば、手動式のコーヒーメーカーなら、毎日のコーヒー作りがより楽しく、手作り感も楽しめます。また、自動式のコーヒーメーカーなら、忙しい朝でも美味しいコーヒーが楽しめます。
184
+
185
+ # 2. **趣味に合わせたギフトセット**:
186
+ # - 父さんの趣味や興味に合わせたギフトセットは、とても喜ばれます。例えば、ゴルフ好きなら、最新のゴルフクラブやゴルフバッグ、ゴルフボールセットなどが良いでしょう。また、車好きなら、高品質な車用アクセサリー(カーフィルム、カーボンシートなど)や車載用の充電器などが喜ばれます。
187
+
188
+ # これらのプレゼントは、父さんの趣味や興味に合わせて選べば、きっと喜んでもらえることでしょう。
189
+ # --------------------------------
190
+ ```
191
+
192
+ </details>
193
+
194
+ <br/>
195
+
196
+ # このモデルの作成方法
197
+
198
+ このモデルは以下の手順を通して作成されました:
199
+
200
+ 1. 以下のデータセットから日本語および英語のプロンプトをサンプリング:
201
+ * lmsys/lmsys-chat-1m
202
+ * RyokoAI/ShareGPT52K
203
+ * openchat/openchat_sharegpt_v3
204
+ * OpenAssistant/oasst2
205
+ * Open-Orca/slimorca-deduped-cleaned-corrected
206
+ * HuggingFaceH4/ultrachat_200k
207
+ 2. 英語のプロンプトを[gpt-4o-mini](https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/)を使って日本語に翻訳。
208
+ 3. [gpt-4o-mini](https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/)を使って翻訳を修正。
209
+ 4. 日本語のプロンプト(オリジナルと翻訳の両方)に対する応答を[gpt-4o-mini](https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/)で取得。
210
+ 5. [gpt-4o-mini](https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/)を使用して応答を修正。
211
+
212
+ [Qwen/Qwen2.5-7B-Instruct](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct)モデルを基に、QLoRA DPOトレーニングを行い、Karasu-DPO-7Bを作成しました。
213
+
214
+ ### Model Details
215
+ - Model size: 7B
216
+ - Context length: 1024
217
+ - Language: Japanese
218
+
219
+ #### Training Procudure
220
+ - learning_rate: 5e-6
221
+ - train_batch_size: 4
222
+ - eval_batch_size: 2
223
+ - gradient_accumulation_steps: 4
224
+ - lr_scheduler_type: cosine
225
+
226
+ #### Training Results
227
+ |**Step**|**Traning Loss**|**Validation Loss**|
228
+ |----|----|----|
229
+ |10|0.678400| 0.665870|
230
+ |20|0.608500| 0.638361|
231
+ |30|0.577300| 0.607468|
232
+ |40|0.526700| 0.559432|
233
+ |50|0.489200| 0.523419|
234
+ |60|0.502800| 0.511645|
235
+ |70|0.462300| 0.506989|
236
+ |80|0.419600| 0.509142|
237
+ |90|0.445200| 0.510396|
238
+ |100|0.424400| 0.511653|
239
+
240
+ # License
241
+
242
+ We share this model under an Apache 2.0 license.
243
+
244
+ # Developed by
245
+
246
+ <a href="https://www.lightblue-tech.com">
247
+ <img src="https://www.lightblue-tech.com/wp-content/uploads/2023/08/color_%E6%A8%AA%E5%9E%8B-1536x469.png" alt="Lightblue technology logo" width="400"/>
248
+ </a>
249
+
250
+ This model was trained by Jun Sashihara ([junsashihara](https://huggingface.co/junsashihara)) and supervised by Peter Devine ([ptrdvn](https://huggingface.co/ptrdvn)) for Lightblue。