Files changed (1) hide show
  1. README.md +232 -220
README.md CHANGED
@@ -1,221 +1,233 @@
1
- ---
2
- license: apache-2.0
3
- language:
4
- - fr
5
- model-index:
6
- - name: legml-v0.1
7
- results:
8
- - task:
9
- type: text-generation
10
- name: Text Generation
11
- dataset:
12
- name: gpqa-fr
13
- type: ai2_arc
14
- config: le-leadboard/gpqa-fr
15
- split: test
16
- args:
17
- num_few_shot: 25
18
- metrics:
19
- - type: acc
20
- value: 16.49
21
- name: accuracy
22
- - task:
23
- type: text-generation
24
- name: Text Generation
25
- dataset:
26
- name: IFEval-fr
27
- type: le-leadboard/IFEval-fr
28
- split: validation
29
- args:
30
- num_few_shot: 10
31
- metrics:
32
- - type: acc
33
- value: 14.68
34
- name: accuracy
35
- - task:
36
- type: text-generation
37
- name: Text Generation
38
- dataset:
39
- name: MMMLU-fr
40
- type: le-leadboard/MMMLU-fr
41
- config: all
42
- split: test
43
- args:
44
- num_few_shot: 5
45
- metrics:
46
- - type: acc
47
- value: 68.31
48
- name: accuracy
49
- - task:
50
- type: text-generation
51
- name: Text Generation
52
- dataset:
53
- name: bbh-fr
54
- type: le-leadboard/bbh-fr
55
- config: multiple_choice
56
- split: validation
57
- args:
58
- num_few_shot: 0
59
- metrics:
60
- - type: acc
61
- name: accuracy
62
- value: 37.17
63
- - task:
64
- type: text-generation
65
- name: Text Generation
66
- dataset:
67
- name: musr-fr
68
- type: le-leadboard/musr-fr
69
- config: le-leadboard/musr-fr
70
- split: validation
71
- args:
72
- num_few_shot: 5
73
- metrics:
74
- - type: acc
75
- value: 9.93
76
- name: accuracy
77
- - task:
78
- type: text-generation
79
- name: Text Generation
80
- dataset:
81
- name: MATH_LVL5_fr
82
- type: le-leadboard/MATH_LVL5_fr
83
- config: le-leadboard/MATH_LVL5_fr
84
- split: test
85
- args:
86
- num_few_shot: 5
87
- metrics:
88
- - type: acc
89
- value: 22.27
90
- name: accuracy
91
- base_model:
92
- - Qwen/Qwen2.5-14B
93
- ---
94
-
95
- <img src="https://huggingface.co/legmlai/legml-v0.1/resolve/main/lgml.png" alt="legml-v0.1" width="400"/>
96
-
97
-
98
- # legml-v0.1
99
-
100
- legml-v0.1 est un grand modèle de langage (LLM) en français, capable de gérer une multitude de tâches telles que la programmation, les mathématiques, et bien d'autres domaines. Ce modèle est une version étendue d'un LLM basé sur Qwen, optimisé spécifiquement pour le français. Il a été entraîné sur un vaste corpus de données françaises nettoyées et annotées avec soin pour exécuter des instructions en français avec précision et cohérence.
101
-
102
- L'entraînement intensif a été réalisé sur 4 GPU A100 pendant une durée de deux jours, utilisant cet ensemble de données spécialisé pour améliorer ses performances globales.
103
-
104
- ## Détails du Modèle
105
-
106
- - **Modèle de Base** : Qwen-2.5 LLM avec 14 milliards de paramètres
107
- - **Données d'Entraînement** : Corpus français annoté et nettoyé
108
- - **Méthode d'Entraînement** : Affinage complet approfondi
109
-
110
- ## Exemples d'Utilisation
111
-
112
- ```python
113
- from transformers import AutoModelForCausalLM, AutoTokenizer
114
- device = "cuda" # Appareil sur lequel charger le modèle
115
-
116
- model_name = "legmlai/legml-v0.1"
117
- model = AutoModelForCausalLM.from_pretrained(
118
- model_name,
119
- torch_dtype="auto",
120
- device_map="auto"
121
- )
122
- tokenizer = AutoTokenizer.from_pretrained(model_name)
123
-
124
- prompt = "Expliquez les principes fondamentaux de la théorie de la relativité restreinte."
125
- messages = [
126
- {
127
- "role": "system",
128
- "content": "Vous êtes un assistant virtuel compétent, prêt à fournir des réponses claires et détaillées aux questions posées."
129
- },
130
- {
131
- "role": "user",
132
- "content": prompt
133
- }
134
- ]
135
- text = tokenizer.apply_chat_template(
136
- messages,
137
- tokenize=False,
138
- add_generation_prompt=True
139
- )
140
- model_inputs = tokenizer([text], return_tensors="pt").to(device)
141
-
142
- generated_ids = model.generate(
143
- model_inputs.input_ids,
144
- temperature=0.5,
145
- top_k=40,
146
- top_p=0.8,
147
- max_new_tokens=512,
148
- repetition_penalty=1.05,
149
- )
150
- generated_ids = [
151
- output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
152
- ]
153
-
154
- response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
155
- print(response)
156
- ```
157
-
158
- ## Exemples de Générations
159
-
160
- ### Exemple 1
161
-
162
- **Question :**
163
-
164
- ```
165
- Expliquez les principes fondamentaux de la théorie de la relativité restreinte.
166
- ```
167
-
168
- **Réponse :**
169
-
170
- La théorie de la relativité restreinte, proposée par Albert Einstein en 1905, repose sur deux principes fondamentaux :
171
-
172
- 1. **Principe de Relativité** : Les lois de la physique sont les mêmes dans tous les référentiels inertiels, c'est-à-dire pour tous les observateurs en mouvement rectiligne uniforme les uns par rapport aux autres.
173
-
174
- 2. **Invariance de la Vitesse de la Lumière** : La vitesse de la lumière dans le vide est constante et indépendante du mouvement de la source ou de l'observateur, soit approximativement \( c = 299\,792\,458 \) mètres par seconde.
175
-
176
- Ces principes entraînent des conséquences majeures, telles que la dilatation du temps, la contraction des longueurs et l'équivalence masse-énergie exprimée par la célèbre formule \( E = mc^2 \).
177
-
178
- ### Exemple 2
179
-
180
- **Question :**
181
-
182
- ```
183
- Comment installer une bibliothèque externe en Python, par exemple NumPy ?
184
- ```
185
-
186
- **Réponse :**
187
-
188
- Pour installer une bibliothèque externe en Python comme NumPy, vous pouvez utiliser le gestionnaire de packages \`pip\`. Voici comment faire :
189
-
190
- 1. **Ouvrez le terminal ou l'invite de commande** de votre système.
191
-
192
- 2. **Exécutez la commande suivante** :
193
-
194
- ```bash
195
- pip install numpy
196
- ```
197
-
198
- 3. **Vérifiez l'installation** en important la bibliothèque dans un script Python :
199
-
200
- ```python
201
- import numpy as np
202
- print(np.__version__)
203
- ```
204
-
205
- Cette commande installera NumPy sur votre système, et vous pourrez l'utiliser dans vos scripts pour des calculs scientifiques et mathématiques.
206
-
207
- ## Résultats de l'Évaluation
208
-
209
- Les performances de LegML-v0.1 ont été évaluées sur divers benchmarks en français. Voici les résultats obtenus :
210
-
211
- | Benchmark | Métrique | Valeur (%) |
212
- |--------------------|------------------------|-----------:|
213
- | **BBH-fr** | Précision normalisée | 37.17% |
214
- | **GPQA-fr** | Précision normalisée | 16.49% |
215
- | **IFEval-fr** | Précision stricte | 14.68% |
216
- | **MUSR-fr** | Précision normalisée | 9.93% |
217
- | **MATH-lvl5-fr** | Correspondance exacte | 22.27% |
218
- | **MMMLU-fr** | Précision | 68.31% |
219
- | **Moyenne** | | 28.81% |
220
-
 
 
 
 
 
 
 
 
 
 
 
 
221
  Ces résultats démontrent les capacités du modèle sur une gamme variée de tâches complexes en français, tout en indiquant les domaines où des améliorations peuvent être apportées.
 
1
+ ---
2
+ license: apache-2.0
3
+ language:
4
+ - zho
5
+ - eng
6
+ - fra
7
+ - spa
8
+ - por
9
+ - deu
10
+ - ita
11
+ - rus
12
+ - jpn
13
+ - kor
14
+ - vie
15
+ - tha
16
+ - ara
17
+ base_model:
18
+ - Qwen/Qwen2.5-14B
19
+ model-index:
20
+ - name: legml-v0.1
21
+ results:
22
+ - task:
23
+ type: text-generation
24
+ name: Text Generation
25
+ dataset:
26
+ name: gpqa-fr
27
+ type: ai2_arc
28
+ config: le-leadboard/gpqa-fr
29
+ split: test
30
+ args:
31
+ num_few_shot: 25
32
+ metrics:
33
+ - type: acc
34
+ value: 16.49
35
+ name: accuracy
36
+ - task:
37
+ type: text-generation
38
+ name: Text Generation
39
+ dataset:
40
+ name: IFEval-fr
41
+ type: le-leadboard/IFEval-fr
42
+ split: validation
43
+ args:
44
+ num_few_shot: 10
45
+ metrics:
46
+ - type: acc
47
+ value: 14.68
48
+ name: accuracy
49
+ - task:
50
+ type: text-generation
51
+ name: Text Generation
52
+ dataset:
53
+ name: MMMLU-fr
54
+ type: le-leadboard/MMMLU-fr
55
+ config: all
56
+ split: test
57
+ args:
58
+ num_few_shot: 5
59
+ metrics:
60
+ - type: acc
61
+ value: 68.31
62
+ name: accuracy
63
+ - task:
64
+ type: text-generation
65
+ name: Text Generation
66
+ dataset:
67
+ name: bbh-fr
68
+ type: le-leadboard/bbh-fr
69
+ config: multiple_choice
70
+ split: validation
71
+ args:
72
+ num_few_shot: 0
73
+ metrics:
74
+ - type: acc
75
+ value: 37.17
76
+ name: accuracy
77
+ - task:
78
+ type: text-generation
79
+ name: Text Generation
80
+ dataset:
81
+ name: musr-fr
82
+ type: le-leadboard/musr-fr
83
+ config: le-leadboard/musr-fr
84
+ split: validation
85
+ args:
86
+ num_few_shot: 5
87
+ metrics:
88
+ - type: acc
89
+ value: 9.93
90
+ name: accuracy
91
+ - task:
92
+ type: text-generation
93
+ name: Text Generation
94
+ dataset:
95
+ name: MATH_LVL5_fr
96
+ type: le-leadboard/MATH_LVL5_fr
97
+ config: le-leadboard/MATH_LVL5_fr
98
+ split: test
99
+ args:
100
+ num_few_shot: 5
101
+ metrics:
102
+ - type: acc
103
+ value: 22.27
104
+ name: accuracy
105
+ ---
106
+
107
+ <img src="https://huggingface.co/legmlai/legml-v0.1/resolve/main/lgml.png" alt="legml-v0.1" width="400"/>
108
+
109
+
110
+ # legml-v0.1
111
+
112
+ legml-v0.1 est un grand modèle de langage (LLM) en français, capable de gérer une multitude de tâches telles que la programmation, les mathématiques, et bien d'autres domaines. Ce modèle est une version étendue d'un LLM basé sur Qwen, optimisé spécifiquement pour le français. Il a été entraîné sur un vaste corpus de données françaises nettoyées et annotées avec soin pour exécuter des instructions en français avec précision et cohérence.
113
+
114
+ L'entraînement intensif a été réalisé sur 4 GPU A100 pendant une durée de deux jours, utilisant cet ensemble de données spécialisé pour améliorer ses performances globales.
115
+
116
+ ## Détails du Modèle
117
+
118
+ - **Modèle de Base** : Qwen-2.5 LLM avec 14 milliards de paramètres
119
+ - **Données d'Entraînement** : Corpus français annoté et nettoyé
120
+ - **Méthode d'Entraînement** : Affinage complet approfondi
121
+
122
+ ## Exemples d'Utilisation
123
+
124
+ ```python
125
+ from transformers import AutoModelForCausalLM, AutoTokenizer
126
+ device = "cuda" # Appareil sur lequel charger le modèle
127
+
128
+ model_name = "legmlai/legml-v0.1"
129
+ model = AutoModelForCausalLM.from_pretrained(
130
+ model_name,
131
+ torch_dtype="auto",
132
+ device_map="auto"
133
+ )
134
+ tokenizer = AutoTokenizer.from_pretrained(model_name)
135
+
136
+ prompt = "Expliquez les principes fondamentaux de la théorie de la relativité restreinte."
137
+ messages = [
138
+ {
139
+ "role": "system",
140
+ "content": "Vous êtes un assistant virtuel compétent, prêt à fournir des réponses claires et détaillées aux questions posées."
141
+ },
142
+ {
143
+ "role": "user",
144
+ "content": prompt
145
+ }
146
+ ]
147
+ text = tokenizer.apply_chat_template(
148
+ messages,
149
+ tokenize=False,
150
+ add_generation_prompt=True
151
+ )
152
+ model_inputs = tokenizer([text], return_tensors="pt").to(device)
153
+
154
+ generated_ids = model.generate(
155
+ model_inputs.input_ids,
156
+ temperature=0.5,
157
+ top_k=40,
158
+ top_p=0.8,
159
+ max_new_tokens=512,
160
+ repetition_penalty=1.05,
161
+ )
162
+ generated_ids = [
163
+ output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
164
+ ]
165
+
166
+ response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
167
+ print(response)
168
+ ```
169
+
170
+ ## Exemples de Générations
171
+
172
+ ### Exemple 1
173
+
174
+ **Question :**
175
+
176
+ ```
177
+ Expliquez les principes fondamentaux de la théorie de la relativité restreinte.
178
+ ```
179
+
180
+ **Réponse :**
181
+
182
+ La théorie de la relativité restreinte, proposée par Albert Einstein en 1905, repose sur deux principes fondamentaux :
183
+
184
+ 1. **Principe de Relativité** : Les lois de la physique sont les mêmes dans tous les référentiels inertiels, c'est-à-dire pour tous les observateurs en mouvement rectiligne uniforme les uns par rapport aux autres.
185
+
186
+ 2. **Invariance de la Vitesse de la Lumière** : La vitesse de la lumière dans le vide est constante et indépendante du mouvement de la source ou de l'observateur, soit approximativement \( c = 299\,792\,458 \) mètres par seconde.
187
+
188
+ Ces principes entraînent des conséquences majeures, telles que la dilatation du temps, la contraction des longueurs et l'équivalence masse-énergie exprimée par la célèbre formule \( E = mc^2 \).
189
+
190
+ ### Exemple 2
191
+
192
+ **Question :**
193
+
194
+ ```
195
+ Comment installer une bibliothèque externe en Python, par exemple NumPy ?
196
+ ```
197
+
198
+ **Réponse :**
199
+
200
+ Pour installer une bibliothèque externe en Python comme NumPy, vous pouvez utiliser le gestionnaire de packages \`pip\`. Voici comment faire :
201
+
202
+ 1. **Ouvrez le terminal ou l'invite de commande** de votre système.
203
+
204
+ 2. **Exécutez la commande suivante** :
205
+
206
+ ```bash
207
+ pip install numpy
208
+ ```
209
+
210
+ 3. **Vérifiez l'installation** en important la bibliothèque dans un script Python :
211
+
212
+ ```python
213
+ import numpy as np
214
+ print(np.__version__)
215
+ ```
216
+
217
+ Cette commande installera NumPy sur votre système, et vous pourrez l'utiliser dans vos scripts pour des calculs scientifiques et mathématiques.
218
+
219
+ ## Résultats de l'Évaluation
220
+
221
+ Les performances de LegML-v0.1 ont été évaluées sur divers benchmarks en français. Voici les résultats obtenus :
222
+
223
+ | Benchmark | Métrique | Valeur (%) |
224
+ |--------------------|------------------------|-----------:|
225
+ | **BBH-fr** | Précision normalisée | 37.17% |
226
+ | **GPQA-fr** | Précision normalisée | 16.49% |
227
+ | **IFEval-fr** | Précision stricte | 14.68% |
228
+ | **MUSR-fr** | Précision normalisée | 9.93% |
229
+ | **MATH-lvl5-fr** | Correspondance exacte | 22.27% |
230
+ | **MMMLU-fr** | Précision | 68.31% |
231
+ | **Moyenne** | | 28.81% |
232
+
233
  Ces résultats démontrent les capacités du modèle sur une gamme variée de tâches complexes en français, tout en indiquant les domaines où des améliorations peuvent être apportées.