Spaces:

sailor2
/

README

Running

App Files Files Community

dreamerdeo commited on Dec 3, 2024

Commit

24ab78d

verified ·

1 Parent(s): 7437b0e

Update README.md

Browse files

Files changed (1) hide show

README.md +35 -12

README.md CHANGED Viewed

@@ -36,14 +36,13 @@ Read more details about Sailor2 at https://sailorllm.github.io/blog/sailor2.
     <b><font size="+1">📚 Sailor2 Pre-training Dataset </font></b>
   </summary>
-  - [Sailor2-pretrain-data-stage1](https://huggingface.co/datasets/sailor2/sailor2-pretrain-data-stage1)
-  - [Sailor2-pretrain-data-stage2](https://huggingface.co/datasets/sailor2/sailor2-pretrain-data-stage2)
-  - [sea-commoncrawl](https://huggingface.co/datasets/sailor2/sea-commoncrawl)
-  - [sea-internet](https://huggingface.co/datasets/sailor2/sea-internet)
-  - [sea-commoncrawl](https://huggingface.co/datasets/sailor2/sea-commoncrawl)
-  - [sea-pdf-text](https://huggingface.co/datasets/sailor2/sea-pdf-text)
-  - [sea-syntheitc](https://huggingface.co/datasets/sailor2/sea-syntheitc)
-  - [sea-commoncrawl-high-quality](https://huggingface.co/datasets/sailor2/sea-commoncrawl-high-quality)
 </details>
@@ -54,11 +53,35 @@ Read more details about Sailor2 at https://sailorllm.github.io/blog/sailor2.
     <b><font size="+1">📑 Sailor2 Post-training Dataset </font></b>
   </summary>
-  - [sailor2-sft-stage1](https://huggingface.co/datasets/sailor2/sailor2-sft-stage1)
-  - [sailor2-sft-stage2](https://huggingface.co/datasets/sailor2/sailor2-sft-stage2)
-  - [sea-ultrafeedback](https://huggingface.co/datasets/sailor2/sea-ultrafeedback)
-  - [sea-wildbench](https://huggingface.co/datasets/sailor2/sea-wildbench)
 </details>
 ---

     <b><font size="+1">📚 Sailor2 Pre-training Dataset </font></b>
   </summary>
+  - [Sailor2-pretrain-data-stage1](https://huggingface.co/datasets/sailor2/sailor2-pretrain-data-stage1): 500B high quality data for model training
+  - [Sailor2-pretrain-data-stage2](https://huggingface.co/datasets/sailor2/sailor2-pretrain-data-stage2): 50B extra high quality data for model annealing
+  - [sea-commoncrawl](https://huggingface.co/datasets/sailor2/sea-commoncrawl): Cleaned and deduplicated commoncrawl
+  - [sea-internet](https://huggingface.co/datasets/sailor2/sea-internet): Cleaned multilingual data from Internet Archive
+  - [sea-pdf-text](https://huggingface.co/datasets/sailor2/sea-pdf-text): Cleaned pdf data
+  - [sea-syntheitc](https://huggingface.co/datasets/sailor2/sea-syntheitc): Translation dataset from Cosmopedia across multiple languages
+  - [sea-commoncrawl-high-quality](https://huggingface.co/datasets/sailor2/sea-commoncrawl-high-quality): extra cleaned and deduplicated commoncrawl
 </details>
     <b><font size="+1">📑 Sailor2 Post-training Dataset </font></b>
   </summary>
+  - [sailor2-sft-stage1](https://huggingface.co/datasets/sailor2/sailor2-sft-stage1): Medium-Quality Instruction tuning dataset, supports English, Chinese and 15 SEA languages.
+  - [sailor2-sft-stage2](https://huggingface.co/datasets/sailor2/sailor2-sft-stage2): High-Quality Instruction tuning dataset, supports English, Chinese and 15 SEA languages.
+  - [sea-ultrafeedback](https://huggingface.co/datasets/sailor2/sea-ultrafeedback): Preference optimization dataset, supports English, Chinese and 17 SEA languages.
+</details>
+---
+<details>
+  <summary>
+    <b><font size="+1">🧐 Sailor2 Evaluation Dataset </font></b>
+  </summary>
+  - [sea-wildbench](https://huggingface.co/datasets/sailor2/sea-wildbench): Chat model evaluation, supports 8 SEA languages.
 </details>
 ---
+<details>
+  <summary>
+    <b><font size="+1">💻 Sailor2 Codebase </font></b>
+  </summary>
+  - [SailCraft Code](https://github.com/sail-sg/sailcraft): Data cleaning
+  - [Regmix Code](https://github.com/sail-sg/regmix): Data mixture
+  - [SailCompass Code](https://huggingface.co/datasets/sailor2/sailor2-sft-stage1): Few-shot evaluation
+  - [Megatron Code](https://github.com/sail-sg/Megatron-Sailor2): Pretraining-training
+  - [OAT Code](https://github.com/sail-sg/oat): Post-training
+</details>