cycloneboy
/

CscSQL-Merge-Qwen2.5-Coder-0.5B-Instruct

@@ -1,19 +1,19 @@
 ---
-pipeline_tag: text-generation
 library_name: transformers
 license: cc-by-nc-4.0
 tags:
 - text-to-sql
 - reinforcement-learning
 ---
 # SLM-SQL: An Exploration of Small Language Models for Text-to-SQL
 ### Important Links
-📖[Arxiv Paper](https://arxiv.org/abs/2507.22478) |
-🤗[HuggingFace](https://huggingface.co/collections/cycloneboy/slm-sql-688b02f99f958d7a417658dc) |
 🤖[ModelScope](https://modelscope.cn/collections/SLM-SQL-624bb6a60e9643) |
 ## News
@@ -42,6 +42,65 @@ tags:
 <img src="https://raw.githubusercontent.com/CycloneBoy/slm_sql/main/data/image/slmsql_framework.png"  height="500" alt="slmsql_framework">
 ### Main Results
 <img src="https://raw.githubusercontent.com/CycloneBoy/slm_sql/main/data/image/slmsql_bird_result.png"  height="500" alt="slm_sql_result">
@@ -59,25 +118,25 @@ Performance Comparison of different Text-to-SQL methods on BIRD dev and test dat
 | **Model**                                | Base Model                   | Train Method | Modelscope                                                                                        | HuggingFace                                                                                  |
 |------------------------------------------|------------------------------|--------------|---------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------|
-| SLM-SQL-Base-0.5B                        | Qwen2.5-Coder-0.5B-Instruct  | SFT          | [🤖 Modelscope](https://modelscope.cn/models/cycloneboy/SLM-SQL-Base-0.5B)                        | [🤗 HuggingFace](https://huggingface.co/cycloneboy/SLM-SQL-Base-0.5B)                        |
-| SLM-SQL-0.5B                             | Qwen2.5-Coder-0.5B-Instruct  | SFT + GRPO   | [🤖 Modelscope](https://modelscope.cn/models/cycloneboy/SLM-SQL-0.5B)                             | [🤗 HuggingFace](https://huggingface.co/cycloneboy/SLM-SQL-0.5B)                             |
-| CscSQL-Merge-Qwen2.5-Coder-0.5B-Instruct | Qwen2.5-Coder-0.5B-Instruct  | SFT + GRPO   | [🤖 Modelscope](https://modelscope.cn/models/cycloneboy/CscSQL-Merge-Qwen2.5-Coder-0.5B-Instruct) | [🤗 HuggingFace](https://huggingface.co/cycloneboy/CscSQL-Merge-Qwen2.5-Coder-0.5B-Instruct) |
-| SLM-SQL-Base-1.5B                        | Qwen2.5-Coder-1.5B-Instruct  | SFT          | [🤖 Modelscope](https://modelscope.cn/models/cycloneboy/SLM-SQL-Base-1.5B)                        | [🤗 HuggingFace](https://huggingface.co/cycloneboy/SLM-SQL-Base-1.5B)                        |
-| SLM-SQL-1.5B                             | Qwen2.5-Coder-1.5B-Instruct  | SFT + GRPO   | [🤖 Modelscope](https://modelscope.cn/models/cycloneboy/SLM-SQL-1.5B)                             | [🤗 HuggingFace](https://huggingface.co/cycloneboy/SLM-SQL-1.5B)                             |
-| CscSQL-Merge-Qwen2.5-Coder-1.5B-Instruct | Qwen2.5-Coder-1.5B-Instruct  | SFT + GRPO   | [🤖 Modelscope](https://modelscope.cn/models/cycloneboy/CscSQL-Merge-Qwen2.5-Coder-1.5B-Instruct) | [🤗 HuggingFace](https://huggingface.co/cycloneboy/CscSQL-Merge-Qwen2.5-Coder-1.5B-Instruct) |
-| SLM-SQL-Base-0.6B                        | Qwen3-0.6B                   | SFT          | [🤖 Modelscope](https://modelscope.cn/models/cycloneboy/SLM-SQL-Base-0.6B)                        | [🤗 HuggingFace](https://huggingface.co/cycloneboy/SLM-SQL-Base-0.6B)                        |
-| SLM-SQL-0.6B                             | Qwen3-0.6B                   | SFT + GRPO   | [🤖 Modelscope](https://modelscope.cn/models/cycloneboy/SLM-SQL-0.6B)                             | [🤗 HuggingFace](https://huggingface.co/cycloneboy/SLM-SQL-0.6B)                             |
-| SLM-SQL-Base-1.3B                        | deepseek-coder-1.3b-instruct | SFT          | [🤖 Modelscope](https://modelscope.cn/models/cycloneboy/SLM-SQL-Base-1.3B )                       | [🤗 HuggingFace](https://huggingface.co/cycloneboy/SLM-SQL-Base-1.3B )                       |
-| SLM-SQL-1.3B                             | deepseek-coder-1.3b-instruct | SFT + GRPO   | [🤖 Modelscope](https://modelscope.cn/models/cycloneboy/SLM-SQL-1.3B )                            | [🤗 HuggingFace](https://huggingface.co/cycloneboy/SLM-SQL-1.3B )                            |
-| SLM-SQL-Base-1B                          | Llama-3.2-1B-Instruct        | SFT          | [🤖 Modelscope](https://modelscope.cn/models/cycloneboy/SLM-SQL-Base-1B )                         | [🤗 HuggingFace](https://huggingface.co/cycloneboy/SLM-SQL-Base-1B )                         |
 ## Dataset
-| **Dataset**                | Modelscope                                                                         | HuggingFace                                                                          |
-|----------------------------|------------------------------------------------------------------------------------|--------------------------------------------------------------------------------------|
-| SynsQL-Think-916k          | [🤖 Modelscope](https://modelscope.cn/datasets/cycloneboy/SynsQL-Think-916k)       | [🤗 HuggingFace](https://huggingface.co/datasets/cycloneboy/SynsQL-Think-916k)       |
-| SynsQL-Merge-Think-310k    | [🤖 Modelscope](https://modelscope.cn/datasets/cycloneboy/SynsQL-Merge-Think-310k) | [🤗 HuggingFace](https://huggingface.co/datasets/cycloneboy/SynsQL-Merge-Think-310k) |
-| bird train and dev dataset | [🤖 Modelscope](https://modelscope.cn/datasets/cycloneboy/bird_train)              | [🤗 HuggingFace](https://huggingface.co/datasets/cycloneboy/bird_train)              |
 ## TODO

 ---
 library_name: transformers
 license: cc-by-nc-4.0
+pipeline_tag: text-generation
 tags:
 - text-to-sql
 - reinforcement-learning
 ---
 # SLM-SQL: An Exploration of Small Language Models for Text-to-SQL
 ### Important Links
+📖[Paper](https://huggingface.co/papers/2507.22478) |
+\ud83d\udcbb[GitHub Repository](https://github.com/CycloneBoy/slm_sql) |
+🤗[HuggingFace Collection](https://huggingface.co/collections/cycloneboy/slm-sql-688b02f99f958d7a417658dc) |
 🤖[ModelScope](https://modelscope.cn/collections/SLM-SQL-624bb6a60e9643) |
 ## News
 <img src="https://raw.githubusercontent.com/CycloneBoy/slm_sql/main/data/image/slmsql_framework.png"  height="500" alt="slmsql_framework">
+## How to use
+You can use the model with the `transformers` library for Text-to-SQL tasks. Make sure you have `transformers` and `torch` installed.
+```python
+import torch
+from transformers import AutoTokenizer, AutoModelForCausalLM
+model_name = "cycloneboy/SLM-SQL-0.5B" # Or any other SLM-SQL model from the collection
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForCausalLM.from_pretrained(
+    model_name,
+    torch_dtype=torch.bfloat16,
+    device_map="auto"
+)
+# Example for Text-to-SQL
+db_schema = """
+CREATE TABLE Employee (
+    employee_id INTEGER PRIMARY KEY,
+    name TEXT,
+    department TEXT,
+    salary INTEGER
+);
+CREATE TABLE Department (
+    department_id INTEGER PRIMARY KEY,
+    name TEXT,
+    location TEXT
+);
+"""
+question = "What are the names of employees in the 'Sales' department earning more than 50000?"
+prompt = f"Given the database schema:
+{db_schema}
+Translate the following question to SQL: {question}"
+messages = [
+    {"role": "system", "content": "You are a helpful assistant that translates natural language questions into SQL queries."},
+    {"role": "user", "content": prompt}
+]
+input_ids = tokenizer.apply_chat_template(
+    messages,
+    add_generation_prompt=True,
+    return_tensors="pt"
+).to(model.device)
+outputs = model.generate(
+    input_ids,
+    max_new_tokens=256,
+    do_sample=True,
+    temperature=0.7,
+    top_k=50,
+    top_p=0.95
+)
+response = tokenizer.decode(outputs[0][input_ids.shape[-1]:], skip_special_tokens=True)
+print(response)
+# Expected output similar to: SELECT name FROM Employee WHERE department = 'Sales' AND salary > 50000
+```
 ### Main Results
 <img src="https://raw.githubusercontent.com/CycloneBoy/slm_sql/main/data/image/slmsql_bird_result.png"  height="500" alt="slm_sql_result">
 | **Model**                                | Base Model                   | Train Method | Modelscope                                                                                        | HuggingFace                                                                                  |
 |------------------------------------------|------------------------------|--------------|---------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------|
+| SLM-SQL-Base-0.5B                        | Qwen2.5-Coder-0.5B-Instruct  | SFT          | [\ud83e\udd16 Modelscope](https://modelscope.cn/models/cycloneboy/SLM-SQL-Base-0.5B)                        | [\ud83e\udd17 HuggingFace](https://huggingface.co/cycloneboy/SLM-SQL-Base-0.5B)                        |
+| SLM-SQL-0.5B                             | Qwen2.5-Coder-0.5B-Instruct  | SFT + GRPO   | [\ud83e\udd16 Modelscope](https://modelscope.cn/models/cycloneboy/SLM-SQL-0.5B)                             | [\ud83e\udd17 HuggingFace](https://huggingface.co/cycloneboy/SLM-SQL-0.5B)                             |
+| CscSQL-Merge-Qwen2.5-Coder-0.5B-Instruct | Qwen2.5-Coder-0.5B-Instruct  | SFT + GRPO   | [\ud83e\udd16 Modelscope](https://modelscope.cn/models/cycloneboy/CscSQL-Merge-Qwen2.5-Coder-0.5B-Instruct) | [\ud83e\udd17 HuggingFace](https://huggingface.co/cycloneboy/CscSQL-Merge-Qwen2.5-Coder-0.5B-Instruct) |
+| SLM-SQL-Base-1.5B                        | Qwen2.5-Coder-1.5B-Instruct  | SFT          | [\ud83e\udd16 Modelscope](https://modelscope.cn/models/cycloneboy/SLM-SQL-Base-1.5B)                        | [\ud83e\udd17 HuggingFace](https://huggingface.co/cycloneboy/SLM-SQL-Base-1.5B)                        |
+| SLM-SQL-1.5B                             | Qwen2.5-Coder-1.5B-Instruct  | SFT + GRPO   | [\ud83e\udd16 Modelscope](https://modelscope.cn/models/cycloneboy/SLM-SQL-1.5B)                             | [\ud83e\udd17 HuggingFace](https://huggingface.co/cycloneboy/SLM-SQL-1.5B)                             |
+| CscSQL-Merge-Qwen2.5-Coder-1.5B-Instruct | Qwen2.5-Coder-1.5B-Instruct  | SFT + GRPO   | [\ud83e\udd16 Modelscope](https://modelscope.cn/models/cycloneboy/CscSQL-Merge-Qwen2.5-Coder-1.5B-Instruct) | [\ud83e\udd17 HuggingFace](https://huggingface.co/cycloneboy/CscSQL-Merge-Qwen2.5-Coder-1.5B-Instruct) |
+| SLM-SQL-Base-0.6B                        | Qwen3-0.6B                   | SFT          | [\ud83e\udd16 Modelscope](https://modelscope.cn/models/cycloneboy/SLM-SQL-Base-0.6B)                        | [\ud83e\udd17 HuggingFace](https://huggingface.co/cycloneboy/SLM-SQL-Base-0.6B)                        |
+| SLM-SQL-0.6B                             | Qwen3-0.6B                   | SFT + GRPO   | [\ud83e\udd16 Modelscope](https://modelscope.cn/models/cycloneboy/SLM-SQL-0.6B)                             | [\ud83e\udd17 HuggingFace](https://huggingface.co/cycloneboy/SLM-SQL-0.6B)                             |
+| SLM-SQL-Base-1.3B                        | deepseek-coder-1.3b-instruct | SFT          | [\ud83e\udd16 Modelscope](https://modelscope.cn/models/cycloneboy/SLM-SQL-Base-1.3B )                       | [\ud83e\udd17 HuggingFace](https://huggingface.co/cycloneboy/SLM-SQL-Base-1.3B )                       |
+| SLM-SQL-1.3B                             | deepseek-coder-1.3b-instruct | SFT + GRPO   | [\ud83e\udd16 Modelscope](https://modelscope.cn/models/cycloneboy/SLM-SQL-1.3B )                            | [\ud83e\udd17 HuggingFace](https://huggingface.co/cycloneboy/SLM-SQL-1.3B )                            |
+| SLM-SQL-Base-1B                          | Llama-3.2-1B-Instruct        | SFT          | [\ud83e\udd16 Modelscope](https://modelscope.cn/models/cycloneboy/SLM-SQL-Base-1B )                         | [\ud83e\udd17 HuggingFace](https://huggingface.co/cycloneboy/SLM-SQL-Base-1B )                         |
 ## Dataset
+| **Dataset** | Modelscope | HuggingFace |
+|---|---|---|
+| SynsQL-Think-916k | [\ud83e\udd16 Modelscope](https://modelscope.cn/datasets/cycloneboy/SynsQL-Think-916k) | [\ud83e\udd17 HuggingFace](https://huggingface.co/datasets/cycloneboy/SynsQL-Think-916k) |
+| SynsQL-Merge-Think-310k | [\ud83e\udd16 Modelscope](https://modelscope.cn/datasets/cycloneboy/SynsQL-Merge-Think-310k) | [\ud83e\udd17 HuggingFace](https://huggingface.co/datasets/cycloneboy/SynsQL-Merge-Think-310k) |
+| bird train and dev dataset | [\ud83e\udd16 Modelscope](https://modelscope.cn/datasets/cycloneboy/bird_train) | [\ud83e\udd17 HuggingFace](https://huggingface.co/datasets/cycloneboy/bird_train) |
 ## TODO