Spaces:

C10X
/

Dataset-Quality-Scorer

Running

App Files Files Community

C10X commited on 27 days ago

Commit

b12c475

verified ·

1 Parent(s): 7f5dfa7

Update app.py

Browse files

Files changed (1) hide show

app.py +24 -33

app.py CHANGED Viewed

@@ -178,17 +178,15 @@ def process_dataset(
             stats_file_path = f.name
             json.dump(stats_dict, f, indent=2)
-        mean_score_str = f"{stats_dict['statistics']['mean']:.3f}"
-        median_score_str = f"{stats_dict['statistics']['median']:.3f}"
-        samples_str = f"{actual_samples:,}"
-        summary_md = dedent(f"""
-            #### ✅ Scoring Completed!
-            - **Dataset:** `{model_id}`
-            - **Processed Samples:** `{samples_str}`
-            - **Mean Score:** `{mean_score_str}`
-            - **Median Score:** `{median_score_str}`
-        """)
         yield update_log("Process finished successfully!")
@@ -222,28 +220,21 @@ def upload_to_hub(
         if plot_file and os.path.exists(plot_file):
             upload_file(path_or_fileobj=plot_file, path_in_repo="quality_distribution.png", repo_id=repo_id, repo_type="dataset", token=hf_token)
-        # ==============================================================================
-        # --- HATAYI GİDEREN KESİN ÇÖZÜM BURADA ---
-        # Önce formatlama içermeyen bir şablon oluşturuyoruz.
-        # ==============================================================================
-        readme_template = """
-        ---
-        license: apache-2.0
-        ---
-        # Quality-Scored Dataset: {repo_name}
-        This dataset was scored for quality using the [Dataset Quality Scorer Space](https://huggingface.co/spaces/ggml-org/dataset-quality-scorer).
-        ![Quality Distribution](quality_distribution.png)
-        ## Usage
-        ```python
-        from datasets import load_dataset
-        dataset = load_dataset("{repo_id}", split="train")
-        ```
-        """
-        # Sonra dedent ve format işlemlerini ayrı ayrı yapıyoruz.
-        readme_content = dedent(readme_template).format(
-            repo_name=repo_id.split('/')[-1],
-            repo_id=repo_id
-        )
         upload_file(path_or_fileobj=readme_content.encode(), path_in_repo="README.md", repo_id=repo_id, repo_type="dataset", token=hf_token)
         progress(1.0, "Done!")

             stats_file_path = f.name
             json.dump(stats_dict, f, indent=2)
+        # --- KESİN ÇÖZÜM: Metni satır satır bir liste ile oluşturmak ---
+        summary_lines = [
+            "#### ✅ Scoring Completed!",
+            f"- **Dataset:** `{model_id}`",
+            f"- **Processed Samples:** `{actual_samples:,}`",
+            f"- **Mean Score:** `{stats_dict['statistics']['mean']:.3f}`",
+            f"- **Median Score:** `{stats_dict['statistics']['median']:.3f}`"
+        ]
+        summary_md = "\n".join(summary_lines)
         yield update_log("Process finished successfully!")
         if plot_file and os.path.exists(plot_file):
             upload_file(path_or_fileobj=plot_file, path_in_repo="quality_distribution.png", repo_id=repo_id, repo_type="dataset", token=hf_token)
+        # --- KESİN ÇÖZÜM: README metnini de satır satır bir liste ile oluşturmak ---
+        readme_lines = [
+            "---",
+            "license: apache-2.0",
+            "---",
+            f"# Quality-Scored Dataset: {repo_id.split('/')[-1]}",
+            "This dataset was scored for quality using the [Dataset Quality Scorer Space](https://huggingface.co/spaces/ggml-org/dataset-quality-scorer).",
+            "![Quality Distribution](quality_distribution.png)",
+            "## Usage",
+            "```python",
+            "from datasets import load_dataset",
+            f'dataset = load_dataset("{repo_id}", split="train")',
+            "```"
+        ]
+        readme_content = "\n".join(readme_lines)
         upload_file(path_or_fileobj=readme_content.encode(), path_in_repo="README.md", repo_id=repo_id, repo_type="dataset", token=hf_token)
         progress(1.0, "Done!")