Spaces:

Merlintxu
/

Chunkings

Sleeping

App Files Files Community

Merlintxu commited on 24 days ago

Commit

92e06e0

verified ·

1 Parent(s): 3596d24

Update app.py

Browse files

Files changed (1) hide show

app.py +6 -29

app.py CHANGED Viewed

@@ -7,14 +7,10 @@ from docx import Document
 import PyPDF2
 from sentence_transformers import SentenceTransformer
 import tiktoken
-import os
-# Carga modelo de embeddings de HF
 model = SentenceTransformer('all-MiniLM-L6-v2')
-# Tokenizer para chunking
 tokenizer = tiktoken.get_encoding("cl100k_base")
-# Extrae front-matter YAML (si existe) y cuerpo
 def extract_front_matter_and_body(text: str):
     import re
     fm_regex = r"^---\n(.*?)\n---\n(.*)$"
@@ -27,7 +23,6 @@ def extract_front_matter_and_body(text: str):
         body = text
     return meta, body
-# Chunking en base a tokens
 def chunk_text(text: str, max_tokens: int = 500, overlap: int = 50):
     tokens = tokenizer.encode(text)
     chunks = []
@@ -39,10 +34,8 @@ def chunk_text(text: str, max_tokens: int = 500, overlap: int = 50):
         start += max_tokens - overlap
     return chunks
-# Procesa un archivo individual (md/docx/pdf)
 def process_file(path: str, vertical: str, language: str):
     ext = Path(path).suffix.lower()
-    # Leer y extraer texto
     if ext in ['.md', '.markdown']:
         raw = Path(path).read_text(encoding='utf-8')
         meta, body = extract_front_matter_and_body(raw)
@@ -58,15 +51,12 @@ def process_file(path: str, vertical: str, language: str):
     else:
         return []
-    # Metadatos por defecto + front-matter
     default_meta = {
         'vertical': vertical,
         'language': language,
         'source': Path(path).name
     }
     meta = {**default_meta, **meta}
-    # Chunking y embeddings
     records = []
     for i, chunk in enumerate(chunk_text(body)):
         emb = model.encode(chunk).tolist()
@@ -75,46 +65,33 @@ def process_file(path: str, vertical: str, language: str):
             'chunk_index': i+1,
             **meta
         }
-        records.append({ 'vector': emb, 'metadata': metadata })
     return records
-# Función para el botón
 def run_pipeline(files, vertical, language):
     all_records = []
-    # Guardar temporalmente y procesar
-    for file in files:
-        # Gradio pasa un dict con 'name' y 'data'
-        tmp_path = file.name
-        os.replace(file.name, tmp_path)
-        recs = process_file(tmp_path, vertical, language)
         all_records.extend(recs)
-    # Generar JSONL
     out_file = f"/tmp/{uuid.uuid4().hex}.jsonl"
     with open(out_file, 'w', encoding='utf-8') as f:
         for rec in all_records:
-            json.dump({ 'id': rec['metadata']['id'],
-                        'vector': rec['vector'],
-                        'metadata': rec['metadata']
-                      }, f, ensure_ascii=False)
             f.write("\n")
     return out_file
-# Interfaz Gradio
 demo = gr.Blocks()
 with demo:
     gr.Markdown("## Ingesta para Amazon S3 Vector Features")
     with gr.Row():
-        uploader = gr.File(label="Sube tus documentos", file_count="multiple", type="file")
         vertical = gr.Textbox(label="Vertical (p.ej. SEO, eCommerce)", value="general")
         language = gr.Textbox(label="Idioma", value="es")
     btn = gr.Button("Procesar y Generar JSONL")
     output = gr.File(label="Descarga el JSONL")
-    btn.click(fn=run_pipeline,
-              inputs=[uploader, vertical, language],
-              outputs=output)
 if __name__ == "__main__":
     demo.launch()

 import PyPDF2
 from sentence_transformers import SentenceTransformer
 import tiktoken
 model = SentenceTransformer('all-MiniLM-L6-v2')
 tokenizer = tiktoken.get_encoding("cl100k_base")
 def extract_front_matter_and_body(text: str):
     import re
     fm_regex = r"^---\n(.*?)\n---\n(.*)$"
         body = text
     return meta, body
 def chunk_text(text: str, max_tokens: int = 500, overlap: int = 50):
     tokens = tokenizer.encode(text)
     chunks = []
         start += max_tokens - overlap
     return chunks
 def process_file(path: str, vertical: str, language: str):
     ext = Path(path).suffix.lower()
     if ext in ['.md', '.markdown']:
         raw = Path(path).read_text(encoding='utf-8')
         meta, body = extract_front_matter_and_body(raw)
     else:
         return []
     default_meta = {
         'vertical': vertical,
         'language': language,
         'source': Path(path).name
     }
     meta = {**default_meta, **meta}
     records = []
     for i, chunk in enumerate(chunk_text(body)):
         emb = model.encode(chunk).tolist()
             'chunk_index': i+1,
             **meta
         }
+        records.append({'vector': emb, 'metadata': metadata})
     return records
 def run_pipeline(files, vertical, language):
     all_records = []
+    for file_path in files:
+        recs = process_file(file_path, vertical, language)
         all_records.extend(recs)
     out_file = f"/tmp/{uuid.uuid4().hex}.jsonl"
     with open(out_file, 'w', encoding='utf-8') as f:
         for rec in all_records:
+            json.dump({'id': rec['metadata']['id'], 'vector': rec['vector'], 'metadata': rec['metadata']}, f, ensure_ascii=False)
             f.write("\n")
     return out_file
 demo = gr.Blocks()
 with demo:
     gr.Markdown("## Ingesta para Amazon S3 Vector Features")
     with gr.Row():
+        uploader = gr.File(label="Sube tus documentos", file_count="multiple", type="filepath")
         vertical = gr.Textbox(label="Vertical (p.ej. SEO, eCommerce)", value="general")
         language = gr.Textbox(label="Idioma", value="es")
     btn = gr.Button("Procesar y Generar JSONL")
     output = gr.File(label="Descarga el JSONL")
+    btn.click(fn=run_pipeline, inputs=[uploader, vertical, language], outputs=output)
 if __name__ == "__main__":
     demo.launch()