Spaces:

PuristanLabs1
/

VocalWeb

Sleeping

PuristanLabs1 commited on Feb 28

Commit

23b607a

verified ·

1 Parent(s): 7e5ccd3

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,8 +3,7 @@ import os
 import gradio as gr
 import trafilatura
 from trafilatura import fetch_url, extract
-import docling
-from docling.document_converter import DocumentConverter
 import torch
 import soundfile as sf
 import numpy as np
@@ -39,9 +38,9 @@ AVAILABLE_VOICES = [
 def fetch_and_display_content(url):
     """Fetch and extract text from a given URL (HTML or PDF)."""
     if url.endswith(".pdf") or "pdf" in url:
-        converter = DocumentConverter()
         #result = converter.convert(source)
-        text = converter.convert(url).document.export_to_markdown()
     else:
         downloaded = trafilatura.fetch_url(url)
         text = extract(downloaded, output_format="markdown", with_metadata=True, include_tables=False, include_links=False, include_formatting=True, include_comments=False) #without metadata extraction

 import gradio as gr
 import trafilatura
 from trafilatura import fetch_url, extract
+from markitdown import MarkItDown
 import torch
 import soundfile as sf
 import numpy as np
 def fetch_and_display_content(url):
     """Fetch and extract text from a given URL (HTML or PDF)."""
     if url.endswith(".pdf") or "pdf" in url:
+        converter = MarkItDown()
         #result = converter.convert(source)
+        text = converter.convert(url).text_content
     else:
         downloaded = trafilatura.fetch_url(url)
         text = extract(downloaded, output_format="markdown", with_metadata=True, include_tables=False, include_links=False, include_formatting=True, include_comments=False) #without metadata extraction