Spaces:

acecalisto3
/

urld

Running

App Files Files Community

acecalisto3 commited on Mar 19

Commit

f1041ef

verified ·

1 Parent(s): dad6950

Update app.py

Browse files

Files changed (1) hide show

app.py +10 -22

app.py CHANGED Viewed

@@ -5,7 +5,6 @@ import time
 import logging
 import mimetypes
 import zipfile
-import tempfile
 from datetime import datetime
 from typing import List, Dict, Optional, Union
 from pathlib import Path
@@ -32,7 +31,7 @@ class URLProcessor:
         self.session = requests.Session()
         self.timeout = 10  # seconds
         self.session.headers.update({
-            'User-Agent': UserAgent().random,
             'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
             'Accept-Language': 'en-US,en;q=0.5',
             'Accept-Encoding': 'gzip, deflate, br',
@@ -96,8 +95,8 @@ class URLProcessor:
             if not file_id:
                 logger.error(f"Invalid Google Drive URL: {url}")
                 return None
-            direct_url = f"https://drive.google.com/uc?export=download&id={file_id.group(1)}"
             response = self.session.get(direct_url, timeout=self.timeout)
             response.raise_for_status()
@@ -135,7 +134,6 @@ class URLProcessor:
             for element in soup(['script', 'style', 'nav', 'footer', 'header', 'meta', 'link']):
                 element.decompose()
-            # Try to find the main content in a more robust way
             main_content = soup.find('main') or soup.find('article') or soup.body
             if main_content:
@@ -178,29 +176,23 @@ class FileProcessor:
         try:
             for file in files:
-                # Check if the file is a Gradio File object or a string path
                 file_path = file.name if isinstance(file, gr.File) else file
-                # Log the file path being processed
                 logger.info(f"Processing file: {file_path}")
-                # Skip if it's a directory
                 if os.path.isdir(file_path):
                     logger.warning(f"Skipping directory: {file_path}")
                     continue
-                # Skip if file doesn't exist
                 if not os.path.exists(file_path):
                     logger.warning(f"File does not exist: {file_path}")
                     continue
-                # Check file size
                 file_size = os.path.getsize(file_path)
                 if file_size > self.max_file_size:
                     logger.warning(f"File size ({file_size} bytes) exceeds maximum allowed size")
-                    continue  # Skip this file
-                # Process based on file type
                 if zipfile.is_zipfile(file_path):
                     if self.processed_zip_count >= self.max_zip_files:
                         logger.warning(f"Maximum number of ZIP files ({self.max_zip_files}) reached, skipping {file_path}")
@@ -218,9 +210,11 @@ class FileProcessor:
             logger.error(f"Error processing files: {str(e)}")
         return combined_data
-    def _process_zip_file(self, zip_path: str, temp_dir: str) -> List[Dict]:
         """Process ZIP file contents"""
         results = []
         with zipfile.ZipFile(zip_path, 'r') as zip_ref:
             zip_ref.extractall(temp_dir)
             for root, _, files in os.walk(temp_dir):
@@ -230,7 +224,7 @@ class FileProcessor:
                         try:
                             with open(filepath, 'r', encoding='utf-8', errors='ignore') as f:
                                 content = f.read()
-                            if content.strip():
                                 results.append({
                                     "source": "file",
                                     "filename": filename,
@@ -280,7 +274,6 @@ class Chatbot:
         if not self.data:
             return "No data loaded. Please load your JSON data first."
-        # Simple keyword-based response logic
         for key, value in self.data.items():
             if key.lower() in user_input.lower():
                 return f"{key}: {value}"
@@ -337,7 +330,6 @@ def create_interface():
         output_text = gr.Textbox(label="Processing Results", interactive=False)
         output_file = gr.File(label="Processed Output")
-        # Initialize chatbot
         chatbot = Chatbot()
         def process_all_inputs(urls, file, text):
@@ -347,7 +339,6 @@ def create_interface():
                 file_processor = FileProcessor()
                 results = []
-                # Process URLs
                 if urls:
                     url_list = re.split(r'[,\n]', urls)
                     url_list = [url.strip() for url in url_list if url.strip()]
@@ -364,20 +355,17 @@ def create_interface():
                                     'timestamp': datetime.now().isoformat()
                                 })
-                # Process files
                 if file:
-                    results.extend(file_processor.process_file(file))
-                # Process text input
                 if text:
                     cleaned_text = processor.advanced_text_cleaning(text)
                     results.append({
                         'source': 'direct_input',
                         'content': cleaned_text,
-                        'timestamp': datetime.now().isoformat()
                     })
-                # Generate output
                 if results:
                     output_dir = Path('output') / datetime.now().strftime('%Y-%m-%d')
                     output_dir.mkdir(parents=True, exist_ok=True)

 import logging
 import mimetypes
 import zipfile
 from datetime import datetime
 from typing import List, Dict, Optional, Union
 from pathlib import Path
         self.session = requests.Session()
         self.timeout = 10  # seconds
         self.session.headers.update({
+            'User -Agent': UserAgent().random,
             'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
             'Accept-Language': 'en-US,en;q=0.5',
             'Accept-Encoding': 'gzip, deflate, br',
             if not file_id:
                 logger.error(f"Invalid Google Drive URL: {url}")
                 return None
+            direct_url = f"https://drive.google.com/uc? export=download&id={file_id.group(1)}"
             response = self.session.get(direct_url, timeout=self.timeout)
             response.raise_for_status()
             for element in soup(['script', 'style', 'nav', 'footer', 'header', 'meta', 'link']):
                 element.decompose()
             main_content = soup.find('main') or soup.find('article') or soup.body
             if main_content:
         try:
             for file in files:
                 file_path = file.name if isinstance(file, gr.File) else file
                 logger.info(f"Processing file: {file_path}")
                 if os.path.isdir(file_path):
                     logger.warning(f"Skipping directory: {file_path}")
                     continue
                 if not os.path.exists(file_path):
                     logger.warning(f"File does not exist: {file_path}")
                     continue
                 file_size = os.path.getsize(file_path)
                 if file_size > self.max_file_size:
                     logger.warning(f"File size ({file_size} bytes) exceeds maximum allowed size")
+                    continue
                 if zipfile.is_zipfile(file_path):
                     if self.processed_zip_count >= self.max_zip_files:
                         logger.warning(f"Maximum number of ZIP files ({self.max_zip_files}) reached, skipping {file_path}")
             logger.error(f"Error processing files: {str(e)}")
         return combined_data
+    def _process_zip_file(self, zip_path: str) -> List[Dict]:
         """Process ZIP file contents"""
         results = []
+        temp_dir = tempfile.mkdtemp()
         with zipfile.ZipFile(zip_path, 'r') as zip_ref:
             zip_ref.extractall(temp_dir)
             for root, _, files in os.walk(temp_dir):
                         try:
                             with open(filepath, 'r', encoding='utf-8', errors='ignore') as f:
                                 content = f.read()
+ if content.strip():
                                 results.append({
                                     "source": "file",
                                     "filename": filename,
         if not self.data:
             return "No data loaded. Please load your JSON data first."
         for key, value in self.data.items():
             if key.lower() in user_input.lower():
                 return f"{key}: {value}"
         output_text = gr.Textbox(label="Processing Results", interactive=False)
         output_file = gr.File(label="Processed Output")
         chatbot = Chatbot()
         def process_all_inputs(urls, file, text):
                 file_processor = FileProcessor()
                 results = []
                 if urls:
                     url_list = re.split(r'[,\n]', urls)
                     url_list = [url.strip() for url in url_list if url.strip()]
                                     'timestamp': datetime.now().isoformat()
                                 })
                 if file:
+                    results.extend(file_processor.process_files(file))
                 if text:
                     cleaned_text = processor.advanced_text_cleaning(text)
                     results.append({
                         'source': 'direct_input',
                         'content': cleaned_text,
+                        'timestamp': datetime.now(). isoformat()
                     })
                 if results:
                     output_dir = Path('output') / datetime.now().strftime('%Y-%m-%d')
                     output_dir.mkdir(parents=True, exist_ok=True)