v4

Running

App Files Files Community

AIdeaText commited on Oct 27, 2024

Commit

313afa8

verified ·

1 Parent(s): 9ecf2f9

Update modules/text_analysis/stopwords.py

Browse files

Files changed (1) hide show

modules/text_analysis/stopwords.py +84 -0

modules/text_analysis/stopwords.py CHANGED Viewed

@@ -102,3 +102,87 @@ def get_custom_stopwords(lang_code: str) -> Set[str]:
     # Obtener stopwords del idioma especificado o devolver conjunto vacío si no existe
     return stopwords_dict.get(lang_code, set())

     # Obtener stopwords del idioma especificado o devolver conjunto vacío si no existe
     return stopwords_dict.get(lang_code, set())
+def process_text(text: str, lang_code: str, nlp) -> List[str]:
+    """
+    Procesa un texto completo, removiendo stopwords, símbolos y números.
+    Args:
+        text (str): Texto a procesar
+        lang_code (str): Código del idioma ('es', 'en', 'fr')
+        nlp: Modelo de spaCy cargado
+    Returns:
+        List[str]: Lista de tokens procesados
+    """
+    try:
+        # Obtener stopwords personalizadas
+        custom_stopwords = get_custom_stopwords(lang_code)
+        # Procesar el texto con spaCy
+        doc = nlp(text)
+        # Filtrar y procesar tokens
+        processed_tokens = []
+        for token in doc:
+            # Convertir a minúsculas y obtener el lema
+            lemma = token.lemma_.lower()
+            # Aplicar filtros
+            if (len(lemma) >= 2 and  # Longitud mínima
+                lemma not in custom_stopwords and  # No es stopword
+                not token.is_punct and  # No es puntuación
+                not token.is_space and  # No es espacio
+                lemma not in SYMBOLS_AND_NUMBERS and  # No es símbolo o número
+                not any(char in string.punctuation for char in lemma) and  # No contiene puntuación
+                not any(char.isdigit() for char in lemma)):  # No contiene números
+                processed_tokens.append(lemma)
+        return processed_tokens
+    except Exception as e:
+        logger.error(f"Error en process_text: {str(e)}")
+        return []
+def clean_text(text: str) -> str:
+    """
+    Limpia un texto removiendo caracteres especiales y normalizando espacios.
+    Args:
+        text (str): Texto a limpiar
+    Returns:
+        str: Texto limpio
+    """
+    # Remover caracteres especiales y números
+    cleaned = ''.join(char for char in text if char not in SYMBOLS_AND_NUMBERS)
+    # Normalizar espacios
+    cleaned = ' '.join(cleaned.split())
+    return cleaned.strip()
+def get_stopwords_for_spacy(lang_code: str, nlp) -> Set[str]:
+    """
+    Combina stopwords personalizadas con las de spaCy.
+    Args:
+        lang_code (str): Código del idioma
+        nlp: Modelo de spaCy
+    Returns:
+        Set[str]: Conjunto combinado de stopwords
+    """
+    custom_stops = get_custom_stopwords(lang_code)
+    spacy_stops = nlp.Defaults.stop_words if hasattr(nlp.Defaults, 'stop_words') else set()
+    return custom_stops.union(spacy_stops)
+# Asegúrate de exportar todas las funciones necesarias
+__all__ = [
+    'get_custom_stopwords',
+    'process_text',
+    'clean_text',
+    'get_stopwords_for_spacy',
+    'SYMBOLS_AND_NUMBERS'
+]