Spaces:

yonnel
/

karl-movie-vector-backend

Sleeping

App Files Files Community

yonnel commited on Jun 12

Commit

b8ca8ae

1 Parent(s): 14e32e0

Enhance environment configuration; implement lazy initialization for vector updater and improve error handling in imports

Browse files

Files changed (7) hide show

.env.example +1 -1
app/main.py +2 -2
app/routers/admin.py +20 -5
app/services/vector_storage.py +6 -2
app/services/vector_updater.py +14 -3
app/settings.py +33 -1
requirements.txt +1 -0

.env.example CHANGED Viewed

@@ -14,7 +14,7 @@ ENV=dev
 LOG_LEVEL=INFO
 # Remove adult content from TMDB results
-FILTER_ADULT_CONTENT=true  # Set to true to filter out adult content
 # Hugging Face configuration
 HF_TOKEN=your_hf_token_here

 LOG_LEVEL=INFO
 # Remove adult content from TMDB results
+FILTER_ADULT_CONTENT=true
 # Hugging Face configuration
 HF_TOKEN=your_hf_token_here

app/main.py CHANGED Viewed

@@ -61,8 +61,6 @@ movie_metadata = None
 def load_data():
     """Load FAISS index, vectors, and metadata on startup"""
-    global vectors, id_map, faiss_index, movie_metadata
     try:
         # Load vectors
         vectors = np.load("app/data/movies.npy")
@@ -82,6 +80,8 @@ def load_data():
             movie_metadata = json.load(f)
         logger.info(f"Loaded metadata for {len(movie_metadata)} movies")
     except Exception as e:
         logger.error(f"Failed to load data: {e}")
         raise

 def load_data():
     """Load FAISS index, vectors, and metadata on startup"""
     try:
         # Load vectors
         vectors = np.load("app/data/movies.npy")
             movie_metadata = json.load(f)
         logger.info(f"Loaded metadata for {len(movie_metadata)} movies")
+        return vectors, id_map, faiss_index, movie_metadata
     except Exception as e:
         logger.error(f"Failed to load data: {e}")
         raise

app/routers/admin.py CHANGED Viewed

@@ -10,14 +10,27 @@ from typing import Optional
 try:
     from ..services.vector_updater import VectorUpdater
 except ImportError:
-    from app.services.vector_updater import VectorUpdater
 logger = logging.getLogger(__name__)
 router = APIRouter(prefix="/admin", tags=["admin"])
 security = HTTPBearer()
-# Instance globale du updater
-vector_updater = VectorUpdater()
 def verify_admin_token(credentials: HTTPAuthorizationCredentials = Depends(security)):
     """Vérification du token admin"""
@@ -285,11 +298,12 @@ async def admin_dashboard():
 @router.get("/status")
 async def get_status(token: str = Depends(verify_admin_token)):
     """Obtenir le statut du système"""
-    return vector_updater.get_update_status()
 @router.post("/update-vectors")
 async def update_vectors(background_tasks: BackgroundTasks, token: str = Depends(verify_admin_token)):
     """Déclencher une mise à jour si nécessaire"""
     if vector_updater.is_updating:
         return {"success": False, "message": "Une mise à jour est déjà en cours"}
@@ -301,6 +315,7 @@ async def update_vectors(background_tasks: BackgroundTasks, token: str = Depends
 @router.post("/force-update-vectors")
 async def force_update_vectors(background_tasks: BackgroundTasks, token: str = Depends(verify_admin_token)):
     """Forcer la mise à jour des vecteurs"""
     if vector_updater.is_updating:
         return {"success": False, "message": "Une mise à jour est déjà en cours"}
@@ -313,7 +328,7 @@ async def force_update_vectors(background_tasks: BackgroundTasks, token: str = D
 async def get_logs(token: str = Depends(verify_admin_token)):
     """Obtenir les logs de mise à jour"""
     try:
-        logs = vector_updater.get_logs()
         return {"logs": logs}
     except Exception as e:
         return {"logs": [f"Erreur de lecture des logs: {e}"]}

 try:
     from ..services.vector_updater import VectorUpdater
 except ImportError:
+    try:
+        from app.services.vector_updater import VectorUpdater
+    except ImportError:
+        # Import direct pour quand l'application est lancée depuis le répertoire racine
+        import sys
+        sys.path.append(os.path.dirname(os.path.dirname(__file__)))
+        from services.vector_updater import VectorUpdater
 logger = logging.getLogger(__name__)
 router = APIRouter(prefix="/admin", tags=["admin"])
 security = HTTPBearer()
+# Instance globale du updater - créée de manière paresseuse pour éviter les erreurs d'import
+vector_updater = None
+def get_vector_updater():
+    """Get vector updater instance (lazy initialization)"""
+    global vector_updater
+    if vector_updater is None:
+        vector_updater = VectorUpdater()
+    return vector_updater
 def verify_admin_token(credentials: HTTPAuthorizationCredentials = Depends(security)):
     """Vérification du token admin"""
 @router.get("/status")
 async def get_status(token: str = Depends(verify_admin_token)):
     """Obtenir le statut du système"""
+    return get_vector_updater().get_update_status()
 @router.post("/update-vectors")
 async def update_vectors(background_tasks: BackgroundTasks, token: str = Depends(verify_admin_token)):
     """Déclencher une mise à jour si nécessaire"""
+    vector_updater = get_vector_updater()
     if vector_updater.is_updating:
         return {"success": False, "message": "Une mise à jour est déjà en cours"}
 @router.post("/force-update-vectors")
 async def force_update_vectors(background_tasks: BackgroundTasks, token: str = Depends(verify_admin_token)):
     """Forcer la mise à jour des vecteurs"""
+    vector_updater = get_vector_updater()
     if vector_updater.is_updating:
         return {"success": False, "message": "Une mise à jour est déjà en cours"}
 async def get_logs(token: str = Depends(verify_admin_token)):
     """Obtenir les logs de mise à jour"""
     try:
+        logs = get_vector_updater().get_logs()
         return {"logs": logs}
     except Exception as e:
         return {"logs": [f"Erreur de lecture des logs: {e}"]}

app/services/vector_storage.py CHANGED Viewed

@@ -13,10 +13,11 @@ class HFVectorStorage:
     def __init__(self):
         self.hf_token = os.getenv('HF_TOKEN')
         self.repo_name = os.getenv('HF_DATASET_REPO')
-        self.api = HfApi(token=self.hf_token)
-        # Créer le repo s'il n'existe pas
         if self.hf_token and self.repo_name:
             try:
                 create_repo(
                     repo_id=self.repo_name,
@@ -27,6 +28,9 @@ class HFVectorStorage:
                 )
             except Exception as e:
                 logger.warning(f"Repo creation warning: {e}")
     def save_vectors(self, embeddings: np.ndarray, movies_data: List[Dict],
                     id_map: Dict, metadata: Dict) -> bool:

     def __init__(self):
         self.hf_token = os.getenv('HF_TOKEN')
         self.repo_name = os.getenv('HF_DATASET_REPO')
         if self.hf_token and self.repo_name:
+            self.api = HfApi(token=self.hf_token)
+            # Créer le repo s'il n'existe pas
             try:
                 create_repo(
                     repo_id=self.repo_name,
                 )
             except Exception as e:
                 logger.warning(f"Repo creation warning: {e}")
+        else:
+            self.api = None
+            logger.warning("HF_TOKEN or HF_DATASET_REPO not configured")
     def save_vectors(self, embeddings: np.ndarray, movies_data: List[Dict],
                     id_map: Dict, metadata: Dict) -> bool:

app/services/vector_updater.py CHANGED Viewed

@@ -5,9 +5,20 @@ from typing import Optional, List
 import os
 import numpy as np
-from .vector_storage import HFVectorStorage
-from .tmdb_service import TMDBService
-from .embedding_service import EmbeddingService
 logger = logging.getLogger(__name__)

 import os
 import numpy as np
+# Import avec gestion d'erreurs pour compatibilité
+try:
+    from .vector_storage import HFVectorStorage
+    from .tmdb_service import TMDBService
+    from .embedding_service import EmbeddingService
+except ImportError:
+    try:
+        from app.services.vector_storage import HFVectorStorage
+        from app.services.tmdb_service import TMDBService
+        from app.services.embedding_service import EmbeddingService
+    except ImportError:
+        from services.vector_storage import HFVectorStorage
+        from services.tmdb_service import TMDBService
+        from services.embedding_service import EmbeddingService
 logger = logging.getLogger(__name__)

app/settings.py CHANGED Viewed

@@ -4,6 +4,7 @@ Settings and environment configuration
 import os
 from functools import lru_cache
 from pydantic_settings import BaseSettings
 class Settings(BaseSettings):
@@ -25,11 +26,42 @@ class Settings(BaseSettings):
     log_level: str = "INFO"
     # Filter adult content (True = exclude adult films, False = include all)
-    filter_adult_content: bool = True
     class Config:
         env_file = ".env"
         env_file_encoding = "utf-8"
 @lru_cache()

 import os
 from functools import lru_cache
 from pydantic_settings import BaseSettings
+from typing import Optional
 class Settings(BaseSettings):
     log_level: str = "INFO"
     # Filter adult content (True = exclude adult films, False = include all)
+    filter_adult_content: Optional[str] = "true"
+    # Hugging Face configuration
+    hf_token: str = ""
+    hf_dataset_repo: str = ""
+    # Vector update configuration
+    auto_update_vectors: Optional[str] = "true"
+    update_interval_hours: int = 24
+    batch_size: int = 100
+    max_movies_limit: int = 10000
+    # Admin configuration
+    admin_token: str = ""
     class Config:
         env_file = ".env"
         env_file_encoding = "utf-8"
+    @property
+    def filter_adult_content_bool(self) -> bool:
+        """Parse filter_adult_content as boolean"""
+        if isinstance(self.filter_adult_content, str):
+            # Remove any comments and strip whitespace
+            value = self.filter_adult_content.split('#')[0].strip().lower()
+            return value in ('true', '1', 'yes', 'on')
+        return bool(self.filter_adult_content)
+    @property
+    def auto_update_vectors_bool(self) -> bool:
+        """Parse auto_update_vectors as boolean"""
+        if isinstance(self.auto_update_vectors, str):
+            # Remove any comments and strip whitespace
+            value = self.auto_update_vectors.split('#')[0].strip().lower()
+            return value in ('true', '1', 'yes', 'on')
+        return bool(self.auto_update_vectors)
 @lru_cache()

requirements.txt CHANGED Viewed

@@ -1,6 +1,7 @@
 fastapi==0.104.1
 uvicorn==0.24.0
 pydantic==2.5.0
 numpy==1.24.3
 faiss-cpu==1.7.4
 openai==1.3.5

 fastapi==0.104.1
 uvicorn==0.24.0
 pydantic==2.5.0
+pydantic-settings==2.1.0
 numpy==1.24.3
 faiss-cpu==1.7.4
 openai==1.3.5