from fastapi import FastAPI
from pydantic import BaseModel
from typing import Optional

# ✅ Modules de LlamaIndex
from llama_index.core.settings import Settings
from llama_index.core import Document, ServiceContext
from llama_index.llms.llama_cpp import LlamaCPP
from llama_index.core.node_parser import SemanticSplitterNodeParser

# ✅ Pour l'embedding LOCAL via transformers
from transformers import AutoTokenizer, AutoModel
import torch
import torch.nn.functional as F
import os

app = FastAPI()

# ✅ Configuration locale du cache HF pour Hugging Face
# ✅ Définir un chemin autorisé pour le cache (à l'intérieur du container Hugging Face)
CACHE_DIR = "/app/cache"
os.environ["HF_HOME"] = CACHE_DIR
os.environ["TRANSFORMERS_CACHE"] = CACHE_DIR
os.environ["HF_MODULES_CACHE"] = CACHE_DIR
os.environ["HF_HUB_CACHE"] = CACHE_DIR


# ✅ Configuration du modèle d’embedding local (ex: BGE / Nomic / GTE etc.)
MODEL_NAME = "BAAI/bge-small-en-v1.5"

tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, cache_dir=CACHE_DIR)
model = AutoModel.from_pretrained(MODEL_NAME, cache_dir=CACHE_DIR)

def get_embedding(text: str):
    with torch.no_grad():
        inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True)
        outputs = model(**inputs)
        embeddings = outputs.last_hidden_state[:, 0]
        return F.normalize(embeddings, p=2, dim=1).squeeze().tolist()

# ✅ Données entrantes du POST
class ChunkRequest(BaseModel):
    text: str
    source_id: Optional[str] = None
    titre: Optional[str] = None
    source: Optional[str] = None
    type: Optional[str] = None

@app.post("/chunk")
async def chunk_text(data: ChunkRequest):
    try:
        # ✅ Vérification du texte reçu
        print(f"✅ Texte reçu ({len(data.text)} caractères) : {data.text[:200]}...")
        print("✅ ✔️ Reçu – On passe à la configuration du modèle LLM...")

        # ✅ Chargement du modèle LLM depuis Hugging Face (GGUF distant)
        llm = LlamaCPP(
            model_url="https://huggingface.co/leafspark/Mistral-7B-Instruct-v0.2-Q4_K_M-GGUF/resolve/main/mistral-7b-instruct-v0.2.Q4_K_M.gguf",
            temperature=0.1,
            max_new_tokens=512,
            context_window=2048,
            generate_kwargs={"top_p": 0.95},
            model_kwargs={"n_gpu_layers": 1},
        )

        print("✅ ✔️ Modèle LLM chargé sans erreur on continue...")

        # ✅ Définition d’un wrapper simple pour l’embedding local
        class SimpleEmbedding:
            def get_text_embedding(self, text: str):
                return get_embedding(text)

        try:
            # 🛠️ Remplace Settings.llm + embed_model par ServiceContext
            Settings.service_context = ServiceContext.from_defaults(
                llm=llm,
                embed_model=SimpleEmbedding()
            )
            print("✅ ✔️ Settings configurés via ServiceContext (LLM + Embedding)")
        except Exception as e:
            print(f"❌ Erreur dans la configuration des Settings : {e}")
            return {"error": str(e)}

        print("✅ LLM et embedding configurés - prêt pour le split")
        print("✅ Début du split sémantique...", flush=True)

        # ✅ Utilisation du Semantic Splitter avec le LLM actuel
        parser = SemanticSplitterNodeParser.from_defaults(llm=llm)
        fallback_splitter = Settings.node_parser  # fallback = splitter par défaut

        doc = Document(text=data.text)

        try:
            nodes = parser.get_nodes_from_documents([doc])
            print(f"✅ Nombre de chunks générés : {len(nodes)}")
            print(f"🧩 Exemple chunk : {nodes[0].text[:100]}...")

        except Exception as e:
            import traceback
            traceback.print_exc()
            print(f"❌ Erreur lors du split sémantique : {e}")
            return {"error": str(e)}

            # Fallback option (non utilisé ici)
            nodes = fallback_splitter.get_nodes_from_documents([doc])
            print(f"⚠️ Split fallback utilisé - chunks générés : {len(nodes)}")

        # ✅ Résultat complet pour l’API
        return {
            "chunks": [node.text for node in nodes],
            "metadatas": [node.metadata for node in nodes],
            "source_id": data.source_id,
            "titre": data.titre,
            "source": data.source,
            "type": data.type,
            "error": None  # ← essentiel pour que n8n voie "rien à signaler"
        }

    except Exception as e:
        return {"error": str(e)}

if __name__ == "__main__":
    import uvicorn
    uvicorn.run("app:app", host="0.0.0.0", port=7860)