chunkr-api / app.py
KJ24's picture
Update app.py
0fd380e verified
raw
history blame
4.3 kB
# ✅ API FastAPI de chunking sémantique intelligent avec fallback automatique
from fastapi import FastAPI
from pydantic import BaseModel
from typing import Optional
# LlamaIndex (>= 0.10.0)
from llama_index.core import Document
from llama_index.core.settings import Settings
from llama_index.core.node_parser import SemanticSplitterNodeParser, RecursiveTextSplitter
from llama_index.llms.llama_cpp import LlamaCPP
from llama_index.core.base.llms.base import BaseLLM
# Embedding local (transformers + torch)
from transformers import AutoTokenizer, AutoModel
import torch
import torch.nn.functional as F
import os
app = FastAPI()
# ✅ Configuration des caches pour Hugging Face dans le container
CACHE_DIR = "/app/cache"
os.environ["HF_HOME"] = CACHE_DIR
os.environ["TRANSFORMERS_CACHE"] = CACHE_DIR
os.environ["HF_MODULES_CACHE"] = CACHE_DIR
os.environ["HF_HUB_CACHE"] = CACHE_DIR
# ✅ Modèle d'embedding local (dense vector)
MODEL_NAME = "BAAI/bge-small-en-v1.5"
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, cache_dir=CACHE_DIR)
model = AutoModel.from_pretrained(MODEL_NAME, cache_dir=CACHE_DIR)
def get_embedding(text: str):
with torch.no_grad():
inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True)
outputs = model(**inputs)
embeddings = outputs.last_hidden_state[:, 0] # CLS token
return F.normalize(embeddings, p=2, dim=1).squeeze().tolist()
# ✅ Format des données entrantes de l'API
class ChunkRequest(BaseModel):
text: str
max_tokens: Optional[int] = 1000
overlap: Optional[int] = 350
source_id: Optional[str] = None
titre: Optional[str] = None
source: Optional[str] = None
type: Optional[str] = None
@app.post("/chunk")
async def chunk_text(data: ChunkRequest):
try:
print(f"\n✅ Texte reçu ({len(data.text)} caractères) : {data.text[:200]}...", flush=True)
# ✅ Chargement du modèle GGUF distant via llama-cpp
llm = LlamaCPP(
model_url="https://huggingface.co/TheBloke/CodeLlama-7B-Instruct-GGUF/resolve/main/codellama-7b-instruct.Q4_K_M.gguf",
temperature=0.1,
max_new_tokens=512,
context_window=2048,
generate_kwargs={"top_p": 0.95},
model_kwargs={"n_gpu_layers": 1},
)
print("✅ Modèle LLM chargé avec succès !")
# ✅ Wrapper pour l'embedding local compatible avec LlamaIndex
class SimpleEmbedding:
def get_text_embedding(self, text: str):
return get_embedding(text)
# ✅ Configuration du moteur LLM et de l'embedding dans LlamaIndex
assert isinstance(llm, BaseLLM), "❌ L'objet LLM n'est pas compatible avec Settings.llm"
Settings.llm = llm
Settings.embed_model = SimpleEmbedding()
print("✅ Configuration du LLM et de l'embedding terminée. On initialise le Semantic Splitter...", flush=True)
parser = SemanticSplitterNodeParser.from_defaults(llm=llm)
doc = Document(text=data.text)
try:
nodes = parser.get_nodes_from_documents([doc])
print(f"✅ Semantic Splitter : {len(nodes)} chunks générés")
if not nodes:
raise ValueError("Aucun chunk produit par le Semantic Splitter")
except Exception as e:
print(f"⚠️ Fallback vers RecursiveTextSplitter suite à : {e}")
splitter = RecursiveTextSplitter(chunk_size=data.max_tokens, chunk_overlap=data.overlap)
nodes = splitter.get_nodes_from_documents([doc])
print(f"♻️ Recursive Splitter : {len(nodes)} chunks générés")
# ✅ Construction de la réponse JSON pour n8n ou autre client HTTP
return {
"chunks": [node.text for node in nodes],
"metadatas": [node.metadata for node in nodes],
"source_id": data.source_id,
"titre": data.titre,
"source": data.source,
"type": data.type,
"error": None # n8n utilise cette clé pour détecter les erreurs
}
except Exception as e:
print(f"❌ Erreur critique : {e}")
return {"error": str(e)}
if __name__ == "__main__":
import uvicorn
uvicorn.run("app:app", host="0.0.0.0", port=7860)