Spaces:

MrSimple01
/

AIEXP_RAG_1

Sleeping

App Files Files Community

MrSimple07 commited on 5 days ago

Commit

1b98e0e

1 Parent(s): 34ac8e9

fixed config + added all the necessary files

Browse files

Files changed (7) hide show

app.py +29 -9
scripts/__pycache__/config.cpython-311.pyc +0 -0
scripts/__pycache__/document_processor.cpython-311.pyc +0 -0
scripts/__pycache__/rag_engine.cpython-311.pyc +0 -0
scripts/config.py +20 -5
scripts/document_processor.py +1 -6
scripts/rag_engine.py +1 -5

app.py CHANGED Viewed

@@ -4,14 +4,11 @@ import shutil
 import pandas as pd
 from datetime import datetime
 from scripts.document_processor import process_multiple_documents, save_processed_chunks, load_processed_chunks
-from scripts.rag_engine import build_rag_system, query_documents, format_response_with_sources, add_new_document_to_system
 import json
 import tempfile
-UPLOAD_FOLDER = "UPLOADED_DOCUMENTS"
-PROCESSED_DATA_FILE = "processed_data/processed_chunks.csv"
-INDEX_STATE_FILE = "processed_data/index_store.json"
-RAG_FILES_DIR = "rag_files"
 if not os.path.exists(UPLOAD_FOLDER):
     os.makedirs(UPLOAD_FOLDER)
@@ -22,18 +19,41 @@ if not os.path.exists("processed_data"):
 if not os.path.exists(RAG_FILES_DIR):
     os.makedirs(RAG_FILES_DIR)
 def initialize_system():
     global query_engine
     query_engine = None
     if os.path.exists(PROCESSED_DATA_FILE):
         try:
-            processed_chunks = load_processed_chunks(PROCESSED_DATA_FILE).to_dict('records')
             if processed_chunks:
                 query_engine = build_rag_system(processed_chunks)
-                return f"AIEXP система инициализирована с {len(processed_chunks)} фрагментами нормативных документов"
         except Exception as e:
-            return f"Ошибка при инициализации: {str(e)}"
     return "AIEXP система готова к работе. Загрузите нормативные документы для создания базы знаний."
@@ -229,7 +249,7 @@ def create_demo_interface():
                         placeholder="Введите вопрос по нормативным документам...",
                         lines=3
                     )
-                    ask_btn = gr.Button("🔍 Найти ответ в НД", variant="primary", size="lg")
                     gr.Examples(
                         examples=[

 import pandas as pd
 from datetime import datetime
 from scripts.document_processor import process_multiple_documents, save_processed_chunks, load_processed_chunks
+from scripts.rag_engine import build_rag_system, query_documents, format_response_with_sources, add_new_document_to_system, load_rag_system
 import json
 import tempfile
+from scripts.config import *
 if not os.path.exists(UPLOAD_FOLDER):
     os.makedirs(UPLOAD_FOLDER)
 if not os.path.exists(RAG_FILES_DIR):
     os.makedirs(RAG_FILES_DIR)
 def initialize_system():
     global query_engine
     query_engine = None
+    try:
+        query_engine = load_rag_system()
+        if query_engine is not None:
+            chunk_count = 0
+            if os.path.exists(PROCESSED_DATA_FILE):
+                processed_chunks = load_processed_chunks(PROCESSED_DATA_FILE)
+                chunk_count = len(processed_chunks)
+            else:
+                try:
+                    import pickle
+                    with open(os.path.join("processed_data", 'documents.pkl'), 'rb') as f:
+                        documents = pickle.load(f)
+                        chunk_count = len(documents)
+                except:
+                    chunk_count = "неизвестно"
+            return f"AIEXP система инициализирована с {chunk_count} фрагментами нормативных документов (загружена из сохраненного индекса)"
+    except Exception as e:
+        print(f"Не удалось загрузить сохраненную систему: {str(e)}")
+    # Fallback: try to build from processed_chunks.csv if RAG system loading failed
     if os.path.exists(PROCESSED_DATA_FILE):
         try:
+            processed_chunks = load_processed_chunks(PROCESSED_DATA_FILE).to_dict('processed_chunks.csv')
             if processed_chunks:
                 query_engine = build_rag_system(processed_chunks)
+                return f"AIEXP система инициализирована с {len(processed_chunks)} фрагментами нормативных документов (построена из CSV)"
         except Exception as e:
+            return f"Ошибка при инициализации из CSV: {str(e)}"
     return "AIEXP система готова к работе. Загрузите нормативные документы для создания базы знаний."
                         placeholder="Введите вопрос по нормативным документам...",
                         lines=3
                     )
+                    ask_btn = gr.Button("🔍 Найти ответ", variant="primary", size="lg")
                     gr.Examples(
                         examples=[

scripts/__pycache__/config.cpython-311.pyc ADDED Viewed

Binary file (3.95 kB). View file

scripts/__pycache__/document_processor.cpython-311.pyc CHANGED Viewed

Binary files a/scripts/__pycache__/document_processor.cpython-311.pyc and b/scripts/__pycache__/document_processor.cpython-311.pyc differ

scripts/__pycache__/rag_engine.cpython-311.pyc ADDED Viewed

Binary file (11.2 kB). View file

scripts/config.py CHANGED Viewed

@@ -4,16 +4,31 @@ from llama_index.embeddings.huggingface import HuggingFaceEmbedding
 from llama_index.llms.google_genai import GoogleGenAI
 from llama_index.core import Settings
-GOOGLE_API_KEY = os.getenv('GOOGLE_API_KEY')
 EMBEDDING_MODEL = "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
 LLM_MODEL = "gemini-2.5-flash"
-CHUNK_SIZE = 1000
-CHUNK_OVERLAP = 150
-MAX_CHUNK_SIZE = 2500
-MIN_CHUNK_SIZE = 1000
 SIMILARITY_THRESHOLD = 0.7
 RETRIEVER_TOP_K = 15
 RETRIEVER_SIMILARITY_CUTOFF = 0.7

 from llama_index.llms.google_genai import GoogleGenAI
 from llama_index.core import Settings
 EMBEDDING_MODEL = "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
+RETRIEVER_TOP_K = 10
+RETRIEVER_SIMILARITY_CUTOFF = 0.7
+RAG_FILES_DIR = "processed_data"
+PROCESSED_DATA_FILE = "processed_data/processed_chunks.csv"
+UPLOAD_FOLDER = "UPLOADED_DOCUMENTS"
+PROCESSED_DATA_FILE = "processed_data/processed_chunks.csv"
+INDEX_STATE_FILE = "processed_data/index_store.json"
+RAG_FILES_DIR = "rag_files"
+GOOGLE_API_KEY = os.getenv('GOOGLE_API_KEY')
 LLM_MODEL = "gemini-2.5-flash"
+CHUNK_SIZE = 1024
+CHUNK_OVERLAP = 256
+MAX_CHUNK_SIZE = 2048
+MIN_CHUNK_SIZE = 750
 SIMILARITY_THRESHOLD = 0.7
 RETRIEVER_TOP_K = 15
 RETRIEVER_SIMILARITY_CUTOFF = 0.7

scripts/document_processor.py CHANGED Viewed

@@ -10,13 +10,8 @@ from llama_index.core.text_splitter import SentenceSplitter
 from llama_index.embeddings.huggingface import HuggingFaceEmbedding
 from sklearn.metrics.pairwise import cosine_similarity
 from llama_index.core.schema import Document
-EMBEDDING_MODEL = "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
-CHUNK_SIZE = 1024
-CHUNK_OVERLAP = 256
-MAX_CHUNK_SIZE = 2048
-MIN_CHUNK_SIZE = 200
-SIMILARITY_THRESHOLD = 0.85
 def extract_text_from_pdf(file_path):
     text = ""

 from llama_index.embeddings.huggingface import HuggingFaceEmbedding
 from sklearn.metrics.pairwise import cosine_similarity
 from llama_index.core.schema import Document
+from scripts.config import *
 def extract_text_from_pdf(file_path):
     text = ""

scripts/rag_engine.py CHANGED Viewed

@@ -9,12 +9,8 @@ import pandas as pd
 import faiss
 import pickle
 import os
-EMBEDDING_MODEL = "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
-RETRIEVER_TOP_K = 10
-RETRIEVER_SIMILARITY_CUTOFF = 0.7
-RAG_FILES_DIR = "processed_data"
-PROCESSED_DATA_FILE = "processed_data/processed_chunks.csv"
 def setup_llm_settings():
     embed_model = HuggingFaceEmbedding(model_name=EMBEDDING_MODEL)

 import faiss
 import pickle
 import os
+from scripts.config import *
 def setup_llm_settings():
     embed_model = HuggingFaceEmbedding(model_name=EMBEDDING_MODEL)