Spaces:

MrSimple01
/

AIEXP_RAG_1

Sleeping

App Files Files Community

MrSimple07 commited on 3 days ago

Commit

324e084

1 Parent(s): 5e55e06

added dockerfile

Browse files

Files changed (2) hide show

dockerfile +29 -6
readme.md +12 -257

dockerfile CHANGED Viewed

@@ -1,11 +1,34 @@
 RUN apt-get update && apt-get install -y \
     git \
     git-lfs \
-    ffmpeg \
-    libsm6 \
-    libxext6 \
     cmake \
-    rsync \
-    libgl1-mesa-dev \
     && rm -rf /var/lib/apt/lists/* \
-    && git lfs install

+FROM python:3.10-slim
+WORKDIR /app
+# Install system dependencies
 RUN apt-get update && apt-get install -y \
     git \
     git-lfs \
     cmake \
+    build-essential \
     && rm -rf /var/lib/apt/lists/* \
+    && git lfs install
+# Copy requirements first for better caching
+COPY requirements.txt .
+# Install Python dependencies
+RUN pip install --no-cache-dir -r requirements.txt
+# Copy application code
+COPY . .
+# Create necessary directories
+RUN mkdir -p processed_data UPLOADED_DOCUMENTS rag_files
+# Expose port
+EXPOSE 7860
+# Set environment variables
+ENV GRADIO_SERVER_NAME=0.0.0.0
+ENV GRADIO_SERVER_PORT=7860
+# Run the application
+CMD ["python", "app.py"]

readme.md CHANGED Viewed

@@ -1,257 +1,12 @@
-# 🤖 RAG Система для Анализа Нормативных Документов
-## 📋 Описание
-Интеллектуальная система для анализа и поиска информации в нормативных документах, построенная на основе технологии RAG (Retrieval-Augmented Generation). Система позволяет загружать документы различных форматов, автоматически обрабатывать их содержимое и предоставляет точные ответы на вопросы пользователей с указанием источников.
-## 🎯 Основные возможности
-- **Поддержка множества форматов**: PDF, DOCX, TXT, CSV, XLSX, JSON
-- **Интеллектуальная обработка текста**: Семантическое разделение на фрагменты с учетом контекста
-- **Динамическое управление базой знаний**: Возможность добавления, обработки и удаления документов
-- **Точные ответы с источниками**: Каждый ответ содержит ссылки на конкретные разделы документов
-- **Русскоязычная специализация**: Оптимизировано для работы с российскими нормативными документами
-## 🏗️ Архитектура системы
-### Основные компоненты
-```
-app.py              # Gradio интерфейс пользователя
-├── config.py       # Конфигурация и настройки системы
-├── document_processor.py  # Обработка документов различных форматов
-├── rag_engine.py   # RAG система и поисковый движок
-└── requirements.txt # Зависимости проекта
-```
-### Структура данных
-```
-uploaded_documents/     # Папка с загруженными файлами
-processed_chunks.csv   # Обработанные фрагменты документов
-index_state.json      # Состояние индекса системы
-```
-## ⚙️ Технические характеристики
-### Используемые технологии
-- **LLM**: Google Gemini 2.5 Flash
-- **Embeddings**: sentence-transformers/all-MiniLM-L6-v2
-- **Vector Store**: LlamaIndex VectorStoreIndex
-- **UI Framework**: Gradio
-- **Text Processing**: scikit-learn, pandas, numpy
-### Алгоритм обработки документов
-1. **Извлечение текста** из файлов различных форматов
-2. **Предобработка текста**: Очистка, нормализация, удаление лишних символов
-3. **Создание первичных фрагментов** с размером 1000 символов и перекрытием 150 символов
-4. **Семантическое слияние**: Объединение похожих фрагментов на основе cosine similarity > 0.7
-5. **Извлечение метаданных**: Определение разделов и подразделов документов
-6. **Создание векторного индекса** для быстрого поиска
-### Параметры конфигурации
-```python
-# Размеры фрагментов
-CHUNK_SIZE = 1000              # Базовый размер фрагмента
-CHUNK_OVERLAP = 150            # Перекрытие между фрагментами
-MAX_CHUNK_SIZE = 2500          # Максимальный размер после слияния
-MIN_CHUNK_SIZE = 1000          # Минимальный размер для сохранения
-# Параметры поиска
-SIMILARITY_THRESHOLD = 0.7     # Порог для слияния фрагментов
-RETRIEVER_TOP_K = 10          # Количество возвращаемых фрагментов
-RETRIEVER_SIMILARITY_CUTOFF = 0.7  # Порог релевантности при поиске
-```
-## 🚀 Установка и запуск
-### Требования
-- Python 3.8+
-- API ключ Google AI Studio
-### Пошаговая установка
-1. **Клонирование репозитория**
-```bash
-git clone <repository-url>
-cd rag-document-analyzer
-```
-2. **Установка зависимостей**
-```bash
-pip install -r requirements.txt
-```
-3. **Настройка API ключа**
-Отредактируйте `config.py` и укажите ваш Google API ключ:
-```python
-GOOGLE_API_KEY = "your-api-key-here"
-```
-4. **Запуск пр��ложения**
-```bash
-python app.py
-```
-5. **Открытие интерфейса**
-Откройте браузер и перейдите по адресу `http://localhost:7860`
-## 📖 Руководство пользователя
-### Загрузка документов
-1. Перейдите на вкладку "📤 Управление документами"
-2. Нажмите "Выберите файлы для загрузки" и выберите нужные документы
-3. Нажмите "📤 Загрузить файлы"
-4. После загрузки нажмите "⚙️ Обработать документы"
-### Поиск информации
-1. Перейдите на вкладку "❓ Поиск ответов"
-2. Введите ваш вопрос в поле "Ваш вопрос"
-3. Нажмите "🔍 Найти ответ"
-4. Изучите полученный ответ и источники
-### Управление системой
-1. Вкладка "📊 Статус системы" содержит информацию о:
-   - Количестве обработанных файлов
-   - Количестве фрагментов в базе знаний
-   - Времени последнего обновления
-   - Списке обработанных файлов
-2. Для очистки всех данных используйте кнопку "🗑️ Очистить все данные"
-## 🔧 API и интеграция
-### Основные функции API
-#### Обработка документов
-```python
-# Обработка одного документа
-processed_chunks = process_single_document(file_path)
-# Обработка множества документов
-processed_chunks = process_multiple_documents(file_paths)
-# Создание документов для RAG
-documents = create_llama_documents(processed_chunks)
-```
-#### RAG система
-```python
-# Создание поискового движка
-query_engine = build_rag_system(processed_chunks)
-# Поиск ответов
-response = query_documents(query_engine, question)
-# Форматирование ответа с источниками
-formatted_response = format_response_with_sources(response)
-```
-### Структура ответа
-```python
-{
-    'answer': 'Текст ответа на вопрос',
-    'sources': [
-        {
-            'chunk_number': 1,
-            'section': 'Раздел документа',
-            'subsection': 'Подраздел документа',
-            'chunk_id': 'Идентификатор фрагмента',
-            'document_id': 'Имя документа',
-            'text_preview': 'Превью текста фрагмента...'
-        }
-    ]
-}
-```
-## 🔒 Требования безопасности
-### Конфиденциальность данных
-- Все документы обрабатываются локально
-- Векторные представления хранятся в локальной файловой системе
-- API ключи должны храниться в безопасном месте
-### Рекомендации по безопасности
-1. Не передавайте конфиденциальные API ключи в коде
-2. Регулярно обновляйте зависимости
-3. Ограничьте доступ к загружаемым файлам
-4. Используйте HTTPS при развертывании в продакшене
-## 📊 Мониторинг и логирование
-### Отслеживаемые метрики
-- Количество загруженных документов
-- Количество обработанных фрагментов
-- Время обработки документов
-- Количество поисковых запросов
-- Качество ответов системы
-### Логи системы
-Система автоматически создает логи для:
-- Процесса обработки документов
-- Ошибок при загрузке файлов
-- Результатов поисковых запросов
-## 🔄 Обновление базы знаний
-### Добавление новых документов
-1. Загрузите новые файлы через интерфейс
-2. Нажмите "⚙️ Обработать документы"
-3. Система автоматически интегрирует новые данные
-### Обновление существующих документов
-1. Загрузите обновленную версию файла (с тем же именем)
-2. Очистите данные через "🗑️ Очистить все дан��ые"
-3. Загрузите все файлы заново и обработайте
-## ❓ Часто задаваемые вопросы
-**В: Какие форматы файлов поддерживаются?**
-О: PDF, DOCX, TXT, CSV, XLSX, JSON
-**В: Можно ли работать с документами на других языках?**
-О: Система оптимизирована для русского языка, но может работать и с другими языками
-**В: Как система определяет релевантность ответов?**
-О: Используется векторный поиск на основе semantic similarity с порогом 0.7
-**В: Можно ли изменить настройки обработки текста?**
-О: Да, все параметры настраиваются в файле `config.py`
-## 🤝 Техническая поддержка
-### Самостоятельная поддержка
-1. **Изучите документацию** в README.md
-2. **Проверьте конфигурацию** в config.py
-3. **Просмотрите логи** для выявления ошибок
-4. **Обновите зависимости** до последних версий
-### Устранение неполадок
-| Проблема | Возможное решение |
-|----------|-------------------|
-| Ошибка API ключа | Проверьте правильность ключа в config.py |
-| Медленная обработка | Уменьшите размер документов или увеличите CHUNK_SIZE |
-| Нерелевантные ответы | Снизьте RETRIEVER_SIMILARITY_CUTOFF |
-| Ошибки памяти | Уменьшите RETRIEVER_TOP_K или MAX_CHUNK_SIZE |
-## 📄 Лицензия
-Этот проект предназначен для внутреннего использования. Все права защищены.
----

+---
+title: AIEXP RAG 1
+emoji: 📉
+colorFrom: yellow
+colorTo: green
+sdk: gradio
+sdk_version: 5.42.0
+app_file: app.py
+pinned: false
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference