Spaces:

adowu
/

prawnikai

Sleeping

File size: 5,555 Bytes

cdd85c7
 
9b7aea8
cdd85c7
 
 
9b7aea8
 
 
 
cdd85c7
 
 
9b7aea8
cdd85c7
 
 
9b7aea8
cdd85c7
 
 
 
 
 
 
9b7aea8
cdd85c7
 
 
e0f90ab
cdd85c7
 
 
9b7aea8
e0f90ab
cdd85c7
 
 
9b7aea8
 
cdd85c7
 
 
 
 
 
 
 
 
e0f90ab
cdd85c7
9b7aea8
e6eebe9
9b7aea8
cdd85c7
 
 
 
 
 
9b7aea8
cdd85c7
 
 
 
 
 
 
 
e6eebe9
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
9b7aea8
 
cdd85c7
 
 
9b7aea8
 
cdd85c7
 
9b7aea8
cdd85c7
 
 
9b7aea8
cdd85c7
9b7aea8
cdd85c7
 
 
 
 
 
e0f90ab
9b7aea8
 
cdd85c7
 
9b7aea8
cdd85c7
 
 
 
 
 
9b7aea8
cdd85c7
 
 
 
9b7aea8
e0f90ab

import os
import re
import logging
from typing import List, Dict, Tuple
import chromadb
from chromadb.utils import embedding_functions
from config import EMBEDDING_MODEL, DATABASE_DIR

# Konfiguracja logowania
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

class KodeksProcessor:
    def __init__(self):
        logging.info("Inicjalizacja klienta bazy danych...")
        self.client = chromadb.PersistentClient(path=DATABASE_DIR)
        try:
            self.collection = self.client.get_collection("kodeksy")
            logging.info("Pobrano istniejącą kolekcję 'kodeksy'.")
        except:
            self.collection = self.client.create_collection(
                name="kodeksy",
                embedding_function=embedding_functions.SentenceTransformerEmbeddingFunction(
                    model_name=EMBEDDING_MODEL
                )
            )
            logging.info("Utworzono nową kolekcję 'kodeksy'.")

    def extract_metadata(self, text: str) -> Dict:
        metadata = {}
        dz_u_match = re.search(r'Dz\.U\.(\d{4})\.(\d+)\.(\d+)', text)
        if dz_u_match:
            metadata['dz_u'] = f"Dz.U.{dz_u_match.group(1)}.{dz_u_match.group(2)}.{dz_u_match.group(3)}"
            metadata['rok'] = dz_u_match.group(1)

        nazwa_match = re.search(r'USTAWA\s+z dnia(.*?)\n(.*?)\n', text)
        if nazwa_match:
            metadata['data_ustawy'] = nazwa_match.group(1).strip()
            metadata['nazwa'] = nazwa_match.group(2).strip()

        logging.info("Wydobyto metadane: %s", metadata)
        return metadata

    def split_header_and_content(self, text: str) -> Tuple[str, str]:
        parts = text.split("USTAWA", 1)
        if len(parts) > 1:
            return parts[0], "USTAWA" + parts[1]
        return "", text

    def process_article(self, article_text: str) -> Dict:
        art_num_match = re.match(r'Art\.\s*(\d+)', article_text)
        article_num = art_num_match.group(1) if art_num_match else ""

        paragraphs = re.findall(r'§\s*(\d+)\.\s*(.*?)(?=§\s*\d+|Art\.\s*\d+|$)', article_text, re.DOTALL)

        if not paragraphs:
            return {
                "article_num": article_num,
                "content": article_text.strip(),
                "has_paragraphs": False
            }

        return {
            "article_num": article_num,
            "paragraphs": paragraphs,
            "has_paragraphs": True
        }

    def split_into_chunks(self, text: str, metadata: Dict) -> List[Dict]:
        chunks = []
        articles = re.split(r'(Art\.\s*\d+)', text)  # Podział na artykuły

        for i in range(1, len(articles), 2):  # Przechodzimy przez artykuły
            article_title = articles[i].strip()
            article_content = articles[i + 1].strip() if i + 1 < len(articles) else ""

            processed_article = self.process_article(article_title + " " + article_content)

            chunk_metadata = {
                **metadata,
                "article": processed_article["article_num"]
            }

            if processed_article["has_paragraphs"]:
                for par_num, par_content in processed_article["paragraphs"]:
                    chunks.append({
                        "text": f"{article_title} §{par_num}. {par_content.strip()}",
                        "metadata": {**chunk_metadata, "paragraph": par_num}
                    })
            else:
                chunks.append({
                    "text": processed_article["content"],
                    "metadata": chunk_metadata
                })

        logging.info("Podzielono tekst na %d chunków.", len(chunks))
        return chunks

    def process_file(self, filepath: str) -> None:
        logging.info("Przetwarzanie pliku: %s", filepath)

        with open(filepath, 'r', encoding='utf-8') as file:
            content = file.read()

        header, main_content = self.split_header_and_content(content)
        metadata = self.extract_metadata(main_content)
        metadata['filename'] = os.path.basename(filepath)

        chunks = self.split_into_chunks(main_content, metadata)

        for i, chunk in enumerate(chunks):
            self.collection.add(
                documents=[chunk["text"]],
                metadatas=[chunk["metadata"]],
                ids=[f"{metadata['filename']}_{chunk['metadata']['article']}_{i}"]
            )
            logging.info("Dodano chunk: %s", chunk["text"])  # Logowanie dodawanych chunków

        logging.info("Dodano %d chunków z pliku %s", len(chunks), metadata['filename'])

    def process_all_files(self, directory: str) -> None:
        logging.info("Rozpoczęcie przetwarzania wszystkich plików w katalogu: %s", directory)
        for filename in os.listdir(directory):
            if filename.endswith('.txt'):
                filepath = os.path.join(directory, filename)
                self.process_file(filepath)

    def search(self, query: str, n_results: int = 3) -> Dict:
        logging.info("Wyszukiwanie w bazie danych dla zapytania: %s", query)
        results = self.collection.query(
            query_texts=[query],
            n_results=n_results
        )
        logging.info("Znaleziono %d wyników dla zapytania: %s", len(results['documents'][0]), query)
        return results

    def list_all_documents(self) -> None:
        all_docs = self.collection.query(query_texts=[""], n_results=1000)  # Pobierz wszystkie dokumenty
        for doc in all_docs['documents'][0]:
            logging.info("Dokument: %s", doc)