Spaces:

jeongsoo
/

RAG6_AgenticAI

No application file

File size: 28,120 Bytes

d93e680

"""
RAG 검색 챗봇 웹 애플리케이션 - API 라우트 정의
"""

import os
import json
import logging
import tempfile
import requests
from flask import request, jsonify, render_template, send_from_directory, session, redirect, url_for
from datetime import datetime
from werkzeug.utils import secure_filename

# 로거 가져오기
logger = logging.getLogger(__name__)

def register_routes(app, login_required, llm_interface, retriever, stt_client, DocumentProcessor, base_retriever, app_ready, ADMIN_USERNAME, ADMIN_PASSWORD, DEVICE_SERVER_URL):
    """Flask 애플리케이션에 기본 라우트 등록"""
    
    # 헬퍼 함수
    def allowed_audio_file(filename):
        """파일이 허용된 오디오 확장자를 가지는지 확인"""
        ALLOWED_AUDIO_EXTENSIONS = {'mp3', 'wav', 'ogg', 'm4a'}
        return '.' in filename and filename.rsplit('.', 1)[1].lower() in ALLOWED_AUDIO_EXTENSIONS

    def allowed_doc_file(filename):
        """파일이 허용된 문서 확장자를 가지는지 확인"""
        ALLOWED_DOC_EXTENSIONS = {'txt', 'md', 'pdf', 'docx', 'csv'}
        return '.' in filename and filename.rsplit('.', 1)[1].lower() in ALLOWED_DOC_EXTENSIONS

    @app.route('/login', methods=['GET', 'POST'])
    def login():
        error = None
        next_url = request.args.get('next')
        logger.info(f"-------------- 로그인 페이지 접속 (Next: {next_url}) --------------")
        logger.info(f"Method: {request.method}")

        if request.method == 'POST':
            logger.info("로그인 시도 받음")
            username = request.form.get('username', '')
            password = request.form.get('password', '')
            logger.info(f"입력된 사용자명: {username}")
            logger.info(f"비밀번호 입력 여부: {len(password) > 0}")

            # 환경 변수 또는 기본값과 비교
            valid_username = ADMIN_USERNAME
            valid_password = ADMIN_PASSWORD
            logger.info(f"검증용 사용자명: {valid_username}")
            logger.info(f"검증용 비밀번호 존재 여부: {valid_password is not None and len(valid_password) > 0}")

            if username == valid_username and password == valid_password:
                logger.info(f"로그인 성공: {username}")
                # 세션 설정 전 현재 세션 상태 로깅
                logger.debug(f"세션 설정 전: {session}")

                # 세션에 로그인 정보 저장
                session.permanent = True
                session['logged_in'] = True
                session['username'] = username
                session.modified = True

                logger.info(f"세션 설정 후: {session}")
                logger.info("세션 설정 완료, 리디렉션 시도")

                # 로그인 성공 후 리디렉션
                redirect_to = next_url or url_for('index')
                logger.info(f"리디렉션 대상: {redirect_to}")
                response = redirect(redirect_to)
                return response
            else:
                logger.warning("로그인 실패: 아이디 또는 비밀번호 불일치")
                if username != valid_username: logger.warning("사용자명 불일치")
                if password != valid_password: logger.warning("비밀번호 불일치")
                error = '아이디 또는 비밀번호가 올바르지 않습니다.'
        else:
            logger.info("로그인 페이지 GET 요청")
            if 'logged_in' in session:
                logger.info("이미 로그인된 사용자, 메인 페이지로 리디렉션")
                return redirect(url_for('index'))

        logger.info("---------- 로그인 페이지 렌더링 ----------")
        return render_template('login.html', error=error, next=next_url)


    @app.route('/logout')
    def logout():
        logger.info("-------------- 로그아웃 요청 --------------")
        logger.info(f"로그아웃 전 세션 상태: {session}")

        if 'logged_in' in session:
            username = session.get('username', 'unknown')
            logger.info(f"사용자 {username} 로그아웃 처리 시작")
            session.pop('logged_in', None)
            session.pop('username', None)
            session.modified = True
            logger.info(f"세션 정보 삭제 완료. 현재 세션: {session}")
        else:
            logger.warning("로그인되지 않은 상태에서 로그아웃 시도")

logger.info("로그인 페이지로 리디렉션")
        response = redirect(url_for('login'))
        return response


    @app.route('/')
    @login_required
    def index():
        """메인 페이지"""
        nonlocal app_ready
        
        # 앱 준비 상태 확인 - 30초 이상 지났으면 강제로 ready 상태로 변경
        current_time = datetime.now()
        start_time = datetime.fromtimestamp(os.path.getmtime(__file__))
        time_diff = (current_time - start_time).total_seconds()
        
        if not app_ready and time_diff > 30:
            logger.warning(f"앱이 30초 이상 초기화 중 상태입니다. 강제로 ready 상태로 변경합니다.")
            app_ready = True
        
        if not app_ready:
            logger.info("앱이 아직 준비되지 않아 로딩 페이지 표시")
            return render_template('loading.html'), 503  # 서비스 준비 안됨 상태 코드
        
        logger.info("메인 페이지 요청")
        return render_template('index.html')


    @app.route('/api/status')
    @login_required
    def app_status():
        """앱 초기화 상태 확인 API"""
        logger.info(f"앱 상태 확인 요청: {'Ready' if app_ready else 'Not Ready'}")
        return jsonify({"ready": app_ready})


    @app.route('/api/llm', methods=['GET', 'POST'])
    @login_required
    def llm_api():
        """사용 가능한 LLM 목록 및 선택 API"""
        if not app_ready:
            return jsonify({"error": "앱이 아직 초기화 중입니다. 잠시 후 다시 시도해주세요."}), 503

        if request.method == 'GET':
            logger.info("LLM 목록 요청")
            try:
                current_details = llm_interface.get_current_llm_details() if hasattr(llm_interface, 'get_current_llm_details') else {"id": "unknown", "name": "Unknown"}
                supported_llms_dict = llm_interface.SUPPORTED_LLMS if hasattr(llm_interface, 'SUPPORTED_LLMS') else {}
                supported_list = [{
                    "name": name, "id": id, "current": id == current_details.get("id")
                } for name, id in supported_llms_dict.items()]

                return jsonify({
                    "supported_llms": supported_list,
                    "current_llm": current_details
                })
            except Exception as e:
                logger.error(f"LLM 정보 조회 오류: {e}")
                return jsonify({"error": "LLM 정보 조회 중 오류 발생"}), 500

        elif request.method == 'POST':
            data = request.get_json()
            if not data or 'llm_id' not in data:
                return jsonify({"error": "LLM ID가 제공되지 않았습니다."}), 400

            llm_id = data['llm_id']
            logger.info(f"LLM 변경 요청: {llm_id}")

            try:
                if not hasattr(llm_interface, 'set_llm') or not hasattr(llm_interface, 'llm_clients'):
                    raise NotImplementedError("LLM 인터페이스에 필요한 메소드/속성 없음")

                if llm_id not in llm_interface.llm_clients:
                    return jsonify({"error": f"지원되지 않는 LLM ID: {llm_id}"}), 400

                success = llm_interface.set_llm(llm_id)
                if success:
                    new_details = llm_interface.get_current_llm_details()
                    logger.info(f"LLM이 '{new_details.get('name', llm_id)}'로 변경되었습니다.")
                    return jsonify({
                        "success": True,
                        "message": f"LLM이 '{new_details.get('name', llm_id)}'로 변경되었습니다.",
                        "current_llm": new_details
                    })
                else:
                    logger.error(f"LLM 변경 실패 (ID: {llm_id})")
                    return jsonify({"error": "LLM 변경 중 내부 오류 발생"}), 500
            except Exception as e:
                logger.error(f"LLM 변경 처리 중 오류: {e}", exc_info=True)
                return jsonify({"error": f"LLM 변경 중 오류 발생: {str(e)}"}), 500


    @app.route('/api/chat', methods=['POST'])
    @login_required
    def chat():
        """텍스트 기반 챗봇 API"""
        if not app_ready or retriever is None:
            return jsonify({"error": "앱/검색기가 아직 초기화 중입니다. 잠시 후 다시 시도해주세요."}), 503

        try:
            data = request.get_json()
            if not data or 'query' not in data:
                return jsonify({"error": "쿼리가 제공되지 않았습니다."}), 400

            query = data['query']
            logger.info(f"텍스트 쿼리 수신: {query[:100]}...")

            # RAG 검색 수행
            if not hasattr(retriever, 'search'):
                raise NotImplementedError("Retriever에 search 메소드가 없습니다.")
            search_results = retriever.search(query, top_k=5, first_stage_k=6)

            # 컨텍스트 준비
            if not hasattr(DocumentProcessor, 'prepare_rag_context'):
                raise NotImplementedError("DocumentProcessor에 prepare_rag_context 메소드가 없습니다.")
            context = DocumentProcessor.prepare_rag_context(search_results, field="text")

            if not context:
                logger.warning("검색 결과가 없어 컨텍스트를 생성하지 못함.")

            # LLM에 질의
            llm_id = data.get('llm_id', None)
            if not hasattr(llm_interface, 'rag_generate'):
                raise NotImplementedError("LLMInterface에 rag_generate 메소드가 없습니다.")

            if not context:
                answer = "죄송합니다. 관련 정보를 찾을 수 없습니다."
                logger.info("컨텍스트 없이 기본 응답 생성")
            else:
                answer = llm_interface.rag_generate(query, context, llm_id=llm_id)
                logger.info(f"LLM 응답 생성 완료 (길이: {len(answer)})")

            # 소스 정보 추출 (CSV ID 추출 로직 포함)
            sources = []
            if search_results:
                for result in search_results:
                    if not isinstance(result, dict):
                        logger.warning(f"예상치 못한 검색 결과 형식: {type(result)}")
                        continue

                    if "source" in result:
                        source_info = {
                            "source": result.get("source", "Unknown"),
                            "score": result.get("rerank_score", result.get("score", 0))
                        }

                        # CSV 파일 특정 처리
                        if "text" in result and result.get("filetype") == "csv":
                            try:
                                text_lines = result["text"].strip().split('\n')
                                if text_lines:
                                    first_line = text_lines[0].strip()
                                    if ',' in first_line:
                                        first_column = first_line.split(',')[0].strip()
                                        source_info["id"] = first_column
                                        logger.debug(f"CSV 소스 ID 추출: {first_column} from {source_info['source']}")
                            except Exception as e:
                                logger.warning(f"CSV 소스 ID 추출 실패 ({result.get('source')}): {e}")

                        sources.append(source_info)

            # 최종 응답
            response_data = {
                "answer": answer,
                "sources": sources,
                "llm": llm_interface.get_current_llm_details() if hasattr(llm_interface, 'get_current_llm_details') else {}
            }
            return jsonify(response_data)

        except Exception as e:
            logger.error(f"채팅 처리 중 오류 발생: {e}", exc_info=True)
            return jsonify({"error": f"처리 중 오류가 발생했습니다: {str(e)}"}), 500


    @app.route('/api/voice', methods=['POST'])
    @login_required
    def voice_chat():
        """음성 챗 API 엔드포인트"""
        if not app_ready:
            logger.warning("앱 초기화가 완료되지 않았지만 음성 API 요청 처리 시도")
            # 여기서 바로 리턴하지 않고 계속 진행
            # 사전 검사: retriever와 stt_client가 제대로 초기화되었는지 확인

        if retriever is None:
            logger.error("retriever가 아직 초기화되지 않았습니다")
            return jsonify({
                "transcription": "(음성을 텍스트로 변환했지만 검색 엔진이 아직 준비되지 않았습니다)",
                "answer": "죄송합니다. 검색 엔진이 아직 초기화 중입니다. 잠시 후 다시 시도해주세요.",
                "sources": []
            })
        # 또는 필수 컴포넌트가 없을 때만 특별 응답 반환
        if stt_client is None:
            return jsonify({
                "transcription": "(음성 인식 기능이 준비 중입니다)",
                "answer": "죄송합니다. 현재 음성 인식 서비스가 초기화 중입니다. 잠시 후 다시 시도해주세요.",
                "sources": []
            })

        logger.info("음성 챗 요청 수신")
        
        if 'audio' not in request.files:
            logger.error("오디오 파일이 제공되지 않음")
            return jsonify({"error": "오디오 파일이 제공되지 않았습니다."}), 400

        audio_file = request.files['audio']
        logger.info(f"수신된 오디오 파일: {audio_file.filename} ({audio_file.content_type})")

        try:
            # 오디오 파일 처리
            # 임시 파일 사용 고려 (메모리 부담 줄이기 위해)
            with tempfile.NamedTemporaryFile(delete=True) as temp_audio:
                audio_file.save(temp_audio.name)
                logger.info(f"오디오 파일을 임시 저장: {temp_audio.name}")
                # VitoSTT.transcribe_audio 가 파일 경로 또는 바이트를 받을 수 있도록 구현되어야 함
                # 여기서는 파일 경로를 사용한다고 가정
                if not hasattr(stt_client, 'transcribe_audio'):
                    raise NotImplementedError("STT 클라이언트에 transcribe_audio 메소드가 없습니다.")

                # 파일 경로로 전달 시
                # stt_result = stt_client.transcribe_audio(temp_audio.name, language="ko")
                # 바이트로 전달 시
                with open(temp_audio.name, 'rb') as f_bytes:
                    audio_bytes = f_bytes.read()
                stt_result = stt_client.transcribe_audio(audio_bytes, language="ko")


            if not isinstance(stt_result, dict) or not stt_result.get("success"):
                error_msg = stt_result.get("error", "알 수 없는 STT 오류") if isinstance(stt_result, dict) else "STT 결과 형식 오류"
                logger.error(f"음성인식 실패: {error_msg}")
                return jsonify({
                    "error": "음성인식 실패",
                    "details": error_msg
                }), 500

            transcription = stt_result.get("text", "")
            if not transcription:
                logger.warning("음성인식 결과가 비어있습니다.")
                return jsonify({"error": "음성에서 텍스트를 인식하지 못했습니다.", "transcription": ""}), 400

            logger.info(f"음성인식 성공: {transcription[:50]}...")
            if retriever is None:
                logger.error("STT 성공 후 검색 시도 중 retriever가 None임")
                return jsonify({
                    "transcription": transcription,
                    "answer": "음성을 인식했지만, 현재 검색 시스템이 준비되지 않았습니다. 잠시 후 다시 시도해주세요.",
                    "sources": []
                })
            # --- 이후 로직은 /api/chat과 거의 동일 ---
            # RAG 검색 수행
            search_results = retriever.search(transcription, top_k=5, first_stage_k=6)
            context = DocumentProcessor.prepare_rag_context(search_results, field="text")

            if not context:
                logger.warning("음성 쿼리에 대한 검색 결과 없음.")
                # answer = "죄송합니다. 관련 정보를 찾을 수 없습니다." (아래 LLM 호출 로직에서 처리)
                pass

            # LLM 호출
            llm_id = request.form.get('llm_id', None) # 음성 요청은 form 데이터로 LLM ID 받을 수 있음
            if not context:
                answer = "죄송합니다. 관련 정보를 찾을 수 없습니다."
                logger.info("컨텍스트 없이 기본 응답 생성")
            else:
                answer = llm_interface.rag_generate(transcription, context, llm_id=llm_id)
                logger.info(f"LLM 응답 생성 완료 (길이: {len(answer)})")


            # 소스 정보 추출
            enhanced_sources = []
            if search_results:
                for doc in search_results:
                    if not isinstance(doc, dict): continue # A
                    if "source" in doc:
                        source_info = {
                            "source": doc.get("source", "Unknown"),
                            "score": doc.get("rerank_score", doc.get("score", 0))
                        }
                        if "text" in doc and doc.get("filetype") == "csv":
                            try:
                                text_lines = doc["text"].strip().split('\n')
                                if text_lines:
                                    first_line = text_lines[0].strip()
                                    if ',' in first_line:
                                        first_column = first_line.split(',')[0].strip()
                                        source_info["id"] = first_column
                            except Exception as e:
                                logger.warning(f"[음성챗] CSV 소스 ID 추출 실패 ({doc.get('source')}): {e}")
                        enhanced_sources.append(source_info)

            # 최종 응답
            response_data = {
                "transcription": transcription,
                "answer": answer,
                "sources": enhanced_sources,
                "llm": llm_interface.get_current_llm_details() if hasattr(llm_interface, 'get_current_llm_details') else {}
            }
            return jsonify(response_data)

        except Exception as e:
            logger.error(f"음성 챗 처리 중 오류 발생: {e}", exc_info=True)
            return jsonify({
                "error": "음성 처리 중 내부 오류 발생",
                "details": str(e)
            }), 500


    @app.route('/api/upload', methods=['POST'])
    @login_required
    def upload_document():
        """지식베이스 문서 업로드 API"""
        if not app_ready or base_retriever is None:
            return jsonify({"error": "앱/기본 검색기가 아직 초기화 중입니다."}), 503

        if 'document' not in request.files:
            return jsonify({"error": "문서 파일이 제공되지 않았습니다."}), 400

        doc_file = request.files['document']
        if doc_file.filename == '':
            return jsonify({"error": "선택된 파일이 없습니다."}), 400

        if not allowed_doc_file(doc_file.filename):
            logger.error(f"허용되지 않는 파일 형식: {doc_file.filename}")
            return jsonify({"error": f"허용되지 않는 파일 형식입니다. 허용: {', '.join(ALLOWED_DOC_EXTENSIONS)}"}), 400

        try:
            filename = secure_filename(doc_file.filename)
            filepath = os.path.join(app.config['DATA_FOLDER'], filename)
            doc_file.save(filepath)
            logger.info(f"문서 저장 완료: {filepath}")

            # 문서 처리 (인코딩 처리 포함)
            try:
                with open(filepath, 'r', encoding='utf-8') as f:
                    content = f.read()
            except UnicodeDecodeError:
                logger.info(f"UTF-8 디코딩 실패, CP949로 시도: {filename}")
                try:
                    with open(filepath, 'r', encoding='cp949') as f:
                        content = f.read()
                except Exception as e_cp949:
                    logger.error(f"CP949 디코딩 실패 ({filename}): {e_cp949}")
                    return jsonify({"error": "파일 인코딩을 읽을 수 없습니다 (UTF-8, CP949 시도 실패)."}), 400
            except Exception as e_read:
                logger.error(f"파일 읽기 오류 ({filename}): {e_read}")
                return jsonify({"error": f"파일 읽기 중 오류 발생: {str(e_read)}"}), 500


            # 메타데이터 및 문서 분할/처리
            metadata = {
                "source": filename, "filename": filename,
                "filetype": filename.rsplit('.', 1)[1].lower(),
                "filepath": filepath
            }
            file_ext = metadata["filetype"]
            docs = []

            if not hasattr(DocumentProcessor, 'csv_to_documents') or not hasattr(DocumentProcessor, 'text_to_documents'):
                raise NotImplementedError("DocumentProcessor에 필요한 메소드 없음")

            if file_ext == 'csv':
                logger.info(f"CSV 파일 처리 시작: {filename}")
                docs = DocumentProcessor.csv_to_documents(content, metadata) # 행 단위 처리 가정
            else: # 기타 텍스트 기반 문서
                logger.info(f"일반 텍스트 문서 처리 시작: {filename}")
                # PDF, DOCX 등은 별도 라이브러리(pypdf, python-docx) 필요
                if file_ext in ['pdf', 'docx']:
                    logger.warning(f".{file_ext} 파일 처리는 현재 구현되지 않았습니다. 텍스트 추출 로직 추가 필요.")
                    # 여기에 pdf/docx 텍스트 추출 로직 추가
                    # 예: content = extract_text_from_pdf(filepath)
                    # content = extract_text_from_docx(filepath)
                    # 임시로 비워둠
                    content = ""

                if content: # 텍스트 내용이 있을 때만 처리
                    docs = DocumentProcessor.text_to_documents(
                        content, metadata=metadata,
                        chunk_size=512, chunk_overlap=50
                    )

            # 검색기에 문서 추가 및 인덱스 저장
            if docs:
                if not hasattr(base_retriever, 'add_documents') or not hasattr(base_retriever, 'save'):
                    raise NotImplementedError("기본 검색기에 add_documents 또는 save 메소드 없음")

                logger.info(f"{len(docs)}개 문서 청크를 검색기에 추가합니다...")
                base_retriever.add_documents(docs)

                # 인덱스 저장 (업로드마다 저장 - 비효율적일 수 있음)
                logger.info(f"검색기 상태를 저장합니다...")
                index_path = app.config['INDEX_PATH']
                try:
                    base_retriever.save(index_path)
                    logger.info("인덱스 저장 완료")
                    # 재순위화 검색기도 업데이트 필요 시 로직 추가
                    # 예: retriever.update_base_retriever(base_retriever)
                    return jsonify({
                        "success": True,
                        "message": f"파일 '{filename}' 업로드 및 처리 완료 ({len(docs)}개 청크 추가)."
                    })
                except Exception as e_save:
                    logger.error(f"인덱스 저장 중 오류 발생: {e_save}")
                    return jsonify({"error": f"인덱스 저장 중 오류: {str(e_save)}"}), 500
            else:
                logger.warning(f"파일 '{filename}'에서 처리할 내용이 없거나 지원되지 않는 형식입니다.")
                # 파일은 저장되었으므로 성공으로 간주할지 결정 필요
                return jsonify({
                    "warning": True,
                    "message": f"파일 '{filename}'이 저장되었지만 처리할 내용이 없습니다."
                })

        except Exception as e:
            logger.error(f"파일 업로드 또는 처리 중 오류 발생: {e}", exc_info=True)
            return jsonify({"error": f"파일 업로드 중 오류: {str(e)}"}), 500


    @app.route('/api/documents', methods=['GET'])
    @login_required
    def list_documents():
        """지식베이스 문서 목록 API"""
        if not app_ready or base_retriever is None:
            return jsonify({"error": "앱/기본 검색기가 아직 초기화 중입니다."}), 503

        try:
            sources = {}
            total_chunks = 0
            # base_retriever.documents 와 같은 속성이 실제 클래스에 있다고 가정
            if hasattr(base_retriever, 'documents') and base_retriever.documents:
                logger.info(f"총 {len(base_retriever.documents)}개 문서 청크에서 소스 목록 생성 중...")
                for doc in base_retriever.documents:
                    # 문서 청크가 딕셔너리 형태라고 가정
                    if not isinstance(doc, dict): continue

                    source = doc.get("source", "unknown") # 메타데이터에서 source 가져오기
                    if source == "unknown" and "metadata" in doc and isinstance(doc["metadata"], dict):
                        source = doc["metadata"].get("source", "unknown") # Langchain Document 구조 고려

                    if source != "unknown":
                        if source in sources:
                            sources[source]["chunks"] += 1
                        else:
                            # 메타데이터에서 추가 정보 가져오기
                            filename = doc.get("filename", source)
                            filetype = doc.get("filetype", "unknown")
                            if "metadata" in doc and isinstance(doc["metadata"], dict):
                                filename = doc["metadata"].get("filename", filename)
                                filetype = doc["metadata"].get("filetype", filetype)

                            sources[source] = {
                                "filename": filename,
                                "chunks": 1,
                                "filetype": filetype
                            }
                    total_chunks += 1
            else:
                logger.info("검색기에 문서가 없거나 documents 속성을 찾을 수 없습니다.")

            # 목록 형식 변환 및 정렬
            documents = [{"source": src, **info} for src, info in sources.items()]
            documents.sort(key=lambda x: x["chunks"], reverse=True)

            logger.info(f"문서 목록 조회 완료: {len(documents)}개 소스 파일, {total_chunks}개 청크")
            return jsonify({
                "documents": documents,
                "total_documents": len(documents),
                "total_chunks": total_chunks
            })

        except Exception as e:
            logger.error(f"문서 목록 조회 중 오류 발생: {e}", exc_info=True)
            return jsonify({"error": f"문서 목록 조회 중 오류: {str(e)}"}), 500