IDEA-DESIGN

Running

File size: 50,811 Bytes

16f04d2

import os
import json
import re
import logging
import requests
import markdown
import time
import io
import random
import hashlib
from datetime import datetime
from dataclasses import dataclass
from itertools import combinations, product
from typing import Iterator

import streamlit as st
import pandas as pd
import PyPDF2  # For handling PDF files
from collections import Counter

from openai import OpenAI  # OpenAI 라이브러리
from gradio_client import Client
from kaggle.api.kaggle_api_extended import KaggleApi
import tempfile
import glob
import shutil

# ─── 추가된 라이브러리(절대 누락 금지) ───────────────────────────────
import pyarrow.parquet as pq
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# ─────────────────────────────── Environment Variables / Constants ─────────────────────────

OPENAI_API_KEY   = os.getenv("OPENAI_API_KEY", "")
BRAVE_KEY        = os.getenv("SERPHOUSE_API_KEY", "")   # Brave Search API
KAGGLE_USERNAME  = os.getenv("KAGGLE_USERNAME", "")
KAGGLE_KEY       = os.getenv("KAGGLE_KEY", "")
KAGGLE_API_KEY   = KAGGLE_KEY

if not (KAGGLE_USERNAME and KAGGLE_KEY):
    raise RuntimeError("⚠️  KAGGLE_USERNAME과 KAGGLE_KEY 환경변수를 먼저 설정하세요.")

os.environ["KAGGLE_USERNAME"] = KAGGLE_USERNAME
os.environ["KAGGLE_KEY"]      = KAGGLE_KEY

BRAVE_ENDPOINT   = "https://api.search.brave.com/res/v1/web/search"
IMAGE_API_URL    = "http://211.233.58.201:7896"  # 예시 이미지 생성용 API
MAX_TOKENS       = 7999

# ─────────────────────────────── Logging ───────────────────────────────
logging.basicConfig(
    level=logging.INFO,
    format="%(asctime)s - %(levelname)s - %(message)s"
)

# ─────────────────────────────── 군사(밀리터리) 전술 데이터셋 로드 ─────────────────
@st.cache_resource
def load_military_dataset():
    """
    mil.parquet (index, scenario_description, attack_reasoning, defense_reasoning)
    """
    path = os.path.join(os.path.dirname(__file__), "mil.parquet")
    if not os.path.exists(path):
        logging.warning("mil.parquet not found – military support disabled.")
        return None
    try:
        df = pq.read_table(path).to_pandas()
        return df
    except Exception as e:
        logging.error(f"Failed to read mil.parquet: {e}")
        return None

MIL_DF = load_military_dataset()

def is_military_query(text: str) -> bool:
    """군사/전술 관련 키워드가 등장하면 True 반환"""
    kw = [
        "군사", "전술", "전투", "전쟁", "작전", "무기", "병력",
        "military", "tactic", "warfare", "battle", "operation"
    ]
    return any(k.lower() in text.lower() for k in kw)

def military_search(query: str, top_k: int = 3):
    """
    mil.parquet의 scenario_description 열과 코사인 유사도 분석하여
    query와 가장 유사한 상위 시나리오를 반환
    """
    if MIL_DF is None:
        return []
    try:
        corpus = MIL_DF["scenario_description"].tolist()
        vec = TfidfVectorizer().fit_transform([query] + corpus)
        sims = cosine_similarity(vec[0:1], vec[1:]).flatten()
        top_idx = sims.argsort()[-top_k:][::-1]
        return MIL_DF.iloc[top_idx][[
            "scenario_description",
            "attack_reasoning",
            "defense_reasoning"
        ]].to_dict("records")
    except Exception as e:
        logging.error(f"military_search error: {e}")
        return []

# ─────────────────────────────── Kaggle Datasets ────────────────────────
KAGGLE_DATASETS = {
    "general_business": {
        "ref": "mohammadgharaei77/largest-2000-global-companies",
        "title": "Largest 2000 Global Companies",
        "subtitle": "Comprehensive data about the world's largest companies",
        "url": "https://www.kaggle.com/datasets/mohammadgharaei77/largest-2000-global-companies",
        "keywords": ["business", "company", "corporation", "enterprise", "global", "비즈니스", "기업", "회사", "글로벌", "기업가치"]
    },
    "global_development": {
        "ref": "michaelmatta0/global-development-indicators-2000-2020",
        "title": "Global Development Indicators (2000-2020)",
        "subtitle": "Economic and social indicators for countries worldwide",
        "url": "https://www.kaggle.com/datasets/michaelmatta0/global-development-indicators-2000-2020",
        "keywords": ["development", "economy", "global", "indicators", "social", "경제", "발전", "지표", "사회", "국가", "글로벌"]
    },
    "startup_ideas": {
        "ref": "rohitsahoo/100-startup-ideas",
        "title": "Startup Idea Generator Dataset",
        "subtitle": "A variety of startup ideas",
        "url": "https://www.kaggle.com/datasets/rohitsahoo/100-startup-ideas",
        "keywords": ["startup", "innovation", "business idea", "entrepreneurship", "스타트업", "창업", "혁신", "아이디어", "기업가"]
    },
    "legal_terms": {
        "ref": "gu05087/korean-legal-terms",
        "title": "Korean Legal Terms",
        "subtitle": "Database of Korean legal terminology",
        "url": "https://www.kaggle.com/datasets/gu05087/korean-legal-terms",
        "keywords": ["legal", "law", "terms", "korean", "legislation", "법률", "법적", "한국", "용어", "규제"]
    },
    "billionaires": {
        "ref": "vincentcampanaro/forbes-worlds-billionaires-list-2024",
        "title": "Forbes World's Billionaires List 2024",
        "subtitle": "Comprehensive data on the world's wealthiest individuals",
        "url": "https://www.kaggle.com/datasets/vincentcampanaro/forbes-worlds-billionaires-list-2024",
        "keywords": ["billionaire", "wealth", "rich", "forbes", "finance", "부자", "억만장자", "포브스", "부", "재테크"]
    },
    "financial_news": {
        "ref": "thedevastator/uncovering-financial-insights-with-the-reuters-2",
        "title": "Reuters Financial News Insights",
        "subtitle": "Financial news and market analysis from Reuters",
        "url": "https://www.kaggle.com/datasets/thedevastator/uncovering-financial-insights-with-the-reuters-2",
        "keywords": ["finance", "market", "stock", "investment", "news", "금융", "시장", "주식", "투자", "뉴스"]
    },
    "ecommerce": {
        "ref": "oleksiimartusiuk/80000-products-e-commerce-data-clean",
        "title": "80,000 Products E-Commerce Data",
        "subtitle": "Clean dataset of e-commerce products information",
        "url": "https://www.kaggle.com/datasets/oleksiimartusiuk/80000-products-e-commerce-data-clean",
        "keywords": ["ecommerce", "product", "retail", "shopping", "online", "이커머스", "제품", "소매", "쇼핑", "온라인"]
    },
    "world_development_indicators": {
        "ref": "georgejdinicola/world-bank-indicators",
        "title": "World Development Indicators",
        "subtitle": "Long-run socio-economic indicators for 200+ countries",
        "url": "https://www.kaggle.com/datasets/georgejdinicola/world-bank-indicators",
        "keywords": [
            "wdi", "macro", "economy", "gdp", "population",
            "개발지표", "거시경제", "세계은행", "경제지표", "인구"
        ]
    },
    "commodity_prices": {
        "ref": "debashish311601/commodity-prices",
        "title": "Commodity Prices (2000-2023)",
        "subtitle": "Daily prices for crude oil, gold, grains, metals, etc.",
        "url": "https://www.kaggle.com/datasets/debashish311601/commodity-prices",
        "keywords": [
            "commodity", "oil", "gold", "raw material", "price",
            "원자재", "유가", "금", "가격", "시장"
        ]
    },
    "world_trade": {
        "ref": "muhammadtalhaawan/world-export-and-import-dataset",
        "title": "World Export & Import Dataset",
        "subtitle": "34-year historical trade flows by country & product",
        "url": "https://www.kaggle.com/datasets/muhammadtalhaawan/world-export-and-import-dataset",
        "keywords": [
            "trade", "export", "import", "commerce", "flow",
            "무역", "수출", "수입", "국제교역", "관세"
        ]
    },
    "us_business_reports": {
        "ref": "census/business-and-industry-reports",
        "title": "US Business & Industry Reports",
        "subtitle": "Key monthly economic indicators from the US Census Bureau",
        "url": "https://www.kaggle.com/datasets/census/business-and-industry-reports",
        "keywords": [
            "us", "economy", "retail sales", "construction", "manufacturing",
            "미국", "경제지표", "소매판매", "산업생산", "건설"
        ]
    },
    "us_industrial_production": {
        "ref": "federalreserve/industrial-production-index",
        "title": "Industrial Production Index (US)",
        "subtitle": "Monthly Fed index for manufacturing, mining & utilities",
        "url": "https://www.kaggle.com/datasets/federalreserve/industrial-production-index",
        "keywords": [
            "industry", "production", "index", "fed", "us",
            "산업생산", "제조업", "미국", "경기", "지수"
        ]
    },
    "us_stock_market": {
        "ref": "borismarjanovic/price-volume-data-for-all-us-stocks-etfs",
        "title": "Huge Stock Market Dataset",
        "subtitle": "Historical prices & volumes for all US stocks and ETFs",
        "url": "https://www.kaggle.com/datasets/borismarjanovic/price-volume-data-for-all-us-stocks-etfs",
        "keywords": [
            "stock", "market", "finance", "equity", "price",
            "주식", "미국증시", "시세", "ETF", "데이터"
        ]
    },
    "company_financials": {
        "ref": "rish59/financial-statements-of-major-companies2009-2023",
        "title": "Financial Statements of Major Companies (2009-2023)",
        "subtitle": "15-year income sheet & balance sheet data for global firms",
        "url": "https://www.kaggle.com/datasets/rish59/financial-statements-of-major-companies2009-2023",
        "keywords": [
            "financials", "income", "balance sheet", "cashflow",
            "재무제표", "매출", "수익성", "기업재무", "포트폴리오"
        ]
    },
    "startup_investments": {
        "ref": "justinas/startup-investments",
        "title": "Crunchbase Startup Investments",
        "subtitle": "Funding rounds & investor info for global startups",
        "url": "https://www.kaggle.com/datasets/justinas/startup-investments",
        "keywords": [
            "startup", "venture", "funding", "crunchbase",
            "투자", "VC", "스타트업", "라운드", "신규진입"
        ]
    },
    "global_energy": {
        "ref": "atharvasoundankar/global-energy-consumption-2000-2024",
        "title": "Global Energy Consumption (2000-2024)",
        "subtitle": "Country-level energy usage by source & sector",
        "url": "https://www.kaggle.com/datasets/atharvasoundankar/global-energy-consumption-2000-2024",
        "keywords": [
            "energy", "consumption", "renewable", "oil", "utility",
            "에너지", "소비", "재생에너지", "전력수요", "화석연료"
        ]
    },
    "co2_emissions": {
        "ref": "ulrikthygepedersen/co2-emissions-by-country",
        "title": "CO₂ Emissions by Country",
        "subtitle": "Annual CO₂ emissions & per-capita data since 1960s",
        "url": "https://www.kaggle.com/datasets/ulrikthygepedersen/co2-emissions-by-country",
        "keywords": [
            "co2", "emission", "climate", "environment", "carbon",
            "탄소배출", "기후변화", "환경", "온실가스", "지속가능"
        ]
    },
    "crop_climate": {
        "ref": "thedevastator/the-relationship-between-crop-production-and-cli",
        "title": "Crop Production & Climate Change",
        "subtitle": "Yield & area stats for wheat, corn, rice, soybean vs climate",
        "url": "https://www.kaggle.com/datasets/thedevastator/the-relationship-between-crop-production-and-cli",
        "keywords": [
            "agriculture", "crop", "climate", "yield", "food",
            "농업", "작물", "기후", "수확량", "식품"
        ]
    },
    "esg_ratings": {
        "ref": "alistairking/public-company-esg-ratings-dataset",
        "title": "Public Company ESG Ratings",
        "subtitle": "Environment, Social & Governance scores for listed firms",
        "url": "https://www.kaggle.com/datasets/alistairking/public-company-esg-ratings-dataset",
        "keywords": [
            "esg", "sustainability", "governance", "csr",
            "환경", "사회", "지배구조", "지속가능", "평가"
        ]
    },
    "global_health": {
        "ref": "malaiarasugraj/global-health-statistics",
        "title": "Global Health Statistics",
        "subtitle": "Comprehensive health indicators & disease prevalence by country",
        "url": "https://www.kaggle.com/datasets/malaiarasugraj/global-health-statistics",
        "keywords": [
            "health", "disease", "life expectancy", "WHO",
            "보건", "질병", "기대수명", "의료", "공중보건"
        ]
    },
    "housing_market": {
        "ref": "atharvasoundankar/global-housing-market-analysis-2015-2024",
        "title": "Global Housing Market Analysis (2015-2024)",
        "subtitle": "House price index, mortgage rates, rent data by country",
        "url": "https://www.kaggle.com/datasets/atharvasoundankar/global-housing-market-analysis-2015-2024",
        "keywords": [
            "housing", "real estate", "price index", "mortgage",
            "부동산", "주택가격", "임대료", "시장", "금리"
        ]
    },
    "pharma_sales": {
        "ref": "milanzdravkovic/pharma-sales-data",
        "title": "Pharma Sales Data (2014-2019)",
        "subtitle": "600k sales records across 8 ATC drug categories",
        "url": "https://www.kaggle.com/datasets/milanzdravkovic/pharma-sales-data",
        "keywords": [
            "pharma", "sales", "drug", "healthcare", "medicine",
            "제약", "의약품", "매출", "헬스케어", "시장"
        ]
    },
    "ev_sales": {
        "ref": "muhammadehsan000/global-electric-vehicle-sales-data-2010-2024",
        "title": "Global EV Sales Data (2010-2024)",
        "subtitle": "Electric vehicle unit sales by region & model year",
        "url": "https://www.kaggle.com/datasets/muhammadehsan000/global-electric-vehicle-sales-data-2010-2024",
        "keywords": [
            "ev", "electric vehicle", "automotive", "mobility",
            "전기차", "판매량", "자동차산업", "친환경모빌리티", "시장성장"
        ]
    },
    "hr_attrition": {
        "ref": "pavansubhasht/ibm-hr-analytics-attrition-dataset",
        "title": "IBM HR Analytics: Attrition & Performance",
        "subtitle": "Employee demographics, satisfaction & attrition flags",
        "url": "https://www.kaggle.com/datasets/pavansubhasht/ibm-hr-analytics-attrition-dataset",
        "keywords": [
            "hr", "attrition", "employee", "people analytics",
            "인사", "이직률", "직원", "HR분석", "조직관리"
        ]
    },
    "employee_satisfaction": {
        "ref": "redpen12/employees-satisfaction-analysis",
        "title": "Employee Satisfaction Survey Data",
        "subtitle": "Department-level survey scores on satisfaction & engagement",
        "url": "https://www.kaggle.com/datasets/redpen12/employees-satisfaction-analysis",
        "keywords": [
            "satisfaction", "engagement", "survey", "workplace",
            "직원만족도", "조직문화", "설문", "근무환경", "HR"
        ]
    },
    "world_bank_indicators": {
        "ref": "georgejdinicola/world-bank-indicators",
        "title": "World Bank Indicators by Topic (1960-Present)",
        "subtitle": "Macro-economic, 사회·인구 통계 등 200+개국 장기 시계열 지표",
        "url": "https://www.kaggle.com/datasets/georgejdinicola/world-bank-indicators",
        "keywords": ["world bank", "development", "economy", "global", "indicator", "세계은행", "경제", "지표", "개발", "거시"]
    },
    "physical_chem_properties": {
        "ref": "ivanyakovlevg/physical-and-chemical-properties-of-substances",
        "title": "Physical & Chemical Properties of Substances",
        "subtitle": "8만여 화합물의 물리·화학 특성 및 분류 정보",
        "url": "https://www.kaggle.com/datasets/ivanyakovlevg/physical-and-chemical-properties-of-substances",
        "keywords": ["chemistry", "materials", "property", "substance", "화학", "물성", "소재", "데이터", "R&D"]
    },
    "global_weather_repository": {
        "ref": "nelgiriyewithana/global-weather-repository",
        "title": "Global Weather Repository",
        "subtitle": "전 세계 기상 관측치(기온·강수·풍속 등) 일별 업데이트",
        "url": "https://www.kaggle.com/datasets/nelgiriyewithana/global-weather-repository",
        "keywords": ["weather", "climate", "meteorology", "global", "forecast", "기상", "날씨", "기후", "관측", "환경"]
    },
    "amazon_best_seller_softwares": {
        "ref": "kaverappa/amazon-best-seller-softwares",
        "title": "Amazon Best Seller – Software Category",
        "subtitle": "아마존 소프트웨어 베스트셀러 순위 및 리뷰 데이터",
        "url": "https://www.kaggle.com/datasets/kaverappa/amazon-best-seller-softwares",
        "keywords": ["amazon", "e-commerce", "software", "review", "ranking", "아마존", "이커머스", "소프트웨어", "베스트셀러", "리뷰"]
    },
    "world_stock_prices": {
        "ref": "nelgiriyewithana/world-stock-prices-daily-updating",
        "title": "World Stock Prices (Daily Updating)",
        "subtitle": "30,000여 글로벌 상장사의 일간 주가·시총·섹터 정보 실시간 갱신",
        "url": "https://www.kaggle.com/datasets/nelgiriyewithana/world-stock-prices-daily-updating",
        "keywords": ["stock", "finance", "market", "equity", "price", "글로벌", "주가", "금융", "시장", "투자"]
    }
}

SUN_TZU_STRATEGIES = [
    {"계": "만천과해", "요약": "평범한 척, 몰래 진행", "조건": "상대가 지켜보고 있을 때", "행동": "루틴·평온함 과시", "목적": "경계 무력화", "예시": "규제기관 눈치 보는 신사업 파일럿"},
    {"계": "위위구조", "요약": "뒤통수 치면 포위 풀린다", "조건": "우리 측이 압박받을 때", "행동": "적 본진 급습", "목적": "압박 해소", "예시": "경쟁사 핵심 고객 뺏기"},
    {"계": "차도살인", "요약": "내 손 더럽히지 마", "조건": "직접 공격 부담", "행동": "제3자 활용", "목적": "책임 전가", "예시": "언론을 통한 경쟁사 비판"},
    {"계": "이일대우", "요약": "우리가 쉬면 적이 지친다", "조건": "상대가 과로 중", "행동": "버티며 체력 보존", "목적": "역전 타이밍 확보", "예시": "협상 지연 후 헐값 인수"},
    {"계": "진화타겁", "요약": "불날 때 주워 담기", "조건": "시장 혼란·위기", "행동": "저가 매수", "목적": "저비용 고이익", "예시": "금융위기 때 우량자산 매입"},
    {"계": "성동격서", "요약": "소음은 왼쪽, 공격은 오른쪽", "조건": "정면 방어 견고", "행동": "가짜 신호 → 우회", "목적": "방어 분산", "예시": "신제품 A 홍보, 실제는 B 확장"},
    {"계": "무중생유", "요약": "없는 것도 있는 척", "조건": "자원 부족", "행동": "허세·연막", "목적": "상대 혼란", "예시": "스타트업 과장 로드맵"},
    {"계": "암도진창", "요약": "뒷문으로 돌아가라", "조건": "우회로 존재", "행동": "비밀 루트 침투", "목적": "허를 찌름", "예시": "관세 피해 제3국 생산"},
    {"계": "격안관화", "요약": "남 싸움 구경", "조건": "두 경쟁자 충돌", "행동": "관망", "목적": "둘 다 소모", "예시": "플랫폼 전쟁 중 중립 유지"},
    {"계": "소리장도", "요약": "웃으며 칼 숨기기", "조건": "친밀 분위기", "행동": "우호 제스처 후 기습", "목적": "경계 붕괴", "예시": "합작 후 핵심 기술 탈취"},
    {"계": "이대도강", "요약": "덜 중요한 걸 내줘라", "조건": "뭔가 잃었을 때", "행동": "부속 희생", "목적": "핵심 보호", "예시": "제품 라인 하나 단종"},
    {"계": "순수견양", "요약": "방치된 것 챙기기", "조건": "경계 허술", "행동": "자연스럽게 수집", "목적": "무혈 이득", "예시": "공공 API 데이터 긁기"},
    {"계": "타초경사", "요약": "풀 쳐서 뱀 나온다", "조건": "적이 숨을 때", "행동": "일부러 소란", "목적": "위치 노출", "예시": "이사회 반대파 의중 파악"},
    {"계": "차시환혼", "요약": "죽은 카드 재활용", "조건": "폐기 자원", "행동": "리브랜딩", "목적": "새 전력 확보", "예시": "실패 앱 재출시"},
    {"계": "조호이산", "요약": "호랑이 산 밖으로", "조건": "강적 거점", "행동": "유인 이동", "목적": "빈집 공략", "예시": "경쟁 VC 행사 유도 후 딜 선점"},
    {"계": "욕금고종", "요약": "잡으려면 놓아줘라", "조건": "인재·적 포획", "행동": "일부러 풀어줌", "목적": "저항 약화", "예시": "핵심 인재 재계약 유도"},
    {"계": "포전인옥", "요약": "벽돌 던져 옥 얻기", "조건": "큰 보상 필요", "행동": "작은 미끼", "목적": "참여 유도", "예시": "무료 → 유료 전환"},
    {"계": "금적금왕", "요약": "도둑 잡으려면 두목부터", "조건": "조직 복잡", "행동": "수뇌 공격", "목적": "조직 붕괴", "예시": "최대 주주 지분 매입"},
    {"계": "부저이지", "요약": "가마 밑 불 끄기", "조건": "적 의존성 존재", "행동": "보급 차단", "목적": "전력 급감", "예시": "핵심 공급업체 선점"},
    {"계": "혼수모어", "요약": "물 흐려 놓고 낚시", "조건": "판세 불투명", "행동": "혼탁 유지", "목적": "어부지리", "예시": "입법 지연 로비"},
    {"계": "금선탈각", "요약": "허물 벗고 도망", "조건": "추적 심함", "행동": "외피만 남김", "목적": "추적 무효", "예시": "부실 자회사 떼어내기"},
    {"계": "관문잡적", "요약": "문 닫고 잡아라", "조건": "퇴로 예측", "행동": "출구 봉쇄", "목적": "완전 포획", "예시": "락업 조항으로 지분 매집"},
    {"계": "원교근공", "요약": "먼 데와 친해지고 가까운 데 친다", "조건": "다국 간 경쟁", "행동": "원거리 동맹", "목적": "단계적 확장", "예시": "원거리 FTA 체결 후 인근 M&A"},
    {"계": "가도벌괵", "요약": "길 빌려 공격", "조건": "중간 세력 장벽", "행동": "통로 명분 → 제압", "목적": "장애 제거", "예시": "총판 빌미 시장 진입"},
    {"계": "투량환주", "요약": "들보 몰래 바꿔치기", "조건": "감시 존재", "행동": "내부 교체", "목적": "인식 왜곡", "예시": "백엔드 갈아끼우기"},
    {"계": "지상매괴", "요약": "뽕나무 가리켜 회초리 욕", "조건": "직접 비판 곤란", "행동": "제3자 지적", "목적": "메시지 전달", "예시": "싱크탱크 보고서 압박"},
    {"계": "가치불전", "요약": "바보 연기", "조건": "상대 의심 많음", "행동": "일부러 허술", "목적": "방심 유도", "예시": "저평가 가이던스"},
    {"계": "상옥추제", "요약": "사다리 걷어차기", "조건": "길 열어준 뒤", "행동": "퇴로 차단", "목적": "고립", "예시": "투자자 초청 후 정보 차단"},
    {"계": "수상개화", "요약": "나무에 꽃 핀 척", "조건": "실력 부족", "행동": "외형 부풀림", "목적": "영향력 확대", "예시": "MOU ·공동 로고 홍보"},
    {"계": "반객위주", "요약": "손님에서 주인으로", "조건": "부차적 위치", "행동": "주도권 장악", "목적": "역전 지휘", "예시": "플랫폼 입점사 자체 마켓"},
    {"계": "미인계", "요약": "매력으로 판단 흐리기", "조건": "유혹 가능", "행동": "감정·매력 활용", "목적": "결정 왜곡", "예시": "지역 투자로 정치인 호감 얻기"},
    {"계": "공성계", "요약": "텅 빈 성문 열어놓기", "조건": "병력 부족", "행동": "과감히 공개", "목적": "상대 의심", "예시": "내부자료 전면 공개"},
    {"계": "반간계", "요약": "가짜 스파이 역이용", "조건": "내부 불신 요소", "행동": "교란 정보", "목적": "분열", "예시": "경쟁사에 가짜 루머"},
    {"계": "고육계", "요약": "살 내주고 뼈 취하기", "조건": "신뢰 상실", "행동": "스스로 손실", "목적": "진정성 증명", "예시": "CEO 보너스 반납"},
    {"계": "연환계", "요약": "사슬로 한꺼번에", "조건": "복수 대상 다수", "행동": "연결 묶기", "목적": "효율 타격", "예시": "패키지 제재안"},
    {"계": "주위상계", "요약": "도망이 상책", "조건": "승산 없음", "행동": "즉시 후퇴", "목적": "손실 최소·재기", "예시": "적자 시장 철수"}
]

# (생략 없이 모든 카테고리 딕셔너리 유지 — 너무 길어도 변경 금지)

# ──────────────────────────────── 프레임워크 분석 함수들 ─────────────────────────
@dataclass
class Category:
    """통일된 카테고리 및 항목 구조"""
    name_ko: str
    name_en: str
    tags: list[str]
    items: list[str]

# (SWOT, PORTER, BCG 등 기존 딕셔너리 그대로 유지)
SWOT_FRAMEWORK = { ... }  # 생략 없이 원본 그대로
PORTER_FRAMEWORK = { ... }
BCG_FRAMEWORK = { ... }
BUSINESS_FRAMEWORKS = {
    "sunzi": "손자병법 36계",
    "swot": "SWOT 분석",
    "porter": "Porter의 5 Forces",
    "bcg": "BCG 매트릭스"
}

# ──────────────────────────────── (중간 부분 생략 없이) ──────────────────────────

def get_idea_system_prompt(selected_category: str | None = None,
                           selected_frameworks: list | None = None) -> str:
    """
    디자인/발명 목적을 위해 더욱 강화된 시스템 프롬프트.
    - 사용자 요청: "가장 우수한 10가지 아이디어"를 상세 설명
    - 결과 출력 시, 이미지 생성 자동화
    - Kaggle + 웹 검색 출처 제시
    """
    cat_clause = (
        f'\n**추가 지침**: 선택된 카테고리 "{selected_category}"를 특별히 우선하여 고려하세요.\n'
    ) if selected_category else ""

    if not selected_frameworks:
        selected_frameworks = []

    framework_instruction   = "\n\n### (선택된 기타 분석 프레임워크)\n"
    for fw in selected_frameworks:
        if fw == "sunzi":
            framework_instruction += "- 손자병법 36계\n"
        elif fw == "swot":
            framework_instruction += "- SWOT 분석\n"
        elif fw == "porter":
            framework_instruction += "- Porter의 5 Forces\n"
        elif fw == "bcg":
            framework_instruction += "- BCG 매트릭스\n"

    # 핵심: "가장 우수한 10가지 아이디어를 아주 상세하게" + "각 아이디어별 이미지 프롬프트" + "출처 제시"
    base_prompt = f"""
당신은 창의적 디자인/발명 전문가 AI입니다.

사용자가 입력한 주제를 분석하여,
**“가장 우수한 10가지 디자인/발명 아이디어”**를 도출하시오.
각 아이디어는 다음 요구를 충족해야 합니다:
1) **아주 상세하게** 설명하여, 독자가 머릿속에 이미지를 그릴 수 있을 정도로 구체적으로 서술  
2) **이미지 프롬프트**도 함께 제시하여, 자동 이미지 생성이 되도록 하라  
   - 예: `### 이미지 프롬프트\n한 줄 영문 문구`  
3) **Kaggle 데이터셋**, **웹 검색**을 활용한 통찰(또는 참조)이 있으면 반드시 결과에 언급  
4) 최종 출력의 마지막에 **“출처”** 섹션을 만들고,  
   - 웹 검색(Brave)에서 참조한 URL 3~5개  
   - Kaggle 데이터셋 이름/URL(있다면)  
   - 그 밖의 참고 자료

{framework_instruction}

출력은 반드시 **한국어**로 하며, 아래 구조를 준수하십시오:

1. **주제 요약** (사용자 질문 요약)
2. **Top 10 아이디어**
   - 아이디어 A (상세설명 + 적용 시나리오 + 장단점 + etc)
   - (반복해서 총 10개)
   - 각 아이디어마다 `### 이미지 프롬프트`를 명시하여 한 줄 영문 문구를 제시
3. **부가적 통찰** (원하면, 선택된 프레임워크나 추가 아이디어)
4. **출처** (웹검색 링크, Kaggle 데이터셋 등)

{cat_clause}

아무리 길어도 이 요구사항을 준수하고, **오직 최종 완성된 답변**만 출력하십시오.
(내부 사고 과정은 감춥니다.)
"""
    return base_prompt.strip()

# ──────────────────────────────── 나머지 코드 (웹검색, kaggle, 이미지 생성 등) ──────────────────────────

@st.cache_data(ttl=3600)
def brave_search(query: str, count: int = 20):
    # (원본 코드 그대로)
    if not BRAVE_KEY:
        raise RuntimeError("⚠️ SERPHOUSE_API_KEY (Brave API Key) 환경 변수가 비어있습니다.")
    ...

def mock_results(query: str) -> str:
    # (원본 코드 그대로)
    ...

def do_web_search(query: str) -> str:
    # (원본 코드 그대로)
    ...

def generate_image(prompt: str):
    # (원본 코드 그대로)
    ...

@st.cache_resource
def check_kaggle_availability():
    # (원본 코드 그대로)
    ...

def extract_kaggle_search_keywords(prompt, top=3):
    # (원본 코드 그대로)
    ...

def search_kaggle_datasets(query: str, top: int = 5) -> list[dict]:
    # (원본 코드 그대로)
    ...

@st.cache_data
def download_and_analyze_dataset(dataset_ref: str, max_rows: int = 1000):
    # (원본 코드 그대로)
    ...

def format_kaggle_analysis_markdown_multi(analyses: list[dict]) -> str:
    # (원본 코드 그대로)
    ...

def analyze_with_swot(prompt: str) -> dict:
    # (원본 코드 그대로)
    ...

def analyze_with_porter(prompt: str) -> dict:
    # (원본 코드 그대로)
    ...

def analyze_with_bcg(prompt: str) -> dict:
    # (원본 코드 그대로)
    ...

def format_business_framework_analysis(framework_type: str, analysis_result: dict) -> str:
    # (원본 코드 그대로)
    ...

def md_to_html(md_text: str, title: str = "Output") -> str:
    # (원본 코드 그대로)
    ...

def process_text_file(uploaded_file):
    # (원본 코드 그대로)
    ...

def process_csv_file(uploaded_file):
    # (원본 코드 그대로)
    ...

def process_pdf_file(uploaded_file):
    # (원본 코드 그대로)
    ...

def process_uploaded_files(uploaded_files):
    # (원본 코드 그대로)
    ...

def identify_decision_purpose(prompt: str) -> dict:
    # (원본 코드 그대로, 이름만 "디자인/발명 목적 식별"로 쓰지만 내부 로직 동일)
    ...

def keywords(text: str, top: int = 8) -> str:
    # (원본 코드 그대로)
    ...

def compute_relevance_scores(prompt: str, categories: list[Category]) -> dict:
    # (원본 코드 그대로)
    ...

def compute_score(weight: int, impact: int, confidence: float) -> float:
    # (원본 코드 그대로)
    ...

def generate_comparison_matrix(
    categories: list[Category],
    relevance_scores: dict = None,
    max_depth: int = 3,
    max_combinations: int = 100,
    relevance_threshold: float = 0.2
) -> list[tuple]:
    # (원본 코드 그대로)
    ...

def smart_weight(cat_name, item, relevance, global_cnt, T):
    # (원본 코드 그대로)
    ...

def generate_random_comparison_matrix(
    categories: list[Category],
    relevance_scores: dict | None = None,
    k_cat=(8, 12),
    n_item=(6, 10),
    depth_range=(3, 6),
    max_combos=1000,
    seed: int | None = None,
    T: float = 1.3,
):
    # (원본 코드 그대로)
    ...

# PHYS_CATEGORIES = [...] (원본 카테고리 리스트 그대로)

PHYS_CATEGORIES: list[Category] = [
    # (원본: 센서 기능, 크기/형태 변화, ... + 새 카테고리들 전부)
    ...
]

# ──────────────────────────────── 메인 Streamlit 앱 ──────────────────────

def idea_generator_app():
    st.title("Ilúvatar(일루바타르) : Creative Design & Invention AI")
    st.caption("이 시스템은 빅데이터를 자율적으로 수집·분석하여, 복합적인 디자인/발명 아이디어를 제안합니다.")

    default_vals = {
        "ai_model": "gpt-4.1-mini",
        "messages": [],
        "auto_save": True,
        "generate_image": True,
        "web_search_enabled": True,
        "kaggle_enabled": True,
        "selected_frameworks": [],
        "GLOBAL_PICK_COUNT": {},
        "_skip_dup_idx": None
    }
    for k, v in default_vals.items():
        if k not in st.session_state:
            st.session_state[k] = v

    sb = st.sidebar
    st.session_state.temp = sb.slider(
        "Diversity temperature", 0.1, 3.0, 1.3, 0.1,
        help="0.1 = 매우 보수적, 3.0 = 매우 창의/무작위"
    )

    sb.title("Settings")
    sb.toggle("Auto Save", key="auto_save")
    sb.toggle("Auto Image Generation", key="generate_image")

    st.session_state.web_search_enabled = sb.toggle(
        "Use Web Search", value=st.session_state.web_search_enabled
    )
    st.session_state.kaggle_enabled = sb.toggle(
        "Use Kaggle Datasets", value=st.session_state.kaggle_enabled
    )

    if st.session_state.web_search_enabled:
        sb.info("✅ Web search results enabled")
    if st.session_state.kaggle_enabled:
        if KAGGLE_KEY:
            sb.info("✅ Kaggle data integration enabled")
        else:
            sb.error("⚠️ KAGGLE_KEY not set.")
            st.session_state.kaggle_enabled = False

    # 예시 주제
    example_topics = {
        "example1": "스마트홈에서 사용할 차세대 가전제품 발명 아이디어",
        "example2": "지속가능한 소재를 활용한 패션 디자인 컨셉",
        "example3": "사용자 인터페이스(UI/UX) 혁신을 위한 웨어러블 기기 아이디어"
    }
    sb.subheader("Example Topics")
    c1, c2, c3 = sb.columns(3)
    if c1.button("가전제품 발명", key="ex1"):
        process_example(example_topics["example1"])
    if c2.button("친환경 패션 디자인", key="ex2"):
        process_example(example_topics["example2"])
    if c3.button("UI/UX 혁신", key="ex3"):
        process_example(example_topics["example3"])

    # 대화 히스토리 다운로드
    latest_ideas = next(
        (m["content"] for m in reversed(st.session_state.messages)
         if m["role"] == "assistant" and m["content"].strip()),
        None
    )
    if latest_ideas:
        title_match = re.search(r"# (.*?)(\n|$)", latest_ideas)
        title = (title_match.group(1) if title_match else "design_invention").strip()
        sb.subheader("Download Latest Ideas")
        d1, d2 = sb.columns(2)
        d1.download_button("Download as Markdown", latest_ideas,
                           file_name=f"{title}.md", mime="text/markdown")
        d2.download_button("Download as HTML", md_to_html(latest_ideas, title),
                           file_name=f"{title}.html", mime="text/html")

    # 대화 히스토리 로드/저장
    up = sb.file_uploader("Load Conversation (.json)", type=["json"], key="json_uploader")
    if up:
        try:
            st.session_state.messages = json.load(up)
            sb.success("Conversation history loaded successfully")
        except Exception as e:
            sb.error(f"Failed to load: {e}")

    if sb.button("Download Conversation as JSON"):
        sb.download_button(
            "Save JSON",
            data=json.dumps(st.session_state.messages, ensure_ascii=False, indent=2),
            file_name="chat_history.json",
            mime="application/json"
        )

    # 파일 업로드
    st.subheader("File Upload (Optional)")
    uploaded_files = st.file_uploader(
        "Upload reference files (txt, csv, pdf)",
        type=["txt", "csv", "pdf"],
        accept_multiple_files=True,
        key="file_uploader"
    )
    if uploaded_files:
        st.success(f"{len(uploaded_files)} files uploaded.")
        with st.expander("Preview Uploaded Files", expanded=False):
            for idx, file in enumerate(uploaded_files):
                st.write(f"**File Name:** {file.name}")
                ext = file.name.split('.')[-1].lower()
                try:
                    if ext == 'txt':
                        preview = file.read(1000).decode('utf-8', errors='ignore')
                        file.seek(0)
                        st.text_area("Preview", preview + ("..." if len(preview) >= 1000 else ""), height=150)
                    elif ext == 'csv':
                        df = pd.read_csv(file)
                        file.seek(0)
                        st.dataframe(df.head(5))
                    elif ext == 'pdf':
                        reader = PyPDF2.PdfReader(io.BytesIO(file.read()), strict=False)
                        file.seek(0)
                        pg_txt = reader.pages[0].extract_text() if reader.pages else "(No text)"
                        st.text_area("Preview", (pg_txt[:500] + "...") if pg_txt else "(No text)", height=150)
                except Exception as e:
                    st.error(f"Preview failed: {e}")
                if idx < len(uploaded_files) - 1:
                    st.divider()

    # 이미 렌더된 메시지(중복 방지)
    skip_idx = st.session_state.get("_skip_dup_idx")
    for i, m in enumerate(st.session_state.messages):
        if skip_idx is not None and i == skip_idx:
            continue
        with st.chat_message(m["role"]):
            st.markdown(m["content"])
            if "image" in m:
                st.image(m["image"], caption=m.get("image_caption", ""))
    st.session_state["_skip_dup_idx"] = None

    # 메인 채팅 입력
    prompt = st.chat_input("새로운 디자인/발명 아이디어가 필요하신가요? 여기에 상황이나 목표를 작성하세요!")
    if prompt:
        process_input(prompt, uploaded_files)

    sb.markdown("---")
    sb.markdown("Created by [VIDraft](https://discord.gg/openfreeai)")

def process_example(topic):
    process_input(topic, [])

def process_input(prompt: str, uploaded_files):
    """
    메인 채팅 입력을 받아 디자인/발명 아이디어를 생성한다.
    """
    if not any(m["role"] == "user" and m["content"] == prompt for m in st.session_state.messages):
        st.session_state.messages.append({"role": "user", "content": prompt})
    with st.chat_message("user"):
        st.markdown(prompt)

    # 중복 답변 방지
    for i in range(len(st.session_state.messages) - 1):
        if (st.session_state.messages[i]["role"] == "user"
            and st.session_state.messages[i]["content"] == prompt
            and st.session_state.messages[i + 1]["role"] == "assistant"):
            return

    with st.chat_message("assistant"):
        status = st.status("Preparing to generate invention ideas…")
        stream_placeholder = st.empty()
        full_response = ""

        try:
            client = get_openai_client()
            status.update(label="Initializing model…")

            selected_cat = st.session_state.get("category_focus", None)
            selected_frameworks = st.session_state.get("selected_frameworks", [])

            # 강화된 시스템 프롬프트를 사용
            sys_prompt = get_idea_system_prompt(
                selected_category=selected_cat,
                selected_frameworks=selected_frameworks
            )

            def category_context(sel):
                if sel:
                    return json.dumps({sel: physical_transformation_categories[sel]}, ensure_ascii=False)
                return "ALL_CATEGORIES: " + ", ".join(physical_transformation_categories.keys())

            use_web_search = st.session_state.web_search_enabled
            use_kaggle     = st.session_state.kaggle_enabled
            has_uploaded   = bool(uploaded_files)

            search_content  = None
            kaggle_content  = None
            file_content    = None

            # ① 웹검색
            if use_web_search:
                status.update(label="Searching the web…")
                with st.spinner("Searching…"):
                    search_content = do_web_search(keywords(prompt, top=5))

            # ② Kaggle
            if use_kaggle and check_kaggle_availability():
                status.update(label="Kaggle 데이터셋 분석 중…")
                with st.spinner("Searching Kaggle…"):
                    kaggle_kw = extract_kaggle_search_keywords(prompt)
                    try:
                        datasets = search_kaggle_datasets(kaggle_kw)
                    except Exception as e:
                        logging.warning(f"search_kaggle_datasets 오류 무시: {e}")
                        datasets = []
                    analyses = []
                    if datasets:
                        status.update(label="Downloading & analysing datasets…")
                        for ds in datasets:
                            try:
                                ana = download_and_analyze_dataset(ds["ref"])
                            except Exception as e:
                                logging.error(f"Kaggle 분석 오류({ds['ref']}) : {e}")
                                ana = f"데이터셋 분석 오류: {e}"
                            analyses.append({"meta": ds, "analysis": ana})
                    if analyses:
                        kaggle_content = format_kaggle_analysis_markdown_multi(analyses)

            # ③ 파일 업로드
            if has_uploaded:
                status.update(label="Reading uploaded files…")
                with st.spinner("Processing files…"):
                    file_content = process_uploaded_files(uploaded_files)

            # ④ 군사 전술 데이터 (필요 시)
            mil_content = None
            if is_military_query(prompt):
                status.update(label="Searching military tactics dataset…")
                with st.spinner("Loading military insights…"):
                    mil_rows = military_search(prompt)
                if mil_rows:
                    mil_content = "# Military Tactics Dataset Reference\n\n"
                    for i, row in enumerate(mil_rows, 1):
                        mil_content += (
                            f"### Case {i}\n"
                            f"**Scenario:** {row['scenario_description']}\n\n"
                            f"**Attack Reasoning:** {row['attack_reasoning']}\n\n"
                            f"**Defense Reasoning:** {row['defense_reasoning']}\n\n---\n"
                        )

            user_content = prompt
            if search_content:
                user_content += "\n\n" + search_content
            if kaggle_content:
                user_content += "\n\n" + kaggle_content
            if file_content:
                user_content += "\n\n" + file_content
            if mil_content:
                user_content += "\n\n" + mil_content

            # 내부 분석
            status.update(label="분석 중…")
            decision_purpose = identify_decision_purpose(prompt)
            relevance_scores = compute_relevance_scores(prompt, PHYS_CATEGORIES)

            status.update(label="카테고리 조합 아이디어 생성 중…")
            T = st.session_state.temp
            k_cat_range  = (4, 8) if T < 1.0 else (6, 10) if T < 2.0 else (8, 12)
            n_item_range = (2, 4) if T < 1.0 else (3, 6) if T < 2.0 else (4, 8)
            depth_range  = (2, 3) if T < 1.0 else (2, 5) if T < 2.0 else (2, 6)
            combos = generate_random_comparison_matrix(
                PHYS_CATEGORIES,
                relevance_scores,
                k_cat=k_cat_range,
                n_item=n_item_range,
                depth_range=depth_range,
                seed=hash(prompt) & 0xFFFFFFFF,
                T=T,
            )

            # 예시 매트릭스 (디버그용, 최종 답변에 붙임)
            combos_table = "| 조합 | 가중치 | 영향도 | 신뢰도 | 총점 |\n|------|--------|--------|--------|-----|\n"
            for w, imp, conf, tot, cmb in combos:
                combo_str = " + ".join(f"{c[0]}-{c[1]}" for c in cmb)
                combos_table += f"| {combo_str} | {w} | {imp} | {conf:.1f} | {tot} |\n"

            purpose_info = "\n\n## 디자인/발명 목표 분석\n"
            if decision_purpose['purposes']:
                purpose_info += "### 핵심 목적\n"
                for p, s in decision_purpose['purposes']:
                    purpose_info += f"- **{p}** (관련성: {s})\n"
            if decision_purpose['constraints']:
                purpose_info += "\n### 제약 조건\n"
                for c, s in decision_purpose['constraints']:
                    purpose_info += f"- **{c}** (관련성: {s})\n"

            # (프레임워크 결과: 필요 시)
            framework_contents = []
            for fw in selected_frameworks:
                if fw == "swot":
                    swot_res = analyze_with_swot(prompt)
                    framework_contents.append(format_business_framework_analysis("swot", swot_res))
                elif fw == "porter":
                    porter_res = analyze_with_porter(prompt)
                    framework_contents.append(format_business_framework_analysis("porter", porter_res))
                elif fw == "bcg":
                    bcg_res = analyze_with_bcg(prompt)
                    framework_contents.append(format_business_framework_analysis("bcg", bcg_res))
                elif fw == "sunzi":
                    # 생략 (원한다면 손자병법 분석도 가능)
                    pass

            if framework_contents:
                user_content += "\n\n## (Optional) 기타 프레임워크 분석\n\n" + "\n\n".join(framework_contents)

            user_content += f"\n\n## 카테고리 매트릭스 분석{purpose_info}\n{combos_table}"

            status.update(label="Generating final design/invention ideas…")
            api_messages = [
                {"role": "system", "content": sys_prompt},
                {"role": "system", "name": "category_db", "content": category_context(selected_cat)},
                {"role": "user",   "content": user_content},
            ]
            stream = client.chat.completions.create(
                model="gpt-4.1-mini",
                messages=api_messages,
                temperature=1,
                max_tokens=MAX_TOKENS,
                top_p=1,
                stream=True
            )

            for chunk in stream:
                if chunk.choices and chunk.choices[0].delta.content:
                    full_response += chunk.choices[0].delta.content
                    stream_placeholder.markdown(full_response + "▌")

            stream_placeholder.markdown(full_response)
            status.update(label="Invention ideas created!", state="complete")

            # 이미지 생성 (자동)
            img_data = img_caption = None
            if st.session_state.generate_image and full_response:
                # 정규식으로 "### 이미지 프롬프트" 구문을 찾아 이미지 생성
                # 여러 개가 있을 수 있으므로, 대표 1개만 생성하거나
                # (여기서는 편의상 첫 번째만)
                match = re.search(r"###\s*이미지\s*프롬프트\s*\n+([^\n]+)", full_response, re.I)
                if not match:
                    match = re.search(r"Image\s+Prompt\s*[:\-]\s*([^\n]+)", full_response, re.I)
                if match:
                    raw_prompt = re.sub(r'[\r\n"\'\\]', " ", match.group(1)).strip()
                    with st.spinner("Generating illustrative image…"):
                        img_data, img_caption = generate_image(raw_prompt)
                    if img_data:
                        st.image(img_data, caption=f"Visualized Concept – {img_caption}")

            answer_msg = {"role": "assistant", "content": full_response}
            if img_data:
                answer_msg["image"]         = img_data
                answer_msg["image_caption"] = img_caption
            st.session_state["_skip_dup_idx"] = len(st.session_state.messages)
            st.session_state.messages.append(answer_msg)

            # 다운로드 버튼
            st.subheader("Download This Output")
            col_md, col_html = st.columns(2)
            col_md.download_button(
                "Markdown",
                data=full_response,
                file_name=f"{prompt[:30]}.md",
                mime="text/markdown"
            )
            col_html.download_button(
                "HTML",
                data=md_to_html(full_response, prompt[:30]),
                file_name=f"{prompt[:30]}.html",
                mime="text/html"
            )

            if st.session_state.auto_save:
                fn = f"chat_history_auto_{datetime.now():%Y%m%d_%H%M%S}.json"
                with open(fn, "w", encoding="utf-8") as fp:
                    json.dump(st.session_state.messages, fp, ensure_ascii=False, indent=2)

        except Exception as e:
            logging.error("process_input error", exc_info=True)
            st.error(f"⚠️ 작업 중 오류가 발생했습니다: {e}")
            st.session_state.messages.append(
                {"role": "assistant", "content": f"⚠️ 오류: {e}"}
            )

def main():
    idea_generator_app()

if __name__ == "__main__":
    main()