NH-Prediction

Running

App Files Files Community

yokoha commited on Apr 30

Commit

0b12519

verified ·

1 Parent(s): 0f95c64

Update app.py

Browse files

Files changed (1) hide show

app.py +17 -84

app.py CHANGED Viewed

@@ -3,7 +3,6 @@ import pandas as pd
 import numpy as np
 from prophet import Prophet
 import plotly.express as px
-import seaborn as sns
 import matplotlib.pyplot as plt
 from datetime import date
 from pathlib import Path
@@ -13,13 +12,11 @@ import matplotlib as mpl
 # -------------------------------------------------
 # CONFIG ------------------------------------------
 # -------------------------------------------------
-CSV_PATH = Path("price_data.csv")
-PARQUET_PATH = Path("domae-202503.parquet")
 MACRO_START, MACRO_END = "1996-01-01", "2030-12-31"
 MICRO_START, MICRO_END = "2020-01-01", "2026-12-31"
 # 한글 폰트 설정
-# 1. 시스템에 설치된 한글 폰트 찾기
 font_list = [f.name for f in fm.fontManager.ttflist if 'gothic' in f.name.lower() or
              'gulim' in f.name.lower() or 'malgun' in f.name.lower() or
              'nanum' in f.name.lower() or 'batang' in f.name.lower()]
@@ -29,7 +26,6 @@ if font_list:
     plt.rcParams['font.family'] = font_name
     mpl.rcParams['axes.unicode_minus'] = False
 else:
-    # 폰트가 없을 경우 기본 폰트 설정
     plt.rcParams['font.family'] = 'DejaVu Sans'
 st.set_page_config(page_title="품목별 가격 예측", page_icon="📈", layout="wide")
@@ -70,7 +66,7 @@ def _standardize_columns(df: pd.DataFrame) -> pd.DataFrame:
     # ── convert YYYYMM string to datetime ──────────────────────────────
     if "date" in df.columns and pd.api.types.is_object_dtype(df["date"]):
-        if len(df) > 0:  # 데이터가 있는지 확인
             sample = str(df["date"].iloc[0])
             if sample.isdigit() and len(sample) in (6, 8):
                 df["date"] = pd.to_datetime(df["date"].astype(str).str[:6], format="%Y%m", errors="coerce")
@@ -89,20 +85,18 @@ def _standardize_columns(df: pd.DataFrame) -> pd.DataFrame:
 @st.cache_data(show_spinner=False)
 def load_data() -> pd.DataFrame:
-    """Load price data from Parquet if available, else CSV. Handle flexible schema."""
     try:
-        if PARQUET_PATH.exists():
-            st.sidebar.info("Parquet 파일에서 데이터를 불러옵니다.")
-            df = pd.read_parquet(PARQUET_PATH)
-            st.sidebar.success(f"Parquet 데이터 로드 완료: {len(df)}개 행")
-        elif CSV_PATH.exists():
-            st.sidebar.info("CSV 파일에서 데이터를 불러옵니다.")
-            df = pd.read_csv(CSV_PATH)
-            st.sidebar.success(f"CSV 데이터 로드 완료: {len(df)}개 행")
-        else:
-            st.error("💾 price_data.csv 또는 domae-202503.parquet 파일을 찾을 수 없습니다.")
             st.stop()
         # 원본 데이터 형태 확인
         st.sidebar.write("원본 데이터 컬럼:", list(df.columns))
@@ -114,7 +108,7 @@ def load_data() -> pd.DataFrame:
             st.error(f"필수 컬럼 누락: {', '.join(missing)} — 파일 컬럼명을 확인하세요.")
             st.stop()
-        # 날짜 변환 전후 데이터 수 확인
         before_date_convert = len(df)
         df["date"] = pd.to_datetime(df["date"], errors="coerce")
         after_date_convert = df.dropna(subset=["date"]).shape[0]
@@ -140,6 +134,9 @@ def load_data() -> pd.DataFrame:
         return df
     except Exception as e:
         st.error(f"데이터 로드 중 오류 발생: {str(e)}")
         st.stop()
@@ -204,7 +201,7 @@ if item_df.empty:
 # -------------------------------------------------
 st.header(f"📈 {selected_item} 가격 예측 대시보드")
-# 데이터 필터링 로직 개선 - 시간 범위를 조정하여 더 많은 데이터 포함
 try:
     macro_start_dt = pd.Timestamp(MACRO_START)
     # 데이터가 충분하지 않으면 시작 날짜를 조정
@@ -325,70 +322,6 @@ with st.expander("📆 시즈널리티 & 패턴 설명"):
     else:
         st.info("패턴 분석을 위한 충분한 데이터가 없습니다.")
-# -------------------------------------------------
-# CORRELATION HEATMAP -----------------------------
-# -------------------------------------------------
-st.subheader("🧮 품목 간 상관관계")
-try:
-    # 너무 많은 품목이 있으면 상위 N개만 선택
-    items_to_corr = raw_df['item'].value_counts().head(30).index.tolist()
-    if selected_item not in items_to_corr and selected_item in raw_df['item'].unique():
-        items_to_corr.append(selected_item)
-    filtered_df = raw_df[raw_df['item'].isin(items_to_corr)]
-    monthly_pivot = (filtered_df.assign(month=lambda d: d.date.dt.to_period("M"))
-                              .groupby(["month", "item"], as_index=False)["price"].mean()
-                              .pivot(index="month", columns="item", values="price"))
-    # 결측치가 너무 많은 열 제거
-    threshold = 0.5  # 50% 이상 결측치가 있는 열 제거
-    monthly_pivot = monthly_pivot.loc[:, monthly_pivot.isnull().mean() < threshold]
-    if monthly_pivot.shape[1] > 1:  # At least 2 items needed for correlation
-        # 결측치 처리
-        monthly_pivot = monthly_pivot.fillna(method='ffill').fillna(method='bfill')
-        # 상관관계 계산
-        corr = monthly_pivot.corr()
-        # 시각화
-        fig, ax = plt.subplots(figsize=(12, 10))
-        mask = np.triu(np.ones_like(corr, dtype=bool))
-        # 여기서 폰트 설정 다시 확인
-        plt.title(f"{selected_item} 관련 상관관계", fontsize=15)
-        sns.heatmap(corr, mask=mask, annot=False, cmap="coolwarm", center=0,
-                    square=True, linewidths=.5, cbar_kws={"shrink": .5})
-        plt.xticks(rotation=45, ha='right', fontsize=8)
-        plt.yticks(fontsize=8)
-        # Highlight correlations with selected item
-        if selected_item in corr.columns:
-            item_corr = corr[selected_item].sort_values(ascending=False)
-            top_corr = item_corr.drop(selected_item).head(5)
-            bottom_corr = item_corr.drop(selected_item).tail(5)
-            col1, col2 = st.columns(2)
-            with col1:
-                st.markdown(f"**{selected_item}와 상관관계 높은 품목**")
-                for item, val in top_corr.items():
-                    st.write(f"{item}: {val:.2f}")
-            with col2:
-                st.markdown(f"**{selected_item}와 상관관계 낮은 품목**")
-                for item, val in bottom_corr.items():
-                    st.write(f"{item}: {val:.2f}")
-        st.pyplot(fig)
-    else:
-        st.info("상관관계 분석을 위한 충분한 품목 데이터가 없습니다.")
-except Exception as e:
-    st.error(f"상관관계 분석 오류: {str(e)}")
-    st.write("오류 상세 정보:", str(e))
 # -------------------------------------------------
 # FOOTER ------------------------------------------
 # -------------------------------------------------

 import numpy as np
 from prophet import Prophet
 import plotly.express as px
 import matplotlib.pyplot as plt
 from datetime import date
 from pathlib import Path
 # -------------------------------------------------
 # CONFIG ------------------------------------------
 # -------------------------------------------------
+CSV_PATH = Path("2025-domae.csv")  # 파일 경로 수정
 MACRO_START, MACRO_END = "1996-01-01", "2030-12-31"
 MICRO_START, MICRO_END = "2020-01-01", "2026-12-31"
 # 한글 폰트 설정
 font_list = [f.name for f in fm.fontManager.ttflist if 'gothic' in f.name.lower() or
              'gulim' in f.name.lower() or 'malgun' in f.name.lower() or
              'nanum' in f.name.lower() or 'batang' in f.name.lower()]
     plt.rcParams['font.family'] = font_name
     mpl.rcParams['axes.unicode_minus'] = False
 else:
     plt.rcParams['font.family'] = 'DejaVu Sans'
 st.set_page_config(page_title="품목별 가격 예측", page_icon="📈", layout="wide")
     # ── convert YYYYMM string to datetime ──────────────────────────────
     if "date" in df.columns and pd.api.types.is_object_dtype(df["date"]):
+        if len(df) > 0:
             sample = str(df["date"].iloc[0])
             if sample.isdigit() and len(sample) in (6, 8):
                 df["date"] = pd.to_datetime(df["date"].astype(str).str[:6], format="%Y%m", errors="coerce")
 @st.cache_data(show_spinner=False)
 def load_data() -> pd.DataFrame:
+    """Load price data from CSV file."""
     try:
+        if not CSV_PATH.exists():
+            st.error(f"💾 {CSV_PATH} 파일을 찾을 수 없습니다.")
             st.stop()
+        st.sidebar.info(f"{CSV_PATH} 파일에서 데이터를 불러옵니다.")
+        # CSV 파일 직접 로드
+        df = pd.read_csv(CSV_PATH)
+        st.sidebar.success(f"CSV 데이터 로드 완료: {len(df)}개 행")
         # 원본 데이터 형태 확인
         st.sidebar.write("원본 데이터 컬럼:", list(df.columns))
             st.error(f"필수 컬럼 누락: {', '.join(missing)} — 파일 컬럼명을 확인하세요.")
             st.stop()
+        # 날짜 변환
         before_date_convert = len(df)
         df["date"] = pd.to_datetime(df["date"], errors="coerce")
         after_date_convert = df.dropna(subset=["date"]).shape[0]
         return df
     except Exception as e:
         st.error(f"데이터 로드 중 오류 발생: {str(e)}")
+        # 오류 상세 정보 표시
+        import traceback
+        st.code(traceback.format_exc())
         st.stop()
 # -------------------------------------------------
 st.header(f"📈 {selected_item} 가격 예측 대시보드")
+# 데이터 필터링 로직 개선
 try:
     macro_start_dt = pd.Timestamp(MACRO_START)
     # 데이터가 충분하지 않으면 시작 날짜를 조정
     else:
         st.info("패턴 분석을 위한 충분한 데이터가 없습니다.")
 # -------------------------------------------------
 # FOOTER ------------------------------------------
 # -------------------------------------------------