NH-Prediction

Running

App Files Files Community

yokoha commited on Apr 30

Commit

0e796e5

verified ·

1 Parent(s): 7a4c9be

Update app.py

Browse files

Files changed (1) hide show

app.py +84 -17

app.py CHANGED Viewed

@@ -148,16 +148,31 @@ def _standardize_columns(df: pd.DataFrame) -> pd.DataFrame:
         df.reset_index(inplace=True)
         df.rename(columns={df.columns[0]: "date"}, inplace=True)
-    # ── convert YYYYMM string to datetime ──────────────────────────────
     if "date" in df.columns and pd.api.types.is_object_dtype(df["date"]):
         if len(df) > 0:
-            sample = str(df["date"].iloc[0])
-            if sample.isdigit() and len(sample) == 6:  # YYYYMM 형식 확인
-                # 월 말일로 변환 (YYYYMM -> YYYY-MM-DD)
-                df["date"] = pd.to_datetime(df["date"].astype(str), format="%Y%m", errors="coerce")
-                df["date"] = df["date"] + pd.offsets.MonthEnd(0)  # 해당 월의 마지막 날로 설정
-            elif sample.isdigit() and len(sample) == 8:  # YYYYMMDD 형식
-                df["date"] = pd.to_datetime(df["date"].astype(str), format="%Y%m%d", errors="coerce")
     # ── build item from pdlt_nm + spcs_nm if needed ────────────────────
     if "item" not in df.columns and {"pdlt_nm", "spcs_nm"}.issubset(df.columns):
@@ -170,6 +185,8 @@ def _standardize_columns(df: pd.DataFrame) -> pd.DataFrame:
     return df
 @st.cache_data(show_spinner=False)
 def load_data() -> pd.DataFrame:
     """Load price data from CSV file."""
@@ -178,46 +195,55 @@ def load_data() -> pd.DataFrame:
             st.error(f"💾 {CSV_PATH} 파일을 찾을 수 없습니다.")
             st.stop()
-        st.sidebar.info(f"{CSV_PATH} 파일에서 데이터를 불러옵니다.")
         # CSV 파일 직접 로드
         df = pd.read_csv(CSV_PATH)
         st.sidebar.success(f"CSV 데이터 로드 완료: {len(df)}개 행")
-        # 원본 데이터 형태 확인
         st.sidebar.write("원본 데이터 컬럼:", list(df.columns))
         df = _standardize_columns(df)
         st.sidebar.write("표준화 후 컬럼:", list(df.columns))
         missing = {c for c in ["date", "item", "price"] if c not in df.columns}
         if missing:
             st.error(f"필수 컬럼 누락: {', '.join(missing)} — 파일 컬럼명을 확인하세요.")
             st.stop()
-        # 날짜 변환
         before_date_convert = len(df)
         df["date"] = pd.to_datetime(df["date"], errors="coerce")
         after_date_convert = df.dropna(subset=["date"]).shape[0]
         if before_date_convert != after_date_convert:
-            st.warning(f"날짜 변환 중 {before_date_convert - after_date_convert}개 행이 제외되었습니다.")
-        # 가격 데이터 정수형으로 변환 (숫자가 아닌 값 제거)
         df["price"] = pd.to_numeric(df["price"], errors="coerce")
-        # NA 데이터 처리
         before_na_drop = len(df)
         df = df.dropna(subset=["date", "item", "price"])
         after_na_drop = len(df)
         if before_na_drop != after_na_drop:
-            st.warning(f"NA 제거 중 {before_na_drop - after_na_drop}개 행이 제외되었습니다.")
         df.sort_values("date", inplace=True)
-        # 데이터 날짜 범위 확인
         if len(df) > 0:
             st.sidebar.write(f"데이터 날짜 범위: {df['date'].min().strftime('%Y-%m-%d')} ~ {df['date'].max().strftime('%Y-%m-%d')}")
             st.sidebar.write(f"총 품목 수: {df['item'].nunique()}")
         else:
             st.error("유효한 데이터가 없습니다!")
@@ -228,6 +254,47 @@ def load_data() -> pd.DataFrame:
         st.code(traceback.format_exc())
         st.stop()
 @st.cache_data(show_spinner=False)
 def get_items(df: pd.DataFrame):
     return sorted(df["item"].unique())

         df.reset_index(inplace=True)
         df.rename(columns={df.columns[0]: "date"}, inplace=True)
+    # ── convert YYYYMM string to datetime ──────────────────────────────────────
     if "date" in df.columns and pd.api.types.is_object_dtype(df["date"]):
         if len(df) > 0:
+            # 더 유연한 날짜 변환
+            try:
+                # 샘플 확인
+                sample = str(df["date"].iloc[0])
+                # YYYYMM 형식 (6자리)
+                if sample.isdigit() and len(sample) == 6:
+                    df["date"] = pd.to_datetime(df["date"].astype(str), format="%Y%m", errors="coerce")
+                    df["date"] = df["date"] + pd.offsets.MonthEnd(0)  # 해당 월의 마지막 날로 설정
+                # YYYYMMDD 형식 (8자리)
+                elif sample.isdigit() and len(sample) == 8:
+                    df["date"] = pd.to_datetime(df["date"].astype(str), format="%Y%m%d", errors="coerce")
+                # 기타 형식은 자동 감지
+                else:
+                    df["date"] = pd.to_datetime(df["date"], errors="coerce")
+            except:
+                # 실패 시 일반 변환 시도
+                df["date"] = pd.to_datetime(df["date"], errors="coerce")
     # ── build item from pdlt_nm + spcs_nm if needed ────────────────────
     if "item" not in df.columns and {"pdlt_nm", "spcs_nm"}.issubset(df.columns):
     return df
 @st.cache_data(show_spinner=False)
 def load_data() -> pd.DataFrame:
     """Load price data from CSV file."""
             st.error(f"💾 {CSV_PATH} 파일을 찾을 수 없습니다.")
             st.stop()
         # CSV 파일 직접 로드
         df = pd.read_csv(CSV_PATH)
         st.sidebar.success(f"CSV 데이터 로드 완료: {len(df)}개 행")
+        # 데이터 표준화 전 원본 데이터 형태 확인
         st.sidebar.write("원본 데이터 컬럼:", list(df.columns))
+        # 표준화 전 상세 로그
+        before_std = len(df)
         df = _standardize_columns(df)
+        after_std = len(df)
+        if before_std != after_std:
+            st.sidebar.warning(f"표준화 중 {before_std - after_std}개 행이 제외되었습니다.")
+        # 표준화 후 로그
         st.sidebar.write("표준화 후 컬럼:", list(df.columns))
+        # 필수 컬럼 확인
         missing = {c for c in ["date", "item", "price"] if c not in df.columns}
         if missing:
             st.error(f"필수 컬럼 누락: {', '.join(missing)} — 파일 컬럼명을 확인하세요.")
             st.stop()
+        # 날짜 변환 전후 데이터 수 확인
         before_date_convert = len(df)
         df["date"] = pd.to_datetime(df["date"], errors="coerce")
         after_date_convert = df.dropna(subset=["date"]).shape[0]
         if before_date_convert != after_date_convert:
+            st.sidebar.warning(f"날짜 변환 중 {before_date_convert - after_date_convert}개 행이 제외되었습니다.")
+        # 가격 데이터 숫자로 변환
         df["price"] = pd.to_numeric(df["price"], errors="coerce")
+        # NA 데이터 처리 전후 수 확인
         before_na_drop = len(df)
         df = df.dropna(subset=["date", "item", "price"])
         after_na_drop = len(df)
         if before_na_drop != after_na_drop:
+            st.sidebar.warning(f"NA 제거 중 {before_na_drop - after_na_drop}개 행이 제외되었습니���.")
+        # 결과 정렬
         df.sort_values("date", inplace=True)
+        # 데이터 정보 표시
         if len(df) > 0:
+            st.sidebar.write(f"최종 데이터: {len(df)}개 행")
             st.sidebar.write(f"데이터 날짜 범위: {df['date'].min().strftime('%Y-%m-%d')} ~ {df['date'].max().strftime('%Y-%m-%d')}")
             st.sidebar.write(f"총 품목 수: {df['item'].nunique()}")
+            st.sidebar.write(f"품목별 평균 데이터 수: {len(df)/df['item'].nunique():.1f}개")
         else:
             st.error("유효한 데이터가 없습니다!")
         st.code(traceback.format_exc())
         st.stop()
+# 메인 코드에 다음 부분 추가 - 품목별 데이터 수 확인
+item_df = raw_df.query("item == @selected_item").copy()
+if item_df.empty:
+    st.error(f"선택한 품목 '{selected_item}' 데이터가 없습니다.")
+    st.stop()
+elif len(item_df) < 2:
+    st.warning(f"선택한 품목 '{selected_item}' 데이터가 너무 적습니다 (데이터 수: {len(item_df)}). 예측이 부정확할 수 있습니다.")
+else:
+    st.success(f"선택한 품목 '{selected_item}'에 대해 {len(item_df)}개의 데이터가 있습니다.")
+# 아래처럼 장기 예측 부분 수정
+try:
+    # 데이터 필터링 로직 개선
+    macro_start_dt = pd.Timestamp("1996-01-01")
+    # 최소 데이터 수 확인
+    macro_df = item_df.copy()  # 전체 데이터 사용
+    # 데이터가 매우 적은 경우 경고 표시
+    if len(macro_df) < 5:
+        st.warning(f"{selected_item}에 대한 데이터가 매우 적습니다 (데이터 수: {len(macro_df)}). 예측이 부정확할 수 있습니다.")
+    # 진단 정보 표시
+    with st.expander("데이터 진단"):
+        st.write(f"- 전체 데이터 수: {len(item_df)}")
+        st.write(f"- 분석 데이터 수: {len(macro_df)}")
+        if len(macro_df) > 0:
+            st.write(f"- 기간: {macro_df['date'].min().strftime('%Y-%m-%d')} ~ {macro_df['date'].max().strftime('%Y-%m-%d')}")
+            st.dataframe(macro_df.head())
+        else:
+            st.write("데이터가 없습니다.")
+    # 데이터 필터링 조건 완화 - 최소 2개 이상이면 진행
+    if len(macro_df) >= 2:
+        # 기존 코드 (모델 학습 및 시각화)
+        with st.spinner("장기 예측 모델 생성 중..."):
+            if use_ensemble:
+                fc_macro = fit_ensemble_model(macro_df, selected_item, MACRO_END)
+            else:
+                fc_macro = fit_optimal_model(macro_df, selected_item, MACRO_END)
 @st.cache_data(show_spinner=False)
 def get_items(df: pd.DataFrame):
     return sorted(df["item"].unique())