Spaces:

Ayesha352
/

PDF_value_extractor

Sleeping

App Files Files Community

Ayesha352 commited on Jun 4

Commit

a3f6db3

verified ·

1 Parent(s): ba33017

Update app.py

Browse files

Files changed (1) hide show

app.py +19 -32

app.py CHANGED Viewed

@@ -122,6 +122,7 @@ def extract_numeric_values(pdf_file, schedule1_file=None, client_name="Unknown C
 def save_to_csv_flat(all_extracted_values, schedule1_values, client_name="Unknown Client", csv_path=None):
     # Define the directory path explicitly
     if csv_path is None:
         csv_path = "./Clients_Output_Data_Form_1040.csv"
@@ -146,16 +147,24 @@ def save_to_csv_flat(all_extracted_values, schedule1_values, client_name="Unknow
         else (h1.strip() + h2.strip()) for h1, h2 in zip(header_level_1, header_level_2)
     ]
-    # Read existing CSV or create new DataFrame
     if os.path.exists(csv_path):
         df = pd.read_csv(csv_path)
     else:
         df = pd.DataFrame(columns=flat_columns)
-    # Create new row
     new_row = pd.Series([None] * len(flat_columns), index=flat_columns)
     new_row.iloc[0] = client_name
     # Map Page 1-2 values
     line_mapping = {
         "Taxable Wages - Line 1": 0,
@@ -184,35 +193,12 @@ def save_to_csv_flat(all_extracted_values, schedule1_values, client_name="Unknow
         new_row["Rent/ Royalty (Schedule E) - Schedule 1, Line 5"] = schedule1_values[1] if schedule1_values[1] != '' else '0'
         new_row["Other Income - Schedule 1, Line 8"] = schedule1_values[2] if schedule1_values[2] != '' else '0'
-    # Convert new_row to DataFrame
-    new_row_df = pd.DataFrame([new_row])
-    # Convert all values to strings for consistent comparison
-    df_str = df.astype(str)
-    new_row_str = new_row_df.astype(str)
-    # Check for duplicates by comparing all columns
-    is_duplicate = False
-    if not df.empty:
-        # Merge check (efficient method)
-        merged = df_str.merge(new_row_str)
-        is_duplicate = not merged.empty
-        # Alternative method (row-by-row comparison)
-        # for _, row in df_str.iterrows():
-        #     if row.equals(new_row_str.iloc[0]):
-        #         is_duplicate = True
-        #         break
-    # Append if not duplicate
-    if not is_duplicate:
-        df = pd.concat([df, new_row_df], ignore_index=True)
-        df.to_csv(csv_path, index=False)
-        print(f"✅ New data saved for client: {client_name}")
-    else:
-        print(f"⚠️ Duplicate data detected for client: {client_name} - no changes made")
-    return df
 # Gradio UI
 iface = gr.Interface(
@@ -270,3 +256,4 @@ iface = gr.Interface(
 iface.launch(share=True)

 def save_to_csv_flat(all_extracted_values, schedule1_values, client_name="Unknown Client", csv_path=None):
     # Define the directory path explicitly
     if csv_path is None:
         csv_path = "./Clients_Output_Data_Form_1040.csv"
         else (h1.strip() + h2.strip()) for h1, h2 in zip(header_level_1, header_level_2)
     ]
+    # If file doesn't exist, create new DataFrame and write headers
+    # if os.path.exists(csv_path):
+    #     df = pd.read_csv(csv_path)
+    # else:
+    #     df = pd.DataFrame(columns=flat_columns)
     if os.path.exists(csv_path):
+        print(f"Reading existing CSV file: {csv_path}")
         df = pd.read_csv(csv_path)
+        print(f"CSV columns: {df.columns.tolist()}")
+        print(f"CSV rows before append: {len(df)}")
     else:
+        print("CSV does not exist. Creating new DataFrame.")
         df = pd.DataFrame(columns=flat_columns)
+    # Create new row with None
     new_row = pd.Series([None] * len(flat_columns), index=flat_columns)
     new_row.iloc[0] = client_name
     # Map Page 1-2 values
     line_mapping = {
         "Taxable Wages - Line 1": 0,
         new_row["Rent/ Royalty (Schedule E) - Schedule 1, Line 5"] = schedule1_values[1] if schedule1_values[1] != '' else '0'
         new_row["Other Income - Schedule 1, Line 8"] = schedule1_values[2] if schedule1_values[2] != '' else '0'
+    # Append and save
+    if not ((df == new_row.iloc[0]).all(axis=1)).any():
+        df = pd.concat([df, pd.DataFrame([new_row])], ignore_index=True)
+    print(f"CSV rows after append: {len(df)}")
+    df.to_csv(csv_path, index=False)
+    print(f" Data saved to CSV: {csv_path}")
 # Gradio UI
 iface = gr.Interface(
 iface.launch(share=True)