AI-Data-Transformation-v2

Sleeping

App Files Files Community

KoonJamesZ commited on Mar 25

Commit

9e036d9

verified ·

1 Parent(s): 92cea5e

Update app.py

Browse files

Files changed (1) hide show

app.py +5 -63

app.py CHANGED Viewed

@@ -44,7 +44,7 @@ function refresh() {
 # Azure OpenAI setup
 # ===============================
 os.environ["AZURE_OPENAI_ENDPOINT"] = os.getenv("AZURE_OPENAI_ENDPOINT")
-os.environ["AZURE_OPENAI_API_KEY"] = os.getenv("AZURE_OPENAI_API_KEY")
 client = AzureOpenAI(
     api_version="2023-05-15",
@@ -186,64 +186,8 @@ def merge_files_with_mapping(file_paths, user_fields):
     final_df.to_csv("merged_data.csv", index=False)
     return final_df
-def extract_text_from_pdf(pdf_path):
-    reader = PdfReader(pdf_path)
-    text = ""
-    for page in reader.pages:
-        page_text = page.extract_text()
-        if page_text:
-            text += page_text
-    return text
-def map_pdf_to_csv_structure(pdf_path, csv_df, user_fields):
-    pdf_text = extract_text_from_pdf(pdf_path)
-    column_headers = list(csv_df.columns)
-    first_row_data = csv_df.iloc[0].to_dict() if len(csv_df) > 0 else {}
-    prompt = (
-        f"Based on the following document text extracted from a government project in Thailand:\n{pdf_text}\n\n"
-        f"Please map the information to JSON format using the following structure:\n"
-        f"Column Headers: {column_headers}\n"
-        f"Example Data (from the first row of the CSV): {first_row_data}\n\n"
-        "For each column header, extract the corresponding value from the document text. "
-        "If a column header is not applicable or data is missing, use an empty string.\n\n"
-        "Return only JSON with no additional explanations."
-    )
-    completion = client.chat.completions.create(
-        model="gpt-4o",
-        messages=[{"role": "user", "content": prompt}],
-        temperature=0,
-        response_format={"type": "json_object"},
-    )
-    try:
-        response_text = completion.choices[0].message.content.strip()
-        result_dict = json.loads(response_text)
-    except Exception as e:
-        raise ValueError(
-            f"Error parsing LLM response for PDF mapping: {e}\n\nResponse:\n{completion.choices[0].message.content}"
-        )
-    if len(result_dict) == 1:
-        # If there's only a single top-level key, use its value as data
-        only_value = next(iter(result_dict.values()))
-        new_data_df = pd.DataFrame(only_value)
-    else:
-        new_data_df = pd.DataFrame(result_dict)
-    desired_columns = list(user_fields.keys())
-    new_data_df = new_data_df.reindex(columns=desired_columns)
-    return new_data_df
-def combine_all_data(file_paths, pdf_file, user_fields):
-    merged_csv_df = merge_files_with_mapping(file_paths, user_fields)
-    if pdf_file and os.path.exists(pdf_file):
-        pdf_data_df = map_pdf_to_csv_structure(pdf_file, merged_csv_df, user_fields)
-        final_df = pd.concat([merged_csv_df, pdf_data_df], ignore_index=True)
-    else:
-        final_df = merged_csv_df
     desired_columns = list(user_fields.keys())
     final_df = final_df.reindex(columns=desired_columns)
@@ -255,7 +199,7 @@ def combine_all_data(file_paths, pdf_file, user_fields):
 # ===============================
 # Gradio Interface Function
 # ===============================
-def process_data(files, pdf_file, field_text):
     """
     Main function for Gradio to handle user inputs:
     - files: list of CSV/Excel files
@@ -269,10 +213,9 @@ def process_data(files, pdf_file, field_text):
         return "No valid fields found. Please use the format:\n\nField Name: Description"
     file_paths = [f.name for f in files] if files else []
-    pdf_path = pdf_file.name if pdf_file is not None else None
     try:
-        final_df, absolute_path = combine_all_data(file_paths, pdf_path, user_fields)
     except Exception as e:
         return f"Error during processing: {e}"
@@ -304,7 +247,6 @@ with gr.Blocks(theme=basetheme,js=js_func,fill_height=True) as demo:
     fn=process_data,
     inputs=[
         gr.File(label="Upload CSV/Excel files", file_count="multiple",file_types=[".csv", ".xlsx", ".xls"]),
-        gr.File(label="Upload PDF file (optional)", file_types=[".pdf"]),
         gr.Textbox(
             label="Desired Fields (one per line, use 'Field Name: Description' format)",
             placeholder="Example:\nName: Full name\nDOB: Date of birth\nAddress: Full address\n",

 # Azure OpenAI setup
 # ===============================
 os.environ["AZURE_OPENAI_ENDPOINT"] = os.getenv("AZURE_OPENAI_ENDPOINT")
+os.environ["AZURE_OPENAI_API_KEY"] = os.getenv("AZURE_OPENAI_API_KEY") # Replace with your actual API key
 client = AzureOpenAI(
     api_version="2023-05-15",
     final_df.to_csv("merged_data.csv", index=False)
     return final_df
+def combine_all_data(file_paths, user_fields):
+    final_df = merge_files_with_mapping(file_paths, user_fields)
     desired_columns = list(user_fields.keys())
     final_df = final_df.reindex(columns=desired_columns)
 # ===============================
 # Gradio Interface Function
 # ===============================
+def process_data(files, field_text):
     """
     Main function for Gradio to handle user inputs:
     - files: list of CSV/Excel files
         return "No valid fields found. Please use the format:\n\nField Name: Description"
     file_paths = [f.name for f in files] if files else []
     try:
+        final_df, absolute_path = combine_all_data(file_paths, user_fields)
     except Exception as e:
         return f"Error during processing: {e}"
     fn=process_data,
     inputs=[
         gr.File(label="Upload CSV/Excel files", file_count="multiple",file_types=[".csv", ".xlsx", ".xls"]),
         gr.Textbox(
             label="Desired Fields (one per line, use 'Field Name: Description' format)",
             placeholder="Example:\nName: Full name\nDOB: Date of birth\nAddress: Full address\n",