Spaces:

irf23
/

ParliamentExpenditureSpace

Sleeping

Irfan Savji commited on Jul 30

Commit

b7b327f

1 Parent(s): 4b5e136

Fix column name issues with dataset

Updated app.py to handle CamelCase column names from the dataset
and properly load data from train/test splits. All column references
are now lowercase for consistency.

Files changed (1) hide show

app.py +22 -18

app.py CHANGED Viewed

@@ -8,12 +8,16 @@ from datasets import load_dataset
 print("Loading dataset...")
 dataset = load_dataset("irf23/canadian-parliamentary-expenditures")
-# Convert to pandas DataFrames
-expenditures_df = dataset['expenditures'].to_pandas()
-members_df = dataset['members'].to_pandas()
 # Convert date columns
-expenditures_df['date_incurred'] = pd.to_datetime(expenditures_df['date_incurred'])
 expenditures_df['amount'] = pd.to_numeric(expenditures_df['amount'])
 print(f"Loaded {len(expenditures_df)} expenditure records")
@@ -22,7 +26,7 @@ def create_overview_plots(year_filter, party_filter, category_filter):
     # Apply filters
     filtered_df = expenditures_df.copy()
     if year_filter:
-        filtered_df = filtered_df[filtered_df['period_year'].isin(year_filter)]
     if party_filter:
         filtered_df = filtered_df[filtered_df['party'].isin(party_filter)]
     if category_filter:
@@ -31,8 +35,8 @@ def create_overview_plots(year_filter, party_filter, category_filter):
     # Calculate metrics
     total_spending = filtered_df['amount'].sum()
     num_records = len(filtered_df)
-    avg_expense = filtered_df['amount'].mean()
-    num_members = filtered_df['member_id'].nunique()
     metrics_text = f"""
     ### Key Metrics
@@ -62,8 +66,8 @@ def create_overview_plots(year_filter, party_filter, category_filter):
     )
     # Create quarterly trend line chart
-    quarterly = filtered_df.groupby(['period_year', 'period_quarter'])['amount'].sum().reset_index()
-    quarterly['period'] = quarterly['period_year'].astype(str) + '-Q' + quarterly['period_quarter'].astype(str)
     fig_trend = px.line(
         quarterly,
         x='period',
@@ -79,23 +83,23 @@ def get_top_spenders(n_top, year_filter, party_filter, category_filter):
     # Apply filters
     filtered_df = expenditures_df.copy()
     if year_filter:
-        filtered_df = filtered_df[filtered_df['period_year'].isin(year_filter)]
     if party_filter:
         filtered_df = filtered_df[filtered_df['party'].isin(party_filter)]
     if category_filter:
         filtered_df = filtered_df[filtered_df['category'].isin(category_filter)]
     # Get top spenders
-    top_spenders = filtered_df.groupby(['member_name', 'party'])['amount'].sum().sort_values(ascending=False).head(n_top).reset_index()
     fig = px.bar(
         top_spenders,
         x='amount',
-        y='member_name',
         color='party',
         orientation='h',
         title=f'Top {n_top} Spenders',
-        labels={'amount': 'Total Amount ($)', 'member_name': 'Member'},
         height=max(400, n_top * 25)
     )
     fig.update_layout(yaxis={'categoryorder': 'total ascending'})
@@ -106,7 +110,7 @@ def analyze_member(member_name):
     if not member_name:
         return "Please select a member", None
-    member_df = expenditures_df[expenditures_df['member_name'] == member_name]
     if member_df.empty:
         return "No data found for this member", None
@@ -139,7 +143,7 @@ def search_expenses(member_search, min_amount, max_amount, category_filter):
     filtered_df = expenditures_df.copy()
     if member_search:
-        filtered_df = filtered_df[filtered_df['member_name'].str.contains(member_search, case=False, na=False)]
     filtered_df = filtered_df[(filtered_df['amount'] >= min_amount) & (filtered_df['amount'] <= max_amount)]
@@ -147,15 +151,15 @@ def search_expenses(member_search, min_amount, max_amount, category_filter):
         filtered_df = filtered_df[filtered_df['category'] == category_filter]
     # Get top 100 results
-    result = filtered_df.nlargest(100, 'amount')[['member_name', 'party', 'category', 'amount', 'description', 'supplier', 'date_incurred']]
     return result
 # Get unique values for filters
-years = sorted(expenditures_df['period_year'].unique().tolist())
 parties = sorted(expenditures_df['party'].unique().tolist())
 categories = sorted(expenditures_df['category'].unique().tolist())
-member_names = sorted(expenditures_df['member_name'].unique().tolist())
 # Create Gradio interface
 with gr.Blocks(title="Canadian Parliamentary Expenditures", theme=gr.themes.Soft()) as demo:

 print("Loading dataset...")
 dataset = load_dataset("irf23/canadian-parliamentary-expenditures")
+# Combine train and test splits
+train_df = dataset['train'].to_pandas()
+test_df = dataset['test'].to_pandas()
+expenditures_df = pd.concat([train_df, test_df], ignore_index=True)
+# The dataset uses CamelCase column names, let's rename them to lowercase for consistency
+expenditures_df.columns = expenditures_df.columns.str.lower()
 # Convert date columns
+expenditures_df['dateincurred'] = pd.to_datetime(expenditures_df['dateincurred'])
 expenditures_df['amount'] = pd.to_numeric(expenditures_df['amount'])
 print(f"Loaded {len(expenditures_df)} expenditure records")
     # Apply filters
     filtered_df = expenditures_df.copy()
     if year_filter:
+        filtered_df = filtered_df[filtered_df['periodyear'].isin(year_filter)]
     if party_filter:
         filtered_df = filtered_df[filtered_df['party'].isin(party_filter)]
     if category_filter:
     # Calculate metrics
     total_spending = filtered_df['amount'].sum()
     num_records = len(filtered_df)
+    avg_expense = filtered_df['amount'].mean() if num_records > 0 else 0
+    num_members = filtered_df['memberid'].nunique()
     metrics_text = f"""
     ### Key Metrics
     )
     # Create quarterly trend line chart
+    quarterly = filtered_df.groupby(['periodyear', 'periodquarter'])['amount'].sum().reset_index()
+    quarterly['period'] = quarterly['periodyear'].astype(str) + '-Q' + quarterly['periodquarter'].astype(str)
     fig_trend = px.line(
         quarterly,
         x='period',
     # Apply filters
     filtered_df = expenditures_df.copy()
     if year_filter:
+        filtered_df = filtered_df[filtered_df['periodyear'].isin(year_filter)]
     if party_filter:
         filtered_df = filtered_df[filtered_df['party'].isin(party_filter)]
     if category_filter:
         filtered_df = filtered_df[filtered_df['category'].isin(category_filter)]
     # Get top spenders
+    top_spenders = filtered_df.groupby(['membername', 'party'])['amount'].sum().sort_values(ascending=False).head(n_top).reset_index()
     fig = px.bar(
         top_spenders,
         x='amount',
+        y='membername',
         color='party',
         orientation='h',
         title=f'Top {n_top} Spenders',
+        labels={'amount': 'Total Amount ($)', 'membername': 'Member'},
         height=max(400, n_top * 25)
     )
     fig.update_layout(yaxis={'categoryorder': 'total ascending'})
     if not member_name:
         return "Please select a member", None
+    member_df = expenditures_df[expenditures_df['membername'] == member_name]
     if member_df.empty:
         return "No data found for this member", None
     filtered_df = expenditures_df.copy()
     if member_search:
+        filtered_df = filtered_df[filtered_df['membername'].str.contains(member_search, case=False, na=False)]
     filtered_df = filtered_df[(filtered_df['amount'] >= min_amount) & (filtered_df['amount'] <= max_amount)]
         filtered_df = filtered_df[filtered_df['category'] == category_filter]
     # Get top 100 results
+    result = filtered_df.nlargest(100, 'amount')[['membername', 'party', 'category', 'amount', 'description', 'supplier', 'dateincurred']]
     return result
 # Get unique values for filters
+years = sorted(expenditures_df['periodyear'].unique().tolist())
 parties = sorted(expenditures_df['party'].unique().tolist())
 categories = sorted(expenditures_df['category'].unique().tolist())
+member_names = sorted(expenditures_df['membername'].unique().tolist())
 # Create Gradio interface
 with gr.Blocks(title="Canadian Parliamentary Expenditures", theme=gr.themes.Soft()) as demo: