Spaces:

Penguni
/

dashboardmovie

Sleeping

App Files Files Community

Penguni commited on Jun 25, 2024

Commit

7b1a7ea

verified ·

1 Parent(s): 0632bea

Update app.py

Browse files

Files changed (1) hide show

app.py +46 -71

app.py CHANGED Viewed

@@ -15,32 +15,32 @@ def load_data(db_file):
 # Function to fetch genre movie releases by year
 def fetch_genre_movie_releases(conn):
     query = '''
-        SELECT startYear, genres
-        FROM title_basics
-        WHERE titleType = 'movie' AND startYear != '\\N' AND genres != '\\N'
     '''
     df = pd.read_sql_query(query, conn)
     # Split genres and explode to separate rows
     df['genres'] = df['genres'].str.split(',')
     df = df.explode('genres')
     # Convert startYear to numeric
     df['startYear'] = pd.to_numeric(df['startYear'])
     # Group by startYear and genre, count the number of movies
     genre_counts = df.groupby(['startYear', 'genres']).size().reset_index(name='count')
     return genre_counts
 # Function to fetch data for filled line chart of movie release years
 def fetch_movie_release_years(conn):
     query_release_years = '''
-        SELECT startYear, COUNT(*) as count
-        FROM title_basics
-        WHERE titleType = 'movie' AND startYear != '\\N'
-        GROUP BY startYear
-        ORDER BY startYear
     '''
     df_release_years = pd.read_sql_query(query_release_years, conn)
     return df_release_years
@@ -48,39 +48,39 @@ def fetch_movie_release_years(conn):
 # Function to fetch data and create box plot of average rating by first_genre
 def fetch_and_plot_average_rating_by_genre(conn):
     query = '''
-        SELECT tb.tconst, tb.primaryTitle, tr.averageRating, tb.genres
-        FROM title_basics tb
-        JOIN title_ratings tr ON tb.tconst = tr.tconst
-        WHERE tb.titleType = 'movie' AND tb.genres IS NOT NULL AND tb.genres != '\\N'
     '''
     df = pd.read_sql_query(query, conn)
     # Function to extract the first genre from the genres list
     def extract_first_genre(genres):
         if genres:
             return genres.split(',')[0].strip()
         else:
             return None
     # Apply the function to extract the first genre
     df['first_genre'] = df['genres'].apply(extract_first_genre)
     # Drop rows where first_genre is None (shouldn't be necessary if genres column is clean)
     df = df.dropna(subset=['first_genre'])
     # Create a box plot of average rating by first_genre
     fig = px.box(df, x='first_genre', y='averageRating',
                  labels={'first_genre': 'Genre', 'averageRating': 'Average Rating'},
                  title='Average Rating of Movies by First Genre')
     return fig
 # Function to create word cloud of genres
 def create_genre_wordcloud(conn):
     query = '''
-        SELECT genres
-        FROM title_basics
-        WHERE titleType = 'movie' AND genres IS NOT NULL AND genres != '\\N'
     '''
     df = pd.read_sql_query(query, conn)
@@ -101,10 +101,10 @@ def create_genre_wordcloud(conn):
 # Function to find best movie of each genre by numVotes * averageRating
 def find_best_movies_by_genre(conn):
     query = '''
-        SELECT tb.tconst, tb.primaryTitle, tb.startYear, tb.genres, tr.averageRating, tr.numVotes
-        FROM title_basics tb
-        JOIN title_ratings tr ON tb.tconst = tr.tconst
-        WHERE tb.titleType = 'movie' AND tb.genres IS NOT NULL AND tb.genres != '\\N'
     '''
     df = pd.read_sql_query(query, conn)
@@ -126,7 +126,7 @@ def plot_genre_movie_releases(genre_counts):
     fig = px.line(genre_counts, x='startYear', y='count', color='genres',
                   title='Genre Movie Releases by Year',
                   labels={'startYear': 'Year', 'count': 'Number of Movies', 'genres': 'Genre'})
     fig.update_layout(xaxis_tickmode='linear')  # Ensure x-axis ticks are shown in a linear manner
     fig.update_xaxes(range=[2000, 2025])
     return fig
@@ -186,6 +186,7 @@ def plot_global_map(df):
         'ZM': 'Zambia', 'ZW': 'Zimbabwe'
     }
     # Map the codes to country names
     df['country'] = df['country'].map(country_mapping)
@@ -194,7 +195,7 @@ def plot_global_map(df):
                         color='total_movies', hover_name='country',
                         title='Total Films Per Country',
                         color_continuous_scale=px.colors.sequential.Plasma)
     fig.update_layout(coloraxis_colorbar=dict(title='Total Movies', lenmode='fraction', len=0.7))
     return fig
@@ -202,70 +203,44 @@ def plot_global_map(df):
 # Function to run the Streamlit application
 def run_app():
     st.title('IMDb Movie Dashboard')
     # Connect to SQLite database
     conn = load_data('imdb.db')
     # Fetch data for different visualizations
     genre_counts = fetch_genre_movie_releases(conn)
     df_release_years = fetch_movie_release_years(conn)
     best_movies = find_best_movies_by_genre(conn)
     # Create figures for each visualization
     fig_genre_releases = plot_genre_movie_releases(genre_counts)
     fig_movie_years = plot_movie_release_years(df_release_years)
     fig_average_rating = fetch_and_plot_average_rating_by_genre(conn)
-    # Create layout for displaying charts
     st.header('Genre Movie Releases by Year')
     st.plotly_chart(fig_genre_releases, use_container_width=True)
     st.header('Movie Release Years')
     st.plotly_chart(fig_movie_years, use_container_width=True)
     st.header('Average Rating by Genre')
     st.plotly_chart(fig_average_rating, use_container_width=True)
     st.header('Genre Word Cloud')
     create_genre_wordcloud(conn)
     st.header('Best Movies by Genre')
     st.dataframe(best_movies)
     st.header('Global Map of Films')
-    df_global_map = pd.read_csv('movie_region.csv')
     fig_global_map = plot_global_map(df_global_map)
-    # Display in Streamlit
-    st.header('Global Map of Films')
     st.plotly_chart(fig_global_map, use_container_width=True)
-    # Define the layout using st.columns for a (3,2) grid
-    col1, col2, col3 = st.columns(3)
-    with col1:
-        st.header('Genre Movie Releases by Year')
-        st.plotly_chart(fig_genre_releases, use_container_width=True)
-    with col2:
-        st.header('Movie Release Years')
-        st.plotly_chart(fig_movie_years, use_container_width=True)
-    with col3:
-        st.header('Average Rating by Genre')
-        st.plotly_chart(fig_average_rating, use_container_width=True)
-    col4, col5 = st.columns(2)
-    with col4:
-        st.header('Genre Word Cloud')
-        create_genre_wordcloud(conn)
-    with col5:
-        st.header('Global Map of Films')
-        st.plotly_chart(fig_global_map, use_container_width=True)
     # Close connection to database
     conn.close()

 # Function to fetch genre movie releases by year
 def fetch_genre_movie_releases(conn):
     query = '''
+    SELECT startYear, genres
+    FROM title_basics
+    WHERE titleType = 'movie' AND startYear != '\\N' AND genres != '\\N'
     '''
     df = pd.read_sql_query(query, conn)
     # Split genres and explode to separate rows
     df['genres'] = df['genres'].str.split(',')
     df = df.explode('genres')
     # Convert startYear to numeric
     df['startYear'] = pd.to_numeric(df['startYear'])
     # Group by startYear and genre, count the number of movies
     genre_counts = df.groupby(['startYear', 'genres']).size().reset_index(name='count')
     return genre_counts
 # Function to fetch data for filled line chart of movie release years
 def fetch_movie_release_years(conn):
     query_release_years = '''
+    SELECT startYear, COUNT(*) as count
+    FROM title_basics
+    WHERE titleType = 'movie' AND startYear != '\\N'
+    GROUP BY startYear
+    ORDER BY startYear
     '''
     df_release_years = pd.read_sql_query(query_release_years, conn)
     return df_release_years
 # Function to fetch data and create box plot of average rating by first_genre
 def fetch_and_plot_average_rating_by_genre(conn):
     query = '''
+    SELECT tb.tconst, tb.primaryTitle, tr.averageRating, tb.genres
+    FROM title_basics tb
+    JOIN title_ratings tr ON tb.tconst = tr.tconst
+    WHERE tb.titleType = 'movie' AND tb.genres IS NOT NULL AND tb.genres != '\\N'
     '''
     df = pd.read_sql_query(query, conn)
     # Function to extract the first genre from the genres list
     def extract_first_genre(genres):
         if genres:
             return genres.split(',')[0].strip()
         else:
             return None
     # Apply the function to extract the first genre
     df['first_genre'] = df['genres'].apply(extract_first_genre)
     # Drop rows where first_genre is None (shouldn't be necessary if genres column is clean)
     df = df.dropna(subset=['first_genre'])
     # Create a box plot of average rating by first_genre
     fig = px.box(df, x='first_genre', y='averageRating',
                  labels={'first_genre': 'Genre', 'averageRating': 'Average Rating'},
                  title='Average Rating of Movies by First Genre')
     return fig
 # Function to create word cloud of genres
 def create_genre_wordcloud(conn):
     query = '''
+    SELECT genres
+    FROM title_basics
+    WHERE titleType = 'movie' AND genres IS NOT NULL AND genres != '\\N'
     '''
     df = pd.read_sql_query(query, conn)
 # Function to find best movie of each genre by numVotes * averageRating
 def find_best_movies_by_genre(conn):
     query = '''
+    SELECT tb.tconst, tb.primaryTitle, tb.startYear, tb.genres, tr.averageRating, tr.numVotes
+    FROM title_basics tb
+    JOIN title_ratings tr ON tb.tconst = tr.tconst
+    WHERE tb.titleType = 'movie' AND tb.genres IS NOT NULL AND tb.genres != '\\N'
     '''
     df = pd.read_sql_query(query, conn)
     fig = px.line(genre_counts, x='startYear', y='count', color='genres',
                   title='Genre Movie Releases by Year',
                   labels={'startYear': 'Year', 'count': 'Number of Movies', 'genres': 'Genre'})
     fig.update_layout(xaxis_tickmode='linear')  # Ensure x-axis ticks are shown in a linear manner
     fig.update_xaxes(range=[2000, 2025])
     return fig
         'ZM': 'Zambia', 'ZW': 'Zimbabwe'
     }
     # Map the codes to country names
     df['country'] = df['country'].map(country_mapping)
                         color='total_movies', hover_name='country',
                         title='Total Films Per Country',
                         color_continuous_scale=px.colors.sequential.Plasma)
     fig.update_layout(coloraxis_colorbar=dict(title='Total Movies', lenmode='fraction', len=0.7))
     return fig
 # Function to run the Streamlit application
 def run_app():
     st.title('IMDb Movie Dashboard')
     # Connect to SQLite database
     conn = load_data('imdb.db')
     # Fetch data for different visualizations
     genre_counts = fetch_genre_movie_releases(conn)
     df_release_years = fetch_movie_release_years(conn)
     best_movies = find_best_movies_by_genre(conn)
     # Create figures for each visualization
     fig_genre_releases = plot_genre_movie_releases(genre_counts)
     fig_movie_years = plot_movie_release_years(df_release_years)
     fig_average_rating = fetch_and_plot_average_rating_by_genre(conn)
+    # Display charts using Streamlit
     st.header('Genre Movie Releases by Year')
     st.plotly_chart(fig_genre_releases, use_container_width=True)
     st.header('Movie Release Years')
     st.plotly_chart(fig_movie_years, use_container_width=True)
     st.header('Average Rating by Genre')
     st.plotly_chart(fig_average_rating, use_container_width=True)
     st.header('Genre Word Cloud')
     create_genre_wordcloud(conn)
     st.header('Best Movies by Genre')
     st.dataframe(best_movies)
     st.header('Global Map of Films')
+    df_global_map = pd.read_csv('movie_region.csv')  # Assuming you have this CSV file
     fig_global_map = plot_global_map(df_global_map)
+    # Display the global map
     st.plotly_chart(fig_global_map, use_container_width=True)
     # Close connection to database
     conn.close()