Spaces:

Penguni
/

dashboardmovie

Sleeping

App Files Files Community

Penguni commited on Jun 30, 2024

Commit

53c89d1

verified ·

1 Parent(s): 1108bbe

Update app.py

Browse files

Files changed (1) hide show

app.py +76 -100

app.py CHANGED Viewed

@@ -13,35 +13,35 @@ def load_data(db_file):
     conn = sqlite3.connect(db_file)
     return conn
 genre_color_map = {
-        'Documentary': '#FFB3BA',  # Light Pink
-        'Animation': '#BAFFC9',    # Light Green
-        'Comedy': '#FFFFBA',       # Light Yellow
-        'Short': '#BAE1FF',        # Light Blue
-        'Romance': '#FFDFBA',      # Light Peach
-        'News': '#E1BAFF',         # Light Purple
-        'Drama': '#FFC6C6',        # Light Red
-        'Fantasy': '#C6FFBA',      # Light Lime
-        'Horror': '#D3D3D3',       # Light Gray
-        'Biography': '#FFE4B5',    # Moccasin
-        'Music': '#B0E0E6',        # Powder Blue
-        'Crime': '#F0E68C',        # Khaki
-        'Family': '#98FB98',       # Pale Green
-        'Action': '#FFA07A',       # Light Salmon
-        'History': '#DEB887',      # Burlywood
-        'Adventure': '#87CEFA',    # Light Sky Blue
-        'Mystery': '#DDA0DD',      # Plum
-        'Musical': '#FFB6C1',      # Light Pink
-        'War': '#B0C4DE',          # Light Steel Blue
-        'Sci-Fi': '#90EE90',       # Light Green
-        'Western': '#F4A460',      # Sandy Brown
-        'Thriller': '#FA8072',     # Salmon
-        'Sport': '#20B2AA',        # Light Sea Green
-        'Film-Noir': '#778899',    # Light Slate Gray
-        'Talk-Show': '#FAFAD2',    # Light Goldenrod Yellow
-        'Game-Show': '#FFC0CB',    # Pink
-        'Adult': '#DB7093',        # Pale Violet Red
-        'Reality-TV': '#F08080'    # Light Coral
-    }
 def fetch_genre_movie_releases(conn):
     query = r'''
@@ -51,19 +51,15 @@ def fetch_genre_movie_releases(conn):
     '''
     df = pd.read_sql_query(query, conn)
     df['genres'] = df['genres'].str.split(',')
     df = df.explode('genres')
     df['startYear'] = pd.to_numeric(df['startYear'])
     genre_counts = df.groupby(['startYear', 'genres']).size().reset_index(name='count')
     return genre_counts
 def fetch_movie_release_years(conn):
     query_release_years = r'''
     SELECT startYear, COUNT(*) as count
@@ -75,7 +71,6 @@ def fetch_movie_release_years(conn):
     df_release_years = pd.read_sql_query(query_release_years, conn)
     return df_release_years
 def fetch_and_plot_average_rating_by_genre(conn):
     query = r'''
     SELECT tb.tconst, tb.primaryTitle, tr.averageRating, tb.genres
@@ -85,31 +80,25 @@ def fetch_and_plot_average_rating_by_genre(conn):
     '''
     df = pd.read_sql_query(query, conn)
     def extract_first_genre(genres):
         if genres:
             return genres.split(',')[0].strip()
         else:
             return None
     df['first_genre'] = df['genres'].apply(extract_first_genre)
     df = df.dropna(subset=['first_genre'])
     fig = px.box(df, x='first_genre', y='averageRating',
                  labels={'first_genre': 'Genre', 'averageRating': 'Average Rating'},
                  title='Average Rating of Movies by First Genre',
                  color='first_genre',
                  color_discrete_map=genre_color_map)
-    return fig
 def genre_color_func(word, font_size, position, orientation, random_state=None, **kwargs):
-    return genre_color_map.get(word, '
 def create_genre_wordcloud(conn):
     query = r'''
@@ -119,20 +108,16 @@ def create_genre_wordcloud(conn):
     '''
     df = pd.read_sql_query(query, conn)
     genres = df['genres'].str.split(',', expand=True).stack().replace('\\N', pd.NA).dropna().reset_index(drop=True)
     genre_counts = Counter(genres)
     wordcloud = WordCloud(width=800, height=800, background_color='white', color_func=genre_color_func).generate_from_frequencies(genre_counts)
     plt.figure(figsize=(10, 10))
     plt.imshow(wordcloud, interpolation='bilinear')
     plt.axis('off')
     st.pyplot(plt.gcf())
 def find_best_movies_by_genre(conn):
     query = r'''
     SELECT tb.tconst, tb.primaryTitle, tb.startYear, tb.genres, tr.averageRating, tr.numVotes
@@ -142,28 +127,25 @@ def find_best_movies_by_genre(conn):
     '''
     df = pd.read_sql_query(query, conn)
     df['genre'] = df['genres'].str.split(',', expand=True)[0]
     df['score'] = df['numVotes'] * df['averageRating']
     idx = df.groupby('genre')['score'].idxmax()
     best_movies_by_genre = df.loc[idx, ['genre', 'primaryTitle', 'startYear', 'averageRating', 'numVotes', 'score']] \
         .sort_values(by='score', ascending=False).reset_index(drop=True)
     return best_movies_by_genre
 def plot_stacked_genre_movie_releases(genre_counts):
     fig = px.area(genre_counts, x='startYear', y='count', color='genres',
                   title='Stacked Genre Movie Releases by Year',
                   labels={'startYear': 'Year', 'count': 'Number of Movies', 'genres': 'Genre'},
-                  line_group='genres',
-                  hover_name='genres',
-                  hover_data={'count': ':.0f'},
-                  color_discrete_map=genre_color_map)
     return fig
@@ -171,10 +153,9 @@ def plot_stacked_genre_movie_releases(genre_counts):
 def plot_global_map(conn):
     movie_region_df = pd.read_csv('movie_region.csv')
     query_genre = '''
         SELECT tconst AS titleId, primaryTitle,
                CASE
@@ -184,19 +165,14 @@ def plot_global_map(conn):
         FROM title_basics;
     '''
     genre_data_df = pd.read_sql_query(query_genre, conn)
     merged_df = pd.merge(movie_region_df, genre_data_df, on='titleId', how='inner')
     df = merged_df.replace('\\N', np.nan).dropna(subset=['first_genre'])
     grouped = df.groupby('region')['first_genre'].agg(lambda x: ', '.join(x)).reset_index()
     grouped['genres_list'] = grouped['first_genre'].apply(lambda x: x.split(', '))
     grouped['most_common_genre'] = grouped['genres_list'].apply(lambda x: pd.Series(x).value_counts().index[0] if len(x) > 0 else '')
@@ -251,34 +227,34 @@ def plot_global_map(conn):
     }
     result.loc[:, 'region'] = result['region'].map(country_mapping)
     genre_color_map = {
-        'Documentary': '
-        'Animation': '
-        'Comedy': '
-        'Short': '
-        'Romance': '
-        'News': '
-        'Drama': '
-        'Fantasy': '
-        'Horror': '
-        'Biography': '
-        'Music': '
-        'Crime': '
-        'Family': '
-        'Action': '
-        'History': '
-        'Adventure': '
-        'Mystery': '
-        'Musical': '
-        'War': '
-        'Sci-Fi': '
-        'Western': '
-        'Thriller': '
-        'Sport': '
-        'Film-Noir': '
-        'Talk-Show': '
-        'Game-Show': '
-        'Adult': '
-        'Reality-TV': '
     }
     fig = px.choropleth(
     result,
@@ -291,15 +267,15 @@ def plot_global_map(conn):
     color_discrete_map=genre_color_map,
     )
     fig.update_layout(
         geo=dict(showframe=False, showcoastlines=True, projection_type='natural earth')
     )
     return fig
 def fetch_summary_info(conn):
     query_total_movies = r'''
         SELECT COUNT(*) as total_movies
         FROM title_basics
@@ -307,7 +283,7 @@ def fetch_summary_info(conn):
     '''
     total_movies = pd.read_sql_query(query_total_movies, conn).iloc[0]['total_movies']
     query_total_years = r'''
         SELECT COUNT(DISTINCT startYear) as total_years
         FROM title_basics
@@ -315,7 +291,7 @@ def fetch_summary_info(conn):
     '''
     total_years = pd.read_sql_query(query_total_years, conn).iloc[0]['total_years']
     query_avg_rating = r'''
         SELECT AVG(averageRating) as avg_rating
         FROM title_ratings
@@ -324,16 +300,16 @@ def fetch_summary_info(conn):
     return total_movies, total_years, avg_rating
 def run_app():
     st.title('IMDb Movie Data Analysis')
     conn = load_data('imdb_data.db')
     genre_counts = fetch_genre_movie_releases(conn)
     total_movies, total_years, avg_rating = fetch_summary_info(conn)
     col1, col2, col3 = st.columns(3)
     with col1:
@@ -348,12 +324,12 @@ def run_app():
         st.subheader('Average Movie Rating')
         st.metric(label='zzz', value=f'{avg_rating:.2f}')
     best_movies_by_genre = find_best_movies_by_genre(conn)
     fig_global_map = plot_global_map(conn)
     fig_genre_movie_releases = plot_stacked_genre_movie_releases(genre_counts)
     col1, col2 = st.columns(2)
     with col1:
@@ -366,7 +342,7 @@ def run_app():
     fig_avg_rating_by_genre = fetch_and_plot_average_rating_by_genre(conn)
     col1, col2, col3 = st.columns(3)
     with col1:
@@ -380,7 +356,7 @@ def run_app():
         st.subheader('Average Rating by Genre')
         st.plotly_chart(fig_avg_rating_by_genre, use_container_width=True)
     conn.close()
 if __name__ == '__main__':

     conn = sqlite3.connect(db_file)
     return conn
 genre_color_map = {
+    'Documentary': '#FFB3BA',  # Light Pink
+    'Animation': '#BAFFC9',    # Light Green
+    'Comedy': '#FFFFBA',       # Light Yellow
+    'Short': '#BAE1FF',        # Light Blue
+    'Romance': '#FFDFBA',      # Light Peach
+    'News': '#E1BAFF',         # Light Purple
+    'Drama': '#FFC6C6',        # Light Red
+    'Fantasy': '#C6FFBA',      # Light Lime
+    'Horror': '#D3D3D3',       # Light Gray
+    'Biography': '#FFE4B5',    # Moccasin
+    'Music': '#B0E0E6',        # Powder Blue
+    'Crime': '#F0E68C',        # Khaki
+    'Family': '#98FB98',       # Pale Green
+    'Action': '#FFA07A',       # Light Salmon
+    'History': '#DEB887',      # Burlywood
+    'Adventure': '#87CEFA',    # Light Sky Blue
+    'Mystery': '#DDA0DD',      # Plum
+    'Musical': '#FFB6C1',      # Light Pink
+    'War': '#B0C4DE',          # Light Steel Blue
+    'Sci-Fi': '#90EE90',       # Light Green
+    'Western': '#F4A460',      # Sandy Brown
+    'Thriller': '#FA8072',     # Salmon
+    'Sport': '#20B2AA',        # Light Sea Green
+    'Film-Noir': '#778899',    # Light Slate Gray
+    'Talk-Show': '#FAFAD2',    # Light Goldenrod Yellow
+    'Game-Show': '#FFC0CB',    # Pink
+    'Adult': '#DB7093',        # Pale Violet Red
+    'Reality-TV': '#F08080'    # Light Coral
+}
 def fetch_genre_movie_releases(conn):
     query = r'''
     '''
     df = pd.read_sql_query(query, conn)
     df['genres'] = df['genres'].str.split(',')
     df = df.explode('genres')
     df['startYear'] = pd.to_numeric(df['startYear'])
     genre_counts = df.groupby(['startYear', 'genres']).size().reset_index(name='count')
     return genre_counts
 def fetch_movie_release_years(conn):
     query_release_years = r'''
     SELECT startYear, COUNT(*) as count
     df_release_years = pd.read_sql_query(query_release_years, conn)
     return df_release_years
 def fetch_and_plot_average_rating_by_genre(conn):
     query = r'''
     SELECT tb.tconst, tb.primaryTitle, tr.averageRating, tb.genres
     '''
     df = pd.read_sql_query(query, conn)
     def extract_first_genre(genres):
         if genres:
             return genres.split(',')[0].strip()
         else:
             return None
     df['first_genre'] = df['genres'].apply(extract_first_genre)
     df = df.dropna(subset=['first_genre'])
     fig = px.box(df, x='first_genre', y='averageRating',
                  labels={'first_genre': 'Genre', 'averageRating': 'Average Rating'},
                  title='Average Rating of Movies by First Genre',
                  color='first_genre',
                  color_discrete_map=genre_color_map)
 def genre_color_func(word, font_size, position, orientation, random_state=None, **kwargs):
+    return genre_color_map.get(word, '#FFFFFF')
 def create_genre_wordcloud(conn):
     query = r'''
     '''
     df = pd.read_sql_query(query, conn)
     genres = df['genres'].str.split(',', expand=True).stack().replace('\\N', pd.NA).dropna().reset_index(drop=True)
     genre_counts = Counter(genres)
     wordcloud = WordCloud(width=800, height=800, background_color='white', color_func=genre_color_func).generate_from_frequencies(genre_counts)
     plt.figure(figsize=(10, 10))
     plt.imshow(wordcloud, interpolation='bilinear')
     plt.axis('off')
     st.pyplot(plt.gcf())
 def find_best_movies_by_genre(conn):
     query = r'''
     SELECT tb.tconst, tb.primaryTitle, tb.startYear, tb.genres, tr.averageRating, tr.numVotes
     '''
     df = pd.read_sql_query(query, conn)
     df['genre'] = df['genres'].str.split(',', expand=True)[0]
     df['score'] = df['numVotes'] * df['averageRating']
     idx = df.groupby('genre')['score'].idxmax()
     best_movies_by_genre = df.loc[idx, ['genre', 'primaryTitle', 'startYear', 'averageRating', 'numVotes', 'score']] \
         .sort_values(by='score', ascending=False).reset_index(drop=True)
     return best_movies_by_genre
 def plot_stacked_genre_movie_releases(genre_counts):
     fig = px.area(genre_counts, x='startYear', y='count', color='genres',
                   title='Stacked Genre Movie Releases by Year',
                   labels={'startYear': 'Year', 'count': 'Number of Movies', 'genres': 'Genre'},
+                  line_group='genres',  # This groups lines by genre
+                  hover_name='genres',  # This sets the genre as the hover label
+                  hover_data={'count': ':.0f'},  # Format hover data as integer
+                  color_discrete_map=genre_color_map)  # Apply color map
     return fig
 def plot_global_map(conn):
     movie_region_df = pd.read_csv('movie_region.csv')
+    # SQL query to get unique first genre of each title
     query_genre = '''
         SELECT tconst AS titleId, primaryTitle,
                CASE
         FROM title_basics;
     '''
     genre_data_df = pd.read_sql_query(query_genre, conn)
     merged_df = pd.merge(movie_region_df, genre_data_df, on='titleId', how='inner')
     df = merged_df.replace('\\N', np.nan).dropna(subset=['first_genre'])
     grouped = df.groupby('region')['first_genre'].agg(lambda x: ', '.join(x)).reset_index()
     grouped['genres_list'] = grouped['first_genre'].apply(lambda x: x.split(', '))
     grouped['most_common_genre'] = grouped['genres_list'].apply(lambda x: pd.Series(x).value_counts().index[0] if len(x) > 0 else '')
     }
     result.loc[:, 'region'] = result['region'].map(country_mapping)
     genre_color_map = {
+        'Documentary': '#FFB3BA',  # Light Pink
+        'Animation': '#BAFFC9',    # Light Green
+        'Comedy': '#FFFFBA',       # Light Yellow
+        'Short': '#BAE1FF',        # Light Blue
+        'Romance': '#FFDFBA',      # Light Peach
+        'News': '#E1BAFF',         # Light Purple
+        'Drama': '#FFC6C6',        # Light Red
+        'Fantasy': '#C6FFBA',      # Light Lime
+        'Horror': '#D3D3D3',       # Light Gray
+        'Biography': '#FFE4B5',    # Moccasin
+        'Music': '#B0E0E6',        # Powder Blue
+        'Crime': '#F0E68C',        # Khaki
+        'Family': '#98FB98',       # Pale Green
+        'Action': '#FFA07A',       # Light Salmon
+        'History': '#DEB887',      # Burlywood
+        'Adventure': '#87CEFA',    # Light Sky Blue
+        'Mystery': '#DDA0DD',      # Plum
+        'Musical': '#FFB6C1',      # Light Pink
+        'War': '#B0C4DE',          # Light Steel Blue
+        'Sci-Fi': '#90EE90',       # Light Green
+        'Western': '#F4A460',      # Sandy Brown
+        'Thriller': '#FA8072',     # Salmon
+        'Sport': '#20B2AA',        # Light Sea Green
+        'Film-Noir': '#778899',    # Light Slate Gray
+        'Talk-Show': '#FAFAD2',    # Light Goldenrod Yellow
+        'Game-Show': '#FFC0CB',    # Pink
+        'Adult': '#DB7093',        # Pale Violet Red
+        'Reality-TV': '#F08080'    # Light Coral
     }
     fig = px.choropleth(
     result,
     color_discrete_map=genre_color_map,
     )
+    # Update the layout
     fig.update_layout(
         geo=dict(showframe=False, showcoastlines=True, projection_type='natural earth')
     )
     return fig
+# Function to fetch summary info
 def fetch_summary_info(conn):
+    # Fetch total count of movies
     query_total_movies = r'''
         SELECT COUNT(*) as total_movies
         FROM title_basics
     '''
     total_movies = pd.read_sql_query(query_total_movies, conn).iloc[0]['total_movies']
+    # Fetch total count of years
     query_total_years = r'''
         SELECT COUNT(DISTINCT startYear) as total_years
         FROM title_basics
     '''
     total_years = pd.read_sql_query(query_total_years, conn).iloc[0]['total_years']
+    # Fetch average rating of movies
     query_avg_rating = r'''
         SELECT AVG(averageRating) as avg_rating
         FROM title_ratings
     return total_movies, total_years, avg_rating
+# Main Streamlit app
 def run_app():
     st.title('IMDb Movie Data Analysis')
+    # Load data from SQLite database
     conn = load_data('imdb_data.db')
     genre_counts = fetch_genre_movie_releases(conn)
     total_movies, total_years, avg_rating = fetch_summary_info(conn)
+    # Layout for summary info in three columns
     col1, col2, col3 = st.columns(3)
     with col1:
         st.subheader('Average Movie Rating')
         st.metric(label='zzz', value=f'{avg_rating:.2f}')
+    # Find and display best movies by genre
     best_movies_by_genre = find_best_movies_by_genre(conn)
     fig_global_map = plot_global_map(conn)
     fig_genre_movie_releases = plot_stacked_genre_movie_releases(genre_counts)
+    # Layout for best movies by genre in two columns
     col1, col2 = st.columns(2)
     with col1:
     fig_avg_rating_by_genre = fetch_and_plot_average_rating_by_genre(conn)
+    # Layout for Plotly charts in three columns
     col1, col2, col3 = st.columns(3)
     with col1:
         st.subheader('Average Rating by Genre')
         st.plotly_chart(fig_avg_rating_by_genre, use_container_width=True)
+    # Close database connection
     conn.close()
 if __name__ == '__main__':