Spaces:

Agents-MCP-Hackathon
/

HF_RepoSense

Running

App Files Files Community

naman1102 commited on 13 days ago

Commit

39207e4

1 Parent(s): dbb5879

Update app.py

Browse files

Files changed (1) hide show

app.py +144 -9

app.py CHANGED Viewed

@@ -28,6 +28,110 @@ CHATBOT_INITIAL_MESSAGE = "Hello! Please tell me about your ideal Hugging Face r
 # --- Helper Functions (Logic) ---
 def write_repos_to_csv(repo_ids: List[str]) -> None:
     """Writes a list of repo IDs to the CSV file, overwriting the previous content."""
     try:
@@ -124,7 +228,7 @@ def analyze_and_update_single_repo(repo_id: str, user_requirements: str = "") ->
         if not repo_found_in_df:
              logger.warning(f"Repo ID {repo_id} not found in CSV for updating.")
-        # Write CSV with better error handling and flushing
         try:
             df.to_csv(CSV_FILE, index=False)
             # Force file system flush
@@ -432,6 +536,19 @@ def create_ui() -> gr.Blocks:
                     pass
                 gr.Markdown("### 📊 Results Dashboard")
                 gr.Markdown("💡 **Tip:** Click on any repository name to explore it in detail!")
                 # Modal popup for repository action selection
@@ -450,6 +567,7 @@ def create_ui() -> gr.Blocks:
                                 explore_repo_btn = gr.Button("🔍 Open in Repo Explorer", variant="secondary", size="lg")
                                 cancel_modal_btn = gr.Button("❌ Cancel", size="lg")
                 df_output = gr.Dataframe(
                     headers=["Repository", "Strengths", "Weaknesses", "Speciality", "Relevance"],
                     wrap=True,
@@ -514,7 +632,7 @@ def create_ui() -> gr.Blocks:
             </div>
             """
         )
         # --- Event Handler Functions ---
         def handle_repo_id_submission(text: str) -> Tuple[List[str], int, pd.DataFrame, str, Any]:
@@ -677,10 +795,10 @@ def create_ui() -> gr.Blocks:
             return "", gr.update(visible=False), gr.update()
-        def handle_analyze_all_repos(repo_ids: List[str], user_requirements: str, progress=gr.Progress()) -> Tuple[pd.DataFrame, str]:
             """Analyzes all repositories in the CSV file with progress tracking."""
             if not repo_ids:
-                return pd.DataFrame(), "Status: No repositories to analyze. Please submit repo IDs first."
             total_repos = len(repo_ids)
@@ -762,21 +880,31 @@ def create_ui() -> gr.Blocks:
                 # Complete the progress
                 progress(1.0, desc="Batch analysis completed!")
                 # Final status with detailed breakdown
                 final_status = f"🎉 Batch Analysis Complete!\n✅ Successful: {successful_analyses}/{total_repos}\n❌ Failed: {failed_analyses}/{total_repos}"
                 if csv_update_failures > 0:
                     final_status += f"\n⚠️ CSV Update Issues: {csv_update_failures}/{total_repos}"
-                # Get final updated dataframe
-                updated_df = read_csv_to_dataframe()
                 logger.info(f"Batch analysis completed: {successful_analyses} successful, {failed_analyses} failed, {csv_update_failures} CSV update issues")
-                return updated_df, final_status
             except Exception as e:
                 logger.error(f"Error in batch analysis: {e}")
                 error_status = f"❌ Batch analysis failed: {e}"
-                return read_csv_to_dataframe(), error_status
         def handle_visit_repo(repo_id: str) -> Tuple[Any, str]:
             """Handle visiting the Hugging Face Space for the repository."""
@@ -829,7 +957,7 @@ def create_ui() -> gr.Blocks:
         ).then(
             fn=handle_analyze_all_repos,
             inputs=[repo_ids_state, user_requirements_state],
-            outputs=[df_output, status_box_analysis]
         )
         # Chatbot Tab
@@ -893,6 +1021,13 @@ def create_ui() -> gr.Blocks:
             outputs=[selected_repo_display, repo_action_modal, tabs]
         )
     return app
 if __name__ == "__main__":

 # --- Helper Functions (Logic) ---
+def get_top_relevant_repos(df: pd.DataFrame, user_requirements: str, top_n: int = 3) -> pd.DataFrame:
+    """
+    Uses LLM to select the top N most relevant repositories based on user requirements and analysis data.
+    """
+    try:
+        if df.empty:
+            return pd.DataFrame(columns=["repo id", "strength", "weaknesses", "speciality", "relevance rating"])
+        # Filter out rows with no analysis data
+        analyzed_df = df.copy()
+        analyzed_df = analyzed_df[
+            (analyzed_df['strength'].str.strip() != '') |
+            (analyzed_df['weaknesses'].str.strip() != '') |
+            (analyzed_df['speciality'].str.strip() != '') |
+            (analyzed_df['relevance rating'].str.strip() != '')
+        ]
+        if analyzed_df.empty:
+            logger.warning("No analyzed repositories found for LLM selection")
+            return pd.DataFrame(columns=["repo id", "strength", "weaknesses", "speciality", "relevance rating"])
+        # Create a prompt for the LLM
+        csv_data = ""
+        for idx, row in analyzed_df.iterrows():
+            csv_data += f"Repository: {row['repo id']}\n"
+            csv_data += f"Strengths: {row['strength']}\n"
+            csv_data += f"Weaknesses: {row['weaknesses']}\n"
+            csv_data += f"Speciality: {row['speciality']}\n"
+            csv_data += f"Relevance: {row['relevance rating']}\n\n"
+        user_context = user_requirements if user_requirements.strip() else "General repository recommendation"
+        prompt = f"""Based on the user's requirements and the analysis of repositories below, select the top {top_n} most relevant repositories.
+User Requirements:
+{user_context}
+Repository Analysis Data:
+{csv_data}
+Please analyze all repositories and select the {top_n} most relevant ones based on:
+1. How well they match the user's specific requirements
+2. Their strengths and capabilities
+3. Their relevance rating
+4. Their speciality alignment with user needs
+Return ONLY a JSON list of the repository IDs in order of relevance (most relevant first). Example format:
+["repo1", "repo2", "repo3"]
+Selected repositories:"""
+        try:
+            from openai import OpenAI
+            client = OpenAI(api_key=os.getenv("modal_api"))
+            client.base_url = os.getenv("base_url")
+            response = client.chat.completions.create(
+                model="Orion-zhen/Qwen2.5-Coder-7B-Instruct-AWQ",
+                messages=[
+                    {"role": "system", "content": "You are an expert at analyzing and ranking repositories based on user requirements. Always return valid JSON."},
+                    {"role": "user", "content": prompt}
+                ],
+                max_tokens=200,
+                temperature=0.3
+            )
+            llm_response = response.choices[0].message.content.strip()
+            logger.info(f"LLM response for top repos: {llm_response}")
+            # Extract JSON from response
+            import json
+            import re
+            # Try to find JSON array in the response
+            json_match = re.search(r'\[.*\]', llm_response)
+            if json_match:
+                selected_repos = json.loads(json_match.group())
+                logger.info(f"LLM selected repositories: {selected_repos}")
+                # Filter dataframe to only include selected repositories in order
+                top_repos_list = []
+                for repo_id in selected_repos[:top_n]:
+                    matching_rows = analyzed_df[analyzed_df['repo id'] == repo_id]
+                    if not matching_rows.empty:
+                        top_repos_list.append(matching_rows.iloc[0])
+                if top_repos_list:
+                    top_repos = pd.DataFrame(top_repos_list)
+                    logger.info(f"Successfully selected {len(top_repos)} repositories using LLM")
+                    return top_repos
+            # Fallback: if LLM response parsing fails, use first N analyzed repos
+            logger.warning("Failed to parse LLM response, using fallback selection")
+            return analyzed_df.head(top_n)
+        except Exception as llm_error:
+            logger.error(f"LLM selection failed: {llm_error}")
+            # Fallback: return first N repositories with analysis data
+            return analyzed_df.head(top_n)
+    except Exception as e:
+        logger.error(f"Error in LLM-based repo selection: {e}")
+        return pd.DataFrame(columns=["repo id", "strength", "weaknesses", "speciality", "relevance rating"])
 def write_repos_to_csv(repo_ids: List[str]) -> None:
     """Writes a list of repo IDs to the CSV file, overwriting the previous content."""
     try:
         if not repo_found_in_df:
              logger.warning(f"Repo ID {repo_id} not found in CSV for updating.")
+                # Write CSV with better error handling and flushing
         try:
             df.to_csv(CSV_FILE, index=False)
             # Force file system flush
                     pass
                 gr.Markdown("### 📊 Results Dashboard")
+                # Top 3 Most Relevant Repositories (initially hidden)
+                with gr.Column(visible=False) as top_repos_section:
+                    gr.Markdown("### 🏆 Top 3 Most Relevant Repositories")
+                    gr.Markdown("🎯 **These are the highest-rated repositories based on your requirements:**")
+                    top_repos_df = gr.Dataframe(
+                        headers=["Repository", "Strengths", "Weaknesses", "Speciality", "Relevance"],
+                        wrap=True,
+                        interactive=False,
+                        height=200,
+                        info="Click on any repository name to explore or visit"
+                    )
                 gr.Markdown("💡 **Tip:** Click on any repository name to explore it in detail!")
                 # Modal popup for repository action selection
                                 explore_repo_btn = gr.Button("🔍 Open in Repo Explorer", variant="secondary", size="lg")
                                 cancel_modal_btn = gr.Button("❌ Cancel", size="lg")
+                gr.Markdown("### 📋 All Analysis Results")
                 df_output = gr.Dataframe(
                     headers=["Repository", "Strengths", "Weaknesses", "Speciality", "Relevance"],
                     wrap=True,
             </div>
             """
         )
         # --- Event Handler Functions ---
         def handle_repo_id_submission(text: str) -> Tuple[List[str], int, pd.DataFrame, str, Any]:
             return "", gr.update(visible=False), gr.update()
+        def handle_analyze_all_repos(repo_ids: List[str], user_requirements: str, progress=gr.Progress()) -> Tuple[pd.DataFrame, str, pd.DataFrame, Any]:
             """Analyzes all repositories in the CSV file with progress tracking."""
             if not repo_ids:
+                return pd.DataFrame(), "Status: No repositories to analyze. Please submit repo IDs first.", pd.DataFrame(), gr.update(visible=False)
             total_repos = len(repo_ids)
                 # Complete the progress
                 progress(1.0, desc="Batch analysis completed!")
+                # Get final updated dataframe
+                updated_df = read_csv_to_dataframe()
+                # Get top 3 most relevant repositories
+                top_repos = get_top_relevant_repos(updated_df, user_requirements, top_n=3)
                 # Final status with detailed breakdown
                 final_status = f"🎉 Batch Analysis Complete!\n✅ Successful: {successful_analyses}/{total_repos}\n❌ Failed: {failed_analyses}/{total_repos}"
                 if csv_update_failures > 0:
                     final_status += f"\n⚠️ CSV Update Issues: {csv_update_failures}/{total_repos}"
+                # Add top repos info if available
+                if not top_repos.empty:
+                    final_status += f"\n\n🏆 Top {len(top_repos)} most relevant repositories selected!"
+                # Show top repos section if we have results
+                show_top_section = gr.update(visible=not top_repos.empty)
                 logger.info(f"Batch analysis completed: {successful_analyses} successful, {failed_analyses} failed, {csv_update_failures} CSV update issues")
+                return updated_df, final_status, top_repos, show_top_section
             except Exception as e:
                 logger.error(f"Error in batch analysis: {e}")
                 error_status = f"❌ Batch analysis failed: {e}"
+                return read_csv_to_dataframe(), error_status, pd.DataFrame(), gr.update(visible=False)
         def handle_visit_repo(repo_id: str) -> Tuple[Any, str]:
             """Handle visiting the Hugging Face Space for the repository."""
         ).then(
             fn=handle_analyze_all_repos,
             inputs=[repo_ids_state, user_requirements_state],
+            outputs=[df_output, status_box_analysis, top_repos_df, top_repos_section]
         )
         # Chatbot Tab
             outputs=[selected_repo_display, repo_action_modal, tabs]
         )
+        # Add selection event for top repositories dataframe too
+        top_repos_df.select(
+            fn=handle_dataframe_select,
+            inputs=[top_repos_df],
+            outputs=[selected_repo_display, repo_action_modal, tabs]
+        )
     return app
 if __name__ == "__main__":