Spaces:

fdaudens
/

podcast-jobs-rss-test

Sleeping

App Files Files Community

fdaudens HF Staff commited on May 20

Commit

19da3fb

1 Parent(s): b594f58

test 24 hours

Browse files

Files changed (3) hide show

app.py +1 -1
papers.py +36 -3
run_job.py +1 -1

app.py CHANGED Viewed

@@ -31,7 +31,7 @@ from kokoro import KModel, KPipeline
 from papers import PaperManager
 paper_manager = PaperManager()
-top_papers = paper_manager.get_top_content()
 PODCAST_SUBJECT = list(top_papers.values())[0]

 from papers import PaperManager
 paper_manager = PaperManager()
+top_papers = paper_manager.get_top_content(hours=24)
 PODCAST_SUBJECT = list(top_papers.values())[0]

papers.py CHANGED Viewed

@@ -105,11 +105,44 @@ class PaperManager:
         return text
-    def get_top_content(self):
         self.fetch_papers()
         self.filter_top_papers()
-        contents =  {}
-        print(f"Processing {len(self.papers)} papers:")
         for paper in tqdm(self.papers):
             paper_id = paper["paper"]['id']
             contents[paper["paper"]['title']] = self.get_paper_text(paper_id)

         return text
+    # def get_top_content(self):
+    #     self.fetch_papers()
+    #     self.filter_top_papers()
+    #     contents =  {}
+    #     print(f"Processing {len(self.papers)} papers:")
+    #     for paper in tqdm(self.papers):
+    #         paper_id = paper["paper"]['id']
+    #         contents[paper["paper"]['title']] = self.get_paper_text(paper_id)
+    #     return contents
+    def get_top_content(self, hours=24):
+        """
+        Get content from papers published within the specified hours
+        """
         self.fetch_papers()
+        current_time = datetime.now(timezone.utc)
+        # Filter papers by time first
+        recent_papers = []
+        for paper in self.raw_papers:
+            published_at_str = paper.get('publishedAt', current_time.isoformat())
+            try:
+                published_time = datetime.fromisoformat(published_at_str.replace('Z', '+00:00'))
+                time_diff = current_time - published_time
+                # Only include papers newer than specified hours
+                if time_diff.total_seconds() / 3600 <= hours:
+                    recent_papers.append(paper)
+            except ValueError:
+                # Skip papers with invalid timestamp
+                continue
+        # Set the filtered papers and apply the existing scoring logic
+        self.raw_papers = recent_papers
         self.filter_top_papers()
+        # Get content as in the original method
+        contents = {}
+        print(f"Processing {len(self.papers)} recent papers:")
         for paper in tqdm(self.papers):
             paper_id = paper["paper"]['id']
             contents[paper["paper"]['title']] = self.get_paper_text(paper_id)

run_job.py CHANGED Viewed

@@ -54,7 +54,7 @@ def main():
     # 1. Get the most popular paper's content
     paper_manager = PaperManager()
-    top_papers = paper_manager.get_top_content()
     # Get the first (most popular) paper's text
     subject = list(top_papers.values())[0]

     # 1. Get the most popular paper's content
     paper_manager = PaperManager()
+    top_papers = paper_manager.get_top_content(hours=24)
     # Get the first (most popular) paper's text
     subject = list(top_papers.values())[0]