Spaces:

mgbam
/

Synthetic_Biology

Sleeping

App Files Files Community

mgbam commited on 16 days ago

Commit

ec0d077

verified ·

1 Parent(s): 27cd148

Update genesis/api_clients/pubmed_api.py

Browse files

Files changed (1) hide show

genesis/api_clients/pubmed_api.py +63 -35

genesis/api_clients/pubmed_api.py CHANGED Viewed

@@ -1,31 +1,33 @@
 # genesis/api_clients/pubmed_api.py
 import requests
-from xml.etree import ElementTree as ET
-NCBI_EUTILS_BASE = "https://eutils.ncbi.nlm.nih.gov/entrez/eutils"
-def search_pubmed(query: str, max_results: int = 10, api_key: str = None):
     """
-    Search PubMed for a given query and return a list of PMIDs.
     """
     params = {
         "db": "pubmed",
         "term": query,
-        "retmode": "json",
         "retmax": max_results,
     }
-    if api_key:
-        params["api_key"] = api_key
-    response = requests.get(f"{NCBI_EUTILS_BASE}/esearch.fcgi", params=params)
     response.raise_for_status()
     data = response.json()
     return data.get("esearchresult", {}).get("idlist", [])
-def fetch_pubmed_details(pmids: list, api_key: str = None):
     """
-    Fetch detailed article data for given PMIDs.
     """
     if not pmids:
         return []
@@ -33,42 +35,68 @@ def fetch_pubmed_details(pmids: list, api_key: str = None):
     params = {
         "db": "pubmed",
         "id": ",".join(pmids),
-        "retmode": "xml"
     }
-    if api_key:
-        params["api_key"] = api_key
-    response = requests.get(f"{NCBI_EUTILS_BASE}/efetch.fcgi", params=params)
     response.raise_for_status()
-    return parse_pubmed_xml(response.text)
-def parse_pubmed_xml(xml_text: str):
-    """
-    Parse PubMed XML into structured dicts.
-    """
-    root = ET.fromstring(xml_text)
     articles = []
     for article in root.findall(".//PubmedArticle"):
-        title_el = article.find(".//ArticleTitle")
-        abstract_el = article.find(".//AbstractText")
-        journal_el = article.find(".//Journal/Title")
-        year_el = article.find(".//PubDate/Year")
         articles.append({
-            "title": title_el.text if title_el is not None else None,
-            "abstract": abstract_el.text if abstract_el is not None else None,
-            "journal": journal_el.text if journal_el is not None else None,
-            "year": year_el.text if year_el is not None else None,
         })
     return articles
-def search_and_fetch(query: str, max_results: int = 5, api_key: str = None):
     """
-    Convenience function: search and fetch article details.
     """
-    pmids = search_pubmed(query, max_results=max_results, api_key=api_key)
-    return fetch_pubmed_details(pmids, api_key=api_key)

 # genesis/api_clients/pubmed_api.py
 import requests
+import xml.etree.ElementTree as ET
+from datetime import datetime
+NCBI_BASE_URL = "https://eutils.ncbi.nlm.nih.gov/entrez/eutils"
+EMAIL = "[email protected]"  # NCBI requires an email in requests
+def search_pubmed(query: str, max_results: int = 10):
     """
+    Search PubMed for a given query and return PubMed IDs (PMIDs).
     """
     params = {
         "db": "pubmed",
         "term": query,
         "retmax": max_results,
+        "retmode": "json",
+        "sort": "pub+date",
+        "email": EMAIL
     }
+    response = requests.get(f"{NCBI_BASE_URL}/esearch.fcgi", params=params)
     response.raise_for_status()
     data = response.json()
     return data.get("esearchresult", {}).get("idlist", [])
+def fetch_pubmed_details(pmids: list):
     """
+    Retrieve details (title, abstract, authors, etc.) for a list of PMIDs.
     """
     if not pmids:
         return []
     params = {
         "db": "pubmed",
         "id": ",".join(pmids),
+        "retmode": "xml",
+        "email": EMAIL
     }
+    response = requests.get(f"{NCBI_BASE_URL}/efetch.fcgi", params=params)
     response.raise_for_status()
+    root = ET.fromstring(response.text)
     articles = []
     for article in root.findall(".//PubmedArticle"):
+        title = article.findtext(".//ArticleTitle", default="No title available")
+        abstract = " ".join(
+            [a.text for a in article.findall(".//AbstractText") if a.text]
+        )
+        pub_date = extract_pub_date(article)
+        authors = extract_authors(article)
+        pmid = article.findtext(".//PMID", default="")
         articles.append({
+            "pmid": pmid,
+            "title": title,
+            "abstract": abstract,
+            "authors": authors,
+            "pub_date": pub_date,
+            "url": f"https://pubmed.ncbi.nlm.nih.gov/{pmid}/"
         })
     return articles
+def extract_pub_date(article_element):
+    """
+    Extract publication date from a PubMed XML element.
+    """
+    date_elem = article_element.find(".//PubDate")
+    if date_elem is not None:
+        year = date_elem.findtext("Year")
+        month = date_elem.findtext("Month", default="01")
+        day = date_elem.findtext("Day", default="01")
+        try:
+            return datetime(int(year), int(month), int(day)).strftime("%Y-%m-%d")
+        except:
+            return year
+    return "Unknown"
+def extract_authors(article_element):
+    """
+    Extract authors from a PubMed XML element.
+    """
+    authors = []
+    for author in article_element.findall(".//Author"):
+        last_name = author.findtext("LastName", "")
+        fore_name = author.findtext("ForeName", "")
+        if last_name and fore_name:
+            authors.append(f"{fore_name} {last_name}")
+    return authors
+def search_and_fetch(query: str, max_results: int = 5):
     """
+    Convenience function to search PubMed and fetch article details.
     """
+    pmids = search_pubmed(query, max_results)
+    return fetch_pubmed_details(pmids)