Spaces:

MooseML
/

homo-lumo-gap-predictor

Sleeping

App Files Files Community

MooseML commited on May 6

Commit

d072ab4

1 Parent(s): 5331c58

increased upload limit, moved uploaded outside the form

Browse files

Files changed (2) hide show

Dockerfile +5 -9
app.py +43 -30

Dockerfile CHANGED Viewed

@@ -1,39 +1,35 @@
-# Dockerfile: Streamlit/RDKit/PyG (Hugging Face Spaces)
 FROM python:3.10-slim
-#  OS libs for RDKit drawing
 RUN apt-get update && apt-get install -y --no-install-recommends \
         build-essential libxrender1 libxext6 libsm6 libx11-6 \
         libglib2.0-0 libfreetype6 libpng-dev wget && \
     rm -rf /var/lib/apt/lists/*
-#  Non‑root user
 RUN useradd -m appuser
-#  Python packages
 RUN pip install --no-cache-dir --upgrade pip && \
     pip install --no-cache-dir \
         streamlit==1.45.0 rdkit-pypi==2022.9.5 pandas==2.2.3 \
         numpy==1.26.4 torch==2.2.0 torch-geometric==2.5.2 \
         ogb==1.3.6 pillow==10.3.0
-# Workdir and code
 WORKDIR /app
 COPY . .
-# Writable dirs with 775 perms
 RUN install -d -o appuser -g appuser -m 775 /data /tmp/streamlit
-# Environment
 ENV DB_DIR=/data \
     STREAMLIT_SERVER_HEADLESS=true \
     STREAMLIT_SERVER_ADDRESS=0.0.0.0 \
     STREAMLIT_SERVER_PORT=7860 \
     STREAMLIT_TELEMETRY_DISABLED=true \
     STREAMLIT_BROWSER_GATHER_USAGE_STATS=false \
-    STREAMLIT_SERVER_MAX_UPLOAD_SIZE=50
 EXPOSE 7860
 USER appuser
 CMD ["streamlit", "run", "app.py"]

 FROM python:3.10-slim
+# OS libs for RDKit drawing
 RUN apt-get update && apt-get install -y --no-install-recommends \
         build-essential libxrender1 libxext6 libsm6 libx11-6 \
         libglib2.0-0 libfreetype6 libpng-dev wget && \
     rm -rf /var/lib/apt/lists/*
+# Non‑root user
 RUN useradd -m appuser
+# Python deps
 RUN pip install --no-cache-dir --upgrade pip && \
     pip install --no-cache-dir \
         streamlit==1.45.0 rdkit-pypi==2022.9.5 pandas==2.2.3 \
         numpy==1.26.4 torch==2.2.0 torch-geometric==2.5.2 \
         ogb==1.3.6 pillow==10.3.0
 WORKDIR /app
 COPY . .
+# Writable dirs, owned by appuser, perms 775
 RUN install -d -o appuser -g appuser -m 775 /data /tmp/streamlit
 ENV DB_DIR=/data \
     STREAMLIT_SERVER_HEADLESS=true \
     STREAMLIT_SERVER_ADDRESS=0.0.0.0 \
     STREAMLIT_SERVER_PORT=7860 \
     STREAMLIT_TELEMETRY_DISABLED=true \
     STREAMLIT_BROWSER_GATHER_USAGE_STATS=false \
+    STREAMLIT_SERVER_MAX_UPLOAD_SIZE=200
 EXPOSE 7860
 USER appuser
 CMD ["streamlit", "run", "app.py"]

app.py CHANGED Viewed

@@ -12,16 +12,17 @@ from torch_geometric.loader import DataLoader
 from model import load_model
 from utils import smiles_to_data
-#  Config
 DEVICE, RDKIT_DIM, MODEL_PATH, MAX_DISPLAY = "cpu", 6, "best_hybridgnn.pt", 20
-#  Model & DB (cached)
 @st.cache_resource
 def get_model():
     return load_model(rdkit_dim=RDKIT_DIM, path=MODEL_PATH, device=DEVICE)
 model = get_model()
 DB_DIR = pathlib.Path(os.getenv("DB_DIR", "/tmp"))
 DB_DIR.mkdir(parents=True, exist_ok=True)
@@ -39,7 +40,7 @@ def init_db():
 conn   = init_db()
 cursor = conn.cursor()
-#  debug and info panel
 with st.sidebar.expander("Info & Env", expanded=False):
     st.write(f"Python {sys.version.split()[0]}")
     st.write(f"Temp dir: `{tempfile.gettempdir()}` "
@@ -47,7 +48,7 @@ with st.sidebar.expander("Info & Env", expanded=False):
     if "csv_bytes" in st.session_state:
         st.write(f"Last upload: **{len(st.session_state['csv_bytes'])/1024:.1f} KB**")
-#  Header
 st.title("HOMO-LUMO Gap Predictor")
 st.markdown("""
 This app predicts the HOMO-LUMO energy gap for molecules using a trained Graph Neural Network (GNN).
@@ -60,52 +61,63 @@ This app predicts the HOMO-LUMO energy gap for molecules using a trained Graph N
 - The app will display predictions and molecule images (up to 20 shown at once).
 """)
-#  File uploader (outside form)
 csv_file = st.file_uploader("CSV with SMILES", type=["csv"])
 if csv_file is not None:
-    st.session_state["csv_bytes"] = csv_file.getvalue()
-#  Input form
 smiles_list = []
 with st.form("main_form"):
-    smiles_text = st.text_area("…or paste SMILES (comma/newline separated)",
-                               placeholder="CC(=O)Oc1ccccc1C(=O)O",
-                               height=120)
     run = st.form_submit_button("Run Prediction")
-#  Parse input
 if run:
-    if "csv_bytes" in st.session_state:
         try:
-            df = pd.read_csv(StringIO(st.session_state["csv_bytes"].decode("utf-8")), comment="#")
-            col = df.columns[0] if df.shape[1] == 1 else next((c for c in df.columns if c.lower() == "smiles"), None)
             if col is None:
-                st.error("CSV needs one column or a 'SMILES' column")
             else:
                 smiles_list = df[col].dropna().astype(str).tolist()
                 st.success(f"{len(smiles_list)} SMILES loaded from CSV")
         except Exception as e:
             st.error(f"CSV error: {e}")
-    elif smiles_text.strip():
-        smiles_list = [s.strip() for s in smiles_text.replace("\n", ",").split(",") if s.strip()]
-        st.success(f"{len(smiles_list)} SMILES parsed from textbox")
     else:
-        st.warning("No input provided")
-#  Inference & display
 if smiles_list:
     data_list = smiles_to_data(smiles_list, device=DEVICE)
     valid = [(s, d) for s, d in zip(smiles_list, data_list) if d is not None]
     if not valid:
-        st.warning("No valid molecules")
     else:
         vsmi, vdata = zip(*valid)
         preds = []
         for batch in DataLoader(vdata, batch_size=64):
             with torch.no_grad():
-                preds.extend(get_model()(batch.to(DEVICE)).view(-1).cpu().numpy().tolist())
         st.subheader(f"Results (first {MAX_DISPLAY})")
         for i, (smi, pred) in enumerate(zip(vsmi, preds)):
@@ -115,17 +127,18 @@ if smiles_list:
             mol = Chem.MolFromSmiles(smi)
             if mol:
                 st.image(Draw.MolToImage(mol, size=(250, 250)))
-            st.write(f"`{smi}` → **{pred:.4f} eV**")
             cursor.execute(
                 "INSERT INTO predictions(smiles, prediction, timestamp) VALUES (?,?,?)",
-                (smi, float(pred), datetime.now().isoformat()),
             )
         conn.commit()
-        st.download_button("Download CSV",
-                           pd.DataFrame(
-                               {"SMILES": vsmi, "Gap (eV)": [round(p, 4) for p in preds]}
-                               ).to_csv(index=False).encode(),
-                               "homolumo_predictions.csv",
-                               "text/csv")

 from model import load_model
 from utils import smiles_to_data
+#  configuration
 DEVICE, RDKIT_DIM, MODEL_PATH, MAX_DISPLAY = "cpu", 6, "best_hybridgnn.pt", 20
+#  heavy imports already done above; now Streamlit starts
 @st.cache_resource
 def get_model():
     return load_model(rdkit_dim=RDKIT_DIM, path=MODEL_PATH, device=DEVICE)
 model = get_model()
+# SQLite (cached) — DB stored in /data or /tmp
 DB_DIR = pathlib.Path(os.getenv("DB_DIR", "/tmp"))
 DB_DIR.mkdir(parents=True, exist_ok=True)
 conn   = init_db()
 cursor = conn.cursor()
+#  compact info panel
 with st.sidebar.expander("Info & Env", expanded=False):
     st.write(f"Python {sys.version.split()[0]}")
     st.write(f"Temp dir: `{tempfile.gettempdir()}` "
     if "csv_bytes" in st.session_state:
         st.write(f"Last upload: **{len(st.session_state['csv_bytes'])/1024:.1f} KB**")
+#  header and instructions (unchanged)
 st.title("HOMO-LUMO Gap Predictor")
 st.markdown("""
 This app predicts the HOMO-LUMO energy gap for molecules using a trained Graph Neural Network (GNN).
 - The app will display predictions and molecule images (up to 20 shown at once).
 """)
+#  uploader (outside the form)
 csv_file = st.file_uploader("CSV with SMILES", type=["csv"])
 if csv_file is not None:
+    st.session_state["csv_bytes"] = csv_file.getvalue()  # cache raw bytes
+#  textarea and button
 smiles_list = []
 with st.form("main_form"):
+    smiles_text = st.text_area(
+        "…or paste SMILES (comma/newline separated)",
+        placeholder="CC(=O)Oc1ccccc1C(=O)O",
+        height=120,
+    )
     run = st.form_submit_button("Run Prediction")
+#  decide which input to use
 if run:
+    if smiles_text.strip():                      # user typed → override CSV
+        smiles_list = [
+            s.strip() for s in smiles_text.replace("\n", ",").split(",") if s.strip()
+        ]
+        st.session_state.pop("csv_bytes", None)  # forget previous upload
+        st.success(f"{len(smiles_list)} SMILES parsed from textbox")
+    elif "csv_bytes" in st.session_state:        # CSV path
         try:
+            df = pd.read_csv(
+                StringIO(st.session_state["csv_bytes"].decode("utf-8")),
+                comment="#",
+            )
+            col = df.columns[0] if df.shape[1] == 1 else next(
+                (c for c in df.columns if c.lower() == "smiles"), None
+            )
             if col is None:
+                st.error("CSV needs one column or a 'SMILES' column.")
             else:
                 smiles_list = df[col].dropna().astype(str).tolist()
                 st.success(f"{len(smiles_list)} SMILES loaded from CSV")
         except Exception as e:
             st.error(f"CSV error: {e}")
     else:
+        st.warning("No input provided.")
+#  inference & display
 if smiles_list:
     data_list = smiles_to_data(smiles_list, device=DEVICE)
     valid = [(s, d) for s, d in zip(smiles_list, data_list) if d is not None]
     if not valid:
+        st.warning("No valid molecules.")
     else:
         vsmi, vdata = zip(*valid)
         preds = []
         for batch in DataLoader(vdata, batch_size=64):
             with torch.no_grad():
+                preds.extend(model(batch.to(DEVICE)).view(-1).cpu().numpy().tolist())
         st.subheader(f"Results (first {MAX_DISPLAY})")
         for i, (smi, pred) in enumerate(zip(vsmi, preds)):
             mol = Chem.MolFromSmiles(smi)
             if mol:
                 st.image(Draw.MolToImage(mol, size=(250, 250)))
+            st.write(f"`{smi}` → **{pred:.4f} eV**")
             cursor.execute(
                 "INSERT INTO predictions(smiles, prediction, timestamp) VALUES (?,?,?)",
+                (smi, float(pred), datetime.utcnow().isoformat()),
             )
         conn.commit()
+        st.download_button(
+            "Download CSV",
+            pd.DataFrame({"SMILES": vsmi, "Gap (eV)": [round(p, 4) for p in preds]})
+              .to_csv(index=False).encode(),
+            "homolumo_predictions.csv",
+            "text/csv",
+        )