Spaces:

Salimtoama15
/

tweet-UI

Sleeping

App Files Files Community

Salimtoama15 commited on 15 days ago

Commit

a9383ab

verified ·

1 Parent(s): 839d7f0

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -20

app.py CHANGED Viewed

@@ -8,7 +8,7 @@ SAMPLE_SIZE = int(os.getenv("SAMPLE_SIZE", "5000"))
 RANDOM_STATE = 42
 DEFAULT_INPUT = "I am so happy with this product"
-# -------- Text cleaning (yours) --------
 def clean_text(text: str) -> str:
     text = text.lower()
     text = re.sub(r"http\S+", "", text)
@@ -57,8 +57,9 @@ def ensure_corpus_embeddings(model_name: str, texts: list[str]):
         return _CORPUS_CACHE[model_name]
     model_id = EMBEDDERS[model_name]
     model = load_sentence_model(model_id)
-    emb = model.encode(texts, show_progress_bar=False,
-                       convert_to_numpy=True, normalize_embeddings=True)
     _CORPUS_CACHE[model_name] = emb
     return emb
@@ -79,10 +80,13 @@ def top3_for_each_model(user_input: str, selected_models: list[str]):
                     "Rank": rank,
                     "Similarity": float(sims[i]),
                     "Tweet (clean)": texts[i],
-                    "Tweet (orig)": df.loc[i, "text"]
                 })
         except Exception as e:
-            rows.append({"Model": name, "Rank": "-", "Similarity": "-", "Tweet (clean)": f"[Error: {e}]", "Tweet (orig)": ""})
     out = pd.DataFrame(rows, columns=["Model","Rank","Similarity","Tweet (clean)","Tweet (orig)"])
     return out
@@ -94,7 +98,7 @@ def generate_and_pick_best(prompt: str, n_sequences: int, max_length: int, tempe
         num_return_sequences=n_sequences,
         do_sample=True,
         temperature=temperature,
-        pad_token_id=50256,   # <- added
     )
     candidates = [o["generated_text"].strip() for o in outputs]
@@ -105,7 +109,7 @@ def generate_and_pick_best(prompt: str, n_sequences: int, max_length: int, tempe
     sims = cosine_similarity(q, cand_vecs)[0]
     best_idx = int(sims.argmax())
     table = pd.DataFrame({
-        "Rank": np.argsort(-sims)+1,
         "Similarity": np.sort(sims)[::-1],
         "Generated Tweet": [c for _, c in sorted(zip(-sims, candidates))]
     })
@@ -113,15 +117,12 @@ def generate_and_pick_best(prompt: str, n_sequences: int, max_length: int, tempe
     best_score = float(sims[best_idx])
     return best, best_score, table
 with gr.Blocks(title="Sentiment140 Embeddings + Generation") as demo:
     gr.Markdown(
         """
 # 🧪 Sentiment140 — Embeddings & Tweet Generator
-Small, reliable demo for your final project:
-1) Compare top-3 most similar tweets from **Sentiment140** across embedding models.
-2) Generate synthetic tweets with **DistilGPT‑2** and auto‑pick the best by semantic similarity.
-> Tip: Start with **MiniLM (fast)** on CPU Spaces. Add MPNet/DistilRoBERTa if you have a GPU.
         """
     )
@@ -130,16 +131,16 @@ Small, reliable demo for your final project:
         models = gr.CheckboxGroup(
             choices=list(EMBEDDERS.keys()),
             value=["MiniLM (fast)"],
-            label="Embedding models to compare"
         )
     run_btn = gr.Button("🔎 Find Top‑3 Similar Tweets")
-    table_out = gr.Dataframe(interactive=False, overflow_row_behaviour="paginate")  # <- changed
     run_btn.click(top3_for_each_model, inputs=[test_input, models], outputs=table_out)
     gr.Markdown("---")
-    gr.Markdown("## 📝 Generate Tweets and Pick the Best (by similarity to your input)")
     with gr.Row():
         n_seq = gr.Slider(3, 15, value=8, step=1, label="Number of candidates")
@@ -150,14 +151,16 @@ Small, reliable demo for your final project:
     gen_btn = gr.Button("✨ Generate & Score")
     best_txt = gr.Textbox(label="Best generated tweet")
     best_score = gr.Number(label="Similarity (best)")
-    gen_table = gr.Dataframe(interactive=False, overflow_row_behaviour="paginate")  # <- changed
-    gen_btn.click(generate_and_pick_best,
-                  inputs=[test_input, n_seq, max_len, temp, scorer_model],
-                  outputs=[best_txt, best_score, gen_table])
     gr.Markdown("---")
-    gr.Markdown("## 🖼️ Project Photo (optional, just to display it in the app)")
     photo = gr.Image(label="Upload your project photo (jpg/png)", type="filepath")
 demo.queue(max_size=32).launch()

 RANDOM_STATE = 42
 DEFAULT_INPUT = "I am so happy with this product"
+# -------- Text cleaning --------
 def clean_text(text: str) -> str:
     text = text.lower()
     text = re.sub(r"http\S+", "", text)
         return _CORPUS_CACHE[model_name]
     model_id = EMBEDDERS[model_name]
     model = load_sentence_model(model_id)
+    emb = model.encode(
+        texts, show_progress_bar=False, convert_to_numpy=True, normalize_embeddings=True
+    )
     _CORPUS_CACHE[model_name] = emb
     return emb
                     "Rank": rank,
                     "Similarity": float(sims[i]),
                     "Tweet (clean)": texts[i],
+                    "Tweet (orig)": df.loc[i, "text"],
                 })
         except Exception as e:
+            rows.append({
+                "Model": name, "Rank": "-", "Similarity": "-",
+                "Tweet (clean)": f"[Error: {e}]", "Tweet (orig)": ""
+            })
     out = pd.DataFrame(rows, columns=["Model","Rank","Similarity","Tweet (clean)","Tweet (orig)"])
     return out
         num_return_sequences=n_sequences,
         do_sample=True,
         temperature=temperature,
+        pad_token_id=50256,  # silence warning
     )
     candidates = [o["generated_text"].strip() for o in outputs]
     sims = cosine_similarity(q, cand_vecs)[0]
     best_idx = int(sims.argmax())
     table = pd.DataFrame({
+        "Rank": np.argsort(-sims) + 1,
         "Similarity": np.sort(sims)[::-1],
         "Generated Tweet": [c for _, c in sorted(zip(-sims, candidates))]
     })
     best_score = float(sims[best_idx])
     return best, best_score, table
+# ---------------- UI ----------------
 with gr.Blocks(title="Sentiment140 Embeddings + Generation") as demo:
     gr.Markdown(
         """
 # 🧪 Sentiment140 — Embeddings & Tweet Generator
+Type a tweet, get similar tweets from Sentiment140, and generate a new one.
         """
     )
         models = gr.CheckboxGroup(
             choices=list(EMBEDDERS.keys()),
             value=["MiniLM (fast)"],
+            label="Embedding models to compare",
         )
     run_btn = gr.Button("🔎 Find Top‑3 Similar Tweets")
+    table_out = gr.Dataframe(interactive=False)  # simple & compatible
     run_btn.click(top3_for_each_model, inputs=[test_input, models], outputs=table_out)
     gr.Markdown("---")
+    gr.Markdown("## 📝 Generate Tweets and Pick the Best")
     with gr.Row():
         n_seq = gr.Slider(3, 15, value=8, step=1, label="Number of candidates")
     gen_btn = gr.Button("✨ Generate & Score")
     best_txt = gr.Textbox(label="Best generated tweet")
     best_score = gr.Number(label="Similarity (best)")
+    gen_table = gr.Dataframe(interactive=False)
+    gen_btn.click(
+        generate_and_pick_best,
+        inputs=[test_input, n_seq, max_len, temp, scorer_model],
+        outputs=[best_txt, best_score, gen_table],
+    )
     gr.Markdown("---")
+    gr.Markdown("## 🖼️ Project Photo (optional)")
     photo = gr.Image(label="Upload your project photo (jpg/png)", type="filepath")
 demo.queue(max_size=32).launch()