Spaces:

Anvilogic
/

Embedder-Typosquat-Detect

Running

chgrdj commited on Nov 8, 2024

Commit

9c38bab

verified ·

1 Parent(s): 9b1ca0b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -12,7 +12,7 @@ model = SentenceTransformer(model_name)
 domains_df = pd.read_csv('domains_embs.csv')
 domains_df.embedding = domains_df.embedding.apply(literal_eval)
 corpus_domains = domains_df.domain.to_list()
-corpus_embeddings = np.stack(domains_df.embedding.values)
 # Streamlit App
 st.title("Mining Potential Legitimate Domains from a Typosquatted Domain")
@@ -26,7 +26,7 @@ top_k = st.number_input("Top K Results", min_value=1, max_value=len(corpus_domai
 if st.button("Search for Legitimate Domains"):
     if domain:
         # Perform Semantic Search
-        query_emb = model.encode(domain)
         semantic_res = util.semantic_search(query_emb, corpus_embeddings, top_k=top_k)[0]
         ids = [r['corpus_id'] for r in semantic_res]
         scores = [r['score'] for r in semantic_res]

 domains_df = pd.read_csv('domains_embs.csv')
 domains_df.embedding = domains_df.embedding.apply(literal_eval)
 corpus_domains = domains_df.domain.to_list()
+corpus_embeddings = np.stack(domains_df.embedding.values).astype(np.float32)  # Ensure embeddings are float32
 # Streamlit App
 st.title("Mining Potential Legitimate Domains from a Typosquatted Domain")
 if st.button("Search for Legitimate Domains"):
     if domain:
         # Perform Semantic Search
+        query_emb = model.encode(domain).astype(np.float32)  # Ensure query embedding is also float32
         semantic_res = util.semantic_search(query_emb, corpus_embeddings, top_k=top_k)[0]
         ids = [r['corpus_id'] for r in semantic_res]
         scores = [r['score'] for r in semantic_res]