Spaces:

joaocansi
/

autou

Sleeping

joaocansi commited on May 23

Commit

14d2797

1 Parent(s): 4105ca8

feat: add embedding.npy file

Files changed (2) hide show

app.py CHANGED Viewed

@@ -1,25 +1,20 @@
-from transformers import BertTokenizer, BertModel, AutoTokenizer, AutoModel
 from sklearn.ensemble import IsolationForest
 from tqdm import tqdm
-import torch
-import gradio as gr
 import numpy as np
-tokenizer = AutoTokenizer.from_pretrained("neuralmind/bert-base-portuguese-cased")
-model = AutoModel.from_pretrained("neuralmind/bert-base-portuguese-cased")
-model.eval()
-data = np.load("data.npy")
 iso_forest = IsolationForest(contamination=0.1, random_state=42)
-iso_forest.fit(data)
 def classify_email(text):
-    with torch.no_grad():
-        inputs = tokenizer(text, return_tensors='pt', truncation=True, padding=True, max_length=256)
-        outputs = model(**inputs)
-        cls_embedding = outputs.last_hidden_state[:, 0, :].cpu().numpy()
-    pred = iso_forest.predict(cls_embedding)[0]
     return pred
 demo = gr.Interface(fn=classify_email, inputs="text", outputs="number")

+import gradio as gr
+from sentence_transformers import SentenceTransformer
 from sklearn.ensemble import IsolationForest
 from tqdm import tqdm
+import pandas as pd
 import numpy as np
+model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')
+embeddings = np.load("embeddings.npy")
 iso_forest = IsolationForest(contamination=0.1, random_state=42)
+iso_forest.fit(embeddings)
 def classify_email(text):
+    emb = model.encode([text])
+    pred = iso_forest.predict(emb)[0]
     return pred
 demo = gr.Interface(fn=classify_email, inputs="text", outputs="number")

data.npy → embeddings.npy RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1e72b681a0cee50f5ad491a23399302dc384fc7cdbe637c26337257dc959c98c
-size 11520128

 version https://git-lfs.github.com/spec/v1
+oid sha256:1971a59671a0c4546b2560c5832eba022664f1750f03589302bbd4a15d439138
+size 10752128