Spaces:

joaocansi
/

autou

Running

joaocansi commited on May 23

Commit

4da7379

1 Parent(s): 2b87773

.

Files changed (2) hide show

app.py CHANGED Viewed

@@ -1,19 +1,25 @@
-import gradio as gr
-from sentence_transformers import SentenceTransformer
 from sklearn.ensemble import IsolationForest
 from tqdm import tqdm
 import numpy as np
-model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')
-embeddings = np.load("embeddings.npy")
-iso_forest = IsolationForest(contamination=0.1, random_state=42)
-iso_forest.fit(embeddings)
 def classify_email(text):
-    emb = model.encode([text])
-    pred = iso_forest.predict(emb)[0]
     return pred
 demo = gr.Interface(fn=classify_email, inputs="text", outputs="number")

+from transformers import BertTokenizer, BertModel, AutoTokenizer, AutoModel
 from sklearn.ensemble import IsolationForest
 from tqdm import tqdm
+import torch
+import gradio as gr
 import numpy as np
+tokenizer = AutoTokenizer.from_pretrained("neuralmind/bert-base-portuguese-cased")
+model = AutoModel.from_pretrained("neuralmind/bert-base-portuguese-cased")
+model.eval()
+data = np.load("x_train.npy")
+iso_forest = IsolationForest(contamination=0.1, random_state=42, n_jobs=-1, max_samples=256)
+iso_forest.fit(data)
 def classify_email(text):
+    with torch.no_grad():
+        inputs = tokenizer(text, return_tensors='pt', truncation=True, padding=True, max_length=256)
+        outputs = model(**inputs)
+        cls_embedding = outputs.last_hidden_state[:, 0, :].cpu().numpy()
+    pred = iso_forest.predict(cls_embedding)[0]
     return pred
 demo = gr.Interface(fn=classify_email, inputs="text", outputs="number")

embeddings.npy → x_train.npy RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1971a59671a0c4546b2560c5832eba022664f1750f03589302bbd4a15d439138
-size 10752128

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e72b681a0cee50f5ad491a23399302dc384fc7cdbe637c26337257dc959c98c
+size 11520128