Spaces:

liujch1998
/

vera

Runtime error

App Files Files Community

liujch1998 commited on Apr 18, 2023

Commit

8185fe8

1 Parent(s): 8aa36ac

Add logging

Browse files

Files changed (2) hide show

app.py +64 -30
requirements.txt +2 -1

app.py CHANGED Viewed

@@ -2,48 +2,82 @@ import gradio as gr
 import os
 import torch
 import transformers
 import shutil
-stat = shutil.disk_usage('/home/user/app')
-print('Disk usage:')
-print(stat)
-import os
-# execute a shell command and print its output
-print(os.popen('df -h').read())
-print(os.popen('du -sh ~').read())
 device = torch.device('cuda') if torch.cuda.is_available() else torch.device('cpu')
 class Interactive:
     def __init__(self):
-        self.tokenizer = transformers.AutoTokenizer.from_pretrained('liujch1998/cd-pi', use_auth_token=os.environ['HF_TOKEN_DOWNLOAD'])
-        self.model = transformers.T5EncoderModel.from_pretrained('liujch1998/cd-pi', use_auth_token=os.environ['HF_TOKEN_DOWNLOAD']).to(device)
-        self.linear = torch.nn.Linear(self.model.shared.embedding_dim, 1).to(device)
-        self.linear.weight = torch.nn.Parameter(self.model.shared.weight[32099, :].unsqueeze(0)) # (1, D)
-        self.linear.bias = torch.nn.Parameter(self.model.shared.weight[32098, 0].unsqueeze(0)) # (1)
-        self.model.eval()
-        self.t = self.model.shared.weight[32097, 0].item()
     def run(self, statement):
-        input_ids = self.tokenizer.batch_encode_plus([statement], return_tensors='pt', padding='longest').input_ids.to(device)
-        with torch.no_grad():
-            output = self.model(input_ids)
-            last_hidden_state = output.last_hidden_state.to(device) # (B=1, L, D)
-            hidden = last_hidden_state[0, -1, :] # (D)
-            logit = self.linear(hidden).squeeze(-1) # ()
-            logit_calibrated = logit / self.t
-            score = logit.sigmoid()
-            score_calibrated = logit_calibrated.sigmoid()
         return {
-            'logit': logit.item(),
-            'logit_calibrated': logit_calibrated.item(),
-            'score': score.item(),
-            'score_calibrated': score_calibrated.item(),
         }
 interactive = Interactive()
-def predict(statement, model):
     result = interactive.run(statement)
     return {
         'True': result['score_calibrated'],
         'False': 1 - result['score_calibrated'],
@@ -113,14 +147,14 @@ examples = [
 ]
 input_statement = gr.Dropdown(choices=examples, label='Statement:')
-input_model = gr.Textbox(label='Commonsense statement verification model:', value='liujch1998/cd-pi', interactive=False)
 output = gr.outputs.Label(num_top_classes=2)
 description = '''This is a demo for a commonsense statement verification model. Under development.'''
 gr.Interface(
     fn=predict,
-    inputs=[input_statement, input_model],
     outputs=output,
     title="cd-pi Demo",
     description=description,

 import os
 import torch
 import transformers
+import huggingface_hub
+import datetime
+import json
 import shutil
 device = torch.device('cuda') if torch.cuda.is_available() else torch.device('cpu')
+HF_TOKEN_DOWNLOAD = os.environ['HF_TOKEN_DOWNLOAD']
+HF_TOKEN_UPLOAD = os.environ['HF_TOKEN_UPLOAD']
+MODEL_NAME = 'liujch1998/cd-pi'
+DATASET_REPO_URL = "https://huggingface.co/datasets/liujch1998/cd-pi-dataset"
+DATA_DIR = 'data'
+DATA_PATH = os.path.join(DATA_DIR, 'data.jsonl')
+try:
+    shutil.rmtree(DATA_DIR)
+except:
+    pass
+repo = huggingface_hub.Repository(
+    local_dir=DATA_DIR,
+    clone_from=DATASET_REPO_URL,
+    use_auth_token=HF_TOKEN_DOWNLOAD,
+)
+repo.git_pull()
 class Interactive:
     def __init__(self):
+        self.tokenizer = transformers.AutoTokenizer.from_pretrained(MODEL_NAME, use_auth_token=HF_TOKEN_DOWNLOAD)
+        # self.model = transformers.T5EncoderModel.from_pretrained(MODEL_NAME, use_auth_token=HF_TOKEN_DOWNLOAD, low_cpu_mem_usage=True, device_map='auto', torch_dtype='auto')
+        # self.linear = torch.nn.Linear(self.model.shared.embedding_dim, 1).to(device)
+        # self.linear.weight = torch.nn.Parameter(self.model.shared.weight[32099, :].unsqueeze(0)) # (1, D)
+        # self.linear.bias = torch.nn.Parameter(self.model.shared.weight[32098, 0].unsqueeze(0)) # (1)
+        # self.model.eval()
+        # self.t = self.model.shared.weight[32097, 0].item()
     def run(self, statement):
+        # input_ids = self.tokenizer.batch_encode_plus([statement], return_tensors='pt', padding='longest').input_ids.to(device)
+        # with torch.no_grad():
+        #     output = self.model(input_ids)
+        #     last_hidden_state = output.last_hidden_state.to(device) # (B=1, L, D)
+        #     hidden = last_hidden_state[0, -1, :] # (D)
+        #     logit = self.linear(hidden).squeeze(-1) # ()
+        #     logit_calibrated = logit / self.t
+        #     score = logit.sigmoid()
+        #     score_calibrated = logit_calibrated.sigmoid()
+        # return {
+        #     'logit': logit.item(),
+        #     'logit_calibrated': logit_calibrated.item(),
+        #     'score': score.item(),
+        #     'score_calibrated': score_calibrated.item(),
+        # }
         return {
+            'logit': 0.0,
+            'logit_calibrated': 0.0,
+            'score': 0.5,
+            'score_calibrated': 0.5,
         }
 interactive = Interactive()
+def predict(statement):
     result = interactive.run(statement)
+    with open(DATA_PATH, 'a') as f:
+        row = {
+            'timestamp': datetime.datetime.now().strftime('%Y%m%d-%H%M%S'),
+            'statement': statement,
+            'logit': result['logit'],
+            'logit_calibrated': result['logit_calibrated'],
+            'score': result['score'],
+            'score_calibrated': result['score_calibrated'],
+        }
+        json.dump(row, f, ensure_ascii=False)
+        f.write('\n')
+    commit_url = repo.push_to_hub()
+    print(commit_url)
     return {
         'True': result['score_calibrated'],
         'False': 1 - result['score_calibrated'],
 ]
 input_statement = gr.Dropdown(choices=examples, label='Statement:')
+input_model = gr.Textbox(label='Commonsense statement verification model:', value=MODEL_NAME, interactive=False)
 output = gr.outputs.Label(num_top_classes=2)
 description = '''This is a demo for a commonsense statement verification model. Under development.'''
 gr.Interface(
     fn=predict,
+    inputs=[input_statement],
     outputs=output,
     title="cd-pi Demo",
     description=description,

requirements.txt CHANGED Viewed

@@ -1,4 +1,5 @@
 torch==1.13.1
 transformers==4.23.1
 tokenizers==0.13.2
-sentencepiece==0.1.96

 torch==1.13.1
 transformers==4.23.1
 tokenizers==0.13.2
+sentencepiece==0.1.96
+huggingface_hub