Spaces:

yanyichu
/

IRES_Pred_Engineering

Running

App Files Files Community

a96123155 commited on Oct 13, 2023

Commit

82d4030

1 Parent(s): ad079a8

app

Browse files

Files changed (2) hide show

.DS_Store +0 -0
app.py +51 -52

.DS_Store CHANGED Viewed

Binary files a/.DS_Store and b/.DS_Store differ

app.py CHANGED Viewed

@@ -1,52 +1,81 @@
 import streamlit as st
 # Import necessary libraries
-import argparse
-import matplotlib
-import matplotlib.pyplot as plt
 import numpy as np
 import os
 import pandas as pd
-import pathlib
 import random
-import scanpy as sc
-import seaborn as sns
 import torch
 import torch.nn as nn
 import torch.nn.functional as F
-from argparse import Namespace
 from collections import Counter, OrderedDict
 from copy import deepcopy
 from esm import Alphabet, FastaBatchedDataset, ProteinBertModel, pretrained, MSATransformer
 from esm.data import *
 from esm.model.esm2 import ESM2
-from sklearn import preprocessing
-from sklearn.metrics import (confusion_matrix, roc_auc_score, auc,
-                             precision_recall_fscore_support,
-                             precision_recall_curve, classification_report,
-                             roc_auc_score, average_precision_score,
-                             precision_score, recall_score, f1_score,
-                             accuracy_score)
-from sklearn.model_selection import StratifiedKFold
-from sklearn.utils import class_weight
-from scipy.stats import spearmanr, pearsonr
 from torch import nn
 from torch.nn import Linear
 from torch.nn.utils.rnn import pad_sequence
 from torch.utils.data import Dataset, DataLoader
-from torch.optim import lr_scheduler
 from tqdm import tqdm, trange
 # Set global variables
-matplotlib.rcParams.update({'font.size': 7})
 seed = 19961231
 random.seed(seed)
 np.random.seed(seed)
 torch.manual_seed(seed)
-torch.cuda.manual_seed(seed)
-torch.backends.cudnn.deterministic = True
-torch.backends.cudnn.benchmark = False
 global idx_to_tok, prefix, epochs, layers, heads, fc_node, dropout_prob, embed_dim, batch_toks, device, repr_layers, evaluation, include, truncate, return_contacts, return_representation, mask_toks_id, finetune
@@ -499,36 +528,6 @@ def predict_raw(raw_input):
     # print(pred)
     return res_pd
-st.title("IRES-LM prediction and mutation")
-# Input sequence
-st.subheader("Input sequence")
-seq = st.text_area("FASTA format only", value="")
-st.subheader("Upload sequence file")
-uploaded = st.file_uploader("Sequence file in FASTA format")
-# augments
-global output_filename, start_nt_position, end_nt_position, mut_by_prob, transform_type, mlm_tok_num, n_mut, n_designs_ep, n_sampling_designs_ep, n_mlm_recovery_sampling, mutate2stronger
-output_filename = st.text_input("output a .csv file", value='IRES_LM_prediction_mutation')
-start_nt_position = st.number_input("The start position of the mutation of this sequence, the first position is defined as 0", value=0)
-end_nt_position = st.number_input("The last position of the mutation of this sequence, the last position is defined as length(sequence)-1 or -1", value=-1)
-mut_by_prob = st.checkbox("Mutated by predicted Probability or Transformed Probability of the sequence", value=True)
-transform_type = st.selectbox("Type of probability transformation",
-                              ['', 'sigmoid', 'logit', 'power_law', 'tanh'],
-                              index=2)
-mlm_tok_num = st.number_input("Number of masked tokens for each sequence per epoch", value=1)
-n_mut = st.number_input("Maximum number of mutations for each sequence", value=3)
-n_designs_ep = st.number_input("Number of mutations per epoch", value=10)
-n_sampling_designs_ep = st.number_input("Number of sampling mutations from n_designs_ep per epoch", value=5)
-n_mlm_recovery_sampling = st.number_input("Number of MLM recovery samplings (with AGCT recovery)", value=1)
-mutate2stronger = st.checkbox("Mutate to stronger IRES variant, otherwise mutate to weaker IRES", value=True)
-if not mut_by_prob and transform_type != '':
-    print("--transform_type must be '' when --mut_by_prob is False")
-    transform_type = ''
 # Run
 if st.button("Predict and Mutate"):
     if uploaded:

 import streamlit as st
+st.title("IRES-LM prediction and mutation")
+# Input sequence
+st.subheader("Input sequence")
+seq = st.text_area("FASTA format only", value="")
+st.subheader("Upload sequence file")
+uploaded = st.file_uploader("Sequence file in FASTA format")
+# augments
+global output_filename, start_nt_position, end_nt_position, mut_by_prob, transform_type, mlm_tok_num, n_mut, n_designs_ep, n_sampling_designs_ep, n_mlm_recovery_sampling, mutate2stronger
+output_filename = st.text_input("output a .csv file", value='IRES_LM_prediction_mutation')
+start_nt_position = st.number_input("The start position of the mutation of this sequence, the first position is defined as 0", value=0)
+end_nt_position = st.number_input("The last position of the mutation of this sequence, the last position is defined as length(sequence)-1 or -1", value=-1)
+mut_by_prob = st.checkbox("Mutated by predicted Probability or Transformed Probability of the sequence", value=True)
+transform_type = st.selectbox("Type of probability transformation",
+                              ['', 'sigmoid', 'logit', 'power_law', 'tanh'],
+                              index=2)
+mlm_tok_num = st.number_input("Number of masked tokens for each sequence per epoch", value=1)
+n_mut = st.number_input("Maximum number of mutations for each sequence", value=3)
+n_designs_ep = st.number_input("Number of mutations per epoch", value=10)
+n_sampling_designs_ep = st.number_input("Number of sampling mutations from n_designs_ep per epoch", value=5)
+n_mlm_recovery_sampling = st.number_input("Number of MLM recovery samplings (with AGCT recovery)", value=1)
+mutate2stronger = st.checkbox("Mutate to stronger IRES variant, otherwise mutate to weaker IRES", value=True)
+if not mut_by_prob and transform_type != '':
+    print("--transform_type must be '' when --mut_by_prob is False")
+    transform_type = ''
 # Import necessary libraries
+# import matplotlib
+# import matplotlib.pyplot as plt
 import numpy as np
 import os
 import pandas as pd
+# import pathlib
 import random
+# import scanpy as sc
+# import seaborn as sns
 import torch
 import torch.nn as nn
 import torch.nn.functional as F
+# from argparse import Namespace
 from collections import Counter, OrderedDict
 from copy import deepcopy
 from esm import Alphabet, FastaBatchedDataset, ProteinBertModel, pretrained, MSATransformer
 from esm.data import *
 from esm.model.esm2 import ESM2
+# from sklearn import preprocessing
+# from sklearn.metrics import (confusion_matrix, roc_auc_score, auc,
+#                              precision_recall_fscore_support,
+#                              precision_recall_curve, classification_report,
+#                              roc_auc_score, average_precision_score,
+#                              precision_score, recall_score, f1_score,
+#                              accuracy_score)
+# from sklearn.model_selection import StratifiedKFold
+# from sklearn.utils import class_weight
+# from scipy.stats import spearmanr, pearsonr
 from torch import nn
 from torch.nn import Linear
 from torch.nn.utils.rnn import pad_sequence
 from torch.utils.data import Dataset, DataLoader
 from tqdm import tqdm, trange
 # Set global variables
+# matplotlib.rcParams.update({'font.size': 7})
 seed = 19961231
 random.seed(seed)
 np.random.seed(seed)
 torch.manual_seed(seed)
+# torch.cuda.manual_seed(seed)
+# torch.backends.cudnn.deterministic = True
+# torch.backends.cudnn.benchmark = False
 global idx_to_tok, prefix, epochs, layers, heads, fc_node, dropout_prob, embed_dim, batch_toks, device, repr_layers, evaluation, include, truncate, return_contacts, return_representation, mask_toks_id, finetune
     # print(pred)
     return res_pd
 # Run
 if st.button("Predict and Mutate"):
     if uploaded: