Spaces:

nonzeroexit
/

AMP-Classifier

Running

App Files Files Community

nonzeroexit commited on Mar 7

Commit

e199881

verified ·

1 Parent(s): 472e9a6

Update app.py

Browse files

Files changed (1) hide show

app.py +58 -44

app.py CHANGED Viewed

@@ -2,66 +2,80 @@ import gradio as gr
 import joblib
 import numpy as np
 import pandas as pd
-from propy import AAComposition
 from sklearn.preprocessing import MinMaxScaler
-# Load trained model and scaler
-model = joblib.load("SVM.joblib")
 scaler = joblib.load("norm.joblib")
-# Selected features used in training
-selected_features = [
-    "A", "R", "N", "D", "C", "E", "Q", "G", "H", "I", "L", "K", "M", "F", "P", "S", "T", "W", "Y", "V",
-    "AA", "AR", "AN", "AD", "AC", "AE", "AQ", "AG", "AI", "AL", "AK", "AF", "AP", "AS", "AT", "AY", "AV",
-    "RA", "RR", "RN", "RD", "RC", "RE", "RQ", "RG", "RH", "RI", "RL", "RK", "RM", "RF", "RS", "RT", "RY", "RV",
-    "NA", "NR", "ND", "NC", "NE", "NG", "NI", "NL", "NK", "NP",
-    "DA", "DR", "DN", "DD", "DC", "DE", "DQ", "DG", "DI", "DL", "DK", "DP", "DS", "DT", "DV",
-    "CA", "CR", "CN", "CD", "CC", "CE", "CG", "CH", "CI", "CL", "CK", "CF", "CP", "CS", "CT", "CY", "CV",
-    "EA", "ER", "EN", "ED", "EC", "EE", "EQ", "EG", "EI", "EL", "EK", "EP", "ES", "ET", "EV",
-    "QA", "QR", "QC", "QG", "QL", "QK", "QP", "QT", "QV",
-    "GA", "GR", "GD", "GC", "GE", "GQ", "GG", "GI", "GL", "GK", "GF", "GP", "GS", "GW", "GY", "GV",
-    "HC", "HG", "HL", "HK", "HP",
-    "IA", "IR", "ID", "IC", "IE", "II", "IL", "IK", "IF", "IP", "IS", "IT", "IV",
-    "LA", "LR", "LN", "LD", "LC", "LE", "LQ", "LG", "LI", "LL", "LK", "LM", "LF", "LP", "LS", "LT", "LV",
-    "KA", "KR", "KN", "KD", "KC", "KE", "KQ", "KG", "KH", "KI", "KL", "KK", "KM", "KF", "KP", "KS", "KT", "KV",
-    "MA", "ME", "MI", "ML", "MK", "MF", "MP", "MS", "MT", "MV",
-    "FR", "FC", "FQ", "FG", "FI", "FL", "FF", "FS", "FT", "FY", "FV",
-    "PA", "PR", "PD", "PC", "PE", "PG", "PL", "PK", "PS", "PV",
-    "SA", "SR", "SD", "SC", "SE", "SG", "SH", "SI", "SL", "SK", "SF", "SP", "SS", "ST", "SY", "SV",
-    "TA", "TR", "TN", "TC", "TE", "TG", "TI", "TL", "TK", "TF", "TP", "TS", "TT", "TV",
-    "WC",
-    "YR", "YD", "YC", "YG", "YL", "YS", "YV",
-    "VA", "VR", "VD", "VC", "VE", "VQ", "VG", "VI", "VL", "VK", "VP", "VS", "VT", "VY", "VV"
 ]
 def extract_features(sequence):
-    """Extract selected features and normalize them."""
-    all_features = AAComposition.CalculateAADipeptideComposition(sequence)
-    feature_values = list(all_features.values())
-    feature_array = np.array(feature_values).reshape(-1, 1)
-    feature_array = feature_array[: 420]  # Ensure we only use 420 features
-    normalized_features = scaler.transform(feature_array.T)
-    normalized_features = normalized_features.flatten()
     # Select features that match training data
-    selected_feature_dict = {feature: normalized_features[i] for i, feature in enumerate(selected_features)
-                             if feature in all_features}
-    selected_feature_df = pd.DataFrame([selected_feature_dict])
-    selected_feature_array = selected_feature_df.T.to_numpy()
-    return selected_feature_array
 def predict(sequence):
     """Predict if the sequence is an AMP or not."""
     features = extract_features(sequence)
-    prediction = model.predict(features.T)[0]
-    probabilities = model.predict_proba(features.T)[0]
-    prob_amp = probabilities[0]
-    prob_non_amp = probabilities[1]
-    return f"⚡ {prob_amp * 100:.2f}% chance of being an Antimicrobial Peptide (AMP)" if prediction == 0 else f"❌ {prob_non_amp * 100:.2f}% chance of being Non-AMP"
-# Gradio interface
 iface = gr.Interface(
     fn=predict,
     inputs=gr.Textbox(label="Enter Protein Sequence"),

 import joblib
 import numpy as np
 import pandas as pd
+from propy import AAComposition, Autocorrelation, CTD, PseudoAAC
 from sklearn.preprocessing import MinMaxScaler
+model = joblib.load("RF.joblib")
 scaler = joblib.load("norm.joblib")
+selected_features =  [
+    "_SolventAccessibilityC3", "_SecondaryStrC1", "_SecondaryStrC3", "_ChargeC1", "_PolarityC1",
+    "_NormalizedVDWVC1", "_HydrophobicityC3", "_SecondaryStrT23", "_PolarizabilityD1001",
+    "_PolarizabilityD2001", "_PolarizabilityD3001", "_SolventAccessibilityD1001",
+    "_SolventAccessibilityD2001", "_SolventAccessibilityD3001", "_SecondaryStrD1001",
+    "_SecondaryStrD1075", "_SecondaryStrD2001", "_SecondaryStrD3001", "_ChargeD1001",
+    "_ChargeD1025", "_ChargeD2001", "_ChargeD3075", "_ChargeD3100", "_PolarityD1001",
+    "_PolarityD1050", "_PolarityD2001", "_PolarityD3001", "_NormalizedVDWVD1001",
+    "_NormalizedVDWVD2001", "_NormalizedVDWVD2025", "_NormalizedVDWVD2050", "_NormalizedVDWVD3001",
+    "_HydrophobicityD1001", "_HydrophobicityD2001", "_HydrophobicityD3001", "_HydrophobicityD3025",
+    "A", "R", "D", "C", "E", "Q", "H", "I", "M", "P", "Y", "V",
+    "AR", "AV", "RC", "RL", "RV", "CR", "CC", "CL", "CK", "EE", "EI", "EL",
+    "HC", "IA", "IL", "IV", "LA", "LC", "LE", "LI", "LT", "LV", "KC", "MA",
+    "MS", "SC", "TC", "TV", "YC", "VC", "VE", "VL", "VK", "VV",
+    "MoreauBrotoAuto_FreeEnergy30", "MoranAuto_Hydrophobicity2", "MoranAuto_Hydrophobicity4",
+    "GearyAuto_Hydrophobicity20", "GearyAuto_Hydrophobicity24", "GearyAuto_Hydrophobicity26",
+    "GearyAuto_Hydrophobicity27", "GearyAuto_Hydrophobicity28", "GearyAuto_Hydrophobicity29",
+    "GearyAuto_Hydrophobicity30", "GearyAuto_AvFlexibility22", "GearyAuto_AvFlexibility26",
+    "GearyAuto_AvFlexibility27", "GearyAuto_AvFlexibility28", "GearyAuto_AvFlexibility29",
+    "GearyAuto_AvFlexibility30", "GearyAuto_Polarizability22", "GearyAuto_Polarizability24",
+    "GearyAuto_Polarizability25", "GearyAuto_Polarizability27", "GearyAuto_Polarizability28",
+    "GearyAuto_Polarizability29", "GearyAuto_Polarizability30", "GearyAuto_FreeEnergy24",
+    "GearyAuto_FreeEnergy25", "GearyAuto_FreeEnergy30", "GearyAuto_ResidueASA21",
+    "GearyAuto_ResidueASA22", "GearyAuto_ResidueASA23", "GearyAuto_ResidueASA24",
+    "GearyAuto_ResidueASA30", "GearyAuto_ResidueVol21", "GearyAuto_ResidueVol24",
+    "GearyAuto_ResidueVol25", "GearyAuto_ResidueVol26", "GearyAuto_ResidueVol28",
+    "GearyAuto_ResidueVol29", "GearyAuto_ResidueVol30", "GearyAuto_Steric18",
+    "GearyAuto_Steric21", "GearyAuto_Steric26", "GearyAuto_Steric27", "GearyAuto_Steric28",
+    "GearyAuto_Steric29", "GearyAuto_Steric30", "GearyAuto_Mutability23", "GearyAuto_Mutability25",
+    "GearyAuto_Mutability26", "GearyAuto_Mutability27", "GearyAuto_Mutability28",
+    "GearyAuto_Mutability29", "GearyAuto_Mutability30", "APAAC1", "APAAC4", "APAAC5",
+    "APAAC6", "APAAC8", "APAAC9", "APAAC12", "APAAC13", "APAAC15", "APAAC18", "APAAC19",
+    "APAAC24"
 ]
 def extract_features(sequence):
+    aa_features = AAComposition.CalculateAADipeptideComposition(sequence)
+    auto_features = Autocorrelation.CalculateAutoTotal(sequence)
+    ctd_features = CTD.CalculateCTD(sequence)
+    pseaac_features = PseudoAAC.GetAPseudoAAC(sequence, lamda=9)
+    all_features = {**aa_features, **auto_features, **ctd_features, **pseaac_features}
+    # Convert to DataFrame
+    feature_df = pd.DataFrame([all_features])
     # Select features that match training data
+    feature_df = feature_df[selected_features]
+    # Normalize
+    normalized_features = scaler.transform(feature_df)
+    return normalized_features
 def predict(sequence):
     """Predict if the sequence is an AMP or not."""
     features = extract_features(sequence)
+    prediction = model.predict(features)[0]
+    probabilities = model.predict_proba(features)[0]
+    prob_amp = probabilities[0]
+    prob_non_amp = probabilities[1]
+    return f"{prob_amp * 100:.2f}% chance of being an Antimicrobial Peptide (AMP)" if prediction == 0 else f"{prob_non_amp * 100:.2f}% chance of being Non-AMP"
 iface = gr.Interface(
     fn=predict,
     inputs=gr.Textbox(label="Enter Protein Sequence"),