Spaces:

nonzeroexit
/

AMP-Classifier

Running

App Files Files Community

AMP-Classifier / app.py

nonzeroexit

Update app.py

aa6838a verified 4 months ago

raw

history blame

5.22 kB

	import gradio as gr
	import joblib
	import numpy as np
	import pandas as pd
	from propy import AAComposition, Autocorrelation, CTD, PseudoAAC
	from sklearn.preprocessing import MinMaxScaler

	# Load model and scaler
	model = joblib.load("RF.joblib")
	scaler = joblib.load("norm (1).joblib")

	# Feature list (KEEP THIS CONSISTENT)
	selected_features = [
	"_SolventAccessibilityC3", "_SecondaryStrC1", "_SecondaryStrC3", "_ChargeC1", "_PolarityC1",
	"_NormalizedVDWVC1", "_HydrophobicityC3", "_SecondaryStrT23", "_PolarizabilityD1001",
	"_PolarizabilityD2001", "_PolarizabilityD3001", "_SolventAccessibilityD1001",
	"_SolventAccessibilityD2001", "_SolventAccessibilityD3001", "_SecondaryStrD1001",
	"_SecondaryStrD1075", "_SecondaryStrD2001", "_SecondaryStrD3001", "_ChargeD1001",
	"_ChargeD1025", "_ChargeD2001", "_ChargeD3075", "_ChargeD3100", "_PolarityD1001",
	"_PolarityD1050", "_PolarityD2001", "_PolarityD3001", "_NormalizedVDWVD1001",
	"_NormalizedVDWVD2001", "_NormalizedVDWVD2025", "_NormalizedVDWVD2050", "_NormalizedVDWVD3001",
	"_HydrophobicityD1001", "_HydrophobicityD2001", "_HydrophobicityD3001", "_HydrophobicityD3025",
	"A", "R", "D", "C", "E", "Q", "H", "I", "M", "P", "Y", "V",
	"AR", "AV", "RC", "RL", "RV", "CR", "CC", "CL", "CK", "EE", "EI", "EL",
	"HC", "IA", "IL", "IV", "LA", "LC", "LE", "LI", "LT", "LV", "KC", "MA",
	"MS", "SC", "TC", "TV", "YC", "VC", "VE", "VL", "VK", "VV",
	"MoreauBrotoAuto_FreeEnergy30", "MoranAuto_Hydrophobicity2", "MoranAuto_Hydrophobicity4",
	"GearyAuto_Hydrophobicity20", "GearyAuto_Hydrophobicity24", "GearyAuto_Hydrophobicity26",
	"GearyAuto_Hydrophobicity27", "GearyAuto_Hydrophobicity28", "GearyAuto_Hydrophobicity29",
	"GearyAuto_Hydrophobicity30", "GearyAuto_AvFlexibility22", "GearyAuto_AvFlexibility26",
	"GearyAuto_AvFlexibility27", "GearyAuto_AvFlexibility28", "GearyAuto_AvFlexibility29",
	"GearyAuto_AvFlexibility30", "GearyAuto_Polarizability22", "GearyAuto_Polarizability24",
	"GearyAuto_Polarizability25", "GearyAuto_Polarizability27", "GearyAuto_Polarizability28",
	"GearyAuto_Polarizability29", "GearyAuto_Polarizability30", "GearyAuto_FreeEnergy24",
	"GearyAuto_FreeEnergy25", "GearyAuto_FreeEnergy30", "GearyAuto_ResidueASA21",
	"GearyAuto_ResidueASA22", "GearyAuto_ResidueASA23", "GearyAuto_ResidueASA24",
	"GearyAuto_ResidueASA30", "GearyAuto_ResidueVol21", "GearyAuto_ResidueVol24",
	"GearyAuto_ResidueVol25", "GearyAuto_ResidueVol26", "GearyAuto_ResidueVol28",
	"GearyAuto_ResidueVol29", "GearyAuto_ResidueVol30", "GearyAuto_Steric18",
	"GearyAuto_Steric21", "GearyAuto_Steric26", "GearyAuto_Steric27", "GearyAuto_Steric28",
	"GearyAuto_Steric29", "GearyAuto_Steric30", "GearyAuto_Mutability23", "GearyAuto_Mutability25",
	"GearyAuto_Mutability26", "GearyAuto_Mutability27", "GearyAuto_Mutability28",
	"GearyAuto_Mutability29", "GearyAuto_Mutability30", "APAAC1", "APAAC4", "APAAC5",
	"APAAC6", "APAAC8", "APAAC9", "APAAC12", "APAAC13", "APAAC15", "APAAC18", "APAAC19",
	"APAAC24"
	]

	def extract_features(sequence):
	"""Extract selected features and normalize them."""
	if len(sequence) < 3: # Ensure sequence is long enough
	return None # Return None if sequence is too short

	all_features_dict = {}

	dipeptide_features = AAComposition.CalculateAADipeptideComposition(sequence)
	all_features_dict.update(dipeptide_features) # Use update instead of reassignment

	auto_features = Autocorrelation.CalculateAutoTotal(sequence)
	all_features_dict.update(auto_features) # Use update

	ctd_features = CTD.CalculateCTD(sequence)
	all_features_dict.update(ctd_features) # Use update

	pseudo_features = PseudoAAC.GetAPseudoAAC(sequence)
	all_features_dict.update(pseudo_features) # Use update


	feature_values = list(all_features_dict.values()) # Use all_features_dict
	feature_array = np.array(feature_values).reshape(-1, 1)
	normalized_features = scaler.transform(feature_array.T)
	normalized_features = normalized_features.flatten()

	selected_feature_dict = {}
	for i, feature in enumerate(selected_features):
	if feature in all_features_dict: # Use all_features_dict
	selected_feature_dict[feature] = normalized_features[i]

	selected_feature_df = pd.DataFrame([selected_feature_dict])
	selected_feature_array = selected_feature_df.T.to_numpy()

	return selected_feature_array


	def predict(sequence):
	"""Predicts whether the input sequence is an AMP."""
	features = extract_features(sequence)
	if features is None:
	return "Error: Could not extract features."

	prediction = model.predict(features)[0]
	probabilities = model.predict_proba(features)[0]

	if prediction == 0:
	return f"{probabilities[0] * 100:.2f}% chance of being an Antimicrobial Peptide (AMP)"
	else:
	return f"{probabilities[1] * 100:.2f}% chance of being Non-AMP"

	# Gradio interface
	iface = gr.Interface(
	fn=predict,
	inputs=gr.Textbox(label="Enter Protein Sequence"),
	outputs=gr.Label(label="Prediction"),
	title="AMP Classifier",
	description="Enter an amino acid sequence (e.g., FLPVLAGGL) to predict AMP."
	)

	iface.launch(share=True)