Spaces:

nonzeroexit
/

AMP-Classifier

Running

App Files Files Community

AMP-Classifier / app.py

nonzeroexit

Update app.py

c63f76d verified 4 months ago

raw

history blame

5.01 kB

	import gradio as gr
	import joblib
	import numpy as np
	import pandas as pd
	from propy import AAComposition, Autocorrelation, CTD, PseudoAAC
	from sklearn.preprocessing import MinMaxScaler

	# Load model and scaler
	model = joblib.load("RF.joblib")
	scaler = joblib.load("norm (1).joblib")

	# Feature list (KEEP THIS CONSISTENT)
	selected_features = [
	"_SolventAccessibilityC3", "_SecondaryStrC1", "_SecondaryStrC3", "_ChargeC1", "_PolarityC1",
	"_NormalizedVDWVC1", "_HydrophobicityC3", "_SecondaryStrT23", "_PolarizabilityD1001",
	"_PolarizabilityD2001", "_PolarizabilityD3001", "_SolventAccessibilityD1001",
	"_SolventAccessibilityD2001", "_SolventAccessibilityD3001", "_SecondaryStrD1001",
	"_SecondaryStrD1075", "_SecondaryStrD2001", "_SecondaryStrD3001", "_ChargeD1001",
	"_ChargeD1025", "_ChargeD2001", "_ChargeD3075", "_ChargeD3100", "_PolarityD1001",
	"_PolarityD1050", "_PolarityD2001", "_PolarityD3001", "_NormalizedVDWVD1001",
	"_NormalizedVDWVD2001", "_NormalizedVDWVD2025", "_NormalizedVDWVD2050", "_NormalizedVDWVD3001",
	"_HydrophobicityD1001", "_HydrophobicityD2001", "_HydrophobicityD3001", "_HydrophobicityD3025",
	"A", "R", "D", "C", "E", "Q", "H", "I", "M", "P", "Y", "V",
	"AR", "AV", "RC", "RL", "RV", "CR", "CC", "CL", "CK", "EE", "EI", "EL",
	"HC", "IA", "IL", "IV", "LA", "LC", "LE", "LI", "LT", "LV", "KC", "MA",
	"MS", "SC", "TC", "TV", "YC", "VC", "VE", "VL", "VK", "VV",
	"MoreauBrotoAuto_FreeEnergy30", "MoranAuto_Hydrophobicity2", "MoranAuto_Hydrophobicity4",
	"GearyAuto_Hydrophobicity20", "GearyAuto_Hydrophobicity24", "GearyAuto_Hydrophobicity26",
	"GearyAuto_Hydrophobicity27", "GearyAuto_Hydrophobicity28", "GearyAuto_Hydrophobicity29",
	"GearyAuto_Hydrophobicity30", "GearyAuto_AvFlexibility22", "GearyAuto_AvFlexibility26",
	"GearyAuto_AvFlexibility27", "GearyAuto_AvFlexibility28", "GearyAuto_AvFlexibility29",
	"GearyAuto_AvFlexibility30", "GearyAuto_Polarizability22", "GearyAuto_Polarizability24",
	"GearyAuto_Polarizability25", "GearyAuto_Polarizability27", "GearyAuto_Polarizability28",
	"GearyAuto_Polarizability29", "GearyAuto_Polarizability30", "GearyAuto_FreeEnergy24",
	"GearyAuto_FreeEnergy25", "GearyAuto_FreeEnergy30", "GearyAuto_ResidueASA21",
	"GearyAuto_ResidueASA22", "GearyAuto_ResidueASA23", "GearyAuto_ResidueASA24",
	"GearyAuto_ResidueASA30", "GearyAuto_ResidueVol21", "GearyAuto_ResidueVol24",
	"GearyAuto_ResidueVol25", "GearyAuto_ResidueVol26", "GearyAuto_ResidueVol28",
	"GearyAuto_ResidueVol29", "GearyAuto_ResidueVol30", "GearyAuto_Steric18",
	"GearyAuto_Steric21", "GearyAuto_Steric26", "GearyAuto_Steric27", "GearyAuto_Steric28",
	"GearyAuto_Steric29", "GearyAuto_Steric30", "GearyAuto_Mutability23", "GearyAuto_Mutability25",
	"GearyAuto_Mutability26", "GearyAuto_Mutability27", "GearyAuto_Mutability28",
	"GearyAuto_Mutability29", "GearyAuto_Mutability30", "APAAC1", "APAAC4", "APAAC5",
	"APAAC6", "APAAC8", "APAAC9", "APAAC12", "APAAC13", "APAAC15", "APAAC18", "APAAC19",
	"APAAC24"
	]

	def extract_features(sequence):
	if len(sequence) < 3: # Ensure sequence is long enough
	return None # Return None if sequence is too short

	dipeptide_features = AAComposition.CalculateAADipeptideComposition(sequence)
	auto_features = Autocorrelation.CalculateAutoTotal(sequence)
	ctd_features = CTD.CalculateCTD(sequence)

	try:
	pseudo_features = PseudoAAC.GetAPseudoAAC(sequence) # May cause ZeroDivisionError
	except ZeroDivisionError:
	pseudo_features = {} # Ignore if it fails

	all_features = {auto_features, ctd_features, pseudo_features, dipeptide_features}
	all_features = list(all_features.values())
	all_features = np.array(all_features).reshape(-1, 1) # Correct shape

	normalized_features = scaler.transform(all_features.T)
	normalized_features = normalized_features.flatten()

	selected_feature_dict = {feature: normalized_features[i] for i, feature in enumerate(selected_features) if feature in all_features}
	selected_feature_df = pd.DataFrame([selected_feature_dict])
	selected_feature_array = selected_feature_df.T.to_numpy()

	return selected_feature_array





	def predict(sequence):
	"""Predicts whether the input sequence is an AMP."""
	features = extract_features(sequence)
	if features is None:
	return "Error: Could not extract features."

	prediction = model.predict(features)[0]
	probabilities = model.predict_proba(features)[0]

	if prediction == 0:
	return f"{probabilities[0] * 100:.2f}% chance of being an Antimicrobial Peptide (AMP)"
	else:
	return f"{probabilities[1] * 100:.2f}% chance of being Non-AMP"

	# Gradio interface
	iface = gr.Interface(
	fn=predict,
	inputs=gr.Textbox(label="Enter Protein Sequence"),
	outputs=gr.Label(label="Prediction"),
	title="AMP Classifier",
	description="Enter an amino acid sequence (e.g., FLPVLAGGL) to predict AMP."
	)

	iface.launch(share=True)