Spaces:

nonzeroexit
/

AMP-Classifier

Sleeping

App Files Files Community

nonzeroexit commited on Mar 8

Commit

8319384

verified ·

1 Parent(s): aa6838a

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -11

app.py CHANGED Viewed

@@ -47,32 +47,32 @@ selected_features = [
 def extract_features(sequence):
     """Extract selected features and normalize them."""
-    if len(sequence) < 3:  # Ensure sequence is long enough
-        return None  # Return None if sequence is too short
     all_features_dict = {}
     dipeptide_features = AAComposition.CalculateAADipeptideComposition(sequence)
-    all_features_dict.update(dipeptide_features) # Use update instead of reassignment
     auto_features = Autocorrelation.CalculateAutoTotal(sequence)
-    all_features_dict.update(auto_features) # Use update
     ctd_features = CTD.CalculateCTD(sequence)
-    all_features_dict.update(ctd_features) # Use update
-    pseudo_features = PseudoAAC.GetAPseudoAAC(sequence)
-    all_features_dict.update(pseudo_features) # Use update
-    feature_values = list(all_features_dict.values()) # Use all_features_dict
     feature_array = np.array(feature_values).reshape(-1, 1)
     normalized_features = scaler.transform(feature_array.T)
     normalized_features = normalized_features.flatten()
     selected_feature_dict = {}
     for i, feature in enumerate(selected_features):
-        if feature in all_features_dict: # Use all_features_dict
             selected_feature_dict[feature] = normalized_features[i]
     selected_feature_df = pd.DataFrame([selected_feature_dict])
@@ -84,8 +84,8 @@ def extract_features(sequence):
 def predict(sequence):
     """Predicts whether the input sequence is an AMP."""
     features = extract_features(sequence)
-    if features is None:
-        return "Error: Could not extract features."
     prediction = model.predict(features)[0]
     probabilities = model.predict_proba(features)[0]

 def extract_features(sequence):
     """Extract selected features and normalize them."""
+    if len(sequence) <= 9:  # Ensure sequence is long enough for PseudoAAC with lamda=9
+        return "Error: Protein sequence must be longer than 9 amino acids to extract features (for lamda=9)."
     all_features_dict = {}
     dipeptide_features = AAComposition.CalculateAADipeptideComposition(sequence)
+    all_features_dict.update(dipeptide_features)
     auto_features = Autocorrelation.CalculateAutoTotal(sequence)
+    all_features_dict.update(auto_features)
     ctd_features = CTD.CalculateCTD(sequence)
+    all_features_dict.update(ctd_features)
+    pseudo_features = PseudoAAC.GetAPseudoAAC(sequence, lamda=9) # Set lamda=9
+    all_features_dict.update(pseudo_features)
+    feature_values = list(all_features_dict.values())
     feature_array = np.array(feature_values).reshape(-1, 1)
     normalized_features = scaler.transform(feature_array.T)
     normalized_features = normalized_features.flatten()
     selected_feature_dict = {}
     for i, feature in enumerate(selected_features):
+        if feature in all_features_dict:
             selected_feature_dict[feature] = normalized_features[i]
     selected_feature_df = pd.DataFrame([selected_feature_dict])
 def predict(sequence):
     """Predicts whether the input sequence is an AMP."""
     features = extract_features(sequence)
+    if isinstance(features, str) and features.startswith("Error:"): # Check if extract_features returned an error message
+        return features # Return the error message directly
     prediction = model.predict(features)[0]
     probabilities = model.predict_proba(features)[0]