Spaces:

nonzeroexit
/

AMP-Classifier

Running

App Files Files Community

nonzeroexit commited on Mar 8

Commit

a52fdd6

verified ·

1 Parent(s): 601b6fc

Update app.py

Browse files

Files changed (1) hide show

app.py +18 -19

app.py CHANGED Viewed

@@ -51,9 +51,14 @@ def extract_features(sequence):
         return "Error: Protein sequence must be longer than 9 amino acids to extract features (for lamda=9)."
     all_features_dict = {}
     dipeptide_features = AAComposition.CalculateAADipeptideComposition(sequence)
-    all_features_dict.update(dipeptide_features)
     auto_features = Autocorrelation.CalculateAutoTotal(sequence)
     all_features_dict.update(auto_features)
@@ -64,26 +69,20 @@ def extract_features(sequence):
     pseudo_features = PseudoAAC.GetAPseudoAAC(sequence, lamda=9)
     all_features_dict.update(pseudo_features)
-    # Create an ordered list of feature values based on selected_features
-    ordered_feature_values = []
-    missing_features = []
-    for feature_name in selected_features:
-        if feature_name in all_features_dict:
-            ordered_feature_values.append(all_features_dict[feature_name])
-        else:
-            missing_features.append(feature_name)
-            ordered_feature_values.append(0) # Pad with 0 for missing features - important for consistent input size
-    if missing_features:
-        print(f"Warning: The following features were missing from extraction and padded with 0: {missing_features}")
-    feature_array = np.array(ordered_feature_values).reshape(1, -1) # Reshape to (1, n_features) for single sample
-    normalized_features = scaler.transform(feature_array) # Normalize the ordered feature array
-    return normalized_features # Return the normalized features as a 2D numpy array
 def predict(sequence):

         return "Error: Protein sequence must be longer than 9 amino acids to extract features (for lamda=9)."
     all_features_dict = {}
+    # Calculate all dipeptide features
     dipeptide_features = AAComposition.CalculateAADipeptideComposition(sequence)
+    first_420_keys = list(dipeptide_features.keys())[:420]
+    filtered_dipeptide_features = {key: dipeptide_features[key] for key in first_420_keys}
+    all_features_dict.update(filtered_dipeptide_features)
     auto_features = Autocorrelation.CalculateAutoTotal(sequence)
     all_features_dict.update(auto_features)
     pseudo_features = PseudoAAC.GetAPseudoAAC(sequence, lamda=9)
     all_features_dict.update(pseudo_features)
+    feature_values = list(all_features_dict.values())
+    feature_array = np.array(feature_values).reshape(-1, 1)
+    normalized_features = scaler.transform(feature_array.T)
+    normalized_features = normalized_features.flatten()
+    selected_feature_dict = {}
+    for i, feature in enumerate(selected_features):
+        if feature in all_features_dict:
+            selected_feature_dict[feature] = normalized_features[i]
+    selected_feature_df = pd.DataFrame([selected_feature_dict])
+    selected_feature_array = selected_feature_df.T.to_numpy()
+    return selected_feature_array
 def predict(sequence):