Spaces:

nonzeroexit
/

AMP-Classifier

Running

nonzeroexit commited on Mar 8

Commit

f3b700a

verified ·

1 Parent(s): fb0b33c

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -49,13 +49,10 @@ def extract_features(sequence):
     all_features_dict = {}
-    # Calculate all dipeptide features
     dipeptide_features = AAComposition.CalculateAADipeptideComposition(sequence)
-    # Add all dipeptide features
     all_features_dict.update(dipeptide_features)
     auto_features = Autocorrelation.CalculateAutoTotal(sequence)
     all_features_dict.update(auto_features)
@@ -65,23 +62,20 @@ def extract_features(sequence):
     pseudo_features = PseudoAAC.GetAPseudoAAC(sequence, lamda=9)
     all_features_dict.update(pseudo_features)
-    # Convert feature dictionary to DataFrame, handling missing features
-    feature_df = pd.DataFrame([all_features_dict])
-    # Select features and handle missing columns
-    feature_df_selected = feature_df[selected_features].copy() # Use .copy() to avoid SettingWithCopyWarning
-    # Fill missing features with 0 (or another appropriate value)
-    feature_df_selected = feature_df_selected.fillna(0)
-    feature_array = feature_df_selected.values # Get numpy array directly
-    # Normalize the features
-    normalized_features = scaler.transform(feature_array)
-    return normalized_features
 def predict(sequence):

     all_features_dict = {}
+    # Calculate all features
     dipeptide_features = AAComposition.CalculateAADipeptideComposition(sequence)
     all_features_dict.update(dipeptide_features)
     auto_features = Autocorrelation.CalculateAutoTotal(sequence)
     all_features_dict.update(auto_features)
     pseudo_features = PseudoAAC.GetAPseudoAAC(sequence, lamda=9)
     all_features_dict.update(pseudo_features)
+    # Convert all features to DataFrame
+    feature_df_all = pd.DataFrame([all_features_dict])
+    # Normalize ALL features
+    normalized_feature_array = scaler.transform(feature_df_all.values) # Normalize the numpy array
+    normalized_feature_df = pd.DataFrame(normalized_feature_array, columns=feature_df_all.columns) # Convert back to DataFrame with original column names
+    # Select features AFTER normalization
+    feature_df_selected = normalized_feature_df[selected_features].copy()
+    feature_df_selected = feature_df_selected.fillna(0) # Fill missing if any after selection (though unlikely now)
+    feature_array = feature_df_selected.values
+    return feature_array
 def predict(sequence):