Spaces:

nonzeroexit
/

AMP-Classifier

Sleeping

nonzeroexit commited on Mar 7

Commit

a359627

verified ·

1 Parent(s): ccb89be

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -54,18 +54,25 @@ def extract_features(sequence):
     ctd_features = CTD.CalculateCTD(sequence)
     try:
-        pseudo_features = PseudoAAC.GetAPseudoAAC(sequence)  # May cause ZeroDivisionError
     except ZeroDivisionError:
-        pseudo_features = {}  # Ignore if it fails
     all_features = {**auto_features, **ctd_features, **pseudo_features, **dipeptide_features}
-    all_features = list(all_features.values())
-    all_features = np.array(all_features).reshape(-1, 1)  # Correct shape
-    normalized_features = scaler.transform(all_features.T)
-    normalized_features = normalized_features.flatten()
-    selected_feature_dict = {feature: normalized_features[i] for i, feature in enumerate(selected_features) if feature in all_features}
     selected_feature_df = pd.DataFrame([selected_feature_dict])
     selected_feature_array = selected_feature_df.T.to_numpy()

     ctd_features = CTD.CalculateCTD(sequence)
     try:
+        pseudo_features = PseudoAAC.GetAPseudoAAC(sequence)
     except ZeroDivisionError:
+        pseudo_features = {}  # Ignore PseudoAAC features if they fail
     all_features = {**auto_features, **ctd_features, **pseudo_features, **dipeptide_features}
+    # Ensure we only keep features that were used during scaler training
+    feature_names = list(all_features.keys())  # Extracted feature names
+    feature_values = np.array(list(all_features.values())).reshape(1, -1)  # Reshape for scaler
+    if feature_values.shape[1] != 145:  # Check expected feature count
+        print(f"Warning: Extracted {feature_values.shape[1]} features, expected 145. Skipping normalization.")
+        return None  # Skip this sequence
+    # Normalize the feature values
+    normalized_features = scaler.transform(feature_values)
+    normalized_features = normalized_features.flatten()
+    selected_feature_dict = {feature_names[i]: normalized_features[i] for i in range(len(feature_names))}
     selected_feature_df = pd.DataFrame([selected_feature_dict])
     selected_feature_array = selected_feature_df.T.to_numpy()