Spaces:

nonzeroexit
/

AMP-Classifier

Running

App Files Files Community

nonzeroexit commited on Mar 8

Commit

7d97f16

verified ·

1 Parent(s): 8319384

Update app.py

Browse files

Files changed (1) hide show

app.py +21 -16

app.py CHANGED Viewed

@@ -46,8 +46,8 @@ selected_features = [
 ]
 def extract_features(sequence):
-    """Extract selected features and normalize them."""
-    if len(sequence) <= 9:  # Ensure sequence is long enough for PseudoAAC with lamda=9
         return "Error: Protein sequence must be longer than 9 amino acids to extract features (for lamda=9)."
     all_features_dict = {}
@@ -61,31 +61,36 @@ def extract_features(sequence):
     ctd_features = CTD.CalculateCTD(sequence)
     all_features_dict.update(ctd_features)
-    pseudo_features = PseudoAAC.GetAPseudoAAC(sequence, lamda=9) # Set lamda=9
     all_features_dict.update(pseudo_features)
-    feature_values = list(all_features_dict.values())
-    feature_array = np.array(feature_values).reshape(-1, 1)
-    normalized_features = scaler.transform(feature_array.T)
-    normalized_features = normalized_features.flatten()
-    selected_feature_dict = {}
-    for i, feature in enumerate(selected_features):
-        if feature in all_features_dict:
-            selected_feature_dict[feature] = normalized_features[i]
-    selected_feature_df = pd.DataFrame([selected_feature_dict])
-    selected_feature_array = selected_feature_df.T.to_numpy()
-    return selected_feature_array
 def predict(sequence):
     """Predicts whether the input sequence is an AMP."""
     features = extract_features(sequence)
-    if isinstance(features, str) and features.startswith("Error:"): # Check if extract_features returned an error message
-        return features # Return the error message directly
     prediction = model.predict(features)[0]
     probabilities = model.predict_proba(features)[0]

 ]
 def extract_features(sequence):
+    """Extract selected features, ensure order matches trained features, and normalize them."""
+    if len(sequence) <= 9:
         return "Error: Protein sequence must be longer than 9 amino acids to extract features (for lamda=9)."
     all_features_dict = {}
     ctd_features = CTD.CalculateCTD(sequence)
     all_features_dict.update(ctd_features)
+    pseudo_features = PseudoAAC.GetAPseudoAAC(sequence, lamda=9)
     all_features_dict.update(pseudo_features)
+    # Create an ordered list of feature values based on selected_features
+    ordered_feature_values = []
+    missing_features = []
+    for feature_name in selected_features:
+        if feature_name in all_features_dict:
+            ordered_feature_values.append(all_features_dict[feature_name])
+        else:
+            missing_features.append(feature_name)
+            ordered_feature_values.append(0) # Pad with 0 for missing features - important for consistent input size
+    if missing_features:
+        print(f"Warning: The following features were missing from extraction and padded with 0: {missing_features}")
+    feature_array = np.array(ordered_feature_values).reshape(1, -1) # Reshape to (1, n_features) for single sample
+    normalized_features = scaler.transform(feature_array) # Normalize the ordered feature array
+    return normalized_features # Return the normalized features as a 2D numpy array
 def predict(sequence):
     """Predicts whether the input sequence is an AMP."""
     features = extract_features(sequence)
+    if isinstance(features, str) and features.startswith("Error:"):
+        return features
     prediction = model.predict(features)[0]
     probabilities = model.predict_proba(features)[0]