abdev-leaderboard

Running

App Files Files Community

pquintero commited on Aug 1

Commit

4d9df8e

1 Parent(s): 58d937b

validate antibody names

Browse files

Files changed (5) hide show

constants.py +2 -2
data/antibody_names.csv +138 -0
test/conftest.py +2 -6
test/test_validation.py +20 -17
validation.py +16 -6

constants.py CHANGED Viewed

@@ -4,7 +4,7 @@ Constants for the Antibody Developability Benchmark
 import os
 from huggingface_hub import HfApi
 ASSAY_LIST = ["AC-SINS_pH7.4", "PR_CHO", "HIC", "Tm2", "Titer"]
 ASSAY_RENAME = {
@@ -32,11 +32,11 @@ ASSAY_EMOJIS = {
 # Input CSV file requirements
 MINIMAL_NUMBER_OF_ROWS: int = 50
 REQUIRED_COLUMNS: list[str] = [
-    "antibody_id",
     "antibody_name",
     "vh_protein_sequence",
     "vl_protein_sequence",
 ] + ASSAY_LIST
 # Huggingface API
 TOKEN = os.environ.get("HF_TOKEN")

 import os
 from huggingface_hub import HfApi
+import pandas as pd
 ASSAY_LIST = ["AC-SINS_pH7.4", "PR_CHO", "HIC", "Tm2", "Titer"]
 ASSAY_RENAME = {
 # Input CSV file requirements
 MINIMAL_NUMBER_OF_ROWS: int = 50
 REQUIRED_COLUMNS: list[str] = [
     "antibody_name",
     "vh_protein_sequence",
     "vl_protein_sequence",
 ] + ASSAY_LIST
+ANTIBODY_NAMES = pd.read_csv("data/antibody_names.csv")["antibody_name"].tolist()
 # Huggingface API
 TOKEN = os.environ.get("HF_TOKEN")

data/antibody_names.csv ADDED Viewed

	@@ -0,0 +1,138 @@

+antibody_name
+abituzumab
+abrilumab
+adalimumab
+alemtuzumab
+alirocumab
+anifrolumab
+atezolizumab
+bapineuzumab
+basiliximab
+bavituximab
+belimumab
+benralizumab
+bevacizumab
+bimagrumab
+blosozumab
+bococizumab
+brentuximab
+briakinumab
+brodalumab
+canakinumab
+carlumab
+certolizumab
+cetuximab
+cixutumumab
+clazakizumab
+codrituzumab
+crenezumab
+dacetuzumab
+daclizumab
+dalotuzumab
+daratumumab
+denosumab
+dinutuximab
+drozitumab
+duligotuzumab
+dupilumab
+eculizumab
+efalizumab
+eldelumab
+elotuzumab
+emibetuzumab
+enokizumab
+epratuzumab
+etrolizumab
+evolocumab
+farletuzumab
+fasinumab
+fezakinumab
+ficlatuzumab
+figitumumab
+fletikumab
+foralumab
+fresolimumab
+fulranumab
+galiximab
+ganitumab
+gantenerumab
+gemtuzumab
+gevokizumab
+girentuximab
+glembatumumab
+golimumab
+guselkumab
+ibalizumab
+imgatuzumab
+infliximab
+inotuzumab
+ipilimumab
+ixekizumab
+lampalizumab
+lebrikizumab
+lenzilumab
+lintuzumab
+lirilumab
+lumiliximab
+matuzumab
+mavrilimumab
+mepolizumab
+mogamulizumab
+motavizumab
+muromonab
+natalizumab
+necitumumab
+nimotuzumab
+nivolumab
+obinutuzumab
+ocrelizumab
+ofatumumab
+olaratumab
+olokizumab
+omalizumab
+onartuzumab
+otelixizumab
+otlertuzumab
+ozanezumab
+palivizumab
+panitumumab
+panobacumab
+parsatuzumab
+patritumab
+pembrolizumab
+pertuzumab
+pinatuzumab
+polatuzumab
+ponezumab
+radretumab
+ramucirumab
+ranibizumab
+reslizumab
+rilotumumab
+rituximab
+robatumumab
+romosozumab
+sarilumab
+secukinumab
+seribantumab
+sifalimumab
+siltuximab
+simtuzumab
+sirukumab
+tabalumab
+tanezumab
+teplizumab
+tigatuzumab
+tildrakizumab
+tocilizumab
+tovetumab
+tralokinumab
+trastuzumab
+tremelimumab
+urelumab
+ustekinumab
+vedolizumab
+veltuzumab
+visilizumab
+zalutumumab
+zanolimumab

test/conftest.py CHANGED Viewed

@@ -1,14 +1,12 @@
 import pytest
 import pandas as pd
-from constants import MINIMAL_NUMBER_OF_ROWS, ASSAY_LIST
 @pytest.fixture
 def valid_csv_data():
-    """Fixture providing valid CSV data with all required columns"""
     return {
-        "antibody_id": ["AB001"] * MINIMAL_NUMBER_OF_ROWS,
-        "antibody_name": ["AB001"] * MINIMAL_NUMBER_OF_ROWS,
         "vh_protein_sequence": [
             "EVQLVESGGGLVQPGGSLRLSCAASGFTFSSYAMHWVRQAPGKGLEWVSAISGSGGSTYYADSVKGRFTISRDNSKNTLYLQMNSLRAEDTAVYYCARDYGDGYYFDYWGQGTLVTVSS"
         ]
@@ -23,11 +21,9 @@ def valid_csv_data():
 @pytest.fixture
 def valid_input_dataframe(valid_csv_data):
-    """Fixture providing a valid input dataframe"""
     return pd.DataFrame(valid_csv_data)
 @pytest.fixture
 def valid_csv_content(valid_input_dataframe):
-    """Fixture providing valid CSV content as string"""
     return valid_input_dataframe.to_csv(index=False)

 import pytest
 import pandas as pd
+from constants import MINIMAL_NUMBER_OF_ROWS, ASSAY_LIST, ANTIBODY_NAMES
 @pytest.fixture
 def valid_csv_data():
     return {
+        "antibody_name": ANTIBODY_NAMES[:MINIMAL_NUMBER_OF_ROWS],
         "vh_protein_sequence": [
             "EVQLVESGGGLVQPGGSLRLSCAASGFTFSSYAMHWVRQAPGKGLEWVSAISGSGGSTYYADSVKGRFTISRDNSKNTLYLQMNSLRAEDTAVYYCARDYGDGYYFDYWGQGTLVTVSS"
         ]
 @pytest.fixture
 def valid_input_dataframe(valid_csv_data):
     return pd.DataFrame(valid_csv_data)
 @pytest.fixture
 def valid_csv_content(valid_input_dataframe):
     return valid_input_dataframe.to_csv(index=False)

test/test_validation.py CHANGED Viewed

@@ -9,14 +9,12 @@ class TestValidateCsvCanBeRead:
     """Test cases for validate_csv_can_be_read function"""
     def test_valid_csv_can_be_read(self, valid_csv_content):
-        """Test that valid CSV content can be read"""
         df = validate_csv_can_be_read(valid_csv_content)
         assert isinstance(df, pd.DataFrame)
         assert len(df) == MINIMAL_NUMBER_OF_ROWS
         assert list(df.columns) == list(REQUIRED_COLUMNS)
     def test_empty_csv_raises_error(self):
-        """Test that empty CSV raises an error"""
         empty_csv = ""
         with pytest.raises(gr.Error) as exc_info:
@@ -25,7 +23,6 @@ class TestValidateCsvCanBeRead:
         assert "empty or contains no valid data" in str(exc_info.value)
     def test_invalid_csv_format_raises_error(self):
-        """Test that invalid CSV format raises an error"""
         # Create a CSV with malformed structure that pandas cannot parse
         malformed_csv = 'column1,column2\nvalue1,"unclosed quote\nvalue4,value5'
@@ -35,10 +32,9 @@ class TestValidateCsvCanBeRead:
         assert "Invalid CSV format" in str(exc_info.value)
     def test_csv_with_quoted_fields_can_be_read(self):
-        """Test that CSV with quoted fields can be read"""
         # Create CSV with quoted fields and enough rows
-        base_row = 'AB001,"EVQLVESGGGLVQPGGSLRLSCAASGFTFSSYAMHWVRQAPGKGLEWVSAISGSGGSTYYADSVKGRFTISRDNSKNTLYLQMNSLRAEDTAVYYCARDYGDGYYFDYWGQGTLVTVSS","DIQMTQSPSSLSASVGDRVTITCRASQSISSYLNWYQQKPGKAPKLLIYAASTLQSGVPSRFSGSGSGTDFTLTISSLQPEDFATYYCQQSYSTPFTFGQGTKVEIK",95.2,0.85,0.92,0.78,0.81,72.5'
-        csv_content = "antibody_id,vh_protein_sequence,vl_protein_sequence,SEC %Monomer,HIC,PR_CHO,AC-SINS_pH6.0,AC-SINS_pH7.4,Tm\n"
         csv_content += "\n".join([base_row] * MINIMAL_NUMBER_OF_ROWS)
         df = validate_csv_can_be_read(csv_content)
@@ -47,14 +43,10 @@ class TestValidateCsvCanBeRead:
 class TestValidateDataframe:
-    """Test cases for validate_dataframe function"""
     def test_valid_dataframe_passes(self, valid_input_dataframe):
-        """Test that valid DataFrame passes validation"""
         validate_dataframe(valid_input_dataframe)
     def test_missing_columns_raises_error(self, valid_input_dataframe):
-        """Test that DataFrame with missing columns raises an error"""
         missing_column = REQUIRED_COLUMNS[0]
         df = valid_input_dataframe.copy()
         df.drop(columns=[missing_column], inplace=True)
@@ -65,7 +57,6 @@ class TestValidateDataframe:
         assert f"Missing required columns: {missing_column}" in str(exc_info.value)
     def test_empty_dataframe_raises_error(self, valid_input_dataframe):
-        """Test that empty DataFrame raises an error"""
         empty_df = valid_input_dataframe.head(0)
         with pytest.raises(gr.Error) as exc_info:
@@ -74,7 +65,6 @@ class TestValidateDataframe:
         assert "CSV file is empty" in str(exc_info.value)
     def test_insufficient_rows_raises_error(self, valid_input_dataframe):
-        """Test that DataFrame with insufficient rows raises an error"""
         df = valid_input_dataframe.head(MINIMAL_NUMBER_OF_ROWS - 1)
         with pytest.raises(gr.Error) as exc_info:
             validate_dataframe(df)
@@ -84,7 +74,6 @@ class TestValidateDataframe:
         )
     def test_missing_values_raises_error(self, valid_input_dataframe):
-        """Test that DataFrame with missing values raises an error"""
         bad_column = REQUIRED_COLUMNS[0]
         df = valid_input_dataframe.copy()
         df[bad_column] = [None] * len(df)
@@ -94,17 +83,31 @@ class TestValidateDataframe:
         assert f"contains {len(df)} missing values" in str(exc_info.value)
     def test_csv_with_extra_columns_passes(self, valid_input_dataframe):
-        """Test that DataFrame with extra columns passes validation"""
         extra_column = "extra_column_1"
         df = valid_input_dataframe.copy()
         df[extra_column] = ["extra1"] * len(df)
         df[extra_column] = ["extra2"] * len(df)
         validate_dataframe(df)
-class TestValidateCsvFile:
-    """Test cases for the combined validate_csv_file function"""
     def test_valid_csv_passes(self, valid_csv_content):
-        """Test that a valid CSV with all required columns passes validation"""
         validate_csv_file(valid_csv_content)

     """Test cases for validate_csv_can_be_read function"""
     def test_valid_csv_can_be_read(self, valid_csv_content):
         df = validate_csv_can_be_read(valid_csv_content)
         assert isinstance(df, pd.DataFrame)
         assert len(df) == MINIMAL_NUMBER_OF_ROWS
         assert list(df.columns) == list(REQUIRED_COLUMNS)
     def test_empty_csv_raises_error(self):
         empty_csv = ""
         with pytest.raises(gr.Error) as exc_info:
         assert "empty or contains no valid data" in str(exc_info.value)
     def test_invalid_csv_format_raises_error(self):
         # Create a CSV with malformed structure that pandas cannot parse
         malformed_csv = 'column1,column2\nvalue1,"unclosed quote\nvalue4,value5'
         assert "Invalid CSV format" in str(exc_info.value)
     def test_csv_with_quoted_fields_can_be_read(self):
         # Create CSV with quoted fields and enough rows
+        base_row = 'test_antibody,"EVQLVESGGGLVQPGGSLRLSCAASGFTFSSYAMHWVRQAPGKGLEWVSAISGSGGSTYYADSVKGRFTISRDNSKNTLYLQMNSLRAEDTAVYYCARDYGDGYYFDYWGQGTLVTVSS","DIQMTQSPSSLSASVGDRVTITCRASQSISSYLNWYQQKPGKAPKLLIYAASTLQSGVPSRFSGSGSGTDFTLTISSLQPEDFATYYCQQSYSTPFTFGQGTKVEIK",95.2,0.85,0.92,0.78,0.81,72.5'
+        csv_content = "antibody_name,vh_protein_sequence,vl_protein_sequence,SEC %Monomer,HIC,PR_CHO,AC-SINS_pH6.0,AC-SINS_pH7.4,Tm\n"
         csv_content += "\n".join([base_row] * MINIMAL_NUMBER_OF_ROWS)
         df = validate_csv_can_be_read(csv_content)
 class TestValidateDataframe:
     def test_valid_dataframe_passes(self, valid_input_dataframe):
         validate_dataframe(valid_input_dataframe)
     def test_missing_columns_raises_error(self, valid_input_dataframe):
         missing_column = REQUIRED_COLUMNS[0]
         df = valid_input_dataframe.copy()
         df.drop(columns=[missing_column], inplace=True)
         assert f"Missing required columns: {missing_column}" in str(exc_info.value)
     def test_empty_dataframe_raises_error(self, valid_input_dataframe):
         empty_df = valid_input_dataframe.head(0)
         with pytest.raises(gr.Error) as exc_info:
         assert "CSV file is empty" in str(exc_info.value)
     def test_insufficient_rows_raises_error(self, valid_input_dataframe):
         df = valid_input_dataframe.head(MINIMAL_NUMBER_OF_ROWS - 1)
         with pytest.raises(gr.Error) as exc_info:
             validate_dataframe(df)
         )
     def test_missing_values_raises_error(self, valid_input_dataframe):
         bad_column = REQUIRED_COLUMNS[0]
         df = valid_input_dataframe.copy()
         df[bad_column] = [None] * len(df)
         assert f"contains {len(df)} missing values" in str(exc_info.value)
     def test_csv_with_extra_columns_passes(self, valid_input_dataframe):
         extra_column = "extra_column_1"
         df = valid_input_dataframe.copy()
         df[extra_column] = ["extra1"] * len(df)
         df[extra_column] = ["extra2"] * len(df)
         validate_dataframe(df)
+    def test_duplicate_antibody_names_raises_error(self, valid_input_dataframe):
+        df = valid_input_dataframe.copy()
+        df = pd.concat([df, df.head(1)], ignore_index=True)
+        with pytest.raises(gr.Error) as exc_info:
+            validate_dataframe(df)
+        assert "CSV should have only one row per antibody. Found 1 duplicates." in str(
+            exc_info.value
+        )
+    def test_unrecognized_antibody_names_raises_error(self, valid_input_dataframe):
+        df = valid_input_dataframe.copy()
+        df.loc[0, "antibody_name"] = "unrecognized_antibody"
+        with pytest.raises(gr.Error) as exc_info:
+            validate_dataframe(df)
+        assert f"Found unrecognized antibody names: {'unrecognized_antibody'}" in str(
+            exc_info.value
+        )
+class TestValidateCsvFile:
     def test_valid_csv_passes(self, valid_csv_content):
         validate_csv_file(valid_csv_content)

validation.py CHANGED Viewed

@@ -1,7 +1,7 @@
 import pandas as pd
 import io
 import gradio as gr
-from constants import REQUIRED_COLUMNS, MINIMAL_NUMBER_OF_ROWS
 def validate_csv_can_be_read(file_content: str) -> pd.DataFrame:
@@ -61,19 +61,29 @@ def validate_dataframe(df: pd.DataFrame) -> None:
     if df.empty:
         raise gr.Error("❌ CSV file is empty")
-    # Check for missing values in required columns
     for col in REQUIRED_COLUMNS:
         missing_count = df[col].isnull().sum()
         if missing_count > 0:
             raise gr.Error(f"❌ Column '{col}' contains {missing_count} missing values")
-    # Check for reasonable number of rows
     if len(df) < MINIMAL_NUMBER_OF_ROWS:
         raise gr.Error(f"❌ CSV should have at least {MINIMAL_NUMBER_OF_ROWS} rows")
-    print(
-        f"✅ CSV validation passed! Found {len(df)} rows with columns: {', '.join(df.columns)}"
-    )
 def validate_csv_file(file_content: str) -> None:

 import pandas as pd
 import io
 import gradio as gr
+from constants import REQUIRED_COLUMNS, MINIMAL_NUMBER_OF_ROWS, ANTIBODY_NAMES
 def validate_csv_can_be_read(file_content: str) -> pd.DataFrame:
     if df.empty:
         raise gr.Error("❌ CSV file is empty")
+    # No missing values in required columns
     for col in REQUIRED_COLUMNS:
         missing_count = df[col].isnull().sum()
         if missing_count > 0:
             raise gr.Error(f"❌ Column '{col}' contains {missing_count} missing values")
+    # Above minimal number of rows
     if len(df) < MINIMAL_NUMBER_OF_ROWS:
         raise gr.Error(f"❌ CSV should have at least {MINIMAL_NUMBER_OF_ROWS} rows")
+    # All names should be unique
+    n_duplicates = df["antibody_name"].duplicated().sum()
+    if n_duplicates > 0:
+        raise gr.Error(
+            f"❌ CSV should have only one row per antibody. Found {n_duplicates} duplicates."
+        )
+    # All antibody names should be recognizable
+    unrecognized_antibodies = set(df["antibody_name"]) - set(ANTIBODY_NAMES)
+    if unrecognized_antibodies:
+        raise gr.Error(
+            f"❌ Found unrecognized antibody names: {', '.join(unrecognized_antibodies)}"
+        )
 def validate_csv_file(file_content: str) -> None: