InstaDeepAI
/

isoformer

Model card Files Files and versions

pbordesinstadeep commited on Jun 13

Commit

f3db296

·

verified ·

1 Parent(s): 9378c69

Update isoformer_tokenizer.py

Files changed (1) hide show

isoformer_tokenizer.py +6 -1

isoformer_tokenizer.py CHANGED Viewed

@@ -38,11 +38,16 @@ class IsoformerTokenizer(PreTrainedTokenizer):
         self,
         **kwargs
     ):
         pretrained_model_path = kwargs.get("pretrained_model_name_or_path", "")
         dna_vocab_path = os.path.join(pretrained_model_path, "dna_vocab_list.txt")
         rna_vocab_path = os.path.join(pretrained_model_path, "rna_vocab_list.txt")
         protein_vocab_path = os.path.join(pretrained_model_path, "protein_vocab_list.txt")
         dna_hf_tokenizer = EsmTokenizer(dna_vocab_path, model_max_length=196608)
         dna_hf_tokenizer.eos_token = None  # Stops the tokenizer adding an EOS/SEP token at the end

         self,
         **kwargs
     ):
+        print(f"\n>>> DEBUG: IsoformerTokenizer __init__ received kwargs: {kwargs}")
         pretrained_model_path = kwargs.get("pretrained_model_name_or_path", "")
+        print(f">>> DEBUG: Determined pretrained_model_path: '{pretrained_model_path}'")
         dna_vocab_path = os.path.join(pretrained_model_path, "dna_vocab_list.txt")
         rna_vocab_path = os.path.join(pretrained_model_path, "rna_vocab_list.txt")
         protein_vocab_path = os.path.join(pretrained_model_path, "protein_vocab_list.txt")
+        print(f">>> DEBUG: dna_vocab_path will be: '{dna_vocab_path}'") # Add this
+        print(f">>> DEBUG: Checking if dna_vocab_path exists: {os.path.exists(dna_vocab_path)}")
+        print(f">>> DEBUG: Checking if dna_vocab_list.txt exists in CWD: {os.path.exists('dna_vocab_list.txt')}")
         dna_hf_tokenizer = EsmTokenizer(dna_vocab_path, model_max_length=196608)
         dna_hf_tokenizer.eos_token = None  # Stops the tokenizer adding an EOS/SEP token at the end