dev-mode-orpheus-tts

Paused

App Files Files Community

Tomtom84 commited on Jun 9

Commit

5637a00

verified ·

1 Parent(s): b1de4bc

Update orpheus-tts/engine_class.py

Browse files

Files changed (1) hide show

orpheus-tts/engine_class.py +10 -19

orpheus-tts/engine_class.py CHANGED Viewed

@@ -100,11 +100,15 @@ class OrpheusModel:
             else:
                 full_prompt = prompt
-            # Kartoffel model format - exakt wie in der Referenz-Implementierung
-            import torch
             start_token = torch.tensor([[128259]], dtype=torch.int64)
-            end_tokens = torch.tensor([[128009, 128260]], dtype=torch.int64)
             input_ids = self.tokenizer(full_prompt, return_tensors="pt").input_ids
             print(f"DEBUG KARTOFFEL: Original prompt: '{full_prompt}'")
@@ -115,24 +119,11 @@ class OrpheusModel:
             print(f"DEBUG KARTOFFEL: modified_input_ids shape: {modified_input_ids.shape}")
             print(f"DEBUG KARTOFFEL: modified_input_ids: {modified_input_ids[0].tolist()}")
-            # Versuchen wir verschiedene Dekodierungsoptionen
             decoded_text = self.tokenizer.decode(modified_input_ids[0], skip_special_tokens=False)
-            print(f"DEBUG KARTOFFEL: Decoded with skip_special_tokens=False: '{decoded_text}'")
-            # Prüfen wir, ob die speziellen Tokens im Vokabular sind
-            special_tokens = ['<custom_token_3>', '<custom_token_4>', '<|begin_of_text|>', '<|eot_id|>']
-            for token in special_tokens:
-                if token in self.tokenizer.get_vocab():
-                    print(f"DEBUG KARTOFFEL: Token '{token}' found in vocab with ID: {self.tokenizer.get_vocab()[token]}")
-                else:
-                    print(f"DEBUG KARTOFFEL: Token '{token}' NOT found in vocab")
-            # Versuchen wir es mit dem einfachen Prompt ohne spezielle Tokens
-            # um zu sehen, ob vLLM überhaupt funktioniert
-            simple_prompt = full_prompt
-            print(f"DEBUG KARTOFFEL: Trying simple prompt without special tokens: '{simple_prompt}'")
-            return simple_prompt  # Temporär: nur den einfachen Prompt verwenden
         else:
             # Original Orpheus format (für Canopy-Deutsch und English)
             if model_type == "smaller":

             else:
                 full_prompt = prompt
+            # Kartoffel model format - basierend auf Referenz-Implementierung
+            # Wichtig: Die Referenz zeigt diese Token-Sequenz:
+            # start_token = 128259
+            # end_tokens = [128009, 128260]
+            # Aber für Audio-Generierung brauchen wir auch das Audio-Start-Token!
             start_token = torch.tensor([[128259]], dtype=torch.int64)
+            end_tokens = torch.tensor([[128009, 128260, 128261, 128257]], dtype=torch.int64)  # 128257 ist CODE_START_TOKEN_ID
             input_ids = self.tokenizer(full_prompt, return_tensors="pt").input_ids
             print(f"DEBUG KARTOFFEL: Original prompt: '{full_prompt}'")
             print(f"DEBUG KARTOFFEL: modified_input_ids shape: {modified_input_ids.shape}")
             print(f"DEBUG KARTOFFEL: modified_input_ids: {modified_input_ids[0].tolist()}")
+            # Zurück zu Text dekodieren
             decoded_text = self.tokenizer.decode(modified_input_ids[0], skip_special_tokens=False)
+            print(f"DEBUG KARTOFFEL: Final decoded prompt: '{decoded_text}'")
+            return decoded_text
         else:
             # Original Orpheus format (für Canopy-Deutsch und English)
             if model_type == "smaller":