Tomtom84 commited on
Commit
931a5e2
·
verified ·
1 Parent(s): 1dac694

Update orpheus-tts/engine_class.py

Browse files
Files changed (1) hide show
  1. orpheus-tts/engine_class.py +10 -5
orpheus-tts/engine_class.py CHANGED
@@ -101,19 +101,24 @@ class OrpheusModel:
101
  full_prompt = prompt
102
 
103
  # Kartoffel model token format - direkt die Token-IDs einfügen
104
- start_token_id = 128259
105
- end_token_ids = [128009, 128260]
 
106
 
107
  # Text tokenisieren
108
  input_ids = self.tokenizer(full_prompt, return_tensors="pt").input_ids[0].tolist()
 
109
 
110
  # Token-IDs zusammenfügen
111
  all_token_ids = [start_token_id] + input_ids + end_token_ids
 
112
 
113
- # Zurück zu String dekodieren
114
- prompt_string = self.tokenizer.decode(all_token_ids, skip_special_tokens=False)
 
 
115
 
116
- return prompt_string
117
  else:
118
  # Original Orpheus format (für Canopy-Deutsch und English)
119
  if model_type == "smaller":
 
101
  full_prompt = prompt
102
 
103
  # Kartoffel model token format - direkt die Token-IDs einfügen
104
+ # Basierend auf der Referenz-Implementierung
105
+ start_token_id = 128259 # Für Prompt-Start
106
+ end_token_ids = [128009, 128260] # Für Prompt-Ende
107
 
108
  # Text tokenisieren
109
  input_ids = self.tokenizer(full_prompt, return_tensors="pt").input_ids[0].tolist()
110
+ print(f"DEBUG KARTOFFEL: input_ids: {input_ids}")
111
 
112
  # Token-IDs zusammenfügen
113
  all_token_ids = [start_token_id] + input_ids + end_token_ids
114
+ print(f"DEBUG KARTOFFEL: all_token_ids: {all_token_ids}")
115
 
116
+ # Für Kartoffel-Modell: Direkt die Token-IDs als String zurückgeben
117
+ # statt sie zu dekodieren, da das Modell numerische Token-IDs erwartet
118
+ token_string = " ".join(map(str, all_token_ids))
119
+ print(f"DEBUG KARTOFFEL: token_string: {token_string}")
120
 
121
+ return token_string
122
  else:
123
  # Original Orpheus format (für Canopy-Deutsch und English)
124
  if model_type == "smaller":