Spaces:
Paused
Paused
Update app.py
Browse files
app.py
CHANGED
|
@@ -44,7 +44,7 @@ xxx = os.getenv("TOKEN")
|
|
| 44 |
login(token=xxx)
|
| 45 |
#Modelle und Tokenizer
|
| 46 |
model_name = "alexkueck/LIFineTuned"
|
| 47 |
-
|
| 48 |
#Alternativ mit beliebigen Modellen:
|
| 49 |
base_model = "project-baize/baize-v2-7b" #load_8bit = False (in load_tokenizer_and_model)
|
| 50 |
#base_model = "TheBloke/airoboros-13B-HF" #load_8bit = False (in load_tokenizer_and_model)
|
|
@@ -63,6 +63,7 @@ dataset_neu = daten_laden("alexkueck/tis")
|
|
| 63 |
tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4, remove_columns=["id","text"])
|
| 64 |
|
| 65 |
print (tokenized_datasets["train"][4])
|
|
|
|
| 66 |
#den Text nun zusammenführen (concatenieren) und anschließend in kleine Häppchen aufteilen (block_size=128), die verarbeitet werden können
|
| 67 |
#das macht die map-Funktion und das Attribut batched = True
|
| 68 |
#man könnte das weglassen, wenn jeder Satz einzeln gegeben wurde in den Texten...
|
|
|
|
| 44 |
login(token=xxx)
|
| 45 |
#Modelle und Tokenizer
|
| 46 |
model_name = "alexkueck/LIFineTuned"
|
| 47 |
+
|
| 48 |
#Alternativ mit beliebigen Modellen:
|
| 49 |
base_model = "project-baize/baize-v2-7b" #load_8bit = False (in load_tokenizer_and_model)
|
| 50 |
#base_model = "TheBloke/airoboros-13B-HF" #load_8bit = False (in load_tokenizer_and_model)
|
|
|
|
| 63 |
tokenized_datasets = dataset_neu.map(tokenize_function, batched=True, num_proc=4, remove_columns=["id","text"])
|
| 64 |
|
| 65 |
print (tokenized_datasets["train"][4])
|
| 66 |
+
print(f"{model_name}/model/")
|
| 67 |
#den Text nun zusammenführen (concatenieren) und anschließend in kleine Häppchen aufteilen (block_size=128), die verarbeitet werden können
|
| 68 |
#das macht die map-Funktion und das Attribut batched = True
|
| 69 |
#man könnte das weglassen, wenn jeder Satz einzeln gegeben wurde in den Texten...
|