UserAgentII
/

Test

UserAgentII commited on May 25

Commit

118e85e

verified ·

1 Parent(s): d54fc41

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

+#made by gpt
+from datasets import load_dataset
+from transformers import DistilBertTokenizerFast, DistilBertForSequenceClassification, Trainer, TrainingArguments
+import torch
+# Load a small dataset (IMDB with just a few samples for quick testing)
+dataset = load_dataset("imdb", split='train[:2%]').train_test_split(test_size=0.2)
+# Tokenizer and model
+tokenizer = DistilBertTokenizerFast.from_pretrained("distilbert-base-uncased")
+model = DistilBertForSequenceClassification.from_pretrained("distilbert-base-uncased", num_labels=2)
+# Tokenize the dataset
+def tokenize(batch):
+    return tokenizer(batch['text'], padding=True, truncation=True)
+tokenized_dataset = dataset.map(tokenize, batched=True)
+tokenized_dataset = tokenized_dataset.rename_column("label", "labels")
+# Training arguments
+training_args = TrainingArguments(
+    output_dir="./results",
+    evaluation_strategy="epoch",
+    per_device_train_batch_size=4,
+    per_device_eval_batch_size=4,
+    num_train_epochs=1,
+    logging_steps=10,
+    save_steps=10,
+    report_to="none"
+)
+# Trainer
+trainer = Trainer(
+    model=model,
+    args=training_args,
+    train_dataset=tokenized_dataset["train"],
+    eval_dataset=tokenized_dataset["test"]
+)
+# Train the model
+trainer.train()
+# Save model
+trainer.save_model("my-simple-sentiment-model")