Spaces:

NavyaNayer
/

Moodify-Task

Sleeping

App Files Files Community

Moodify-Task / emotions.py

NavyaNayer

Upload 25 files

7c6f301 verified 6 months ago

raw

history blame

7.57 kB

	<<<<<<< HEAD
	import pandas as pd
	import torch
	from datasets import load_dataset, Dataset
	from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer
	import numpy as np
	from sklearn.metrics import accuracy_score, f1_score, roc_auc_score, classification_report

	# Load dataset
	dataset = load_dataset("go_emotions")

	# Print dataset columns
	print("Dataset Columns Before Preprocessing:", dataset["train"].column_names)

	# Ensure labels exist
	if "labels" not in dataset["train"].column_names:
	raise KeyError("Column 'labels' is missing! Check dataset structure.")

	# Load tokenizer
	model_checkpoint = "distilbert-base-uncased"

	tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)

	# Preprocessing function (Take only the first label for single-label classification)
	def preprocess_data(batch):
	encoding = tokenizer(batch["text"], padding="max_length", truncation=True)

	# Take only the first label (for single-label classification)
	encoding["labels"] = batch["labels"][0] if batch["labels"] else 0 # Default to 0 if empty
	return encoding

	# Tokenize dataset
	encoded_dataset = dataset.map(preprocess_data, batched=False, remove_columns=["text"])

	# Set format for PyTorch
	encoded_dataset.set_format("torch")

	# Load model for single-label classification (28 classes)
	num_labels = 28 # Change based on dataset labels
	model = AutoModelForSequenceClassification.from_pretrained(model_checkpoint, num_labels=num_labels)

	# Training arguments
	args = TrainingArguments(
	output_dir="./results",
	eval_strategy="epoch",
	save_strategy="epoch",
	save_total_limit=1,
	logging_strategy="no",
	per_device_train_batch_size=32, # Increase batch size
	per_device_eval_batch_size=32,
	num_train_epochs=2, # Reduce epochs
	weight_decay=0.01,
	load_best_model_at_end=True,
	fp16=True, # Mixed precision for speedup
	gradient_accumulation_steps=2, # Helps with large batch sizes
	)


	# Compute metrics function
	def compute_metrics(eval_pred):
	logits, labels = eval_pred

	# Convert logits to class predictions
	predictions = np.argmax(logits, axis=-1)

	accuracy = accuracy_score(labels, predictions)
	f1 = f1_score(labels, predictions, average="weighted")

	return {"accuracy": accuracy, "f1": f1}

	# Initialize Trainer
	trainer = Trainer(
	model=model,
	args=args,
	train_dataset=encoded_dataset["train"],
	eval_dataset=encoded_dataset["validation"],
	compute_metrics=compute_metrics
	)

	# Train model
	trainer.train()
	print("Training completed!")

	# Save model and tokenizer
	model.save_pretrained("./saved_model")
	tokenizer.save_pretrained("./saved_model")
	print("Model and tokenizer saved!")

	# ====== Evaluation on Test Set ======
	print("\nEvaluating model on test set...")

	# Get test dataset
	test_dataset = encoded_dataset["test"]

	# Make predictions
	predictions = trainer.predict(test_dataset)
	logits = predictions.predictions

	# Convert logits to class predictions
	y_pred = np.argmax(logits, axis=-1)
	y_true = test_dataset["labels"].numpy()

	# Compute accuracy and F1-score
	accuracy = accuracy_score(y_true, y_pred)
	f1 = f1_score(y_true, y_pred, average="weighted")

	# Print evaluation results
	print("\nEvaluation Results:")
	print(f"Test Accuracy: {accuracy:.4f}")
	print(f"Test F1 Score: {f1:.4f}")

	# Print classification report
	print("\nClassification Report:\n", classification_report(y_true, y_pred))

	# Save test results
	pd.DataFrame({"true_labels": y_true.tolist(), "predicted_labels": y_pred.tolist()}).to_csv("test_results.csv", index=False)
	print("Test results saved to 'test_results.csv'!")
	=======
	import pandas as pd
	import torch
	from datasets import load_dataset, Dataset
	from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer
	import numpy as np
	from sklearn.metrics import accuracy_score, f1_score, roc_auc_score, classification_report

	# Load dataset
	dataset = load_dataset("go_emotions")

	# Print dataset columns
	print("Dataset Columns Before Preprocessing:", dataset["train"].column_names)

	# Ensure labels exist
	if "labels" not in dataset["train"].column_names:
	raise KeyError("Column 'labels' is missing! Check dataset structure.")

	# Load tokenizer
	model_checkpoint = "distilbert-base-uncased"

	tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)

	# Preprocessing function (Take only the first label for single-label classification)
	def preprocess_data(batch):
	encoding = tokenizer(batch["text"], padding="max_length", truncation=True)

	# Take only the first label (for single-label classification)
	encoding["labels"] = batch["labels"][0] if batch["labels"] else 0 # Default to 0 if empty
	return encoding

	# Tokenize dataset
	encoded_dataset = dataset.map(preprocess_data, batched=False, remove_columns=["text"])

	# Set format for PyTorch
	encoded_dataset.set_format("torch")

	# Load model for single-label classification (28 classes)
	num_labels = 28 # Change based on dataset labels
	model = AutoModelForSequenceClassification.from_pretrained(model_checkpoint, num_labels=num_labels)

	# Training arguments
	args = TrainingArguments(
	output_dir="./results",
	eval_strategy="epoch",
	save_strategy="epoch",
	save_total_limit=1,
	logging_strategy="no",
	per_device_train_batch_size=32, # Increase batch size
	per_device_eval_batch_size=32,
	num_train_epochs=2, # Reduce epochs
	weight_decay=0.01,
	load_best_model_at_end=True,
	fp16=True, # Mixed precision for speedup
	gradient_accumulation_steps=2, # Helps with large batch sizes
	)


	# Compute metrics function
	def compute_metrics(eval_pred):
	logits, labels = eval_pred

	# Convert logits to class predictions
	predictions = np.argmax(logits, axis=-1)

	accuracy = accuracy_score(labels, predictions)
	f1 = f1_score(labels, predictions, average="weighted")

	return {"accuracy": accuracy, "f1": f1}

	# Initialize Trainer
	trainer = Trainer(
	model=model,
	args=args,
	train_dataset=encoded_dataset["train"],
	eval_dataset=encoded_dataset["validation"],
	compute_metrics=compute_metrics
	)

	# Train model
	trainer.train()
	print("Training completed!")

	# Save model and tokenizer
	model.save_pretrained("./saved_model")
	tokenizer.save_pretrained("./saved_model")
	print("Model and tokenizer saved!")

	# ====== Evaluation on Test Set ======
	print("\nEvaluating model on test set...")

	# Get test dataset
	test_dataset = encoded_dataset["test"]

	# Make predictions
	predictions = trainer.predict(test_dataset)
	logits = predictions.predictions

	# Convert logits to class predictions
	y_pred = np.argmax(logits, axis=-1)
	y_true = test_dataset["labels"].numpy()

	# Compute accuracy and F1-score
	accuracy = accuracy_score(y_true, y_pred)
	f1 = f1_score(y_true, y_pred, average="weighted")

	# Print evaluation results
	print("\nEvaluation Results:")
	print(f"Test Accuracy: {accuracy:.4f}")
	print(f"Test F1 Score: {f1:.4f}")

	# Print classification report
	print("\nClassification Report:\n", classification_report(y_true, y_pred))

	# Save test results
	pd.DataFrame({"true_labels": y_true.tolist(), "predicted_labels": y_pred.tolist()}).to_csv("test_results.csv", index=False)
	print("Test results saved to 'test_results.csv'!")
	>>>>>>> b1313c5d084e410cadf261f2fafd8929cb149a4f