Spaces:

vincentamato
/

ARIA

Running on Zero

App Files Files Community

ARIA / midi_emotion /src /train.py

vincentamato

Initial commit

69defc9 7 months ago

raw

history blame contribute delete

21.8 kB

	import time
	import math
	import datetime
	import os
	import random
	import numpy as np
	import torch
	import torch.nn as nn
	import torch.optim as optim
	from tqdm import tqdm
	from models.build_model import build_model
	from generate import generate
	from data.preprocess_features import preprocess_features
	from data.loader import Loader
	from data.loader_exhaustive import LoaderExhaustive
	from data.loader_generations import LoaderGenerations
	from data.collate import filter_collate
	from utils import CsvWriter, create_exp_dir, accuracy
	from config import args

	# os.environ["CUDA_VISIBLE_DEVICES"] = "0"

	# Set the random seed manually for reproducibility.
	if args.seed > 0:
	np.random.seed(args.seed)
	torch.manual_seed(args.seed)
	torch.cuda.manual_seed(args.seed)
	random.seed(args.seed)

	class Runner:
	def __init__(self):
	self.logging = create_exp_dir(args.work_dir, debug=args.debug)
	use_cuda = torch.cuda.is_available() and not args.no_cuda
	self.device = torch.device('cuda' if use_cuda else 'cpu')
	if self.device == torch.device("cuda"):
	self.logging("Using GPU")
	else:
	self.logging("Using CPU")

	self.train_step = 0
	self.n_sequences_total = 0
	self.init_hours = 0
	self.epoch = 0
	self.init_time = time.time()

	# Load data
	n_bins = args.n_emotion_bins if args.conditioning == "discrete_token" and \
	not args.regression else None

	conditional = args.conditioning != "none" or args.regression

	# Preprocessing
	train_feats, test_feats = preprocess_features(
	"../data_files/features/pianoroll/full_dataset_features_summarized.csv",
	n_bins=n_bins, conditional=conditional,
	use_labeled_only=not args.full_dataset)

	if args.exhaustive_eval:
	# Evaluate using ENTIRE test set
	train_dataset = []
	test_dataset = LoaderExhaustive(args.data_folder, test_feats, args.tgt_len, args.conditioning,
	max_samples=args.n_samples, regression=args.regression,
	always_use_discrete_condition=args.always_use_discrete_condition)
	else:
	train_dataset = Loader(args.data_folder, train_feats, args.tgt_len, args.conditioning,
	regression=args.regression, always_use_discrete_condition=args.always_use_discrete_condition)
	test_dataset = Loader(args.data_folder, test_feats, args.tgt_len, args.conditioning,
	regression=args.regression, always_use_discrete_condition=args.always_use_discrete_condition)

	if args.regression_dir is not None:
	# Perform emotion regression on generated samples
	train_dataset = []
	test_dataset = LoaderGenerations(args.regression_dir, args.tgt_len)

	self.null_condition = torch.FloatTensor([np.nan, np.nan]).to(self.device)

	self.maps = test_dataset.get_maps()
	self.pad_idx = test_dataset.get_pad_idx()

	self.vocab_size = test_dataset.get_vocab_len()
	args.vocab_size = self.vocab_size
	self.logging(f"Number of tokens: {self.vocab_size}")

	if args.exhaustive_eval or args.regression_dir is not None:
	self.train_loader = []
	else:
	self.train_loader = torch.utils.data.DataLoader(train_dataset, args.batch_size, shuffle=not args.debug,
	num_workers=args.num_workers, collate_fn=filter_collate,
	pin_memory=not args.no_cuda, drop_last=True)
	self.test_loader = torch.utils.data.DataLoader(test_dataset, args.batch_size, shuffle=False,
	num_workers=args.num_workers, collate_fn=filter_collate,
	pin_memory=not args.no_cuda and args.regression_dir is None,
	drop_last=True)
	print(f"Data loader lengths\nTrain: {len(train_dataset)}")
	if not args.overfit:
	print(f"Test:{len(test_dataset)}")

	self.gen_dir = os.path.join(args.work_dir, "generations", "training")

	# Automatic mixed precision
	self.amp = not args.no_amp and self.device == torch.device('cuda')

	if self.amp:
	self.logging("Using automatic mixed precision")
	else:
	self.logging("Using float32")

	self.scaler = torch.cuda.amp.GradScaler(enabled=self.amp)
	self.init_model() # Build the model

	if not args.debug:
	# Save mappings
	os.makedirs(self.gen_dir, exist_ok=True)
	torch.save(self.maps, os.path.join(args.work_dir, "mappings.pt"))

	self.csv_writer = CsvWriter(os.path.join(args.work_dir, "performance.csv"),
	["epoch", "step", "hour", "lr", "trn_loss", "val_loss", "val_l1_v", "val_l1_a"],
	in_path=self.csv_in, debug=args.debug)

	args.n_all_param = sum([p.nelement() for p in self.model.parameters()])

	self.model = self.model.to(self.device)

	self.ce_loss = nn.CrossEntropyLoss(ignore_index=self.pad_idx).to(self.device)
	self.mse_loss = nn.MSELoss()
	self.l1_loss = nn.L1Loss()

	#### scheduler
	if args.scheduler == '--':
	self.scheduler = optim.lr_scheduler.CosineAnnealingLR(self.optimizer,
	args.max_step, eta_min=args.eta_min)
	elif args.scheduler == 'dev_perf':
	self.scheduler = optim.lr_scheduler.ReduceLROnPlateau(self.optimizer,
	factor=args.decay_rate, patience=args.patience, min_lr=args.lr_min)
	elif args.scheduler == 'constant':
	pass
	elif args.scheduler == 'cyclic':
	self.scheduler = optim.lr_scheduler.CyclicLR(self.optimizer,
	args.lr_min, args.lr_max, verbose=False, cycle_momentum=False)

	# Print log
	if not args.debug:
	self.logging('=' * 120)
	for k, v in args.__dict__.items():
	self.logging(' - {} : {}'.format(k, v))
	self.logging('=' * 120)
	self.logging('#params = {}'.format(args.n_all_param))

	now = datetime.datetime.now()
	now = now.strftime("%d-%m-%Y %H:%M")
	self.logging(f"Run started at {now}")
	self.once = True

	def init_model(self):
	# Initialize model
	if args.restart_dir:
	# Load existing model
	config = torch.load(os.path.join(args.restart_dir, "model_config.pt"))
	self.model, config = build_model(None, load_config_dict=config)
	self.model = self.model.to(self.device)

	model_fp = os.path.join(args.restart_dir, 'model.pt')
	optimizer_fp = os.path.join(args.restart_dir, 'optimizer.pt')
	stats_fp = os.path.join(args.restart_dir, 'stats.pt')
	scaler_fp = os.path.join(args.restart_dir, 'scaler.pt')

	self.model.load_state_dict(
	torch.load(model_fp, map_location=lambda storage, loc: storage))
	self.logging(f"Model loaded from {model_fp}")

	self.csv_in = os.path.join(args.restart_dir, 'performance.csv')
	else:
	# Build model from scratch
	self.csv_in = None
	self.model, config = build_model(vars(args))
	self.model = self.model.to(self.device)

	# save model configuration for later load
	if not args.debug:
	torch.save(config, os.path.join(args.work_dir, "model_config.pt"))

	self.optimizer = optim.Adam(self.model.parameters(), lr=args.lr)

	# Load self.optimizer if necessary
	if args.restart_dir:
	if os.path.exists(optimizer_fp):
	try:
	self.optimizer.load_state_dict(
	torch.load(optimizer_fp, map_location=lambda storage, loc: storage))
	except:
	pass
	else:
	print('Optimizer was not saved. Start from scratch.')

	try:
	stats = torch.load(stats_fp)
	self.train_step = stats["step"]
	self.init_hours = stats["hour"]
	self.epoch = stats["epoch"]
	self.n_sequences_total = stats["sample"]
	except:
	self.train_step = 0
	self.init_hours = 0
	self.epoch = 0
	self.n_sequences_total = 0

	if os.path.exists(scaler_fp) and not args.reset_scaler:
	try:
	self.scaler.load_state_dict(torch.load(scaler_fp))
	except:
	pass

	if args.overwrite_lr:
	# New learning rate
	for p in self.optimizer.param_groups:
	p['lr'] = args.lr

	###############################################################################
	# EVALUATION
	###############################################################################

	def evaluate(self):

	# Turn on evaluation mode which disables dropout.
	self.model.eval()

	# Evaluation
	topk = (1, 5) # find accuracy for top-1 and top-5
	n_elements_total, n_sequences_total, total_loss = 0, 0, 0.
	total_accs = {"l1_v": 0., "l1_a": 0., "l1_mean": 0., "l1_mean_normal":0
	} if args.regression else {k: 0. for k in topk}
	with torch.no_grad():
	n_batches = len(self.test_loader)
	loader = enumerate(self.test_loader)
	if args.exhaustive_eval or args.regression:
	loader = tqdm(loader, total=n_batches)
	for i, (input_, condition, target) in loader:
	if args.max_eval_step > 0 and i >= args.max_eval_step:
	break
	if input_ != []:
	input_ = input_.to(self.device)
	condition = condition.to(self.device)
	if not args.regression:
	target = target.to(self.device)
	loss, pred = self.forward_pass(input_, condition, target)
	if args.regression:
	pred = torch.clamp(pred, min=-1.0, max=1.0)
	loss = self.l1_loss(pred, condition)
	l1_v = self.l1_loss(pred[:, 0], condition[:, 0]).item()
	l1_a = self.l1_loss(pred[:, 1], condition[:, 1]).item()
	accuracies = {"l1_v": l1_v, "l1_a": l1_a,
	"l1_mean": (l1_v + l1_a) / 2,
	"l1_mean_normal": (l1_v + l1_a) / 2 / 2}
	n_elements = pred[:, 0].numel()
	else:
	accuracies = accuracy(pred, target, topk=topk, ignore_index=self.pad_idx)
	n_elements = input_.numel()
	n_sequences = input_.size(0)
	total_loss += n_elements * loss.item()
	for key, value in accuracies.items():
	total_accs[key] += n_elements * value
	n_elements_total += n_elements
	n_sequences_total += n_sequences

	if n_elements_total == 0:
	avg_loss = float('nan')
	avg_accs = float('nan')
	else:
	avg_loss = total_loss / n_elements_total
	avg_accs = {k: v/n_elements_total for k, v in total_accs.items()}
	if args.exhaustive_eval:
	print(f"Total number of sequences: {n_sequences_total}")

	return avg_loss, avg_accs

	def forward_pass(self, input_, condition, target):

	input_ = input_.to(self.device)
	condition = condition.to(self.device)

	with torch.cuda.amp.autocast(enabled=self.amp):
	if args.regression:
	output = self.model(input_)
	loss = self.l1_loss(output, condition)
	else:
	target = target.to(self.device)
	output = self.model(input_, condition)
	output_flat = output.reshape(-1, output.size(-1))
	target = target.reshape(-1)
	loss = self.ce_loss(output_flat, target)

	return loss, output

	def train(self):
	# Turn on training mode which enables dropout.
	self.model.train()

	train_loss = 0
	n_elements_total = 0
	train_interval_start = time.time()

	while True:
	for input_, condition, target in self.train_loader:
	self.model.train()
	if input_ != []:

	loss, _ = self.forward_pass(input_, condition, target)
	loss_val = loss.item()
	loss /= args.accumulate_step

	n_elements = input_.numel()
	if not math.isnan(loss_val):
	train_loss += n_elements * loss_val
	n_elements_total += n_elements
	self.n_sequences_total += input_.size(0)

	self.scaler.scale(loss).backward()

	if self.train_step % args.accumulate_step == 0:
	self.scaler.unscale_(self.optimizer)
	if args.clip > 0:
	torch.nn.utils.clip_grad_norm_(self.model.parameters(), args.clip)
	self.scaler.step(self.optimizer)
	self.scaler.update()
	self.model.zero_grad()

	if args.scheduler != "constant":
	# linear warmup stage
	if self.train_step <= args.warmup_step:
	curr_lr = args.lr * self.train_step / args.warmup_step
	self.optimizer.param_groups[0]['lr'] = curr_lr
	else:
	self.scheduler.step()

	if (self.train_step % args.gen_step == 0) and self.train_step > 0 and not args.regression:
	# Generate and save samples
	with torch.no_grad():
	self.model.eval()
	if args.max_gen_input_len > 0:
	max_input_len = args.max_gen_input_len
	else:
	max_input_len = args.tgt_len

	primers = [["<START>"]]
	# Use fixed set of conditions
	if args.conditioning == "none":
	discrete_conditions = None
	continuous_conditions = None
	primers = [["<START>"] for _ in range(4)]

	elif args.conditioning == "discrete_token":
	discrete_conditions = [
	["<V-2>", "<A-2>"],
	["<V-2>", "<A2>"],
	["<V2>", "<A-2>"],
	["<V2>", "<A2>"],
	]
	continuous_conditions = None
	elif args.conditioning in ["continuous_token", "continuous_concat"]:
	discrete_conditions = None
	continuous_conditions = [
	[-0.8, -0.8],
	[-0.8, 0.8],
	[0.8, -0.8],
	[0.8, 0.8]
	]

	generate(self.model, self.maps, self.device, self.gen_dir, args.conditioning,
	debug=args.debug, verbose=False, amp=self.amp, discrete_conditions=discrete_conditions,
	continuous_conditions=continuous_conditions, min_n_instruments=1,
	gen_len=args.gen_len, max_input_len=max_input_len,
	step=str(self.train_step), primers=primers,
	temperatures=[args.temp_note, args.temp_rest])

	if (self.train_step % args.log_step == 0):
	# Print log
	if n_elements_total > 0:
	cur_loss = train_loss / n_elements_total
	elapsed_total = time.time() - self.init_time
	elapsed_interval = time.time() - train_interval_start
	hours_elapsed = elapsed_total / 3600.0
	hours_total = self.init_hours + hours_elapsed
	lr = self.optimizer.param_groups[0]['lr']
	log_str = '\| Epoch {:3d} step {:>8d} \| {:>6d} sequences \| {:>3.1f} h \| lr {:.2e} ' \
	'\| ms/batch {:4.0f} \| loss {:7.4f}'.format(
	self.epoch, self.train_step, self.n_sequences_total, hours_total, lr,
	elapsed_interval * 1000 / args.log_step, cur_loss)
	self.logging(log_str)
	self.csv_writer.update({"epoch": self.epoch, "step": self.train_step, "hour": hours_total,
	"lr": lr, "trn_loss": cur_loss, "val_loss": np.nan,
	"val_l1_v": np.nan, "val_l1_a": np.nan})
	train_loss = 0
	n_elements_total = 0
	self.n_good_output, self.n_nan_output = 0, 0
	train_interval_start = time.time()

	if not args.debug:
	# Save model
	model_fp = os.path.join(args.work_dir, 'model.pt')
	torch.save(self.model.state_dict(), model_fp)
	optimizer_fp = os.path.join(args.work_dir, 'optimizer.pt')
	torch.save(self.optimizer.state_dict(), optimizer_fp)
	scaler_fp = os.path.join(args.work_dir, 'scaler.pt')
	torch.save(self.scaler.state_dict(), scaler_fp)
	torch.save({"step": self.train_step, "hour": hours_total, "epoch": self.epoch,
	"sample": self.n_sequences_total},
	os.path.join(args.work_dir, 'stats.pt'))

	if (self.train_step % args.eval_step == 0):
	# Evaluate model
	val_loss, val_acc = self.evaluate()
	elapsed_total = time.time() - self.init_time
	hours_elapsed = elapsed_total / 3600.0
	hours_total = self.init_hours + hours_elapsed
	lr = self.optimizer.param_groups[0]['lr']
	self.logging('-' * 120)
	log_str = '\| Eval {:3d} step {:>8d} \| now: {} \| {:>3.1f} h' \
	'\| valid loss {:7.4f} \| ppl {:5.3f}'.format(
	self.train_step // args.eval_step, self.train_step,
	time.strftime("%d-%m - %H:%M"), hours_total,
	val_loss, math.exp(val_loss))
	if args.regression:
	log_str += " \| l1_v: {:5.3f} \| l1_a: {:5.3f}".format(
	val_acc["l1_v"], val_acc["l1_a"])

	self.csv_writer.update({"epoch": self.epoch, "step": self.train_step, "hour": hours_total,
	"lr": lr, "trn_loss": np.nan, "val_loss": val_loss})

	self.logging(log_str)
	self.logging('-' * 120)

	# dev-performance based learning rate annealing
	if args.scheduler == 'dev_perf':
	self.scheduler.step(val_loss)

	if self.train_step >= args.max_step:
	break
	self.train_step += 1
	self.epoch += 1
	if self.train_step >= args.max_step:
	break

	def run(self):

	# Loop over epochs.
	# At any point you can hit Ctrl + C to break out of training early.
	try:
	if args.exhaustive_eval or args.regression_dir is not None:
	self.logging("Exhaustive evaluation")
	if args.regression_dir is not None:
	self.logging(f"For regression on folder {args.regression_dir}")
	loss, accuracies = self.evaluate()
	perplexity = math.exp(loss)
	elapsed_total = time.time() - self.init_time
	hours_elapsed = elapsed_total / 3600.0
	msg = f"Loss: {loss:7.4f}, ppl: {perplexity:5.2f}"
	for k, v in accuracies.items():
	if args.regression:
	msg += f", {k}: {v:7.4f}"
	else:
	msg += f", top{k:1.0f}: {v:7.4f}"
	msg += f", hours: {hours_elapsed:3.1f}"
	self.logging(msg)
	else:
	while True:
	self.train()
	if self.train_step >= args.max_step:
	self.logging('-' * 120)
	self.logging('End of training')
	break
	except KeyboardInterrupt:
	self.logging('-' * 120)
	self.logging('Exiting from training early')

	if __name__ == "__main__":
	runner = Runner()
	runner.run()