Spaces:

gregorkrzmanc
/

jetclustering

Sleeping

jetclustering / scripts /analysis /count_matched_quarks.py

e75a247 3 months ago

37.9 kB

	import os
	from tqdm import tqdm
	import argparse
	import numpy as np
	import pandas as pd
	import pickle
	import torch
	import time
	from src.utils.utils import CPU_Unpickler
	from src.dataset.get_dataset import get_iter
	from src.plotting.eval_matrix import matrix_plot
	from src.utils.paths import get_path
	from pathlib import Path
	import matplotlib.pyplot as plt
	from src.dataset.dataset import EventDataset

	# This script attempts to open dataset files and prints the number of events in each one.
	R = 0.8

	parser = argparse.ArgumentParser()

	parser.add_argument("--input", type=str, required=True)
	parser.add_argument("--dataset-cap", type=int, default=-1)
	parser.add_argument("--output", type=str, default="")
	parser.add_argument("--augment-soft-particles", "-aug-soft", action="store_true")
	parser.add_argument("--plot-only", action="store_true")
	parser.add_argument("--jets-object", type=str, default="fatjets")
	parser.add_argument("--eval-dir", type=str, default="")
	parser.add_argument("--clustering-suffix", type=str, default="") # default: 1020, also want to try 1010 or others...?
	parser.add_argument("--pt-jet-cutoff", type=float, default=100.0)

	parser.add_argument("--high-eta-only", action="store_true") # eta > 1.5 quarks only
	parser.add_argument("--low-eta-only", action="store_true") # eta < 1.5 quarks only



	parser.add_argument("--parton-level", "-pl", action="store_true") # To be used together with 'fastjet_jets'
	parser.add_argument("--gen-level", "-gl", action="store_true")


	args = parser.parse_args()
	path = get_path(args.input, "preprocessed_data")

	import wandb
	api = wandb.Api()

	def get_run_by_name(name):
	runs = api.runs(
	path="fcc_ml/svj_clustering",
	filters={"display_name": {"$eq": name.strip()}}
	)
	runs = api.runs(
	path="fcc_ml/svj_clustering",
	filters={"display_name": {"$eq": name.strip()}}
	)

	if runs.length != 1:
	return None
	return runs[0]


	def resolve_preproc_data_path(path):
	rel_path = path.split("/preprocessed_data/")[-1]
	return get_path(rel_path, "preprocessed_data")


	if args.eval_dir:
	eval_dir = get_path(args.eval_dir, "results", fallback=True)
	dataset_path_to_eval_file = {}
	top_folder_name = eval_dir.split("/")[-1]
	config = get_run_by_name(top_folder_name).config
	for file in os.listdir(eval_dir):
	if file.startswith("eval_") and file.endswith(".pkl"):
	file_number = file.split("_")[1].split(".")[0]
	clustering_file = "clustering_{}.pkl".format(file_number)
	if args.clustering_suffix:
	clustering_file = "clustering_{}_{}.pkl".format(args.clustering_suffix, file_number)
	f = CPU_Unpickler(open(os.path.join(eval_dir, file), "rb")).load()
	clustering_file = os.path.join(eval_dir, clustering_file)
	if "model_cluster" in f and not args.clustering_suffix:
	clustering_file = None
	dataset_path_to_eval_file[resolve_preproc_data_path(f["filename"])] = [os.path.join(eval_dir, file), clustering_file]
	print(dataset_path_to_eval_file)

	if args.output == "":
	args.output = args.input

	output_path = os.path.join(get_path(args.output, "results"), "count_matched_quarks")
	Path(output_path).mkdir(parents=True, exist_ok=True)

	def get_bc_scores_for_jets(event):
	scores = event.pfcands.bc_scores_pfcands
	clusters = event.pfcands.bc_labels_pfcands
	selected_clusters_idx = torch.where(event.model_jets.pt > 100)[0]
	result = []
	for c in selected_clusters_idx:
	result.append(scores[clusters == c.item()])
	return result

	def calculate_m(objects, mt=False):
	# set a mask returning only the two highest pt jets
	mask = objects.pt.argsort(descending=True)[:2]
	total_E = objects.E[mask].sum()
	total_pxyz = objects.pxyz[mask].sum(dim=0)
	if mt:
	return np.sqrt(total_E2 - total_pxyz[0]2 - total_pxyz[1]**2).item()
	return np.sqrt(total_E2 - total_pxyz[2]2 - total_pxyz[1]2 - total_pxyz[0]2).item()

	thresholds = np.linspace(0.1, 1, 20)
	# also add 100 points between 0 and 0.1 at the beginning
	thresholds = np.concatenate([np.linspace(0, 0.1, 100), thresholds])

	def get_mc_gt_per_event(event):
	# get the monte carlo GT pt for the event. This is pt of the particles closer than 0.8 to each of the dark quarks
	result = []
	dq = [event.matrix_element_gen_particles.eta, event.matrix_element_gen_particles.phi]
	for i in range(len(dq[0])):
	dq_coords = [dq[0][i], dq[1][i]]
	cone_filter = torch.sqrt((event.pfcands.eta - dq_coords[0])2 + (event.pfcands.phi - dq_coords[1])2) < 0.8
	#cone_filter_special = torch.sqrt(
	# (event.special_pfcands.eta - dq_coords[0]) 2 + (event.special_pfcands.phi - dq_coords[1]) 2) < R
	eta_cone, phi_cone, pt_cone = event.pfcands.eta[cone_filter], event.pfcands.phi[cone_filter], event.pfcands.pt[cone_filter]
	px_cone = torch.sum(pt_cone * np.cos(phi_cone))
	py_cone = torch.sum(pt_cone * np.sin(phi_cone))
	pz_cone = torch.sum(pt_cone * np.sinh(eta_cone))
	pt_cone = torch.sqrt(px_cone2 + py_cone2)
	result.append(pt_cone.item())
	return result

	if not args.plot_only:
	n_matched_quarks = {}
	unmatched_quarks = {}
	n_fake_jets = {} # Number of jets that have not been matched to a quark
	bc_scores_matched = {}
	bc_scores_unmatched = {}
	precision_and_recall = {} # Array of [n_relevant_retrieved, all_retrieved, all_relevant], or in our language, [n_matched_dark_quarks, n_jets, n_dark_quarks]
	precision_and_recall_fastjets = {}
	pr_obj_score_thresholds = {} # same as precision_and_recall, except it gives a dictionary instead of the array, and the keys are the thresholds for objectness score
	mass_resolution = {} # Contains {'m_true': [], 'm_pred': [], 'mt_true': [], 'mt_pred': []} # mt = transverse mass, m = invariant mass
	matched_jet_properties = {} # contains {'pt_gen_particle': [], 'pt_mc_truth': [], 'pt_pred': [], 'eta_gen_particle': [], 'eta_mc_truth': [], 'eta_pred': [], 'phi_gen_particle': [], 'phi_mc_truth': [], 'phi_pred': []}
	matched_jet_properties_fastjets = {}
	is_dq_matched_per_event = {}
	dq_pt_per_event = {}
	gt_pt_per_event = {}
	gt_props_per_event = {"eta": {}, "phi": {}}
	print("LISTING DIRECTORY", path, ":", os.listdir(path))
	for subdataset in os.listdir(path):
	print("-----", subdataset, "-----")
	current_path = os.path.join(path, subdataset)
	model_clusters_file = None
	model_output_file = None
	if subdataset not in precision_and_recall:
	precision_and_recall[subdataset] = [0, 0, 0]
	precision_and_recall_fastjets[subdataset] = {}
	matched_jet_properties_fastjets[subdataset] = {}
	is_dq_matched_per_event[subdataset] = []
	dq_pt_per_event[subdataset] = []
	gt_pt_per_event[subdataset] = []
	if args.jets_object == "fastjet_jets":
	is_dq_matched_per_event[subdataset] = {}
	dq_pt_per_event[subdataset] = {}
	gt_pt_per_event[subdataset] = {}
	for key in gt_props_per_event:
	if subdataset not in gt_props_per_event[key]:
	gt_props_per_event[key][subdataset] = {}
	else:
	for key in gt_props_per_event:
	if subdataset not in gt_props_per_event[key]:
	gt_props_per_event[key][subdataset] = []
	pr_obj_score_thresholds[subdataset] = {}
	for i in range(len(thresholds)):
	pr_obj_score_thresholds[subdataset][i] = [0, 0, 0]
	if subdataset not in mass_resolution:
	mass_resolution[subdataset] = {'m_true': [], 'm_pred': [], 'mt_true': [], 'mt_pred': [], 'n_jets': []}
	if args.eval_dir:
	if current_path not in dataset_path_to_eval_file:
	print("Skipping", current_path)
	print(dataset_path_to_eval_file)
	continue
	model_clusters_file = dataset_path_to_eval_file[current_path][1]
	model_output_file = dataset_path_to_eval_file[current_path][0]
	#dataset = get_iter(current_path, model_clusters_file=model_clusters_file, model_output_file=model_output_file,
	# include_model_jets_unfiltered=True)
	fastjet_R = None
	if args.jets_object == "fastjet_jets":
	fastjet_R = np.array([0.8])
	config = {"parton_level": args.parton_level, "gen_level": args.gen_level}
	print("Config:", config)
	dataset = EventDataset.from_directory(current_path, model_clusters_file=model_clusters_file,
	model_output_file=model_output_file,
	include_model_jets_unfiltered=True, fastjet_R=fastjet_R,
	parton_level=config.get("parton_level", False), gen_level=config.get("gen_level", False),
	aug_soft=args.augment_soft_particles, seed=1000000, pt_jet_cutoff=args.pt_jet_cutoff)
	n = 0
	for x in tqdm(range(len(dataset))):
	data = dataset[x]
	if data is None:
	print("Skipping", x)
	continue
	#try:
	# data = dataset[x]
	#except:
	# print("Exception")
	# break # skip this event
	jets_object = data.__dict__[args.jets_object]
	n += 1
	if args.dataset_cap != -1 and n > args.dataset_cap:
	break
	if args.high_eta_only and torch.max(torch.abs(data.matrix_element_gen_particles.eta)) < 1.5:
	continue
	if args.low_eta_only and torch.max(torch.abs(data.matrix_element_gen_particles.eta)) > 1.5:
	continue
	if not args.jets_object == "fastjet_jets":
	jets = [jets_object.eta, jets_object.phi]
	dq = [data.matrix_element_gen_particles.eta, data.matrix_element_gen_particles.phi]
	# calculate deltaR between each jet and each quark
	distance_matrix = np.zeros((len(jets_object), len(data.matrix_element_gen_particles)))
	for i in range(len(jets_object)):
	for j in range(len(data.matrix_element_gen_particles)):
	deta = jets[0][i] - dq[0][j]
	dphi = abs(jets[1][i] - dq[1][j])
	if dphi > np.pi:
	dphi -= 2 * np.pi #- dphi
	distance_matrix[i, j] = np.sqrt(deta2 + dphi2)
	# row-wise argmin
	distance_matrix = distance_matrix.T
	#min_distance = np.min(distance_matrix, axis=1)
	n_jets = len(jets_object)
	precision_and_recall[subdataset][1] += n_jets
	precision_and_recall[subdataset][2] += len(data.matrix_element_gen_particles)
	if "obj_score" in jets_object.__dict__:
	print("Also evaluating using objectness score")
	for i in range(len(thresholds)):
	filt = torch.sigmoid(jets_object.obj_score) >= thresholds[i]
	pr_obj_score_thresholds[subdataset][i][1] += torch.sum(filt).item()
	pr_obj_score_thresholds[subdataset][i][2] += len(data.matrix_element_gen_particles)
	mass_resolution[subdataset]['m_true'].append(calculate_m(data.matrix_element_gen_particles))
	mass_resolution[subdataset]['m_pred'].append(calculate_m(jets_object))
	mass_resolution[subdataset]['mt_true'].append(calculate_m(data.matrix_element_gen_particles, mt=True))
	mass_resolution[subdataset]['mt_pred'].append(calculate_m(jets_object, mt=True))
	mass_resolution[subdataset]['n_jets'].append(n_jets)
	if len(jets_object):
	if subdataset not in matched_jet_properties:
	matched_jet_properties[subdataset] = {'pt_gen_particle': [], 'pt_mc_truth': [], 'pt_pred': [],
	'eta_gen_particle': [], 'eta_pred': [],
	'phi_gen_particle': [], 'phi_pred': []}
	quark_to_jet = np.min(distance_matrix, axis=1)
	quark_to_jet_idx = np.argmin(distance_matrix, axis=1)
	quark_to_jet[quark_to_jet > R] = -1
	n_matched_quarks[subdataset] = n_matched_quarks.get(subdataset, []) + [np.sum(quark_to_jet != -1)]
	n_fake_jets[subdataset] = n_fake_jets.get(subdataset, []) + [n_jets - np.sum(quark_to_jet != -1)]
	f = quark_to_jet != -1
	matched_jet_properties[subdataset]["pt_gen_particle"] += data.matrix_element_gen_particles.pt[f].tolist()
	matched_jet_properties[subdataset]["pt_pred"] += jets_object.pt[quark_to_jet_idx[f]].tolist()
	matched_jet_properties[subdataset]["eta_gen_particle"] += data.matrix_element_gen_particles.eta[f].tolist()
	matched_jet_properties[subdataset]["eta_pred"] += jets_object.eta[quark_to_jet_idx[f]].tolist()
	matched_jet_properties[subdataset]["phi_gen_particle"] += data.matrix_element_gen_particles.phi[f].tolist()
	matched_jet_properties[subdataset]["phi_pred"] += jets_object.phi[quark_to_jet_idx[f]].tolist()
	precision_and_recall[subdataset][0] += np.sum(quark_to_jet != -1)

	if "obj_score" in jets_object.__dict__:
	for i in range(len(thresholds)):
	filt = torch.sigmoid(jets_object.obj_score) >= thresholds[i]
	dist_matrix_filt = distance_matrix[:, filt.numpy()]
	if filt.sum() == 0:
	continue
	quark_to_jet_filt = np.min(dist_matrix_filt, axis=1)
	quark_to_jet_filt[quark_to_jet_filt > R] = -1
	pr_obj_score_thresholds[subdataset][i][0] += np.sum(quark_to_jet_filt != -1)
	filt = quark_to_jet == -1
	#if args.jets_object == "model_jets":
	#matched_jet_idx = sorted(np.argmin(distance_matrix, axis=1)[quark_to_jet != -1])
	#unmatched_jet_idx = sorted(list(set(list(range(n_jets))) - set(matched_jet_idx)))
	#scores = get_bc_scores_for_jets(data)
	#for i in matched_jet_idx:
	# bc_scores_matched[subdataset] = bc_scores_matched.get(subdataset, []) + [torch.mean(scores[i]).item()]
	#for i in unmatched_jet_idx:
	# bc_scores_unmatched[subdataset] = bc_scores_unmatched.get(subdataset, []) + [torch.mean(scores[i]).item()]
	else:
	n_matched_quarks[subdataset] = n_matched_quarks.get(subdataset, []) + [0]
	n_fake_jets[subdataset] = n_fake_jets.get(subdataset, []) + [n_jets]
	filt = torch.ones(len(data.matrix_element_gen_particles)).bool()
	quark_to_jet = torch.ones(len(data.matrix_element_gen_particles)).long() * -1
	is_dq_matched_per_event[subdataset].append(quark_to_jet.tolist())
	dq_pt_per_event[subdataset].append(data.matrix_element_gen_particles.pt.tolist())
	gt_pt_per_event[subdataset].append(get_mc_gt_per_event(data))
	gt_props_per_event["eta"][subdataset].append(data.matrix_element_gen_particles.eta.tolist())
	gt_props_per_event["phi"][subdataset].append(data.matrix_element_gen_particles.phi.tolist())
	if subdataset not in unmatched_quarks:
	unmatched_quarks[subdataset] = {"pt": [], "eta": [], "phi": [], "pt_all": [], "frac_evt_E_matched": [], "frac_evt_E_unmatched": []}
	unmatched_quarks[subdataset]["pt"] += data.matrix_element_gen_particles.pt[filt].tolist()
	unmatched_quarks[subdataset]["pt_all"] += data.matrix_element_gen_particles.pt.tolist()
	unmatched_quarks[subdataset]["eta"] += data.matrix_element_gen_particles.eta[filt].tolist()
	unmatched_quarks[subdataset]["phi"] += data.matrix_element_gen_particles.phi[filt].tolist()
	visible_E_event = torch.sum(data.pfcands.E) #+ torch.sum(data.special_pfcands.E)
	matched_quarks = np.where(quark_to_jet != -1)[0]
	for i in range(len(data.matrix_element_gen_particles)):
	dq_coords = [dq[0][i], dq[1][i]]
	cone_filter = torch.sqrt((data.pfcands.eta - dq_coords[0])2 + (data.pfcands.phi - dq_coords[1])2) < R
	#cone_filter_special = torch.sqrt(
	# (data.special_pfcands.eta - dq_coords[0]) 2 + (data.special_pfcands.phi - dq_coords[1]) 2) < R
	E_in_cone = data.pfcands.E[cone_filter].sum()# + data.special_pfcands.E[cone_filter_special].sum()
	if i in matched_quarks:
	unmatched_quarks[subdataset]["frac_evt_E_matched"].append(E_in_cone / visible_E_event)
	else:
	unmatched_quarks[subdataset]["frac_evt_E_unmatched"].append(E_in_cone / visible_E_event)
	#print("Number of matched quarks:", np.sum(quark_to_jet != -1))
	else:
	for key in jets_object:
	jets = [jets_object[key].eta, jets_object[key].phi]
	dq = [data.matrix_element_gen_particles.eta, data.matrix_element_gen_particles.phi]
	# calculate deltaR between each jet and each quark
	distance_matrix = np.zeros((len(jets_object[key]), len(data.matrix_element_gen_particles)))
	for i in range(len(jets_object[key])):
	for j in range(len(data.matrix_element_gen_particles)):
	deta = jets[0][i] - dq[0][j]
	dphi = abs(jets[1][i] - dq[1][j])
	if dphi > np.pi:
	dphi -= 2 * np.pi
	#elif dphi < -np.pi:
	# dphi += 2 * np.pi
	assert abs(dphi) <= np.pi, "dphi is not in [-pi, pi] range: {}".format(dphi)
	distance_matrix[i, j] = np.sqrt(deta 2 + dphi 2)
	# Row-wise argmin
	distance_matrix = distance_matrix.T
	# min_distance = np.min(distance_matrix, axis=1)
	n_jets = len(jets_object[key])
	if key not in precision_and_recall_fastjets[subdataset]:
	precision_and_recall_fastjets[subdataset][key] = [0, 0, 0]
	if key not in matched_jet_properties_fastjets[subdataset]:
	is_dq_matched_per_event[subdataset][key] = []
	dq_pt_per_event[subdataset][key] = []
	gt_pt_per_event[subdataset][key] = []
	for prop in gt_props_per_event:
	if key not in gt_props_per_event[prop][subdataset]:
	gt_props_per_event[prop][subdataset][key] = []
	matched_jet_properties_fastjets[subdataset][key] = {"pt_gen_particle": [], "pt_pred": [],
	"eta_gen_particle": [], "eta_pred": [],
	"phi_gen_particle": [], "phi_pred": []}
	precision_and_recall_fastjets[subdataset][key][1] += n_jets
	precision_and_recall_fastjets[subdataset][key][2] += len(data.matrix_element_gen_particles)
	if len(jets_object[key]):
	quark_to_jet = np.min(distance_matrix, axis=1)
	quark_to_jet_idx = np.argmin(distance_matrix, axis=1)
	quark_to_jet[quark_to_jet > R] = -1
	precision_and_recall_fastjets[subdataset][key][0] += np.sum(quark_to_jet != -1)
	f = quark_to_jet != -1
	matched_jet_properties_fastjets[subdataset][key]["pt_gen_particle"] += data.matrix_element_gen_particles.pt[f].tolist()
	matched_jet_properties_fastjets[subdataset][key]["pt_pred"] += jets_object[key].pt[quark_to_jet_idx[f]].tolist()
	matched_jet_properties_fastjets[subdataset][key]["eta_gen_particle"] += data.matrix_element_gen_particles.eta[f].tolist()
	matched_jet_properties_fastjets[subdataset][key]["eta_pred"] += jets_object[key].eta[quark_to_jet_idx[f]].tolist()
	matched_jet_properties_fastjets[subdataset][key]["phi_gen_particle"] += data.matrix_element_gen_particles.phi[f].tolist()
	matched_jet_properties_fastjets[subdataset][key]["phi_pred"] += jets_object[key].phi[quark_to_jet_idx[f]].tolist()
	else:
	quark_to_jet = torch.ones(len(data.matrix_element_gen_particles)).long() * -1
	is_dq_matched_per_event[subdataset][key].append(quark_to_jet.tolist())
	dq_pt_per_event[subdataset][key].append(data.matrix_element_gen_particles.pt.tolist())
	gt_pt_per_event[subdataset][key].append(get_mc_gt_per_event(data))
	gt_props_per_event["eta"][subdataset][key].append(data.matrix_element_gen_particles.eta.tolist())
	gt_props_per_event["phi"][subdataset][key].append(data.matrix_element_gen_particles.phi.tolist())
	avg_n_matched_quarks = {}
	avg_n_fake_jets = {}
	for key in n_matched_quarks:
	avg_n_matched_quarks[key] = np.mean(n_matched_quarks[key])
	avg_n_fake_jets[key] = np.mean(n_fake_jets[key])
	def get_properties(name):
	if "qcd" in name.lower():
	print("QCD file! Not using mMed, mDark, rinv")
	return 0, 0, 0
	# get mediator mass, dark quark mass, r_inv from the filename
	parts = name.strip().strip("/").split("/")[-1].split("_")
	try:
	mMed = int(parts[1].split("-")[1])
	mDark = int(parts[2].split("-")[1])
	rinv = float(parts[3].split("-")[1])
	except:
	# another convention
	mMed = int(parts[2].split("-")[1])
	mDark = int(parts[3].split("-")[1])
	rinv = float(parts[4].split("-")[1])
	return mMed, mDark, rinv
	result = {}
	result_unmatched = {}
	result_fakes = {}
	result_bc = {}
	result_PR = {}
	result_PR_AKX = {}
	result_PR_thresholds = {}
	result_m = {}
	result_jet_properties = {}
	result_jet_properties_AKX = {}
	result_quark_to_jet ={}
	result_pt_mc_gt = {}
	result_pt_dq = {}
	result_props_dq = {"eta": {}, "phi": {}}
	if args.jets_object != "fastjet_jets":
	for key in avg_n_matched_quarks:
	mMed, mDark, rinv = get_properties(key)
	if mMed not in result:
	result[mMed] = {}
	result_unmatched[mMed] = {}
	result_fakes[mMed] = {}
	result_bc[mMed] = {}
	result_PR[mMed] = {}
	result_PR_AKX[mMed] = {}
	result_PR_thresholds[mMed] = {}
	result_m[mMed] = {}
	result_jet_properties[mMed] = {}
	result_jet_properties_AKX[mMed] = {}
	result_quark_to_jet[mMed] = {}
	result_pt_mc_gt[mMed] = {}
	result_pt_dq[mMed] = {}
	for prop in gt_props_per_event:
	if mMed not in result_props_dq[prop]:
	result_props_dq[prop][mMed] = {}
	if mDark not in result[mMed]:
	result[mMed][mDark] = {}
	result_unmatched[mMed][mDark] = {}
	result_fakes[mMed][mDark] = {}
	result_bc[mMed][mDark] = {}
	result_PR[mMed][mDark] = {}
	result_PR_thresholds[mMed][mDark] = {}
	result_PR_AKX[mMed][mDark] = {}
	result_m[mMed][mDark] = {}
	result_jet_properties[mMed][mDark] = {}
	result_jet_properties_AKX[mMed][mDark] = {}
	result_quark_to_jet[mMed][mDark] = {}
	result_pt_mc_gt[mMed][mDark] = {}
	result_pt_dq[mMed][mDark] = {}
	for prop in gt_props_per_event:
	if mDark not in result_props_dq[prop][mMed]:
	result_props_dq[prop][mMed][mDark] = {}
	result[mMed][mDark][rinv] = avg_n_matched_quarks[key]
	result_unmatched[mMed][mDark][rinv] = unmatched_quarks[key]
	result_fakes[mMed][mDark][rinv] = avg_n_fake_jets[key]
	result_jet_properties[mMed][mDark][rinv] = matched_jet_properties[key]
	result_quark_to_jet[mMed][mDark][rinv] = is_dq_matched_per_event[key]
	result_pt_mc_gt[mMed][mDark][rinv] = gt_pt_per_event[key]
	result_pt_dq[mMed][mDark][rinv] = dq_pt_per_event[key]
	for prop in gt_props_per_event:
	result_props_dq[prop][mMed][mDark][rinv] = gt_props_per_event[prop][key]
	#result_bc[mMed][mDark][rinv] = {
	# "matched": bc_scores_matched[key],
	# "unmatched": bc_scores_unmatched[key]
	#}
	result_PR_thresholds[mMed][mDark][rinv] = pr_obj_score_thresholds[key]
	if precision_and_recall[key][1] == 0 or precision_and_recall[key][2] == 0:
	result_PR[mMed][mDark][rinv] = [0, 0]
	print(mMed, mDark, rinv)
	print("PR zero", key, precision_and_recall[key])
	else:
	result_PR[mMed][mDark][rinv] = [precision_and_recall[key][0] / precision_and_recall[key][1], precision_and_recall[key][0] / precision_and_recall[key][2]]
	result_m[mMed][mDark][rinv] = {key: np.array(val) for key, val in mass_resolution[key].items()}
	if args.jets_object == "fastjet_jets":
	r = precision_and_recall_fastjets[key]
	if rinv not in result_PR_AKX[mMed][mDark]:
	result_PR_AKX[mMed][mDark][rinv] = {}
	for k in r:
	if r[k][1] == 0 or r[k][2] == 0:
	result_PR_AKX[mMed][mDark][rinv][k] = [0, 0]
	else:
	result_PR_AKX[mMed][mDark][rinv][k] = [r[k][0] / r[k][1], r[k][0] / r[k][2]]
	else:
	for key in precision_and_recall_fastjets: # key=radius of AK
	mMed, mDark, rinv = get_properties(key)
	if mMed not in result_PR_AKX:
	result_PR_AKX[mMed] = {}
	result_jet_properties_AKX[mMed] = {}
	result_quark_to_jet[mMed] = {}
	result_pt_mc_gt[mMed] = {}
	result_pt_dq[mMed] = {}
	for prop in result_props_dq:
	result_props_dq[prop][mMed] = {}
	if mDark not in result_PR_AKX[mMed]:
	result_PR_AKX[mMed][mDark] = {}
	result_jet_properties_AKX[mMed][mDark] = {}
	result_quark_to_jet[mMed][mDark] = {}
	result_pt_mc_gt[mMed][mDark] = {}
	result_pt_dq[mMed][mDark] = {}
	for prop in result_props_dq:
	result_props_dq[prop][mMed][mDark] = {}
	r = precision_and_recall_fastjets[key]
	if rinv not in result_PR_AKX[mMed][mDark]:
	result_PR_AKX[mMed][mDark][rinv] = {}
	result_jet_properties_AKX[mMed][mDark][rinv] = {}
	result_quark_to_jet[mMed][mDark][rinv] = {}
	result_pt_mc_gt[mMed][mDark][rinv] = {}
	result_pt_dq[mMed][mDark][rinv] = {}
	for prop in result_props_dq:
	result_props_dq[prop][mMed][mDark][rinv] = {}
	for k in r:
	result_quark_to_jet[mMed][mDark][rinv][k] = is_dq_matched_per_event[key][k]
	result_pt_mc_gt[mMed][mDark][rinv][k] = gt_pt_per_event[key][k]
	result_pt_dq[mMed][mDark][rinv][k] = dq_pt_per_event[key][k]
	for prop in result_props_dq:
	result_props_dq[prop][mMed][mDark][rinv][k] = gt_props_per_event[prop][key][k]
	result_jet_properties_AKX[mMed][mDark][rinv][k] = matched_jet_properties_fastjets[key][k]
	if r[k][1] == 0 or r[k][2] == 0:
	result_PR_AKX[mMed][mDark][rinv][k] = [0, 0]
	else:
	result_PR_AKX[mMed][mDark][rinv][k] = [r[k][0] / r[k][1], r[k][0] / r[k][2]]
	pickle.dump(result_quark_to_jet, open(os.path.join(output_path, "result_quark_to_jet.pkl"), "wb"))
	pickle.dump(result_pt_mc_gt, open(os.path.join(output_path, "result_pt_mc_gt.pkl"), "wb"))
	pickle.dump(result_pt_dq, open(os.path.join(output_path, "result_pt_dq.pkl"), "wb"))
	pickle.dump(result, open(os.path.join(output_path, "result.pkl"), "wb"))
	pickle.dump(result_unmatched, open(os.path.join(output_path, "result_unmatched.pkl"), "wb"))
	pickle.dump(result_fakes, open(os.path.join(output_path, "result_fakes.pkl"), "wb"))
	pickle.dump(result_bc, open(os.path.join(output_path, "result_bc.pkl"), "wb"))
	pickle.dump(result_props_dq, open(os.path.join(output_path, "result_props_dq.pkl"), "wb"))
	if args.jets_object == "fastjet_jets":
	pickle.dump(result_PR_AKX, open(os.path.join(output_path, "result_PR_AKX.pkl"), "wb"))
	pickle.dump(result_jet_properties_AKX, open(os.path.join(output_path, "result_jet_properties_AKX.pkl"), "wb"))
	pickle.dump(result_PR, open(os.path.join(output_path, "result_PR.pkl"), "wb"))
	pickle.dump(result_PR_thresholds, open(os.path.join(output_path, "result_PR_thresholds.pkl"), "wb"))
	pickle.dump(result_m, open(os.path.join(output_path, "result_m.pkl"), "wb"))
	pickle.dump(result_jet_properties, open(os.path.join(output_path, "result_jet_properties.pkl"), "wb"))

	with open(os.path.join(output_path, "eval_done.txt"), "w") as f:
	f.write("True")
	# Write the number of events to n_events.txt
	with open(os.path.join(output_path, "n_events.txt"), "w") as f:
	f.write(str(n))

	if args.plot_only:
	result = pickle.load(open(os.path.join(output_path, "result.pkl"), "rb"))
	result_unmatched = pickle.load(open(os.path.join(output_path, "result_unmatched.pkl"), "rb"))
	result_fakes = pickle.load(open(os.path.join(output_path, "result_fakes.pkl"), "rb"))
	result_bc = pickle.load(open(os.path.join(output_path, "result_bc.pkl"), "rb"))
	result_PR = pickle.load(open(os.path.join(output_path, "result_PR.pkl"), "rb"))
	result_PR_thresholds = pickle.load(open(os.path.join(output_path, "result_PR_thresholds.pkl"), "rb"))

	if args.jets_object == "fastjet_jets":
	print("Only computing fastjet jets - exiting now, the metrics have been saved to disk")
	import sys
	sys.exit(0)

	fig, ax = plt.subplots(3, 1, figsize=(4, 12))

	def get_plots_for_params(mMed, mDark, rInv):
	precisions = []
	recalls = []
	f1_scores = []
	for i in range(len(thresholds)):
	if result_PR_thresholds[mMed][mDark][rInv][i][1] == 0:
	precisions.append(0)
	else:
	precisions.append(result_PR_thresholds[mMed][mDark][rInv][i][0] / result_PR_thresholds[mMed][mDark][rInv][i][1])
	if result_PR_thresholds[mMed][mDark][rInv][i][2] == 0:
	recalls.append(0)
	else:
	recalls.append(result_PR_thresholds[mMed][mDark][rInv][i][0] / result_PR_thresholds[mMed][mDark][rInv][i][2])
	for i in range(len(thresholds)):
	if precisions[i] + recalls[i] == 0:
	f1_scores.append(0)
	else:
	f1_scores.append(2precisions[i]recalls[i] / (precisions[i] + recalls[i]))
	return precisions, recalls, f1_scores


	def plot_for_params(a, b, c):
	precisions, recalls, f1_scores = get_plots_for_params(a, b, c)
	ax[0].plot(thresholds, precisions, ".--", label=f"mMed={a},rInv={c}")
	ax[1].plot(thresholds, recalls, ".--", label=f"mMed={a},rInv={c}")
	ax[2].plot(thresholds, f1_scores, ".--", label=f"mMed={a},rInv={c}")

	if "qcd" in args.input.lower():
	print("QCD dataset - not plotting thresholds")
	import sys
	sys.exit(0)

	plot_for_params(900, 20, 0.3)
	plot_for_params(700, 20, 0.7)
	#plot_for_params(3000, 20, 0.3)
	plot_for_params(900, 20, 0.7)
	plot_for_params(1000, 20, 0.3)
	ax[0].grid()
	ax[1].grid()
	ax[2].grid()
	ax[0].set_ylabel("Precision")
	ax[1].set_ylabel("Recall")
	ax[2].set_ylabel("F1 score")
	ax[0].legend()
	ax[1].legend()
	ax[2].legend()
	ax[0].set_xscale("log")
	ax[1].set_xscale("log")
	ax[2].set_xscale("log")
	fig.tight_layout()
	fig.savefig(os.path.join(output_path, "pr_thresholds.pdf"))


	matrix_plot(result, "Blues", "Avg. matched dark quarks / event").savefig(os.path.join(output_path, "avg_matched_dark_quarks.pdf"))
	matrix_plot(result_fakes, "Greens", "Avg. unmatched jets / event").savefig(os.path.join(output_path, "avg_unmatched_jets.pdf"))
	matrix_plot(result_PR, "Reds", "Precision (N matched dark quarks / N predicted jets)", metric_comp_func = lambda r: r[0]).savefig(os.path.join(output_path, "precision.pdf"))
	matrix_plot(result_PR, "Reds", "Recall (N matched dark quarks / N dark quarks)", metric_comp_func = lambda r: r[1]).savefig(os.path.join(output_path, "recall.pdf"))
	matrix_plot(result_PR, "Purples", "F_1 score", metric_comp_func = lambda r: 2 * r[0] * r[1] / (r[0] + r[1])).savefig(os.path.join(output_path, "f1_score.pdf"))

	dark_masses = [20]
	mediator_masses = sorted(list(result.keys()))
	r_invs = sorted(list(set([rinv for mMed in result for mDark in result[mMed] for rinv in result[mMed][mDark]])))

	fig, ax = plt.subplots(len(r_invs), len(mediator_masses), figsize=(3len(mediator_masses), 3 len(r_invs)))
	for i in range(len(r_invs)):
	for j in range(len(mediator_masses)):
	data = result_unmatched[mediator_masses[j]][dark_masses[0]][r_invs[i]]["pt"]
	ax[i, j].hist(data, bins=50, histtype="step", label="Unmatched")
	ax[i, j].hist(result_unmatched[mediator_masses[j]][dark_masses[0]][r_invs[i]]["pt_all"], bins=50, histtype="step", label="All")
	ax[i, j].set_title(f"mMed = {mediator_masses[j]}, rinv = {r_invs[i]}")
	ax[i, j].set_xlabel("pt")
	ax[i, j].legend()
	fig.tight_layout()
	fig.savefig(os.path.join(output_path, "unmatched_dark_quarks_pt.pdf"))

	fig, ax = plt.subplots(len(r_invs), len(mediator_masses), figsize=(3len(mediator_masses), 3 len(r_invs)))
	for i in range(len(r_invs)):
	for j in range(len(mediator_masses)):
	data_x = result_unmatched[mediator_masses[j]][dark_masses[0]][r_invs[i]]["eta"]
	data_y = result_unmatched[mediator_masses[j]][dark_masses[0]][r_invs[i]]["phi"]
	# 2d histogram
	ax[i, j].hist2d(data_x, data_y, bins=10, cmap="Blues")
	ax[i, j].set_title(f"mMed = {mediator_masses[j]}, rinv = {r_invs[i]}")
	ax[i, j].set_xlabel("unmatched dark quark eta")
	ax[i, j].set_ylabel("unmatched dark quark phi")

	fig.tight_layout()
	fig.savefig(os.path.join(output_path, "unmatched_dark_quarks_eta_phi.pdf"))


	fig, ax = plt.subplots(len(r_invs), len(mediator_masses), figsize=(3len(mediator_masses), 3 len(r_invs)))
	for i in range(len(r_invs)):
	for j in range(len(mediator_masses)):
	data = result_unmatched[mediator_masses[j]][dark_masses[0]][r_invs[i]]["frac_evt_E_matched"]
	data_unmatched = result_unmatched[mediator_masses[j]][dark_masses[0]][r_invs[i]]["frac_evt_E_unmatched"]
	bins = np.linspace(0, 1, 100)
	ax[i, j].hist(data_unmatched, bins=bins, histtype="step", label="Unmatched")
	ax[i, j].hist(data, bins=bins, histtype="step", label="Matched")
	ax[i, j].set_title(f"mMed = {mediator_masses[j]}, rinv = {r_invs[i]}")
	ax[i, j].set_xlabel("E (R<0.8) / event E")
	ax[i, j].legend()
	fig.tight_layout()
	fig.savefig(os.path.join(output_path, "frac_E_in_cone.pdf"))

	fig, ax = plt.subplots(len(r_invs), len(mediator_masses), figsize=(3len(mediator_masses), 3 len(r_invs)))
	for i in range(len(r_invs)):
	for j in range(len(mediator_masses)):
	data = result_unmatched[mediator_masses[j]][dark_masses[0]][r_invs[i]]["frac_evt_E_matched"]
	data_unmatched = result_unmatched[mediator_masses[j]][dark_masses[0]][r_invs[i]]["frac_evt_E_unmatched"]
	bins = np.linspace(0, 1, 100)
	ax[i, j].hist(data_unmatched, bins=bins, histtype="step", label="Unmatched dark quark", density=True)
	ax[i, j].hist(data, bins=bins, histtype="step", label="Matched dark quark", density=True)
	ax[i, j].set_title(f"mMed = {mediator_masses[j]}, rinv = {r_invs[i]}")
	ax[i, j].set_xlabel("E (R<0.8) / event E")
	ax[i, j].legend()
	fig.tight_layout()
	fig.savefig(os.path.join(output_path, "frac_E_in_cone_density.pdf"))

	'''
	fig, ax = plt.subplots(figsize=(5, 5))
	unmatched = result_bc[900][20][0.3]["unmatched"]
	matched = result_bc[900][20][0.3]["matched"]
	bins = np.linspace(0, 1, 100)
	ax.hist(unmatched, bins=bins, histtype="step", label="Unmatched jet")
	ax.hist(matched, bins=bins, histtype="step", label="Matched jet")
	ax.set_title("mMed = 900, mDark = 20, rinv = 0.3")
	ax.set_xlabel("BC score")
	ax.set_ylabel("count")
	ax.set_yscale("log")
	ax.legend()
	fig.tight_layout()
	fig.savefig(os.path.join(output_path, "avg_scores_matched_vs_unmatched_jet.pdf"))
	'''