Spaces:

nullHawk
/

coke-pepsi-detection

Sleeping

App Files Files Community

coke-pepsi-detection / main.py

nullHawk

updated main.py

d37ab35 verified 11 months ago

raw

history blame contribute delete

3.78 kB

	import os
	import json
	import av
	from ultralytics import YOLO
	from PIL import Image
	from datetime import timedelta

	# Paths
	VIDEOS_DIR = '.'
	video_path = os.path.join(VIDEOS_DIR, 'sample_video.mp4')
	output_json_path = 'output.json'
	model_path = os.path.join('.', 'best.pt')

	# Load YOLOv8 model
	model = YOLO(model_path) # Load a custom model

	threshold = 0.5

	def format_timestamp(seconds):
	# Convert seconds to timedelta and format as HH:MM:SS
	td = timedelta(seconds=seconds)
	return str(td)

	def extract_frames(video_path):
	container = av.open(video_path)
	frames = []
	for frame in container.decode(video=0):
	# Convert timestamp to float seconds
	timestamp = float(frame.pts * frame.time_base)
	img = frame.to_image()
	frames.append((img, timestamp))
	return frames

	def detect_logos(frames):
	pepsi_pts = []
	cocacola_pts = []

	for img, timestamp in frames:
	results = model(img) # Run inference

	for result in results:
	boxes = result.boxes # Boxes object for bounding box outputs

	for box in boxes:
	# Extract the bounding box and confidence
	x1, y1, x2, y2 = box.xyxy[0].tolist() # Convert to list
	score = box.conf[0].item() # Convert to float
	class_id = int(box.cls[0].item()) # Convert to int

	if score > threshold:
	class_name = result.names[class_id].upper()
	width = x2 - x1
	height = y2 - y1
	center_x = (x1 + x2) / 2
	center_y = (y1 + y2) / 2
	frame_center_x = img.width / 2
	frame_center_y = img.height / 2
	distance_from_center = ((center_x - frame_center_x) 2 + (center_y - frame_center_y) 2) ** 0.5

	formatted_timestamp = format_timestamp(timestamp)
	entry = {
	"timestamp": formatted_timestamp,
	"size": {"width": width, "height": height},
	"distance_from_center": distance_from_center
	}

	if class_name == 'PEPSI':
	pepsi_pts.append(entry)
	elif class_name == 'COCA-COLA':
	cocacola_pts.append(entry)

	return pepsi_pts, cocacola_pts

	def generate_output_json(pepsi_pts, cocacola_pts, output_path='output.json'):
	# Convert all values to strings for JSON serialization
	def to_serializable(obj):
	if isinstance(obj, (list, dict)):
	return obj
	elif hasattr(obj, 'tolist'):
	return obj.tolist() # Convert numpy arrays or tensors
	elif hasattr(obj, 'item'):
	return obj.item() # Convert single element tensors
	else:
	return str(obj) # Convert other non-serializable objects to string

	output = {
	"Pepsi_pts": [entry["timestamp"] for entry in pepsi_pts],
	"CocaCola_pts": [entry["timestamp"] for entry in cocacola_pts],
	"Pepsi_details": [ {k: to_serializable(v) for k, v in entry.items()} for entry in pepsi_pts ],
	"CocaCola_details": [ {k: to_serializable(v) for k, v in entry.items()} for entry in cocacola_pts ]
	}
	with open(output_path, 'w') as f:
	json.dump(output, f, indent=4)




	def main(video_path):
	frames = extract_frames(video_path)
	pepsi_pts, cocacola_pts = detect_logos(frames)
	generate_output_json(pepsi_pts, cocacola_pts)

	if __name__ == "__main__":
	import sys
	if len(sys.argv) < 2:
	print("Usage: python main.py <video_path>")
	sys.exit(1)
	video_path = sys.argv[1]
	main(video_path)