Spaces:

poltextlab
/

babel_machine

Running

babel_machine / interfaces /cap_minor.py

kovacsvi

removed html slop

8869f68 27 days ago

3.47 kB

	import gradio as gr

	import os
	import torch
	import numpy as np
	import pandas as pd
	from transformers import AutoModelForSequenceClassification
	from transformers import AutoTokenizer
	from huggingface_hub import HfApi

	from collections import defaultdict

	from label_dicts import (
	CAP_NUM_DICT,
	CAP_LABEL_NAMES,
	CAP_MIN_NUM_DICT,
	CAP_MIN_LABEL_NAMES,
	)

	from .utils import is_disk_full, release_model


	HF_TOKEN = os.environ["hf_read"]

	languages = [
	"Multilingual",
	]

	domains = {
	"media": "media",
	"social media": "social",
	"parliamentary speech": "parlspeech",
	"legislative documents": "legislative",
	"executive speech": "execspeech",
	"executive order": "execorder",
	"party programs": "party",
	"judiciary": "judiciary",
	"budget": "budget",
	"public opinion": "publicopinion",
	"local government agenda": "localgovernment",
	}


	def get_label_name(idx):
	minor_code = CAP_MIN_NUM_DICT[idx]
	minor_label_name = CAP_MIN_LABEL_NAMES[minor_code]
	major_code = minor_code // 100 if minor_code not in [99, 999, 9999] else 999
	major_label_name = CAP_LABEL_NAMES[major_code]
	return f"[{major_code}] {major_label_name} [{minor_code}] {minor_label_name}"


	def check_huggingface_path(checkpoint_path: str):
	try:
	hf_api = HfApi(token=HF_TOKEN)
	hf_api.model_info(checkpoint_path, token=HF_TOKEN)
	return True
	except:
	return False


	def build_huggingface_path(language: str, domain: str):
	if domain in ["social"]:
	return "poltextlab/xlm-roberta-large-twitter-cap-minor"
	return "poltextlab/xlm-roberta-large-pooled-cap-minor-v3"


	def predict(text, model_id, tokenizer_id):
	device = torch.device("cpu")

	# Load JIT-traced model
	jit_model_path = f"/data/jit_models/{model_id.replace('/', '_')}.pt"
	model = torch.jit.load(jit_model_path).to(device)
	model.eval()

	# Load tokenizer (still regular HF)
	tokenizer = AutoTokenizer.from_pretrained(tokenizer_id)

	# Tokenize input
	inputs = tokenizer(
	text, max_length=64, truncation=True, padding=True, return_tensors="pt"
	)
	inputs = {k: v.to(device) for k, v in inputs.items()}

	with torch.no_grad():
	output = model(inputs["input_ids"], inputs["attention_mask"])
	print(output) # debug
	logits = output["logits"]

	release_model(model, model_id)

	probs = torch.nn.functional.softmax(logits, dim=1).cpu().numpy().flatten()

	output_pred = {get_label_name(i): probs[i] for i in np.argsort(probs)[::-1]}
	output_info = f'<p style="text-align: center; display: block">Prediction was made using the <a href="https://huggingface.co/{model_id}">{model_id}</a> model.</p>'
	return output_pred, output_info


	def predict_cap(text, language, domain):
	domain = domains[domain]
	model_id = build_huggingface_path(language, domain)
	tokenizer_id = "xlm-roberta-large"

	if is_disk_full():
	os.system("rm -rf /data/models*")
	os.system("rm -r ~/.cache/huggingface/hub")

	return predict(text, model_id, tokenizer_id)


	demo = gr.Interface(
	title="CAP Minor Topics Babel Demo",
	fn=predict_cap,
	inputs=[
	gr.Textbox(lines=6, label="Input"),
	gr.Dropdown(languages, label="Language", value=languages[0]),
	gr.Dropdown(domains.keys(), label="Domain", value=list(domains.keys())[0]),
	],
	outputs=[gr.Label(num_top_classes=5, label="Output"), gr.Markdown()],
	)