Spaces:

wabang
/

TestKMMLU

Runtime error

File size: 2,446 Bytes

cfbe56d
 
 
 
70267fe
 
2f24e2f
7ad5a82
70267fe
49a3d43
dd69229
dcd6208
2f24e2f
70267fe
3946289
70267fe
49a3d43
d94d325
2f24e2f
a0333c0
2f24e2f
902c41f
 
d94d325
2f24e2f
dd69229
 
2f24e2f
cfbe56d
 
 
 
 
 
 
 
 
3433e6f
cfbe56d
 
 
 
f429607
cfbe56d
f429607
cfbe56d
 
f429607
cfbe56d
 
 
 
 
 
 
 
 
 
 
 
 
f429607
cfbe56d
 
7a03b9a
9d60753
 
f429607
 
9d60753
 
f429607
9d60753
cfbe56d
da49503

import gradio as gr
import pandas as pd
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
from huggingface_hub import login
import os
from datasets import load_dataset
import accelerate

# 환경 변수에서 토큰 가져오기
hf_token = os.environ.get("HF_TOKEN")

# Hugging Face 로그인
if hf_token:
    login(token=hf_token, add_to_git_credential=True)
else:
    print("HF_TOKEN 환경 변수 설정 오류")

# model, tokenizer 셋팅
model_name = "meta-llama/Meta-Llama-3.1-8B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name, token=hf_token)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16, low_cpu_mem_usage=False ,token=hf_token)
#지운 옵션: device_map="auto"

# KMMLU 데이터셋 로드
dataset = load_dataset("HAERAE-HUB/KMMLU", "Accounting")
#dataset = load_dataset("HAERAE-HUB/KMMLU")
df = dataset['test'].to_pandas()

def evaluate_model(question, choices):
    prompt = f"질문: {question}\n\n선택지:\n"
    for i, choice in enumerate(choices):
        prompt += f"{chr(65 + i)}. {choice}\n"
    prompt += "\n답변:"

    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
    with torch.no_grad():
        outputs = model.generate(**inputs, max_new_tokens=1, temperature=0.1)
    
    answer = tokenizer.decode(outputs[0][-1:], skip_special_tokens=True).strip()
    return answer

def run_kmmlu_test():
    correct = 0
    total = len(df)
    
    results = []
    for _, row in df.iterrows():
        question = row['question']
        choices = [row['A'], row['B'], row['C'], row['D']]
        correct_answer = row['answer']
        
        model_answer = evaluate_model(question, choices)
        is_correct = model_answer == correct_answer
        
        if is_correct:
            correct += 1
        
        results.append(f"질문: {question}\n모델 답변: {model_answer}\n정답: {correct_answer}\n정확도: {'맞음' if is_correct else '틀림'}\n")
    
    accuracy = correct / total
    summary = f"전체 테스트 결과\n정확도: {accuracy:.2%} ({correct}/{total})\n\n"
    return summary + "\n".join(results)


iface = gr.Interface(
    fn=run_kmmlu_test,
    inputs=None,
    #inputs=gr.Dropdown(choices=subjects, label="주제 선택"),
    outputs="text",
    title="Llama 3를 이용한 KMMLU 테스트",
    description="Accounting 영역에 대한 KMMLU 테스트 수행"
)

iface.launch(share=True)