badassgi

Running

File size: 3,196 Bytes

5d52c32
6c226f9
 
 
 
a5099f1
d790c0b
88183ad
6c226f9
2362603
9d6fa91
66efbc3
6c226f9
 
 
 
 
 
 
 
 
 
a5099f1
 
6c226f9
5d52c32
a5099f1
3c0cd8e
b74c419
6c226f9
a5099f1
3c0cd8e
a5099f1
 
 
 
6b749d2
a5099f1
bbf453e
6b749d2
 
a5099f1
 
 
9eabde1
a5099f1
6b749d2
a5099f1
bbf453e
a5099f1
 
 
6b749d2
 
a5099f1
6c226f9
6b749d2
2524c67
9eabde1
ae3ef7d
 
 
 
 
 
0fdae18
a5099f1
6c226f9
0fdae18
b74c419
3c0cd8e
a5099f1
 
 
3c0cd8e
 
0fdae18
a5099f1
3c0cd8e
0fdae18
b74c419
6c226f9
a5099f1
 
 
6c226f9
 
b74c419
 
0520598
26b11b8
6c226f9
26b11b8
6c226f9
47407ef

import spaces
import torch

import gradio as gr
from transformers import pipeline
from huggingface_hub import InferenceClient
import tempfile
import os

MODEL_NAME = "openai/whisper-large-v3-turbo"
BATCH_SIZE = 8
FILE_LIMIT_MB = 1000

device = 0 if torch.cuda.is_available() else "cpu"

pipe = pipeline(
    task="automatic-speech-recognition",
    model=MODEL_NAME,
    chunk_length_s=30,
    device=device,
)

# Hugging Face InferenceClient 사용
hf_client = InferenceClient("CohereForAI/c4ai-command-r-plus-08-2024", token=os.getenv("HF_TOKEN"))

@spaces.GPU
def transcribe_summarize_and_blog(inputs, task):
    if inputs is None:
        raise gr.Error("오디오 파일이 제출되지 않았습니다! 요청을 제출하기 전에 오디오 파일을 업로드하거나 녹음해 주세요.")

    # 음성을 텍스트로 변환
    text = pipe(inputs, batch_size=BATCH_SIZE, generate_kwargs={"task": task}, return_timestamps=True)["text"]
    
    # 변환된 텍스트 요약 요청
    try:
        summary = hf_client.summarization(text)
        summary_text = summary["summary_text"] if summary and "summary_text" in summary else "요약할 수 없습니다."
    except Exception as e:
        summary_text = f"요약 중 오류가 발생했습니다: {e}"
    
    # 블로그 포스팅 생성 요청
    try:
        blog_post = hf_client.text_generation(
            prompt=f"다음 내용을 기반으로 블로그 포스팅을 작성해 주세요:\n{text}",
            temperature=0.7
        )
        blog_post_text = blog_post if isinstance(blog_post, str) else "블로그 포스팅을 생성할 수 없습니다."
    except Exception as e:
        blog_post_text = f"블로그 글 생성 중 오류가 발생했습니다: {e}"
    
    return {
        "transcribed_text": text, 
        "summary": summary_text,
        "blog_post": blog_post_text
    }



 
css = """
footer {
    visibility: hidden;
}
"""

file_transcribe = gr.Interface(
    fn=transcribe_summarize_and_blog,
    inputs=[
        gr.Audio(sources="upload", type="filepath", label="오디오 파일"),
        gr.Radio(["transcribe", "translate"], label="작업", value="transcribe"),
    ],
    outputs=["text", "text", "text"],  # 변환된 텍스트, 요약, 블로그 글 출력
    title="받아쓰기 AI: 음성을 텍스트 변환, 요약 및 블로그 포스팅 자동 생성",
    flagging_mode="never",
)

mf_transcribe = gr.Interface(css=css,
    fn=transcribe_summarize_and_blog,
    inputs=[
        gr.Audio(sources="microphone", type="filepath"),
        gr.Radio(["transcribe", "translate"], label="작업", value="transcribe"),
    ],
    outputs=["text", "text", "text"],  # 변환된 텍스트, 요약, 블로그 글 출력
    title="받아쓰기 AI: 음성을 텍스트 변환, 요약 및 블로그 포스팅 자동 생성",
    flagging_mode="never",
)

# demo 변수를 Gradio Blocks 컨테이너로 정의
demo = gr.Blocks(theme="Nymbo/Nymbo_Theme")

# 탭 순서를 "오디오 파일"이 먼저, "마이크"가 뒤에 오도록 설정
with demo:
    gr.TabbedInterface([file_transcribe, mf_transcribe], ["오디오 파일", "마이크"])

demo.queue().launch(ssr_mode=False)