kai-ytb-private-reply

Build error

seawolf2357 commited on Sep 18, 2024

Commit

f53f3e8

verified ·

1 Parent(s): 9a1f06d

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -13,7 +13,9 @@ from youtube_transcript_api.formatters import TextFormatter
 from dotenv import load_dotenv
 from pytube import YouTube
 import whisper
 # 환경 변수 로드
 load_dotenv()
@@ -163,6 +165,8 @@ async def get_best_available_transcript(video_id, max_retries=5, delay=10):
     return None, None
 async def generate_whisper_transcript(video_id):
     try:
         # YouTube 비디오 다운로드
@@ -170,17 +174,29 @@ async def generate_whisper_transcript(video_id):
         audio_stream = yt.streams.filter(only_audio=True).first()
         audio_file = audio_stream.download(output_path='temp', filename=f'{video_id}.mp3')
-        # Whisper 모델을 사용하여 음성을 텍스트로 변환
-        with open(audio_file, "rb") as f:
-            response = whisper_client.audio_transcription(audio=f, model="openai/whisper-large-v3")
         # 임시 파일 삭제
         os.remove(audio_file)
-        return response['text']
     except Exception as e:
         logging.error(f'Whisper 자막 생성 실패: {e}')
         return None
 async def get_video_comments(video_id):
     comments = []

 from dotenv import load_dotenv
 from pytube import YouTube
 import whisper
+import torch
+from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
+import librosa
 # 환경 변수 로드
 load_dotenv()
     return None, None
 async def generate_whisper_transcript(video_id):
     try:
         # YouTube 비디오 다운로드
         audio_stream = yt.streams.filter(only_audio=True).first()
         audio_file = audio_stream.download(output_path='temp', filename=f'{video_id}.mp3')
+        # 오디오 파일 로드
+        audio, sr = librosa.load(audio_file, sr=16000)
+        # Whisper 모델 및 프로세서 로드
+        device = "cuda" if torch.cuda.is_available() else "cpu"
+        processor = AutoProcessor.from_pretrained("openai/whisper-large-v3")
+        model = AutoModelForSpeechSeq2Seq.from_pretrained("openai/whisper-large-v3").to(device)
+        # 오디오 처리
+        input_features = processor(audio, sampling_rate=sr, return_tensors="pt").input_features.to(device)
+        # 생성
+        predicted_ids = model.generate(input_features)
+        transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
         # 임시 파일 삭제
         os.remove(audio_file)
+        return transcription[0]
     except Exception as e:
         logging.error(f'Whisper 자막 생성 실패: {e}')
         return None
 async def get_video_comments(video_id):
     comments = []