Live-Podcast

Running on Zero

App Files Files Community

openfree commited on May 25

Commit

f87c30a

verified ·

1 Parent(s): 3bd0feb

Update app.py

Browse files

Files changed (1) hide show

app.py +65 -72

app.py CHANGED Viewed

@@ -81,7 +81,7 @@ BRAVE_ENDPOINT = "https://api.search.brave.com/res/v1/web/search"
 @dataclass
 class ConversationConfig:
-    max_words: int = 6000
     prefix_url: str = "https://r.jina.ai/"
     api_model_name: str = "meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo"
     legacy_local_model_name: str = "NousResearch/Hermes-2-Pro-Llama-3-8B"
@@ -89,8 +89,8 @@ class ConversationConfig:
     local_model_name: str = "Private-BitSix-Mistral-Small-3.1-24B-Instruct-2503.gguf"
     local_model_repo: str = "ginigen/Private-BitSix-Mistral-Small-3.1-24B-Instruct-2503"
     # 토큰 수 증가
-    max_tokens: int = 6000  # 2048에서 6000으로 증가
-    max_new_tokens: int = 8000  # 4000에서 8000으로 증가
 def brave_search(query: str, count: int = 8, freshness_days: int | None = None):
@@ -120,41 +120,42 @@ def brave_search(query: str, count: int = 8, freshness_days: int | None = None):
         return []
 def format_search_results(query: str) -> str:
-    """검색 결과를 포맷팅하여 반환"""
-    rows = brave_search(query, 6, freshness_days=3)
     if not rows:
-        return f'# [Web-Search] No live results for "{query}".\n'
-    hdr = f'# [Web-Search] Top results for "{query}" (last 3 days)\n\n'
-    body = "\n".join(
-        f"- **{r['title']}** ({r['host']})\n  {r['snippet']}\n  [link]({r['url']})"
-        for r in rows
-    )
-    return hdr + body + "\n"
 def extract_keywords_for_search(text: str, language: str = "English") -> List[str]:
-    """텍스트에서 검색할 키워드 추출"""
-    # 간단한 키워드 추출 (실제로는 더 정교한 방법 사용 가능)
-    lines = text.split('\n')[:5]  # 첫 5줄에서 키워드 추출
-    text_sample = ' '.join(lines)
-    # 언어별 중요 키워드 패턴
     if language == "Korean":
-        # 한국어 키워드 패턴 (명사형 단어들)
         import re
         keywords = re.findall(r'[가-힣]{2,}', text_sample)
-        # 중복 제거 및 상위 3개 선택
-        unique_keywords = list(dict.fromkeys(keywords))[:3]
     else:
-        # 영어 키워드 패턴
         words = text_sample.split()
-        # 길이 3 이상, 대문자로 시작하는 단어들 우선
         keywords = [word.strip('.,!?;:') for word in words
-                   if len(word) > 3 and (word[0].isupper() or word.isupper())]
-        unique_keywords = list(dict.fromkeys(keywords))[:3]
-    return unique_keywords
 class UnifiedAudioConverter:
     def __init__(self, config: ConversationConfig):
@@ -199,7 +200,7 @@ class UnifiedAudioConverter:
                     flash_attn=True,
                     n_gpu_layers=81 if torch.cuda.is_available() else 0,
                     n_batch=1024,
-                    n_ctx=8192,
                 )
                 self.local_llm_model = self.config.local_model_name
                 print(f"Local LLM initialized: {model_path_local}")
@@ -307,10 +308,15 @@ class UnifiedAudioConverter:
         else:
             return MessagesFormatterType.LLAMA_3
     def _build_prompt(self, text: str, language: str = "English", search_context: str = "") -> str:
         """Build prompt for conversation generation with search context"""
         if language == "Korean":
-            # 강화된 한국어 프롬프트 (존댓말 강화 및 한국적 특성 반영)
             template = """
             {
                 "conversation": [
@@ -322,36 +328,22 @@ class UnifiedAudioConverter:
             }
             """
             base_prompt = (
                 f"# 원본 콘텐츠:\n{text}\n\n"
-                f"# 최신 관련 정보:\n{search_context}\n\n" if search_context else f"# 원본 콘텐츠:\n{text}\n\n"
-                f"위 내용을 바탕으로 30대 한국인 두 명이 진행하는 자연스럽고 흥미로운 한국어 팟캐스트 대화를 만들어주세요.\n\n"
-                f"## 필수 지침:\n\n"
-                f"### 👥 캐릭터 설정:\n"
-                f"- **준수(진행자)**: 친근하고 호기심 많은 성격, 청취자의 궁금증을 대변하는 30대 남성\n"
-                f"- **민호(전문가)**: 해당 주제에 대한 깊은 지식을 가진 전문가, 쉽게 설명하는 능력을 가진 30대 남성\n\n"
-                f"### 🗣️ 언어 스타일 (중요!):\n"
-                f"- **존댓말 필수**: 두 화자는 서로에게 최소한의 존댓말을 사용해야 합니다 ('~습니다', '~세요', '~거든요')\n"
-                f"- **반말 절대 금지**: '~야', '~다', '~해' 등의 반말은 절대 사용하지 마세요\n"
-                f"- **자연스러운 존댓말**: 딱딱하지 않고 친근한 존댓말 사용 ('그렇군요', '맞으세요', '그런데요')\n"
-                f"- **감탄사 활용**: '아~', '그렇구나요', '와~', '진짜요?', '어머나' 등 자연스러운 반응\n\n"
-                f"### 📝 대화 구성:\n"
-                f"1. **한국 문화 맞춤**: 한국인의 정서와 일상에 맞는 구체적 예시와 비유 사용\n"
-                f"2. **공감대 형성**: '우리나라에서는', '한국 사람들이', '요즘 사람들' 등의 표현으로 친밀감 조성\n"
-                f"3. **충분한 분량**: 각 대화는 최소 3-4문장 이상, 전체 10회 이상 주고받기\n"
-                f"4. **실용적 조언**: 청취자가 실제로 적용할 수 있는 구체적이고 유용한 정보 제공\n"
-                f"5. **최신 정보 반영**: 제공된 최신 관련 정보를 자연스럽게 대화에 포함\n\n"
-                f"### 🎯 팟캐스트 품질:\n"
-                f"- **오프닝**: 따뜻한 인사와 주제 소개\n"
-                f"- **메인**: 핵심 내용을 재미있고 이해하기 쉽게 전달\n"
-                f"- **상호작용**: '청취자 여러분은 어떻게 생각하세요?' 같은 참여 유도\n"
-                f"- **클로징**: 핵심 요약과 실용적 조언으로 마무리\n\n"
-                f"### 💡 한국어 특화 요소:\n"
-                f"- **호칭**: '준수씨', '민호씨' 등 적절한 호칭 사용\n"
-                f"- **관용어구**: 자연스러운 한국어 관용표현 활용\n"
-                f"- **정서적 연결**: 한국인의 '정', '눈치', '체면' 등의 문화적 코드 반영\n"
-                f"- **계절감**: 현재 계절이나 시기적 특성 반영\n\n"
-                f"다음 JSON 형식으로만 반환하세요:\n{template}"
             )
             return base_prompt
@@ -368,26 +360,27 @@ class UnifiedAudioConverter:
             }
             """
             base_prompt = (
-                f"# Original Content:\n{text}\n\n"
-                f"# Latest Related Information:\n{search_context}\n\n" if search_context else f"# Original Content:\n{text}\n\n"
-                f"Convert the provided text into an engaging, natural podcast conversation between two experts.\n\n"
                 f"Guidelines:\n"
-                f"1. Alex (Host): Curious, engaging personality representing audience questions\n"
-                f"2. Jordan (Expert): Knowledgeable but approachable, explains complex topics simply\n"
-                f"3. Use natural conversational English with appropriate reactions ('Wow', 'That's interesting', 'Really?')\n"
-                f"4. Include concrete examples and relatable analogies\n"
-                f"5. Each response should be substantial (minimum 3-4 sentences)\n"
-                f"6. Create at least 10 back-and-forth exchanges\n"
-                f"7. Address common questions and misconceptions\n"
-                f"8. Maintain an informative yet entertaining tone\n"
-                f"9. Incorporate the latest related information naturally into the conversation\n"
-                f"10. End with key takeaways and practical advice\n\n"
-                f"Return ONLY the JSON in this format:\n{template}"
             )
             return base_prompt
     def _build_messages_for_local(self, text: str, language: str = "English", search_context: str = "") -> List[Dict]:
         """Build messages for local LLM with enhanced Korean guidelines"""
         if language == "Korean":

 @dataclass
 class ConversationConfig:
+    max_words: int = 4000
     prefix_url: str = "https://r.jina.ai/"
     api_model_name: str = "meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo"
     legacy_local_model_name: str = "NousResearch/Hermes-2-Pro-Llama-3-8B"
     local_model_name: str = "Private-BitSix-Mistral-Small-3.1-24B-Instruct-2503.gguf"
     local_model_repo: str = "ginigen/Private-BitSix-Mistral-Small-3.1-24B-Instruct-2503"
     # 토큰 수 증가
+    max_tokens: int = 3000  # 2048에서 6000으로 증가
+    max_new_tokens: int = 6000  # 4000에서 8000으로 증가
 def brave_search(query: str, count: int = 8, freshness_days: int | None = None):
         return []
 def format_search_results(query: str) -> str:
+    """검색 결과를 포맷팅하여 반환 (간략하게)"""
+    rows = brave_search(query, 3, freshness_days=3)  # 6개에서 3개로 줄임
     if not rows:
+        return ""  # 빈 문자열 반환
+    # 검색 결과를 더 간략하게 요약
+    results = []
+    for r in rows[:2]:  # 최대 2개만 사용
+        # 스니펫을 100자로 제한
+        snippet = r['snippet'][:100] + "..." if len(r['snippet']) > 100 else r['snippet']
+        results.append(f"- {r['title']}: {snippet}")
+    return "\n".join(results) + "\n"
 def extract_keywords_for_search(text: str, language: str = "English") -> List[str]:
+    """텍스트에서 검색할 키워드 추출 (개선)"""
+    # 텍스트 앞부분만 사용 (너무 많은 텍스트 처리 방지)
+    text_sample = text[:500]
     if language == "Korean":
         import re
+        # 한국어 명사 추출 (2글자 이상)
         keywords = re.findall(r'[가-힣]{2,}', text_sample)
+        # 중복 제거하고 가장 긴 단어 1개만 선택
+        unique_keywords = list(dict.fromkeys(keywords))
+        # 길이 순으로 정렬하고 가장 의미있을 것 같은 단어 선택
+        unique_keywords.sort(key=len, reverse=True)
+        return unique_keywords[:1]  # 1개만 반환
     else:
+        # 영어는 대문자로 시작하는 단어 중 가장 긴 것 1개
         words = text_sample.split()
         keywords = [word.strip('.,!?;:') for word in words
+                   if len(word) > 4 and word[0].isupper()]
+        if keywords:
+            return [max(keywords, key=len)]  # 가장 긴 단어 1개
+        return []
 class UnifiedAudioConverter:
     def __init__(self, config: ConversationConfig):
                     flash_attn=True,
                     n_gpu_layers=81 if torch.cuda.is_available() else 0,
                     n_batch=1024,
+                    n_ctx=16384,
                 )
                 self.local_llm_model = self.config.local_model_name
                 print(f"Local LLM initialized: {model_path_local}")
         else:
             return MessagesFormatterType.LLAMA_3
     def _build_prompt(self, text: str, language: str = "English", search_context: str = "") -> str:
         """Build prompt for conversation generation with search context"""
+            # 텍스트 길이 제한을 더 강하게 적용
+        max_text_length = 3000 if search_context else 4000
+        if len(text) > max_text_length:
+            text = text[:max_text_length] + "..."
         if language == "Korean":
             template = """
             {
                 "conversation": [
             }
             """
+            # 검색 컨텍스트가 있을 때만 포함
+            context_part = ""
+            if search_context:
+                context_part = f"# 최신 관련 정보:\n{search_context}\n"
             base_prompt = (
                 f"# 원본 콘텐츠:\n{text}\n\n"
+                f"{context_part}"
+                f"위 내용으로 한국어 팟캐스트 대화를 만들어주세요.\n\n"
+                f"## 핵심 지침:\n"
+                f"- 준수(진행자)와 민호(전문가) 두 30대 남성의 대화\n"
+                f"- 서로 존댓말 사용 필수 (반말 절대 금지)\n"
+                f"- 자연스러운 한국어 표현 사용\n"
+                f"- 각 대화 2-3문장, 전체 8-10회 주고받기\n"
+                f"- 최신 정보가 있다면 자연스럽게 포함\n\n"
+                f"JSON 형식으로만 반환:\n{template}"
             )
             return base_prompt
             }
             """
+            context_part = ""
+            if search_context:
+                context_part = f"# Latest Information:\n{search_context}\n"
             base_prompt = (
+                f"# Content:\n{text}\n\n"
+                f"{context_part}"
+                f"Create a podcast conversation.\n\n"
                 f"Guidelines:\n"
+                f"- Alex (Host) and Jordan (Expert)\n"
+                f"- Natural conversational English\n"
+                f"- Each response 2-3 sentences\n"
+                f"- 8-10 exchanges total\n"
+                f"- Include latest info if available\n\n"
+                f"Return JSON only:\n{template}"
             )
             return base_prompt
     def _build_messages_for_local(self, text: str, language: str = "English", search_context: str = "") -> List[Dict]:
         """Build messages for local LLM with enhanced Korean guidelines"""
         if language == "Korean":