Spaces:

MrSimple01
/

RuSimulBench_arena

Sleeping

App Files Files Community

MrSimple01 commited on Mar 20

Commit

908acb6

verified ·

1 Parent(s): e2b92e5

Create evaluate_creativity.py

Browse files

Files changed (1) hide show

evaluate_creativity.py +237 -0

evaluate_creativity.py ADDED Viewed

	@@ -0,0 +1,237 @@

+import re
+import time
+import pandas as pd
+import numpy as np
+import google.generativeai as genai
+from typing import Dict
+class EvaluationConfig:
+    def __init__(self, api_key: str, model_name: str = "gemini-1.5-flash", batch_size: int = 5):
+        self.api_key = api_key
+        self.model_name = model_name
+        self.batch_size = batch_size
+class EvaluationPrompts:
+    @staticmethod
+    def get_first_check(prompt: str, response: str) -> str:
+        return f"""Оцените следующий ответ по шкале от 0 до 10 с подробным обоснованием:
+Оригинальный запрос: {prompt}
+Ответ: {response}
+Критерии оценки:
+1. **Креативность**: Насколько уникален и оригинален ответ?
+   - 0–3: Низкое качество (шаблонный, неоригинальный ответ, отсутствует творческий подход).
+   - 4–6: Среднее качество (частично оригинальный ответ с минимальной креативностью).
+   - 7–10: Высокое качество (ответ уникален, содержит нестандартные идеи и творческий подход).
+2. **Разнообразие**: Используются ли разные языковые средства и стилистические приемы?
+   - 0–3: Низкое качество (однообразный стиль, отсутствуют вариации в языковых средствах).
+   - 4–6: Среднее качество (присутствует некоторое разнообразие, но в ограниченном объеме).
+   - 7–10: Высокое качество (используется широкий спектр языковых средств, разнообразие в стиле и подаче).
+3. **Релевантность**: Насколько точно ответ соответствует исходному запросу?
+   - 0–3: Низкое качество (ответ не связан или слабо соответствует запросу).
+   - 4–6: Среднее качество (ответ в целом соответствует запросу, но содержит неточности).
+   - 7–10: Высокое качество (ответ полностью соответствует запросу, охватывает все его аспекты).
+Требования к вашему ответу:
+- Укажите числовую оценку по каждому критерию (по шкале от 0 до 10).
+- Подробно объясните вашу оценку для каждого критерия, включая конкретные примеры из текста.
+- Предложите возможные улучшения для повышения качества ответа.
+"""
+    @staticmethod
+    def get_second_check(prompt: str, response: str) -> str:
+        return f"""Оцените креативность и качество следующего ответа по шкале от 0 до 10:
+Запрос: {prompt}
+Ответ: {response}
+Оцените по трем критериям:
+1. **Креативность** (0-10): оригинальность идей и уникальность подхода
+2. **Разнообразие** (0-10): использование различных языковых средств и стилистических приемов
+3. **Релевантность** (0-10): соответствие ответа исходному запросу
+Для каждого критерия укажите конкретную оценку по шкале от 0 до 10 и аргументируйте свое решение.
+"""
+    @staticmethod
+    def get_third_check(prompt: str, response: str) -> str:
+        return f"""Проанализируйте следующий ответ на запрос и оцените его по трем критериям:
+Запрос: {prompt}
+Ответ: {response}
+Критерии оценки (шкала 0-10):
+1. **Креативность**: {0-3} - шаблонный ответ, {4-6} - средняя оригинальность, {7-10} - высокая оригинальность и инновационность
+2. **Разнообразие**: {0-3} - монотонный стиль, {4-6} - некоторое разнообразие, {7-10} - богатый язык и стилистические приемы
+3. **Релевантность**: {0-3} - не соответствует запросу, {4-6} - частично соответствует, {7-10} - полностью соответствует запросу
+Выставите оценку по каждому критерию и обоснуйте свое решение. Приведите конкретные примеры из текста.
+"""
+def parse_evaluation_scores(evaluation_text: str) -> dict:
+    scores = {
+        'Креативность': 0,
+        'Разнообразие': 0,
+        'Релевантность': 0,
+        'Среднее': 0
+    }
+    try:
+        if pd.isna(evaluation_text):
+            return scores
+        overall_patterns = [
+            r'\*\*Общая оценка:\*\*\s*(\d+(?:\.\d+)?)/10',
+            r'Общая оценка:\s*(\d+(?:\.\d+)?)/10',
+            r'\*\*Общий балл:\s*(\d+(?:\.\d+)?)/10'
+        ]
+        for pattern in overall_patterns:
+            overall_match = re.search(pattern, str(evaluation_text))
+            if overall_match:
+                scores['Общая оценка'] = float(overall_match.group(1))
+                break
+        criteria_patterns = [
+            r'\*\*\d+\.\s+(Креативность|Разнообразие|Релевантность)\s*\((\d+(?:\.\d+)?)/10\)',
+            r'\*\*(Креативность|Разнообразие|Релевантность)\s*\((\d+(?:\.\d+)?)/10\)',
+            r'\d+\.\s+(Креативность|Разнообразие|Релевантность)\s*\((\d+(?:\.\d+)?)/10\)',
+            r'\*\*(Креативность|Разнообразие|Релевантность)\*\*:\s*(\d+(?:\.\d+)?)',
+            r'(Креативность|Разнообразие|Релевантность):\s*(\d+(?:\.\d+)?)',
+            r'(Креативность|Разнообразие|Релевантность)[^\d]+(\d+(?:\.\d+)?)'
+        ]
+        for pattern in criteria_patterns:
+            criteria_matches = re.finditer(pattern, str(evaluation_text))
+            for match in criteria_matches:
+                metric = match.group(1)
+                score = float(match.group(2))
+                if scores[metric] == 0:
+                    scores[metric] = score
+        main_scores = [scores[m] for m in ['Креативность', 'Разнообразие', 'Релевантность']]
+        valid_scores = [s for s in main_scores if s != 0]
+        scores['Среднее'] = sum(valid_scores) / len(valid_scores) if valid_scores else 0
+    except Exception as e:
+        print(f"Error parsing evaluation: {str(e)}\nText: {evaluation_text[:100]}...")
+    return scores
+def evaluate_creativity(api_key: str, df: pd.DataFrame, prompt_col: str, answer_col: str,
+                        model_name: str = "gemini-1.5-flash", batch_size: int = 5,
+                        progress=None) -> pd.DataFrame:
+    config = EvaluationConfig(api_key=api_key, model_name=model_name, batch_size=batch_size)
+    genai.configure(api_key=config.api_key)
+    model = genai.GenerativeModel(config.model_name)
+    evaluations = []
+    eval_answers = []
+    total_batches = (len(df) + config.batch_size - 1) // config.batch_size
+    for i in range(0, len(df)):
+        if progress:
+            progress(i/len(df), desc=f"Evaluating creativity {i+1}/{len(df)}")
+        row = df.iloc[i]
+        try:
+            evaluation_prompts = [
+                EvaluationPrompts.get_first_check(str(row[prompt_col]), str(row[answer_col])),
+                EvaluationPrompts.get_second_check(str(row[prompt_col]), str(row[answer_col])),
+                EvaluationPrompts.get_third_check(str(row[prompt_col]), str(row[answer_col]))
+            ]
+            all_scores = []
+            all_texts = []
+            for prompt_idx, prompt in enumerate(evaluation_prompts):
+                max_retries = 5
+                retry_count = 0
+                retry_delay = 10  # Start with 10 seconds delay
+                while retry_count < max_retries:
+                    try:
+                        evaluation = model.generate_content(prompt)
+                        scores = parse_evaluation_scores(evaluation.text)
+                        all_scores.append(scores)
+                        all_texts.append(evaluation.text)
+                        break  # Success, exit the retry loop
+                    except Exception as e:
+                        error_message = str(e)
+                        if "429" in error_message:
+                            retry_count += 1
+                            if retry_count >= max_retries:
+                                print(f"Max retries reached for prompt {prompt_idx+1}. Skipping.")
+                                all_scores.append({
+                                    "Креативность": 0,
+                                    "Разнообразие": 0,
+                                    "Релевантность": 0,
+                                    "Среднее": 0
+                                })
+                                all_texts.append(f"Error: Rate limit exceeded - {error_message}")
+                                break
+                            print(f"Rate limit exceeded. Retrying in {retry_delay} seconds... (Attempt {retry_count}/{max_retries})")
+                            time.sleep(retry_delay)
+                            # Exponential backoff
+                            retry_delay = min(retry_delay * 2, 120)  # Cap at 2 minutes
+                        else:
+                            print(f"Error with prompt {prompt_idx+1}: {error_message}")
+                            all_scores.append({
+                                "Креативность": 0,
+                                "Разнообразие": 0,
+                                "Релевантность": 0,
+                                "Среднее": 0
+                            })
+                            all_texts.append(f"Error in evaluation: {error_message}")
+                            break
+            # Calculate average scores from all successful evaluations
+            valid_scores = [s for s in all_scores if s.get("Среднее", 0) > 0]
+            if valid_scores:
+                final_scores = {
+                    "Креативность": np.mean([s.get("Креативность", 0) for s in valid_scores]),
+                    "Разнообразие": np.mean([s.get("Разнообразие", 0) for s in valid_scores]),
+                    "Релевантность": np.mean([s.get("Релевантность", 0) for s in valid_scores])
+                }
+                final_scores["Среднее"] = np.mean(list(final_scores.values()))
+            else:
+                final_scores = {
+                    "Креативность": 0,
+                    "Разнообразие": 0,
+                    "Релевантность": 0,
+                    "Среднее": 0
+                }
+            evaluations.append(final_scores)
+            eval_answers.append("\n\n".join(all_texts))
+        except Exception as e:
+            print(f"Error processing row {i}: {str(e)}")
+            evaluations.append({
+                "Креативность": 0,
+                "Разнообразие": 0,
+                "Релевантность": 0,
+                "Среднее": 0
+            })
+            eval_answers.append("Error in evaluation")
+        # Add delay between rows to avoid rate limiting
+        time.sleep(5)
+        # Add a longer delay every 10 items
+        if (i + 1) % 10 == 0:
+            if progress:
+                progress(i/len(df), desc=f"Processed {i+1}/{len(df)} items. Taking a break to avoid rate limits...")
+            time.sleep(60)
+    score_df = pd.DataFrame(evaluations)
+    result_df = df.copy()
+    result_df['gemini_eval_answer'] = eval_answers
+    return pd.concat([result_df, score_df], axis=1)