Spaces:

DeepJudge
/

Applicant-Task-Submission

Running

App Files Files

arvind6599 commited on Jul 23

Commit

7e8b548

1 Parent(s): 8096fdc

Logging llm1 output and corrected error message for wrong keys

Browse files

Files changed (1) hide show

app.py +8 -9

app.py CHANGED Viewed

@@ -146,7 +146,6 @@ def submit_prompt(email, name, system_prompt_1, system_prompt_2, system_prompt_3
     end_tag = "</user_message>"
     # Process each evaluation question.
     for item in EVALUATION_QUESTIONS:
         # Usual assumption is that the question is relevant unless proven otherwise.
@@ -220,7 +219,7 @@ def submit_prompt(email, name, system_prompt_1, system_prompt_2, system_prompt_3
                 score += 1
                 responses.append(
                     f"Question: {question}\n"
-                    f"Answer: {answer}\n"
                     f"Expected: {expected}\n"
                     f"Result: {verdict}\n"
                 )
@@ -231,7 +230,7 @@ def submit_prompt(email, name, system_prompt_1, system_prompt_2, system_prompt_3
                 verdict = "Incorrect (Query was irrelevant, but no user message found)"
                 responses.append(
                     f"Question: {question}\n"
-                    f"Answer: {answer}\n"
                     f"Expected: {expected}\n"
                     f"Result: {verdict}\n"
                 )
@@ -244,7 +243,7 @@ def submit_prompt(email, name, system_prompt_1, system_prompt_2, system_prompt_3
             verdict = "Incorrect (Query was relevant, but user message found)"
             responses.append(
                 f"Question: {question}\n"
-                f"Answer: {answer}\n"
                 f"Expected: {json.dumps(expected)}\n"
                 f"Result: {verdict}\n"
             )
@@ -259,7 +258,7 @@ def submit_prompt(email, name, system_prompt_1, system_prompt_2, system_prompt_3
             verdict = f"Incorrect (Invalid JSON: {str(e)})"
             responses.append(
                 f"Question: {question}\n"
-                f"Answer: {answer}\n"
                 f"Expected: {json.dumps(expected)}\n"
                 f"Result: {verdict}\n"
             )
@@ -274,7 +273,7 @@ def submit_prompt(email, name, system_prompt_1, system_prompt_2, system_prompt_3
             verdict = f"Incorrect (Missing Keys: {', '.join(missing_keys)})"
             responses.append(
                 f"Question: {question}\n"
-                f"Answer: {json.dumps(parsed_answer)}\n"
                 f"Expected: {json.dumps(expected)}\n"
                 f"Result: {verdict}\n"
             )
@@ -288,8 +287,8 @@ def submit_prompt(email, name, system_prompt_1, system_prompt_2, system_prompt_3
             if parsed_answer[key] != expected[key]:
                 incorrect_values.append(key)
-        if len(incorrect_values) == 2:
-            verdict = "Incorrect (Both values are incorrect)"
         elif len(incorrect_values) == 1:
             verdict = f"Incorrect (Value for key '{incorrect_values[0]}' is incorrect)"
         else:
@@ -298,7 +297,7 @@ def submit_prompt(email, name, system_prompt_1, system_prompt_2, system_prompt_3
         responses.append(
             f"Question: {question}\n"
-            f"Answer: {json.dumps(parsed_answer)}\n"
             f"Expected: {json.dumps(expected)}\n"
             f"Result: {verdict}\n"
         )

     end_tag = "</user_message>"
     # Process each evaluation question.
     for item in EVALUATION_QUESTIONS:
         # Usual assumption is that the question is relevant unless proven otherwise.
                 score += 1
                 responses.append(
                     f"Question: {question}\n"
+                    f"Answer: {output1}\n --- \n{answer}\n"
                     f"Expected: {expected}\n"
                     f"Result: {verdict}\n"
                 )
                 verdict = "Incorrect (Query was irrelevant, but no user message found)"
                 responses.append(
                     f"Question: {question}\n"
+                    f"Answer: {output1}\n --- \n{answer}\n"
                     f"Expected: {expected}\n"
                     f"Result: {verdict}\n"
                 )
             verdict = "Incorrect (Query was relevant, but user message found)"
             responses.append(
                 f"Question: {question}\n"
+                f"Answer: {output1}\n --- \n{answer}\n"
                 f"Expected: {json.dumps(expected)}\n"
                 f"Result: {verdict}\n"
             )
             verdict = f"Incorrect (Invalid JSON: {str(e)})"
             responses.append(
                 f"Question: {question}\n"
+                f"Answer: {output1}\n --- \n{answer}\n"
                 f"Expected: {json.dumps(expected)}\n"
                 f"Result: {verdict}\n"
             )
             verdict = f"Incorrect (Missing Keys: {', '.join(missing_keys)})"
             responses.append(
                 f"Question: {question}\n"
+                f"Answer: {output1}\n --- \n{json.dumps(parsed_answer)}\n"
                 f"Expected: {json.dumps(expected)}\n"
                 f"Result: {verdict}\n"
             )
             if parsed_answer[key] != expected[key]:
                 incorrect_values.append(key)
+        if len(incorrect_values) > 1:
+            verdict = f"Incorrect (Values for keys {', '.join([repr(k) for k in incorrect_values])} are incorrect)"
         elif len(incorrect_values) == 1:
             verdict = f"Incorrect (Value for key '{incorrect_values[0]}' is incorrect)"
         else:
         responses.append(
             f"Question: {question}\n"
+            f"Answer: {output1}\n --- \n{json.dumps(parsed_answer)}\n"
             f"Expected: {json.dumps(expected)}\n"
             f"Result: {verdict}\n"
         )