HumanLikeness

Sleeping

App Files Files Community

XufengDuan commited on Aug 27, 2024

Commit

6d8d412

1 Parent(s): efa3bcc

update scripts

Browse files

Files changed (1) hide show

src/display/about.py +22 -22

src/display/about.py CHANGED Viewed

@@ -12,26 +12,26 @@ class Tasks(Enum):
     # task_key in the json file, metric_key in the json file, name to display in the leaderboard
     Overall = Task("overall_js_divergence", "overall_js_divergence", "Overall Humanlike %")
     Overall_ci = Task("overall_confidence_interval", "overall_confidence_interval", "Overall CI")
-    E1 = Task("E1", "E1", "E1 Humanlike %")
-    E1_ci = Task("E1_ci", "E1_ci", "E1 CI")
-    E2 = Task("E2", "E2", "E2 Humanlike %")
-    E2_ci = Task("E2_ci", "E2_ci", "E2 CI")
-    E3 = Task("E3", "E3", "E3 Humanlike %")
-    E3_ci = Task("E3_ci", "E3_ci", "E3 CI")
-    E4 = Task("E4", "E4", "E4 Humanlike %")
-    E4_ci = Task("E4_ci", "E4_ci", "E4 CI")
-    E5 = Task("E5", "E5", "E5 Humanlike %")
-    E5_ci = Task("E5_ci", "E5_ci", "E5 CI")
-    E6 = Task("E6", "E6", "E6 Humanlike %")
-    E6_ci = Task("E6_ci", "E6_ci", "E6 CI")
-    E7 = Task("E7", "E7", "E7 Humanlike %")
-    E7_ci = Task("E7_ci", "E7_ci", "E7 CI")
-    E8 = Task("E8", "E8", "E8 Humanlike %")
-    E8_ci = Task("E8_ci", "E8_ci", "E8 CI")
-    E9 = Task("E9", "E9", "E9 Humanlike %")
-    E9_ci = Task("E9_ci", "E9_ci", "E9 CI")
-    E10 = Task("E10", "E10", "E10 Humanlike %")
-    E10_ci = Task("E10_ci", "E10_ci", "E10 CI")
@@ -51,8 +51,8 @@ LLM_BENCHMARKS_TEXT = """
 This study aims to compare the similarities between human and model responses in language use by employing ten psycholinguistic tasks:
-1. **Sounds:** Sound Shape Association<br>
-2. **Sounds:** Sound Gender Association<br>
 3. **Word:** Word Length and Predictivity<br>
 4. **Word:** Word Meaning Priming<br>
 5. **Syntax:** Structural Priming<br>

     # task_key in the json file, metric_key in the json file, name to display in the leaderboard
     Overall = Task("overall_js_divergence", "overall_js_divergence", "Overall Humanlike %")
     Overall_ci = Task("overall_confidence_interval", "overall_confidence_interval", "Overall CI")
+    E1 = Task("E1", "E1", "Sound-1")
+    E1_ci = Task("E1_ci", "E1_ci", "Sound-1 CI")
+    E2 = Task("E2", "E2", "Sound-2")
+    E2_ci = Task("E2_ci", "E2_ci", "Sound-2 CI")
+    E3 = Task("E3", "E3", "Word-1")
+    E3_ci = Task("E3_ci", "E3_ci", "Word-1 CI")
+    E4 = Task("E4", "E4", "Word-2")
+    E4_ci = Task("E4_ci", "E4_ci", "Word-2 CI")
+    E5 = Task("E5", "E5", "Syntax-1")
+    E5_ci = Task("E5_ci", "E5_ci", "Syntax-1 CI")
+    E6 = Task("E6", "E6", "Syntax-2")
+    E6_ci = Task("E6_ci", "E6_ci", "Syntax-2 CI")
+    E7 = Task("E7", "E7", "Meaning-1")
+    E7_ci = Task("E7_ci", "E7_ci", "Meaning-1 CI")
+    E8 = Task("E8", "E8", "Meaning-2")
+    E8_ci = Task("E8_ci", "E8_ci", "Meaning-2 CI")
+    E9 = Task("E9", "E9", "Discourse-1")
+    E9_ci = Task("E9_ci", "E9_ci", "Discourse-1 CI")
+    E10 = Task("E10", "E10", "Discourse-2")
+    E10_ci = Task("E10_ci", "E10_ci", "Discourse-2 CI")
 This study aims to compare the similarities between human and model responses in language use by employing ten psycholinguistic tasks:
+1. **Sound:** Sound Shape Association<br>
+2. **Sound:** Sound Gender Association<br>
 3. **Word:** Word Length and Predictivity<br>
 4. **Word:** Word Meaning Priming<br>
 5. **Syntax:** Structural Priming<br>