File size: 21,939 Bytes
76f9cd2 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 321 322 323 324 325 326 327 328 329 330 331 332 333 334 335 336 337 338 339 340 341 342 343 344 345 346 347 348 349 350 351 352 353 354 355 356 357 358 359 360 361 362 363 364 365 366 367 368 369 370 371 372 373 374 375 376 377 378 379 380 381 382 383 384 385 386 387 388 389 390 391 392 393 394 395 396 397 398 399 400 401 402 403 404 405 406 407 408 409 410 411 412 413 414 415 416 417 418 419 420 421 422 423 424 425 426 427 428 429 430 431 432 433 434 435 436 437 438 439 440 441 442 443 444 445 446 447 448 449 450 451 452 453 454 455 456 457 458 459 460 461 462 463 464 465 466 467 468 469 470 471 472 473 474 475 476 477 478 479 480 481 482 483 484 485 486 487 488 489 490 491 492 493 494 495 496 497 498 499 500 501 502 503 504 505 506 507 508 509 510 511 512 513 514 515 516 517 518 519 520 521 522 523 524 525 526 527 528 529 530 531 532 533 534 535 536 537 538 539 540 541 542 543 544 545 546 547 548 549 550 551 552 553 554 555 556 557 558 559 560 561 562 563 564 565 566 567 568 569 570 571 572 573 574 575 576 577 578 579 580 581 582 583 584 585 586 587 588 589 590 591 592 593 594 595 596 597 598 599 600 601 602 603 604 605 606 607 608 609 610 611 612 613 614 615 616 617 618 619 620 621 622 623 624 625 626 627 628 629 630 631 632 633 634 635 636 637 638 639 640 641 642 643 644 645 646 647 648 649 650 651 652 653 654 655 656 657 658 659 660 661 662 663 664 665 666 667 668 669 670 671 672 673 674 675 676 677 678 679 680 681 682 683 684 685 686 687 688 689 690 691 692 693 694 695 696 697 698 699 700 701 702 703 704 705 706 707 708 709 710 711 712 713 714 715 716 717 718 719 720 721 722 723 724 725 726 727 728 729 730 731 732 733 734 735 736 737 738 739 740 741 742 743 744 745 746 747 748 749 750 751 752 753 754 755 756 757 758 759 760 761 762 763 764 765 766 767 768 769 770 771 772 773 774 775 776 777 778 779 780 781 782 783 784 785 786 787 788 789 790 791 792 793 794 795 796 797 798 799 800 801 802 803 804 805 806 807 808 809 810 811 812 813 814 815 816 817 818 819 820 821 822 823 824 825 826 827 828 829 830 831 832 833 834 835 836 837 838 839 840 841 842 843 844 845 846 847 848 849 850 851 852 853 854 855 856 857 858 859 860 861 862 863 864 865 866 867 868 869 870 871 872 873 874 875 876 877 878 879 880 881 882 883 884 885 886 887 888 889 890 891 892 893 894 895 896 897 898 899 900 901 902 903 904 905 906 907 908 909 910 911 912 913 914 915 916 917 918 919 920 921 922 923 924 925 926 927 928 929 930 931 932 933 934 935 936 937 938 939 940 941 942 943 944 945 946 947 948 949 950 951 952 953 954 955 956 957 958 959 960 961 962 963 964 965 966 967 968 969 970 971 972 973 974 975 976 977 978 979 980 981 982 983 984 985 986 987 988 989 990 991 992 993 994 995 996 997 998 999 1000 1001 1002 1003 1004 1005 1006 1007 1008 1009 1010 1011 1012 1013 1014 1015 1016 1017 1018 1019 1020 1021 1022 1023 1024 1025 1026 1027 1028 1029 1030 1031 1032 1033 1034 1035 1036 1037 1038 1039 1040 1041 1042 1043 1044 1045 1046 1047 1048 1049 1050 1051 1052 1053 1054 1055 1056 1057 1058 1059 1060 1061 1062 1063 1064 1065 1066 1067 1068 1069 1070 1071 1072 1073 1074 1075 1076 1077 1078 1079 1080 1081 1082 1083 1084 1085 1086 1087 1088 1089 1090 1091 1092 1093 1094 1095 1096 1097 1098 1099 1100 1101 1102 1103 1104 1105 1106 1107 1108 1109 1110 1111 1112 1113 1114 1115 1116 1117 1118 1119 1120 1121 1122 1123 1124 1125 1126 1127 1128 1129 1130 1131 1132 1133 1134 1135 1136 1137 1138 1139 1140 1141 1142 1143 1144 1145 1146 1147 1148 1149 1150 1151 1152 1153 1154 1155 1156 1157 1158 1159 1160 1161 1162 1163 1164 1165 1166 1167 1168 1169 1170 1171 1172 1173 1174 1175 1176 1177 1178 1179 1180 1181 1182 1183 1184 1185 1186 1187 1188 1189 1190 1191 1192 1193 1194 1195 1196 1197 1198 1199 1200 1201 1202 1203 1204 1205 1206 1207 1208 1209 1210 1211 1212 1213 1214 1215 1216 1217 1218 1219 1220 1221 1222 1223 1224 1225 1226 1227 1228 1229 1230 1231 1232 |
1
00:00:00,000 --> 00:00:06,600
各位听众朋友大家好
2
00:00:06,600 --> 00:00:09,980
欢迎收听Hugging Face每日爱论文速递周末特辑
3
00:00:09,980 --> 00:00:14,280
每周日准时为您带来一周内Hugging Face向最受欢迎的论文汇总
4
00:00:14,280 --> 00:00:18,379
本期节目涵盖的时间段是2025年6月2日至6月8日
5
00:00:18,379 --> 00:00:25,199
在本期节目中我们将为您精选五篇备受关注的论文内容涵盖了通过强化学习RL
6
00:00:25,199 --> 00:00:28,400
提升大型语言模型LLM的自我改进
7
00:00:28,399 --> 00:00:33,079
高商仇恳在推理中的应用延长的强化学习对LM推理的拓展
8
00:00:33,079 --> 00:00:37,859
测试时驱动的大模型快慢思考框架以及一种经济高效的视觉
9
00:00:37,859 --> 00:00:39,500
语言动作模型
10
00:00:39,500 --> 00:00:44,159
接下来让我们一起深入这些前沿研究探索AI技术的最新进展
11
00:00:44,159 --> 00:00:45,340
节目正式开始
12
00:00:45,340 --> 00:00:53,500
本期节目的第一篇论文是反思重视奖励通过强化学习实现LM的自我提升
13
00:00:53,500 --> 00:00:57,039
这篇论文在Hugging Face社区获得了169个点赞
14
00:00:57,039 --> 00:00:59,759
显示出其研究价值和社区的关注度
15
00:00:59,759 --> 00:01:04,879
这篇论文的核心目标是提升大型语言模型LMS的性能
16
00:01:04,879 --> 00:01:06,700
通过一种名为反思
17
00:01:06,700 --> 00:01:07,359
重视
18
00:01:07,359 --> 00:01:09,239
奖励的新框架来实现
19
00:01:09,239 --> 00:01:13,219
这个框架的关键在于让模型在任务失败后进行自我反思
20
00:01:13,219 --> 00:01:14,400
分析失败原因
21
00:01:14,400 --> 00:01:17,799
并在再次尝试时利用这些反思来改进表现
22
00:01:17,799 --> 00:01:18,759
具体来说
23
00:01:18,759 --> 00:01:22,099
模型在失败后会生成一段自我反思的评论
24
00:01:22,099 --> 00:01:23,579
解释哪里出了问题
25
00:01:23,579 --> 00:01:25,019
并提出改进建议
26
00:01:25,019 --> 00:01:28,179
然后模型会根据这些反思再次尝试任务
27
00:01:28,179 --> 00:01:29,879
如果第二次尝试成功
28
00:01:29,879 --> 00:01:32,140
模型在反思阶段生成的内容
29
00:01:32,140 --> 00:01:34,920
会通过一种名为Group Relative Policy Optimization
30
00:01:34,920 --> 00:01:36,699
Gruple的算法获得奖励
31
00:01:36,699 --> 00:01:39,239
从而进一步优化其自我反思的能力
32
00:01:39,239 --> 00:01:42,319
论文中使用了多个模型进行实验
33
00:01:42,319 --> 00:01:43,379
包括Cornar
34
00:01:43,379 --> 00:01:44,519
Lama 3.1
35
00:01:44,519 --> 00:01:45,599
Fi 3.5
36
00:01:45,599 --> 00:01:46,799
Mini Instruct等
37
00:01:46,799 --> 00:01:48,579
并基于两个主要数据集
38
00:01:48,579 --> 00:01:49,780
Epojin和Countdown
39
00:01:49,780 --> 00:01:52,780
Epojin数据集包含6万个高质量的函数调用
40
00:01:52,780 --> 00:01:55,140
要求模型生成正确的工具调用
41
00:01:55,140 --> 00:01:56,299
Countdown数据集
42
00:01:56,299 --> 00:01:59,280
则包含45万个数字列表和目标数字
43
00:01:59,280 --> 00:02:03,000
要求模型通过这些数字生成正确的方程来达到目标
44
00:02:03,000 --> 00:02:04,299
研究结果显示
45
00:02:04,299 --> 00:02:05,200
这种反思
46
00:02:05,200 --> 00:02:05,820
重视
47
00:02:05,820 --> 00:02:09,219
奖励的方法在提升模型性能方面非常有效
48
00:02:09,219 --> 00:02:11,159
特别是在Epojin数据集上
49
00:02:11,159 --> 00:02:13,639
经过Gurple训练的Quin27B模型
50
00:02:13,639 --> 00:02:17,020
甚至超过了未经过训练的Quin272B模型
51
00:02:17,020 --> 00:02:17,639
此外
52
00:02:17,639 --> 00:02:21,620
自我反思显著提升了模型在Countdown数据集上的表现
53
00:02:21,620 --> 00:02:24,379
尤其是对于那些初始表现较差的模型
54
00:02:24,379 --> 00:02:26,000
论文还指出
55
00:02:26,000 --> 00:02:30,139
这种自我反思的方法不仅增强了模型解决复杂任务的能力
56
00:02:30,139 --> 00:02:33,599
还使得较小的模型能够超越较大的未训练模型
57
00:02:33,599 --> 00:02:36,359
显示出其在效率和通用性上的优势
58
00:02:36,359 --> 00:02:36,800
此外
59
00:02:36,800 --> 00:02:39,780
研究中几乎没有观察到灾难性遗忘的现象
60
00:02:39,780 --> 00:02:43,380
表明这种方法在模型乳棒性方面也有显著提升
61
00:02:43,380 --> 00:02:44,219
总的来说
62
00:02:44,219 --> 00:02:46,840
这篇论文提出了一种创新的方法
63
00:02:46,840 --> 00:02:48,660
通过强化学习的方式
64
00:02:48,660 --> 00:02:51,260
让LLMS进行自我反思和改进
65
00:02:51,260 --> 00:02:53,800
从而在复杂任务上取得更好的表现
66
00:02:54,500 --> 00:02:57,300
这是本期节目的第二篇论文
67
00:02:57,300 --> 00:02:59,300
题目是超越8020法则
68
00:02:59,300 --> 00:03:03,220
高商少数Token驱动LLM推理的有效强化学习
69
00:03:03,219 --> 00:03:07,319
这篇论文目前在Hugging Face社区获得了130个点赞
70
00:03:07,319 --> 00:03:10,120
显示出它在学术界引起了广泛关注
71
00:03:10,120 --> 00:03:12,300
这篇论文的核心研究问题是
72
00:03:12,300 --> 00:03:16,400
在大型语言模型LLMS的验证奖励强化学习
73
00:03:16,400 --> 00:03:17,379
RLVR中
74
00:03:17,379 --> 00:03:20,120
不同类型的Token如何影响推理性能
75
00:03:20,199 --> 00:03:24,680
以及是否可以通过专注于特定类型的Token来提升RLVR的效果
76
00:03:24,680 --> 00:03:26,719
研究团队提出了一个假设
77
00:03:26,719 --> 00:03:30,699
高商的少数Token作为推理路径中的关键分支点
78
00:03:30,699 --> 00:03:34,780
比低商的多数Token更能有效驱动RLVR他们进一步假设
79
00:03:34,780 --> 00:03:37,839
通过限制策略梯度更新到这些高商Token
80
00:03:37,839 --> 00:03:41,699
可以在保持或提升性能的同时提供计算上的优势
81
00:03:41,699 --> 00:03:43,599
为了验证这一假设
82
00:03:43,599 --> 00:03:46,079
研究团队进行了详细的实验设计
83
00:03:46,199 --> 00:03:51,839
他们选择了捆3LLM家族的8B 14B和32B基础模型作为研究对象
84
00:03:51,839 --> 00:03:55,219
通过链式思维COT推理中的Token商模式分析
85
00:03:55,219 --> 00:03:57,459
结合控制实验来调节这根商
86
00:03:57,460 --> 00:04:00,620
并在RLVR训练中选择性的更新策略梯度
87
00:04:00,620 --> 00:04:01,860
数据收集方面
88
00:04:01,860 --> 00:04:04,939
他们使用了M24 M25等数据集
89
00:04:04,939 --> 00:04:07,580
并在多个评估数据集上进行了验证
90
00:04:07,580 --> 00:04:08,900
实验结果显示
91
00:04:08,900 --> 00:04:11,980
高商Token在推理过程中起到了关键作用
92
00:04:11,980 --> 00:04:14,760
他们不仅连接了逻辑推理的各个环节
93
00:04:14,760 --> 00:04:18,319
还能通过调节节码温度来显著影响模型的性能
94
00:04:18,319 --> 00:04:19,240
具体来说
95
00:04:19,240 --> 00:04:21,819
降低高商Token的温度会降低性能
96
00:04:21,819 --> 00:04:24,060
而增加其温度则能提升性能
97
00:04:24,060 --> 00:04:24,620
此外
98
00:04:24,620 --> 00:04:27,980
RLVR在训练过程中保留了基础模型的商模式
99
00:04:27,980 --> 00:04:30,420
并且主要改变了高商Token的商值
100
00:04:30,420 --> 00:04:32,259
最令人振奋的是
101
00:04:32,259 --> 00:04:33,620
研究团队发现
102
00:04:33,620 --> 00:04:36,000
仅关注高商Token的策略梯度更新
103
00:04:36,000 --> 00:04:37,459
不仅没有降低性能
104
00:04:37,459 --> 00:04:40,639
反而在Koen3模型上显著提升了推理效果
105
00:04:40,639 --> 00:04:44,120
这一发现对于优化LM的推理能力具有重要意义
106
00:04:44,120 --> 00:04:46,480
尤其是在处理复杂推理任务时
107
00:04:46,480 --> 00:04:50,399
高商Token的聚焦策略能够平衡探索与训练稳定性
108
00:04:50,399 --> 00:04:52,560
为模型带来更大的性能提升
109
00:04:52,560 --> 00:04:57,100
总的来说这篇论文通过深入分析Token商对推理性能的影响
110
00:04:57,100 --> 00:05:01,019
揭示了高商少数Token在驱动LM推理中的关键作用
111
00:05:01,019 --> 00:05:04,720
为未来的LMU化提供了新的思路和方法
112
00:05:04,720 --> 00:05:08,220
这是本期节目的第三篇论文
113
00:05:08,220 --> 00:05:09,180
题目是Po
114
00:05:09,180 --> 00:05:12,760
延长的强化学习拓展大型语言模型的推理边界
115
00:05:12,760 --> 00:05:16,600
这篇论文目前在Hugging Face社区获得了115个点赞
116
00:05:16,600 --> 00:05:19,680
显示出它在研究社区中引起了广泛关注
117
00:05:19,680 --> 00:05:21,920
这篇论文的核心研究问题是
118
00:05:21,920 --> 00:05:26,820
延长的强化学习训练能否在大型语言模型中揭示出新的推理策略
119
00:05:26,819 --> 00:05:30,779
这些策略是基础模型在广泛采样下也无法获得的
120
00:05:30,779 --> 00:05:32,639
研究团队提出了一个假设
121
00:05:32,639 --> 00:05:34,779
通过延长的强化学习训练
122
00:05:34,779 --> 00:05:38,279
模型可以在其基础模型的基础上拓展推理能力
123
00:05:38,279 --> 00:05:40,079
发现新的解决方案路径
124
00:05:40,079 --> 00:05:42,079
并在各种任务中表现更好
125
00:05:42,079 --> 00:05:43,519
为了验证这一假设
126
00:05:43,519 --> 00:05:46,719
研究团队设计了一种名为Pro的新训练方法
127
00:05:46,719 --> 00:05:49,360
这种方法结合了KL散度控制
128
00:05:49,360 --> 00:05:52,259
参考策略重置以及一系列多样化的任务
129
00:05:52,259 --> 00:05:54,579
他们使用了三个模型进行实验
130
00:05:54,579 --> 00:05:55,939
DeepSea Car 1-1
131
00:05:55,939 --> 00:05:57,560
5B作为基础模型
132
00:05:57,560 --> 00:05:59,779
Demitra Research Reasoning宽1.5B
133
00:05:59,779 --> 00:06:01,660
作为经过Pro训练的模型
134
00:06:01,660 --> 00:06:04,519
以及DeepSea Car 1-7B用于比较
135
00:06:04,519 --> 00:06:05,600
在实验过程中
136
00:06:05,600 --> 00:06:09,100
Pro训练包括了超过2000步的强化学习训练
137
00:06:09,100 --> 00:06:11,819
同时引入了KL散度惩罚来保持伤
138
00:06:11,819 --> 00:06:13,220
并防止策略漂移
139
00:06:13,220 --> 00:06:14,980
参考策略会定期重置
140
00:06:14,980 --> 00:06:16,279
以允许持续改进
141
00:06:16,279 --> 00:06:18,060
训练数据涵盖了数学
142
00:06:18,060 --> 00:06:18,759
代码
143
00:06:18,759 --> 00:06:19,120
STEM
144
00:06:19,120 --> 00:06:21,560
逻辑谜题和指令跟随等多种任务
145
00:06:21,560 --> 00:06:24,480
共构建了一个包含136000个视力的
146
00:06:24,480 --> 00:06:25,800
多样化训练数据集
147
00:06:25,800 --> 00:06:27,160
研究结果显示
148
00:06:27,160 --> 00:06:29,259
经过强化学习训练的模型
149
00:06:29,259 --> 00:06:30,620
在各种任务中的表现
150
00:06:30,620 --> 00:06:32,100
显著优于基础模型
151
00:06:32,100 --> 00:06:32,700
例如
152
00:06:32,700 --> 00:06:33,900
在数学任务中
153
00:06:33,900 --> 00:06:36,900
PiSide1的提升达到了14.7%
154
00:06:36,900 --> 00:06:39,700
在编码任务中提升了13.9%
155
00:06:39,700 --> 00:06:42,640
在逻辑谜题中提升了54.8%
156
00:06:42,640 --> 00:06:45,860
在STEM推理任务中提升了25.1%
157
00:06:45,860 --> 00:06:49,080
在指令跟随任务中提升了18.1%
158
00:06:49,080 --> 00:06:49,439
此外
159
00:06:49,439 --> 00:06:50,540
研究还发现
160
00:06:50,540 --> 00:06:52,540
Pro训练在超过2000步
161
00:06:52,540 --> 00:06:54,860
后仍能持续提升模型性能
162
00:06:54,860 --> 00:06:57,220
论文还引入了创造力指数
163
00:06:57,220 --> 00:06:59,160
来量化推理路径的吸引性
164
00:06:59,160 --> 00:07:00,180
结果表明
165
00:07:00,180 --> 00:07:01,879
延长的强化学习训练
166
00:07:01,879 --> 00:07:04,560
确实能够产生更具创新性的解决方案
167
00:07:04,560 --> 00:07:05,360
这一发现
168
00:07:05,360 --> 00:07:06,379
挑战了之前认为
169
00:07:06,379 --> 00:07:07,500
强化学习模型
170
00:07:07,500 --> 00:07:09,620
不会获得新推理能力的研究结论
171
00:07:09,620 --> 00:07:10,420
总的来说
172
00:07:10,420 --> 00:07:12,520
这篇论文提供了新的见解
173
00:07:12,520 --> 00:07:14,259
展示了在什么条件下
174
00:07:14,259 --> 00:07:17,560
强化学习能够有效拓展语言模型的推理边界
175
00:07:17,560 --> 00:07:18,920
研究结果表明
176
00:07:18,920 --> 00:07:21,500
通过稳定且延长的强化学习训练
177
00:07:22,540 --> 00:07:24,080
开发出超越基础模型
178
00:07:24,080 --> 00:07:25,800
初始能力的新的推理模式
179
00:07:25,800 --> 00:07:29,080
本期节目的第四篇论文
180
00:07:29,080 --> 00:07:30,220
我们来关注一篇
181
00:07:30,220 --> 00:07:31,480
名为Alpha 1
182
00:07:31,480 --> 00:07:33,120
测试时驱动大模型
183
00:07:33,120 --> 00:07:35,340
进行快慢思考的推理框架的研究
184
00:07:35,340 --> 00:07:37,740
这篇论文目前在Hugging Face社区
185
00:07:37,740 --> 00:07:39,180
获得了89个点赞
186
00:07:39,180 --> 00:07:42,660
显示出它在学术界和开发者社区中的广泛关注
187
00:07:42,660 --> 00:07:46,200
这篇论文的核心目标是解决大型推理模型
188
00:07:46,200 --> 00:07:47,860
LRMS在测试时
189
00:07:47,860 --> 00:07:50,140
如何动态调节推理过程的挑战
190
00:07:50,139 --> 00:07:52,539
研究人员提出了一个名为Alpha 1
191
00:07:52,539 --> 00:07:53,919
Alpha 1的框架
192
00:07:53,919 --> 00:07:56,879
旨在提升LRMS的推理能力和效率
193
00:07:56,879 --> 00:07:57,839
简单来说
194
00:07:57,839 --> 00:07:59,560
Alpha 1通过在测试时
195
00:07:59,560 --> 00:08:02,099
动态调度慢思考和快思考的转换
196
00:08:02,099 --> 00:08:06,680
帮助模型在深度分析和计算效率之间找到平衡
197
00:08:06,680 --> 00:08:07,379
具体来看
198
00:08:07,379 --> 00:08:11,180
研究团队使用了三个开源的LRMS作为基础模型
199
00:08:11,180 --> 00:08:12,719
分别是DeepSeq R1
200
00:08:12,719 --> 00:08:14,180
Distil QN1.5B
201
00:08:14,180 --> 00:08:15,079
DeepSeq R1
202
00:08:15,079 --> 00:08:17,379
Distil QN7B和QNQXRB
203
00:08:17,379 --> 00:08:18,899
他们在一系列涵盖数学
204
00:08:18,899 --> 00:08:22,279
编程和科学领域的六个基准测试上进行了实验
205
00:08:22,279 --> 00:08:23,699
包括M2024
206
00:08:23,699 --> 00:08:24,779
AMCR3
207
00:08:24,779 --> 00:08:25,759
Minerva Math等
208
00:08:25,759 --> 00:08:29,339
实验在NVIDIA L40S和A100GPU上进行
209
00:08:29,339 --> 00:08:32,480
确保了计算资源的充足和实验的可靠性
210
00:08:32,480 --> 00:08:37,120
论文的主要创新点在于引入了Alpha时刻AlphaMoment这一概念
211
00:08:37,120 --> 00:08:39,659
通过于Alpha和后Alpha时刻的调节
212
00:08:39,659 --> 00:08:43,340
Alpha1能够有效地在测试时对LRMS进行缩放
213
00:08:43,340 --> 00:08:45,320
研究人员还通过对比实验
214
00:08:45,320 --> 00:08:47,899
验证了Alpha1在问题解决准确性
215
00:08:47,899 --> 00:08:49,680
PiCity和推理效率
216
00:08:49,680 --> 00:08:51,700
FAP指标上的显著提升
217
00:08:51,700 --> 00:08:53,759
例如1.5B的模型
218
00:08:53,759 --> 00:08:54,920
在使用Alpha1后
219
00:08:54,920 --> 00:08:58,039
问题解决准确性提高了6.15%
220
00:08:58,039 --> 00:09:00,480
同时令牌长度减少了14%
221
00:09:00,480 --> 00:09:02,220
研究结果显示
222
00:09:02,220 --> 00:09:06,379
Alpha1不仅在准确性上超越了传统的测试时缩放方法
223
00:09:06,379 --> 00:09:07,899
如SE和Chain of Draft
224
00:09:07,899 --> 00:09:10,220
而且在推理效率上也表现出色
225
00:09:10,220 --> 00:09:11,060
特别是
226
00:09:11,060 --> 00:09:14,300
论文发现慢思考到快思考的线性调度方式
227
00:09:14,300 --> 00:09:16,440
能够带来最高的推理准确性
228
00:09:16,440 --> 00:09:20,279
这表明慢思考在提升推理效率方面起到了关键作用
229
00:09:20,279 --> 00:09:21,180
总体而言
230
00:09:21,180 --> 00:09:25,860
Alpha1为大型推理模型提供了一个通用的推理过程调节框架
231
00:09:25,860 --> 00:09:28,620
展示了慢思考和快思考的动态转换
232
00:09:28,620 --> 00:09:30,800
如何有效提升模型的推理能力
233
00:09:30,799 --> 00:09:34,839
这一研究不仅为LRMS的实际应用提供了新的思路
234
00:09:34,839 --> 00:09:38,719
也为未来在测试时优化模型推理提供了宝贵的经验
235
00:09:38,719 --> 00:09:44,899
这就是本期节目关于Alpha1测试时驱动大模型进行快慢思考的推理框架的介绍
236
00:09:44,899 --> 00:09:48,439
这是本期节目的第五篇论文
237
00:09:48,439 --> 00:09:48,939
题目是Small Flux
238
00:09:48,939 --> 00:09:52,439
一种用于经济高效型机器人的视觉
239
00:09:52,439 --> 00:09:53,079
语言
240
00:09:53,079 --> 00:09:54,059
动作模型
241
00:09:54,059 --> 00:09:58,000
这篇论文目前在Hugging Face社区获得了75个点赞
242
00:09:58,000 --> 00:10:00,980
论文的核心目标是解决现有大规模视觉
243
00:10:00,980 --> 00:10:01,600
语言
244
00:10:01,600 --> 00:10:02,299
动作
245
00:10:02,299 --> 00:10:02,779
Flux
246
00:10:02,779 --> 00:10:07,379
模型在机器人领域中面临的高训练成本和实际部署困难的问题
247
00:10:07,379 --> 00:10:09,879
研究团队提出了一个关键问题
248
00:10:09,879 --> 00:10:11,679
是否可以开发一种小型
249
00:10:11,679 --> 00:10:13,980
高效且由社区驱动的伐模型
250
00:10:13,980 --> 00:10:16,360
既能大幅降低训练和推理成本
251
00:10:16,360 --> 00:10:19,319
同时还能在机器人任务中保持竞争力
252
00:10:19,319 --> 00:10:20,720
论文的答案是Small Flux
253
00:10:20,720 --> 00:10:22,579
这是一种紧凑的伐模型
254
00:10:22,579 --> 00:10:26,179
专门设计用于单GPU训练和消费级设备的部署
255
00:10:26,179 --> 00:10:29,740
Small Flux通过利用社区收集的数据和一部推理技术
256
00:10:29,740 --> 00:10:33,539
实现了与更大规模模型相媲美的性能
257
00:10:33,539 --> 00:10:34,419
在方法论上
258
00:10:34,419 --> 00:10:37,019
Small Flux有一个紧凑的与训练视觉
259
00:10:37,019 --> 00:10:40,259
以N模型VLM和一个动作专家组成
260
00:10:40,259 --> 00:10:42,240
VLM负责处理语言指令
261
00:10:42,240 --> 00:10:44,620
RGB图像和机器人传感器状态
262
00:10:44,620 --> 00:10:48,919
而动作专家则通过交替的交叉注意力和自注意力快进行训练
263
00:10:48,919 --> 00:10:50,299
输出低级别动作
264
00:10:50,299 --> 00:10:51,259
数据集方面
265
00:10:51,259 --> 00:10:55,980
研究团队使用了来自Hugging Face的481个社区数据集的子集
266
00:10:55,980 --> 00:10:57,879
以及新的MetaWorld数据集
267
00:10:57,879 --> 00:11:00,679
和几个真实世界的机器人操作任务数据集
268
00:11:00,679 --> 00:11:01,820
训练过程中
269
00:11:01,820 --> 00:11:03,639
Small Flux通过模仿学习
270
00:11:03,639 --> 00:11:05,639
在社区数据集上进行运训练
271
00:11:05,639 --> 00:11:07,299
并使用现成的VLM
272
00:11:07,299 --> 00:11:08,419
如Kun 2.5
273
00:11:08,419 --> 00:11:09,860
VL3B Instruct
274
00:11:09,860 --> 00:11:11,220
自动生成任务描述
275
00:11:11,220 --> 00:11:12,639
以改进任务注视
276
00:11:12,639 --> 00:11:13,559
推理阶段
277
00:11:13,559 --> 00:11:14,700
一部推理技术
278
00:11:14,700 --> 00:11:17,340
将动作执行与观察处理和动作预测机
279
00:11:17,340 --> 00:11:19,320
从而提高了控制频率
280
00:11:19,320 --> 00:11:21,080
并减少了任务完成时间
281
00:11:21,080 --> 00:11:22,059
在评估中
282
00:11:22,059 --> 00:11:26,279
Small Flux在模拟和真实世界的机器人基准测试中表现出色
283
00:11:26,279 --> 00:11:29,740
特别是在识取、放置、堆叠和分类任务中
284
00:11:29,740 --> 00:11:31,299
优于其他Fla模型
285
00:11:31,299 --> 00:11:32,259
一部推理
286
00:11:32,259 --> 00:11:35,839
还使任务完成时间减少了约30%
287
00:11:35,839 --> 00:11:36,959
论文的结论表明
288
00:11:36,959 --> 00:11:39,000
通过利用社区驱动数据集
289
00:11:39,000 --> 00:11:41,600
优化模型架构和一部推理技术
290
00:11:41,600 --> 00:11:43,240
紧凑高效的Fla模型
291
00:11:43,240 --> 00:11:45,720
可以在机器人任务中取得竞争性表现
292
00:11:45,720 --> 00:11:47,299
Small Flux成功展示了
293
00:11:47,299 --> 00:11:49,720
开发经济高效型Fla模型的可行性
294
00:11:49,720 --> 00:11:52,240
为机器人研究提供了新的可能性
295
00:11:52,240 --> 00:11:55,419
并使更多资源有限的实际应用成为可能
296
00:11:55,419 --> 00:11:59,139
以上就是本期节目的全部内容
297
00:11:59,139 --> 00:12:00,459
感谢大家的收听
298
00:12:00,459 --> 00:12:02,059
如果你喜欢本期内容
299
00:12:02,059 --> 00:12:03,539
欢迎在评论区留言
300
00:12:03,539 --> 00:12:04,159
点赞
301
00:12:04,159 --> 00:12:04,740
转发
302
00:12:04,740 --> 00:12:05,979
并订阅我们的节目
303
00:12:05,979 --> 00:12:06,559
同时
304
00:12:06,559 --> 00:12:08,659
别忘了关注我们在小红书的账号
305
00:12:08,659 --> 00:12:09,199
ISOD
306
00:12:09,199 --> 00:12:10,539
我们下期节目再见
307
00:12:10,539 --> 00:12:12,179
Hayae
308
00:12:12,179 --> 00:12:28,179
��
|