taicheng guo's picture

taicheng guo

taicheng

·

AI & ML interests

None yet

Recent Activity

upvoted a paper 19 days ago

Group-in-Group Policy Optimization for LLM Agent Training

upvoted a paper about 2 months ago

Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning

liked a model 3 months ago

meta-llama/Llama-3.2-3B

View all activity

Organizations

Papers 5

arxiv:2510.12831

arxiv:2402.18679

arxiv:2402.05138

arxiv:2402.01680

models 46

taicheng/zephyr-7b-align-scan-0.0-0.0-linear-1

Text Generation • 7B • Updated Sep 28, 2024

taicheng/zephyr-7b-align-scan-0.0-0.0-polynomial-1

Text Generation • 7B • Updated Sep 28, 2024

taicheng/zephyr-7b-align-scan-0.0-0.0-cosine-2

Text Generation • 7B • Updated Sep 28, 2024

taicheng/zephyr-7b-align-scan-0.0-0.0-polynomial-2

Text Generation • 7B • Updated Sep 28, 2024 • 2

taicheng/zephyr-7b-align-scan-0.0-0.0-polynomial-3

Text Generation • 7B • Updated Sep 28, 2024

taicheng/zephyr-7b-align-scan-0.0-0.0-linear-3

Text Generation • 7B • Updated Sep 28, 2024 • 5

taicheng/zephyr-7b-align-scan

Text Generation • 7B • Updated Sep 28, 2024 • 1

taicheng/zephyr-7b-align-scan-1e-07-0.27-polynomial-1.0

Updated Sep 28, 2024

taicheng/zephyr-7b-align-scan-7e-07-0.45-cosine-3.0

Text Generation • 7B • Updated Sep 28, 2024 • 2

taicheng/zephyr-7b-align-scan-6e-07-0.53-polynomial-2.0

Text Generation • 7B • Updated Sep 28, 2024

datasets 0

None public yet