‪Yuhao Zhou (周钰皓)‬ - ‪Google Scholar‬

Get my own profile

Cited by

	All	Since 2019
Citations	358	358
h-index	6	6
i10-index	6	6

0

240

120

60

180

2022202320246 117 234

Co-authors

Huang Xuanjing (黄萱菁)Professor of Computer Science, Fudan UniversityVerified email at fudan.edu.cn
Qi Zhang (张奇)Professor of Computer Science, Fudan UniversityVerified email at fudan.edu.cn
Tao Gui （桂韬）复旦大学Verified email at fudan.edu.cn
Shihan DouFudan UniversityVerified email at m.fudan.edu.cn
Zhiheng XiFudan UniversityVerified email at m.fudan.edu.cn
Rui ZhengFudan UniversityVerified email at fudan.edu.cn

Yuhao Zhou (周钰皓)

Yuhao Zhou (周钰皓)

Fudan University

Verified email at m.fudan.edu.cn

Natural Language Processing


Title Sort by citations Sort by year Sort by title	Cited by Cited by	Year
The Rise and Potential of Large Language Model Based Agents: A Survey Z Xi, W Chen, X Guo, W He, Y Ding, B Hong, M Zhang, J Wang, S Jin, ... arXiv preprint arXiv:2309.07864, 2023	245	2023
Secrets of RLHF in Large Language Models Part I: PPO R Zheng, S Dou, S Gao, Y Hua, W Shen, B Wang, Y Liu, S Jin, Q Liu, ... arXiv preprint arXiv:2307.04964, 2023	49*	2023
Robust Lottery Tickets for Pre-trained Language Models R Zheng, R Bao, Y Zhou, D Liang, S Wang, W Wu, T Gui, Q Zhang, ... ACL 2022, 2211–2224, 2022	18	2022
Self-Polish: Enhance Reasoning in Large Language Models via Problem Refinement Z Xi, S Jin, Y Zhou, R Zheng, S Gao, T Gui, Q Zhang, X Huang EMNLP 2023 (findings), 11383–11406, 2023	14	2023
Secrets of RLHF in Large Language Models Part II: Reward Modeling B Wang, R Zheng, L Chen, Y Liu, S Dou, C Huang, W Shen, S Jin, E Zhou, ... arXiv preprint arXiv:2401.06080, 2024	13*	2024
LoRAMoE: Revolutionizing Mixture of Experts for Maintaining World Knowledge in Language Model Alignment S Dou, E Zhou, Y Liu, S Gao, J Zhao, W Shen, Y Zhou, Z Xi, X Wang, ... arXiv preprint arXiv:2312.09979, 2023	12*	2023
Improving Generalization of Alignment with Human Preferences through Group Invariant Learning R Zheng, W Shen, Y Hua, W Lai, S Dou, Y Zhou, Z Xi, X Wang, H Huang, ... ICLR 2024, 2024	2	2024
Delve into PPO: Implementation Matters for Stable RLHF R Zheng, S Dou, S Gao, Y Hua, W Shen, B Wang, Y Liu, S Jin, Y Zhou, ... NeurIPS 2023 Workshop on Instruction Tuning and Instruction Following, 2023	2	2023
Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning Z Xi, W Chen, B Hong, S Jin, R Zheng, W He, Y Ding, S Liu, X Guo, ... arXiv preprint arXiv:2402.05808, 2024	1	2024
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback S Dou, Y Liu, H Jia, L Xiong, E Zhou, J Shan, C Huang, W Shen, X Fan, ... arXiv preprint arXiv:2402.01391, 2024	1	2024
Detecting Adversarial Samples through Sharpness of Loss Landscape R Zheng, S Dou, Y Zhou, Q Liu, T Gui, Q Zhang, Z Wei, XJ Huang, ... ACL 2023 (findings), 11282-11298, 2023	1	2023
Subspace Defense: Discarding Adversarial Perturbations by Learning a Subspace for Clean Signals R Zheng, Y Zhou, Z Xi, T Gui, Q Zhang, X Huang COLING 2024, 2024		2024
MouSi: Poly-Visual-Expert Vision-Language Models X Fan, T Ji, C Jiang, S Li, S Jin, S Song, J Wang, B Hong, L Chen, ... arXiv preprint arXiv:2401.17221, 2024		2024

The system can't perform the operation now. Try again later.

Articles 1–13