面议
实习更新于2026-06-23 01:00
岗位职责:
1. 协助开展VLA模型的强化学习训练,参与RLHF流程搭建,包括奖励模型优化、策略微调等核心环节。
2. 配合整理对齐数据集,优化强化学习训练链路,提升模型指令理解与输出一致性。
3. 跟踪强化学习与大模型融合的前沿技术,完成小型技术调研与实验验证,输出简要分析报告。
4. 协助优化模型训练效率,参与实验数据记录、效果复盘,支撑算法迭代优化。
岗位要求:
1. 在读博士学历(计算机、AI、自动化等相关专业),每周可实习3天以上,实习期不少于3个月。
2. 精通Python,熟练掌握PyTorch框架,具备扎实的强化学习与神经网络基础,了解VLA核心原理。
3. 熟悉PPO, GRPO,有VLA模型微调或强化学习项目经验者优先。
4. 具备良好的数学基础与逻辑思维,能独立推进简单实验,有较强的问题解决能力。
招聘人数:3人
截止日期:长期有效
深圳宥易信息技术有限公司
岳书琪
暂无职位 · 17小时前登录过