150-200元/天
实习更新于2025-08-20 01:00
工作内容:
1、针对业务需求,解决算力瓶颈、通信延迟、分布式系统扩展性等问题;
2、协同算法、硬件及运维团队,构建高效、稳定的计算基础设施。
(1)GPU方向:研究GPU集群的调度策略,优化资源利用率。探索混合精度计算、模型量化等GPU加速技术;
( 2)网络方向:设计低延迟、高吞吐的分布式网络架构(如InfiniBand/RoCE/DPU)。优化MPI、NCCL等通信库性能,解决大规模集群中的网络拥塞问题;
( 3)大模型工程框架方向:开发或优化大模型训练框架(如PyTorch/TensorFlow/DeepSpeed/Megatron-LM),设计分布式训练策略(模型并行、流水线并行、混合并行),提升千亿级参数模型的训练效率。研究训练加速技术(梯度压缩、显存优化、动态计算图调度)。
岗位要求:
1、扎实的计算机体系结构基础,熟悉并行计算、数据密集型系统设计;
2、良好的数学基础(线性代数、数值分析、算法复杂度优化)。
3、有TensorRT/Triton Inference Server等推理框架经验者优先;
4、深入理解TCP/IP、RDMA协议栈,熟悉DPDK/SPDK开发、有超算中心或云计算网络调优经验者优先;
5、熟悉Transformer架构及主流大模型训练流程。
招聘人数:1人
截止日期:长期有效
腾讯科技 (深圳)有限公司
彭肖
暂无职位 · 最近登录过