面议
实习更新于2026-06-27 01:00
一、岗位名称
AI 系统架构师
二、专业要求
计算机科学与技术、软件工程、网络工程、人工智能、数据科学与大数据技术、自动化、电子信息、信息管理与信息系统等计算机及相关专业
三、岗位职责
1. 大模型集群架构搭建与算力资源调度管理
负责AI大模型底层集群架构设计、组网搭建、环境统一配置与运维管控,统筹LLaMA、ChatGLM、DeepSeek等大模型多节点集群部署体系。搭建集群连通、故障自愈、资源隔离机制,实现训练算力与推理算力分层管控。基于硬件算力差异完成智能资源分配、任务调度与负载均衡,动态优化算力配额,平衡集群整体压力,提升GPU算力利用率,保障大模型训练、微调、推理全流程稳定高效运行。
2. 分布式存储架构设计与海量数据治理
负责AI业务分布式存储架构整体规划,搭建海量模型文件、训练数据集、业务数据的分片存储、多副本备份机制,适配大模型海量数据存取场景。优化数据读写性能、解决读写卡顿、数据冲突、存储冗余等问题,搭建标准化数据台账、数据生命周期管理体系,实现数据分级分类、权限管控、流转溯源,规避数据丢失、泄露风险,构建安全、稳定、高效的AI数据存储底座。
3. 网络拓扑规划与云服务架构搭建
统筹AI业务整体网络架构,完成机房设备组网、线路分区、网络拓扑图设计,根据训练、推理、办公、外网访问需求做网络分区规划,规避网络延迟、端口冲突、链路断连问题。区分公有云、私有云架构差异,独立完成云服务器实例创建、环境部署、资源扩容、权限体系搭建,实现云端算力、存储、网络资源弹性适配,支撑AI业务动态扩缩容需求,保障跨区域、跨节点数据传输稳定。
4. MLOps体系构建与自动化训练流水线落地
搭建完整AI工程化MLOps体系,覆盖数据处理、模型训练、模型评测、版本管理、服务发布、监控运维全链路。设计并开发自动化训练流水线,通过脚本编排、任务自动触发,实现数据清洗、模型训练、参数迭代、模型归档无人值守自动化运行。统一项目研发规范、版本规范、迭代规范,沉淀标准化AI项目运维模板,提升团队模型迭代与交付效率。
5. 模型评测体系与线上服务发布管控
搭建标准化大模型评测体系,围绕精度、推理速度、稳定性、安全性、兼容性多维度设计评测指标与自动化测试流程。编写批量评测脚本,完成模型性能校验、等级判定、版本筛选。负责AI服务灰度发布、版本切换、线上回滚、上线风险把控,记录全流程发布日志,规避上线故障。统筹多版本模型兼容适配,解决版本接口差异、参数不统一问题,保障模型迭代业务平稳过渡。
6. 高可用架构优化与全链路性能调优
负责AI系统高并发架构优化,搭建接口限流、熔断、负载均衡、异常重试机制,模拟高并发场景压测调优,提升大模型推理服务承载上限。全链路排查系统延迟、显存溢出、算力卡顿、数据库瓶颈等问题,逐层优化网络传输、任务调度、代码逻辑、资源占用,压缩整体推理响应耗时。搭建全方位服务实时监控面板,配置负载、延迟、报错、显存占用告警规则,实现故障实时感知、快速定位。
7. 项目安全风控与整体架构方案设计
搭建AI项目全维度安全风控体系,实现数据防泄露、接口防攻击、权限隔离、漏洞排查、异常应急处置。统筹硬件芯片选型、算力成本核算、集群架构规划,结合业务需求输出可落地的整体AI技术架构方案。负责跨团队项目统筹,协调算法、研发、运维团队协作,统一对接标准、迭代流程,高效推进产学研AI创新项目落地,沉淀企业级AI架构标准化方案。
四、任职要求
1. AI集群与架构基础能力
扎实掌握服务器硬件、AI芯片、集群组网基础原理,熟悉大模型多节点集群搭建、环境配置、算力调度机制。熟练掌握分布式存储、网络拓扑、云服务架构核心知识,具备基础的架构拆解与方案设计能力。熟悉Linux常用命令、服务部署、脚本编写,具备AI工程化基础功底。了解MLOps体系、自动化流水线、模型版本管理核心机制。
2. 算力调度与存储网络架构能力
认知主流AI芯片算力、功耗、适配场景差异,具备基础芯片选型、成本核算能力。熟悉分布式数据分片、备份、读写优化机制,能够排查数据存储异常、读写卡顿问题。精通网络拓扑规划、网络分区、链路优化,可规避网络延迟、断连、跨节点通信异常。掌握公有云、私有云部署流程,可独立完成云资源搭建、扩容、权限管控。
3. AI工程化与服务运维能力
具备MLOps体系搭建认知,熟悉AI流水线、自动化训练、模型评测全流程。能够独立排查显存溢出、服务卡顿、接口超时、版本兼容、集群连通性等各类线上故障,具备问题复盘、架构优化能力。熟悉服务灰度发布、版本回滚、监控告警配置,能够通过日志、性能数据定位架构瓶颈,输出针对性优化方案。
4. 安全风控与项目统筹能力
了解AI项目数据安全、接口安全、权限隔离风控策略,具备漏洞排查、应急处理思维。熟悉算法、研发、运维团队协作流程,具备跨团队沟通、进度统筹、需求对齐能力。能够结合业务需求拆解架构模块,整合硬件、算力、存储、网络、模型资源输出完整技术方案。
5. 综合素质
掌握计算机基础:数据结构、计算机网络、操作系统、分布式原理,熟悉TCP/IP、HTTP、集群通信协议。逻辑思维严谨、架构思维清晰,沟通协作顺畅,责任心强,主动对接算法团队、研发团队完成架构需求对齐。对AI底层架构、大模型工程化、算力调度体系抱有热情,自主学习意愿强,具备较强的全局思维。
6. 加分项
有大模型集群搭建、算力调度、分布式存储落地项目经验;具备MLOps完整体系搭建、自动化训练流水线开发经验;熟悉AI芯片选型、显存优化、高并发大模型服务调优者优先;有私有云/公有云AI架构部署、网络拓扑整体规划经验;具备跨团队大型AI项目统筹、架构方案输出经验;抗压性强、逻辑清晰、具备业务架构思维。
五、岗位晋级路径 & 单项技术成长规划
1. 岗位晋级路径
项目架构师 → 行业 AI 架构师 → 技术架构总监
2. 单项技术专项成长规划
熟练掌握大模型集群搭建、算力资源调度、分布式存储架构、网络拓扑规划、硬件芯片选型、云服务搭建、中间件集成调试、MLOps体系搭建、海量数据资产管理、自动化训练流水线、模型评测体系构建、线上服务发布管控、服务实时监控、高并发请求优化、程序延迟调优、项目安全风控、显存溢出排查、多版本模型兼容、跨团队项目统筹、整体技术方案设计二十项核心能力,分阶段系统学习落地,全面打通AI底层架构、工程化运维、模型服务化、高可用架构设计全链路能力。
六、实习/任职收获
1. 全栈AI架构体系硬核成长
完整掌握大模型集群搭建→算力智能调度→分布式存储与网络架构→云服务部署与MLOps工程化→自动化流水线与模型评测→高并发高可用架构优化→安全风控与整体方案设计全链路,吃透AI底层基建、工程化落地、线上架构运维核心技术,打造稀缺的AI系统架构复合技术壁垒,区别于普通算法、开发、运维岗位。
2. 资深架构导师专属带教
由硅谷归国技术团队、资深AI架构总监一对一指导,定期开展集群架构专项培训、算力调度实战复盘、MLOps体系搭建分享、高可用架构优化教学,针对性解决大模型集群部署、显存优化、高并发调优、跨团队统筹难点,快速搭建系统化AI架构知识体系。
3. 官方认证与高端就业绿色通道
顺利结业颁发正规实习证书与单位鉴定评语,表现优异者可直接获得头部AI科技企业、互联网大厂AI架构岗校招终面直通资格,稀缺的AI系统架构全链路经验大幅提升高端技术岗求职竞争力。
4. 完善实习福利保障
提供北京免费住宿、工作日免费三餐;支持弹性晚间办公,可同步海外硅谷团队协作时区,白天自主研学、技术调研拓展;入职统一投保人身意外险;来京路费、个人出行研学费用自理。
5. 跨领域技术互通提升
可与大模型微调、具身机器人、后端开发、前端研发岗位人员双向技能交流,打通AI底层架构、算法模型、工程开发认知边界,拓宽技术广度,深度参与产学研联合创新项目,积累企业级AI架构落地实战经验。
七、招聘流程
可先仔细看企业文章中介绍的各种假期实习岗位,将陆续开放,请持续关注。
简历投邮箱 → 简历筛选 → 技术面试(线上) → 录用通知 → 入职实习
招聘人数:5人
截止日期:长期有效
北京海归协会
侯先生
网络技术顾问