AI系统架构师

面议

实习

高并发
显存精细化
MLOps
SFT监督
私有化模型
推理加速方案
显存优化
分布式集群

东城区
学历不限
3天
2个月
面议

更新于2026-06-27 01:00

在线简历

上传附件简历

职位诱惑

领导nice
免费住宿
免费工作餐
高端海归研发
到京旅游
大咖互动
环境优美
人身保险

岗位职责：

一、岗位名称

AI 系统架构师

二、专业要求

计算机科学与技术、软件工程、网络工程、人工智能、数据科学与大数据技术、自动化、电子信息、信息管理与信息系统等计算机及相关专业

三、岗位职责

1. 大模型集群架构搭建与算力资源调度管理

负责AI大模型底层集群架构设计、组网搭建、环境统一配置与运维管控，统筹LLaMA、ChatGLM、DeepSeek等大模型多节点集群部署体系。搭建集群连通、故障自愈、资源隔离机制，实现训练算力与推理算力分层管控。基于硬件算力差异完成智能资源分配、任务调度与负载均衡，动态优化算力配额，平衡集群整体压力，提升GPU算力利用率，保障大模型训练、微调、推理全流程稳定高效运行。

2. 分布式存储架构设计与海量数据治理

负责AI业务分布式存储架构整体规划，搭建海量模型文件、训练数据集、业务数据的分片存储、多副本备份机制，适配大模型海量数据存取场景。优化数据读写性能、解决读写卡顿、数据冲突、存储冗余等问题，搭建标准化数据台账、数据生命周期管理体系，实现数据分级分类、权限管控、流转溯源，规避数据丢失、泄露风险，构建安全、稳定、高效的AI数据存储底座。

3. 网络拓扑规划与云服务架构搭建

统筹AI业务整体网络架构，完成机房设备组网、线路分区、网络拓扑图设计，根据训练、推理、办公、外网访问需求做网络分区规划，规避网络延迟、端口冲突、链路断连问题。区分公有云、私有云架构差异，独立完成云服务器实例创建、环境部署、资源扩容、权限体系搭建，实现云端算力、存储、网络资源弹性适配，支撑AI业务动态扩缩容需求，保障跨区域、跨节点数据传输稳定。

4. MLOps体系构建与自动化训练流水线落地

搭建完整AI工程化MLOps体系，覆盖数据处理、模型训练、模型评测、版本管理、服务发布、监控运维全链路。设计并开发自动化训练流水线，通过脚本编排、任务自动触发，实现数据清洗、模型训练、参数迭代、模型归档无人值守自动化运行。统一项目研发规范、版本规范、迭代规范，沉淀标准化AI项目运维模板，提升团队模型迭代与交付效率。

5. 模型评测体系与线上服务发布管控

搭建标准化大模型评测体系，围绕精度、推理速度、稳定性、安全性、兼容性多维度设计评测指标与自动化测试流程。编写批量评测脚本，完成模型性能校验、等级判定、版本筛选。负责AI服务灰度发布、版本切换、线上回滚、上线风险把控，记录全流程发布日志，规避上线故障。统筹多版本模型兼容适配，解决版本接口差异、参数不统一问题，保障模型迭代业务平稳过渡。

6. 高可用架构优化与全链路性能调优

负责AI系统高并发架构优化，搭建接口限流、熔断、负载均衡、异常重试机制，模拟高并发场景压测调优，提升大模型推理服务承载上限。全链路排查系统延迟、显存溢出、算力卡顿、数据库瓶颈等问题，逐层优化网络传输、任务调度、代码逻辑、资源占用，压缩整体推理响应耗时。搭建全方位服务实时监控面板，配置负载、延迟、报错、显存占用告警规则，实现故障实时感知、快速定位。

7. 项目安全风控与整体架构方案设计

搭建AI项目全维度安全风控体系，实现数据防泄露、接口防攻击、权限隔离、漏洞排查、异常应急处置。统筹硬件芯片选型、算力成本核算、集群架构规划，结合业务需求输出可落地的整体AI技术架构方案。负责跨团队项目统筹，协调算法、研发、运维团队协作，统一对接标准、迭代流程，高效推进产学研AI创新项目落地，沉淀企业级AI架构标准化方案。

四、任职要求

1. AI集群与架构基础能力

扎实掌握服务器硬件、AI芯片、集群组网基础原理，熟悉大模型多节点集群搭建、环境配置、算力调度机制。熟练掌握分布式存储、网络拓扑、云服务架构核心知识，具备基础的架构拆解与方案设计能力。熟悉Linux常用命令、服务部署、脚本编写，具备AI工程化基础功底。了解MLOps体系、自动化流水线、模型版本管理核心机制。

2. 算力调度与存储网络架构能力

认知主流AI芯片算力、功耗、适配场景差异，具备基础芯片选型、成本核算能力。熟悉分布式数据分片、备份、读写优化机制，能够排查数据存储异常、读写卡顿问题。精通网络拓扑规划、网络分区、链路优化，可规避网络延迟、断连、跨节点通信异常。掌握公有云、私有云部署流程，可独立完成云资源搭建、扩容、权限管控。

3. AI工程化与服务运维能力

具备MLOps体系搭建认知，熟悉AI流水线、自动化训练、模型评测全流程。能够独立排查显存溢出、服务卡顿、接口超时、版本兼容、集群连通性等各类线上故障，具备问题复盘、架构优化能力。熟悉服务灰度发布、版本回滚、监控告警配置，能够通过日志、性能数据定位架构瓶颈，输出针对性优化方案。

4. 安全风控与项目统筹能力

了解AI项目数据安全、接口安全、权限隔离风控策略，具备漏洞排查、应急处理思维。熟悉算法、研发、运维团队协作流程，具备跨团队沟通、进度统筹、需求对齐能力。能够结合业务需求拆解架构模块，整合硬件、算力、存储、网络、模型资源输出完整技术方案。

5. 综合素质

掌握计算机基础：数据结构、计算机网络、操作系统、分布式原理，熟悉TCP/IP、HTTP、集群通信协议。逻辑思维严谨、架构思维清晰，沟通协作顺畅，责任心强，主动对接算法团队、研发团队完成架构需求对齐。对AI底层架构、大模型工程化、算力调度体系抱有热情，自主学习意愿强，具备较强的全局思维。

6. 加分项

有大模型集群搭建、算力调度、分布式存储落地项目经验；具备MLOps完整体系搭建、自动化训练流水线开发经验；熟悉AI芯片选型、显存优化、高并发大模型服务调优者优先；有私有云/公有云AI架构部署、网络拓扑整体规划经验；具备跨团队大型AI项目统筹、架构方案输出经验；抗压性强、逻辑清晰、具备业务架构思维。

五、岗位晋级路径 & 单项技术成长规划

1. 岗位晋级路径

项目架构师 → 行业 AI 架构师 → 技术架构总监

2. 单项技术专项成长规划

熟练掌握大模型集群搭建、算力资源调度、分布式存储架构、网络拓扑规划、硬件芯片选型、云服务搭建、中间件集成调试、MLOps体系搭建、海量数据资产管理、自动化训练流水线、模型评测体系构建、线上服务发布管控、服务实时监控、高并发请求优化、程序延迟调优、项目安全风控、显存溢出排查、多版本模型兼容、跨团队项目统筹、整体技术方案设计二十项核心能力，分阶段系统学习落地，全面打通AI底层架构、工程化运维、模型服务化、高可用架构设计全链路能力。

六、实习/任职收获

1. 全栈AI架构体系硬核成长

完整掌握大模型集群搭建→算力智能调度→分布式存储与网络架构→云服务部署与MLOps工程化→自动化流水线与模型评测→高并发高可用架构优化→安全风控与整体方案设计全链路，吃透AI底层基建、工程化落地、线上架构运维核心技术，打造稀缺的AI系统架构复合技术壁垒，区别于普通算法、开发、运维岗位。

2. 资深架构导师专属带教

由硅谷归国技术团队、资深AI架构总监一对一指导，定期开展集群架构专项培训、算力调度实战复盘、MLOps体系搭建分享、高可用架构优化教学，针对性解决大模型集群部署、显存优化、高并发调优、跨团队统筹难点，快速搭建系统化AI架构知识体系。

3. 官方认证与高端就业绿色通道

顺利结业颁发正规实习证书与单位鉴定评语，表现优异者可直接获得头部AI科技企业、互联网大厂AI架构岗校招终面直通资格，稀缺的AI系统架构全链路经验大幅提升高端技术岗求职竞争力。

4. 完善实习福利保障

提供北京免费住宿、工作日免费三餐；支持弹性晚间办公，可同步海外硅谷团队协作时区，白天自主研学、技术调研拓展；入职统一投保人身意外险；来京路费、个人出行研学费用自理。

5. 跨领域技术互通提升

可与大模型微调、具身机器人、后端开发、前端研发岗位人员双向技能交流，打通AI底层架构、算法模型、工程开发认知边界，拓宽技术广度，深度参与产学研联合创新项目，积累企业级AI架构落地实战经验。

七、招聘流程