您當(dāng)前的位置：首頁(yè) > 職位列表 > 職位詳情

大模型AI

1.8-4萬(wàn)元/月

投遞簡(jiǎn)歷

北京-西城區(qū)

經(jīng)驗(yàn)不限

2026-02-26 13:33:29 更新被瀏覽：860 次

中領(lǐng)低空經(jīng)濟(jì)發(fā)展（北京）有限公司

最近在線時(shí)間：2026-02-26 13:33:29

電話：186********

地址：北京市豐臺(tái)區(qū)汽車博物館西路10號(hào)院9號(hào)樓1至13層101內(nèi)東塔4層406-2075

職位描述

職位描述
我們正在尋找一位資深的大模型部署專家，作為核心成員，負(fù)責(zé)將前沿的大型語(yǔ)言模型
（LLM）及多模態(tài)模型安全、高效、穩(wěn)定地部署至公司本地環(huán)境，并構(gòu)建高可用的模型服務(wù)平
臺(tái)，為全公司的業(yè)務(wù)產(chǎn)品提供強(qiáng)大的AI能力支撐。
主要職責(zé)
主導(dǎo)開(kāi)源大模型（如Llama、Qwen、ChatGLM、Yi等）在本地服務(wù)器/GPU
集群上的部署、配置和調(diào)試
搭建和運(yùn)維大模型推理服務(wù)框架，如vLLM,TensorRT-LLM,TritonInference
Server等，以提供高性能的模型服務(wù)
實(shí)現(xiàn)模型服務(wù)的API化，設(shè)計(jì)與內(nèi)部業(yè)務(wù)系統(tǒng)對(duì)接的標(biāo)準(zhǔn)化接口
對(duì)模型進(jìn)行量化（INT4/INT8/GPTQ/AWQ）、蒸餾、剪枝等優(yōu)化，以降低資源消
耗并提升推理速度
開(kāi)發(fā)模型服務(wù)的管理后臺(tái)，實(shí)現(xiàn)模型的版本管理、動(dòng)態(tài)加載、滾動(dòng)升級(jí)和監(jiān)控告警
確保本地部署模型的數(shù)據(jù)安全性與私密性，所有數(shù)據(jù)不出域
任職要求
必備條件：
學(xué)歷與專業(yè)：計(jì)算機(jī)科學(xué)、軟件工程或相關(guān)專業(yè)，本科及以上學(xué)歷
技術(shù)基礎(chǔ)：精通Python，具備優(yōu)秀的編程能力和代碼風(fēng)格；熟練掌握Linux操
作系統(tǒng)，能夠編寫高效的Shell腳本；熟悉Docker容器化技術(shù)
核心經(jīng)驗(yàn)：具有大模型本地部署的實(shí)際經(jīng)驗(yàn)，熟悉至少一種主流開(kāi)源大模型的部署
流程；熟悉GPU的使用和性能調(diào)優(yōu)，了解CUDA編程；具備扎實(shí)的后端開(kāi)發(fā)能力
個(gè)人素質(zhì)：強(qiáng)大的問(wèn)題排查和解決能力，能夠應(yīng)對(duì)復(fù)雜的系統(tǒng)環(huán)境挑戰(zhàn)；具備強(qiáng)烈
的責(zé)任心和團(tuán)隊(duì)協(xié)作精神
優(yōu)先考慮：
有使用vLLM,TensorRT-LLM等高性能推理框架經(jīng)驗(yàn)者
有模型量化、推理加速實(shí)戰(zhàn)經(jīng)驗(yàn)者
熟悉MLOps工具鏈（如MLflow,Kubeflow）和CI/CD流程者
有構(gòu)建企業(yè)內(nèi)部AI平臺(tái)或PasS平臺(tái)經(jīng)驗(yàn)者
了解大模型微調(diào)（Fine-tuning）技術(shù)（如LoRA,QLoRA）者