您當前的位置：首頁 > 職位列表 > 職位詳情

AI算法研發(fā)工程師（強化學習領域）

2.5-3.5萬元/月

投遞簡歷

四川-成都-雙流區(qū)

3-5年 DQN · C/C++ · Q-learning · 大模型訓練微調框架 · 分布式訓練 · 深度學習 · 大模型算法 · 強化學習 · qwen · Python

2026-03-03 09:45:34 更新被瀏覽：87 次

成都派茲互連電子技術有限公司

最近在線時間：2026-03-03 09:45:34

電話：136********

地址：中國（四川）自由貿易試驗區(qū)成都高新區(qū)新程大道999號1棟14層、16層

職位描述

公司注冊資金2.4億元，已獲得成都市倍特基金數(shù)億元投資。公司總部位于成都市高新區(qū)AI創(chuàng)新中心，并在深圳設有研發(fā)分中心、技術支持中心及銷售中心。

我們積極響應“十五五”規(guī)劃中關于突破工業(yè)軟件卡脖子環(huán)節(jié)、以自主研發(fā)與生態(tài)聚合之力，投身科技自立自強與工業(yè)軟件攻堅的偉大進程，服務中國電子制造業(yè)的轉型升級。

我們誠摯邀請懷揣技術理想、志在產業(yè)報國的您，共同推動國產化替代與產業(yè)升級。

一、崗位職責
1、開展先進強化學習算法的研究與開發(fā)，構建高效訓練流程與模型結構。
2、定位并解決算法在實際落地中的技術難題，協(xié)同數(shù)據科學家、工程師及產品經理，保障產品技術領先性。
3、針對具體應用場景設計并實現(xiàn)多智能體系統(tǒng)與RAG工作流，通過模型調優(yōu)、prompt優(yōu)化等手段持續(xù)提升算法服務能力。
4、關注前沿科研動態(tài)，及時將最新研究成果融入項目實踐。

二、任職要求
1、計算機科學、人工智能、數(shù)學或相關專業(yè)本科及以上學歷。
2、具備3年以上深度學習與強化學習領域實際工作經驗。
3、掌握主流開源大模型訓練微調框架，如llamafactory、huggingface、swift等。
4、熟悉deepseek、qwen、llama等開源大模型體系，理解其架構特點與技術創(chuàng)新，并有實際部署經驗。
5、精通常見微調算法，深入掌握其理論基礎與工程實現(xiàn)方式。
6、扎實掌握強化學習核心算法，具備豐富實踐經驗，涵蓋Q-learning、Policy Gradients、DQN、PPO、GRPO等方法。
7、能熟練運用開源工具搭建agent系統(tǒng)與RAG流程，了解相關性能優(yōu)化策略。
8、具備較強編程能力，熟練使用Python或C++，可獨立完成完整訓練與驗證流程開發(fā)。
9、對數(shù)據處理方法論有深刻理解并具備實操經驗。

三、工作時間及福利待遇
1、六險一金：入職當月即繳納社保，全額繳納公積金。
2、工作時間：9:00-18:30，午休1.5小時，周末雙休，法定節(jié)假日正常休息。
3、福利待遇：全勤獎（200元）、節(jié)日福利、下午茶點、部門團建、帶薪年假。
4、公司提供明確的職級晉升路徑與個人成長機制。