AI算法研發(fā)工程師(強化學習領域)
2.5-3.5萬元/月公司注冊資金2.4億元,已獲得成都市倍特基金數(shù)億元投資。公司總部位于成都市高新區(qū)AI創(chuàng)新中心,并在深圳設有研發(fā)分中心、技術支持中心及銷售中心。
我們積極響應“十五五”規(guī)劃中關于突破工業(yè)軟件卡脖子環(huán)節(jié)、以自主研發(fā)與生態(tài)聚合之力,投身科技自立自強與工業(yè)軟件攻堅的偉大進程,服務中國電子制造業(yè)的轉型升級。
我們誠摯邀請懷揣技術理想、志在產業(yè)報國的您,共同推動國產化替代與產業(yè)升級。
一、崗位職責
1、開展先進強化學習算法的研究與開發(fā),構建高效訓練流程與模型結構。
2、定位并解決算法在實際落地中的技術難題,協(xié)同數(shù)據科學家、工程師及產品經理,保障產品技術領先性。
3、針對具體應用場景設計并實現(xiàn)多智能體系統(tǒng)與RAG工作流,通過模型調優(yōu)、prompt優(yōu)化等手段持續(xù)提升算法服務能力。
4、關注前沿科研動態(tài),及時將最新研究成果融入項目實踐。
二、任職要求
1、計算機科學、人工智能、數(shù)學或相關專業(yè)本科及以上學歷。
2、具備3年以上深度學習與強化學習領域實際工作經驗。
3、掌握主流開源大模型訓練微調框架,如llamafactory、huggingface、swift等。
4、熟悉deepseek、qwen、llama等開源大模型體系,理解其架構特點與技術創(chuàng)新,并有實際部署經驗。
5、精通常見微調算法,深入掌握其理論基礎與工程實現(xiàn)方式。
6、扎實掌握強化學習核心算法,具備豐富實踐經驗,涵蓋Q-learning、Policy Gradients、DQN、PPO、GRPO等方法。
7、能熟練運用開源工具搭建agent系統(tǒng)與RAG流程,了解相關性能優(yōu)化策略。
8、具備較強編程能力,熟練使用Python或C++,可獨立完成完整訓練與驗證流程開發(fā)。
9、對數(shù)據處理方法論有深刻理解并具備實操經驗。
三、工作時間及福利待遇
1、六險一金:入職當月即繳納社保,全額繳納公積金。
2、工作時間:9:00-18:30,午休1.5小時,周末雙休,法定節(jié)假日正常休息。
3、福利待遇:全勤獎(200元)、節(jié)日福利、下午茶點、部門團建、帶薪年假。
4、公司提供明確的職級晉升路徑與個人成長機制。