爬蟲與數(shù)據(jù)開發(fā)工程師
3-5萬元/月##關(guān)于我們
我們是一家專注于垂類AIAgent、面向全球客戶的創(chuàng)業(yè)公司,致力于通過智能體技術(shù)重新定義行業(yè)解決方案。公司已獲得億元級融資,處于行業(yè)頭部位置,并已實(shí)現(xiàn)規(guī)?;?yàn)證了商業(yè)模式的可持續(xù)性。
##核心團(tuán)隊(duì)
創(chuàng)始團(tuán)隊(duì)來自字節(jié)跳動(dòng)、阿里、網(wǎng)易等一線互聯(lián)網(wǎng)企業(yè),在全球化業(yè)務(wù)拓展和產(chǎn)品落地方面具備豐富經(jīng)驗(yàn),深諳如何將技術(shù)創(chuàng)新轉(zhuǎn)化為商業(yè)價(jià)值。
團(tuán)隊(duì)成員曾主導(dǎo)多個(gè)千萬級用戶產(chǎn)品的從0到1建設(shè),在海外市場開拓、跨境業(yè)務(wù)運(yùn)營方面擁有深厚積累。
##為什么是現(xiàn)在
-絕佳時(shí)間窗口:行業(yè)正處于AI重塑的關(guān)鍵階段,我們已占據(jù)領(lǐng)先位置并實(shí)現(xiàn)盈利,當(dāng)前正是參與定義新范式的黃金時(shí)機(jī)
-務(wù)實(shí)的技術(shù)路線:我們依托開源與閉源模型的持續(xù)進(jìn)步,避免重復(fù)造輪子,專注將每個(gè)token投入解決真實(shí)行業(yè)痛點(diǎn),推動(dòng)業(yè)務(wù)指數(shù)增長
-與大模型廠商共生:我們聚焦垂直場景深耕,與基礎(chǔ)模型廠商形成互補(bǔ)而非競爭關(guān)系,充分共享技術(shù)紅利
-全球化視野:服務(wù)覆蓋全球客戶,影響力遍及多個(gè)國家和地區(qū)
##我們提供
-具有競爭力的薪酬及股權(quán)激勵(lì)(根據(jù)能力與意向面議)
-全額承擔(dān)AI編程工具費(fèi)用(如Codex、ClaudeCode、Cursor、GitHubCopilot等)
-充足的硬件與云資源支持(GPU服務(wù)器、云計(jì)算資源等)
-豐富的學(xué)習(xí)成長機(jī)會(前沿技術(shù)探索、內(nèi)部技術(shù)分享等)
-快速發(fā)展通道(深度積累AIAgent領(lǐng)域經(jīng)驗(yàn)、完整參與0到1過程、伴隨公司成長獲得快速晉升)
崗位描述
1.負(fù)責(zé)主流海外社交媒體平臺的數(shù)據(jù)采集,搭建自動(dòng)化、可持續(xù)運(yùn)行的采集pipeline;
2.設(shè)計(jì)并開發(fā)采集數(shù)據(jù)庫,構(gòu)建數(shù)據(jù)清洗、去重、標(biāo)準(zhǔn)化流程,實(shí)現(xiàn)數(shù)據(jù)更新與增量同步;
3.應(yīng)對各類反爬機(jī)制,研究并突破App加密、簽名算法、API鑒權(quán),運(yùn)用抓包、逆向等手段分析移動(dòng)應(yīng)用接口;
4.搭建高性能、可擴(kuò)展的分布式爬蟲架構(gòu)與ETL流程,建立完善的錯(cuò)誤處理、重試機(jī)制及監(jiān)控告警體系。
任職要求
1.具備2年以上爬蟲開發(fā)或數(shù)據(jù)工程經(jīng)驗(yàn),參與或主導(dǎo)過中大型爬蟲項(xiàng)目(日均采集量超10萬條);
2.熟練掌握常見反爬技術(shù)棧及相關(guān)工具,深入理解HTML/DOM/XPath,掌握J(rèn)S渲染、AJAX、WebSocket等交互機(jī)制;
3.擁有豐富的反爬對抗經(jīng)驗(yàn),能高效繞過Cloudflare、Akamai等防護(hù)機(jī)制,具備驗(yàn)證碼處理能力,了解瀏覽器指紋、TLS指紋識別技術(shù);
4.實(shí)際完成過至少3個(gè)主流社交平臺的數(shù)據(jù)采集,熟悉其API規(guī)則、限流策略及數(shù)據(jù)結(jié)構(gòu);
5.能使用Charles、Fiddler進(jìn)行移動(dòng)端流量抓包分析,了解APK/IPA解包流程,有簽名算法破解經(jīng)驗(yàn)者優(yōu)先;
6.熟悉數(shù)據(jù)清洗、去重和質(zhì)量校驗(yàn)流程,可處理非結(jié)構(gòu)化數(shù)據(jù),掌握PostgreSQL/MySQL、MongoDB、Redis等數(shù)據(jù)庫;
7.精通Python或Go或Java等主流語言,熟悉異步編程與并發(fā)控制,具備良好的代碼設(shè)計(jì)能力;
8.能獨(dú)立設(shè)計(jì)分布式爬蟲系統(tǒng),具備海外平臺采集經(jīng)驗(yàn)、App深度逆向能力或熟練使用AI編程工具者優(yōu)先。