Python爬蟲開發(fā)工程師(Scrapy方向)
8000-18000元/月1. 基于Python+Scrapy框架開發(fā)高效、穩(wěn)定的網(wǎng)絡(luò)爬蟲,完成各類網(wǎng)站(電商/資訊/社交/企業(yè)信息等)的數(shù)據(jù)采集、清洗、存儲(chǔ);
2. 分析目標(biāo)網(wǎng)站結(jié)構(gòu)及反爬機(jī)制,制定并落地反反爬策略(如IP池、UA池、驗(yàn)證碼識別、動(dòng)態(tài)渲染頁面處理等);
3. 負(fù)責(zé)爬蟲系統(tǒng)的日常維護(hù)、監(jiān)控與優(yōu)化,解決爬蟲運(yùn)行中的卡頓、漏采、封禁等問題,保障數(shù)據(jù)采集的完整性和時(shí)效性;
4. 對接業(yè)務(wù)需求,梳理數(shù)據(jù)采集規(guī)則,輸出標(biāo)準(zhǔn)化的數(shù)據(jù)格式,配合數(shù)據(jù)分析師/產(chǎn)品經(jīng)理完成數(shù)據(jù)應(yīng)用落地;
5. 參與爬蟲架構(gòu)優(yōu)化,提升爬蟲集群的并發(fā)能力、容錯(cuò)能力和可擴(kuò)展性;
6. 編寫爬蟲開發(fā)文檔、接口文檔,沉淀技術(shù)方案和最佳實(shí)踐。
#### 三、任職要求
##### 【基礎(chǔ)要求】
1. 本科及以上學(xué)歷,計(jì)算機(jī)、軟件工程等相關(guān)專業(yè)(優(yōu)秀者可放寬至大專),1-3年(初級)/3-5年(中級)/5年以上(高級)Python爬蟲開發(fā)經(jīng)驗(yàn);
2. 精通Python編程語言,熟練使用Scrapy框架進(jìn)行爬蟲開發(fā),熟悉Scrapy的核心組件(Spider、Item Pipeline、Middleware、Downloader等);
3. 熟悉HTTP/HTTPS協(xié)議,掌握請求頭、Cookie、Session、代理IP等爬蟲核心知識點(diǎn),能獨(dú)立分析并突破常見反爬手段(如封IP、驗(yàn)證碼、JS加密、動(dòng)態(tài)加載、User-Agent驗(yàn)證等);
4. 熟悉數(shù)據(jù)解析方式:XPath、CSS Selector、正則表達(dá)式,了解JSON/XML數(shù)據(jù)處理,能處理非結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù);
5. 熟悉常用數(shù)據(jù)庫(MySQL/Redis/MongoDB等),能根據(jù)數(shù)據(jù)特點(diǎn)選擇合適的存儲(chǔ)方案,具備基本的SQL優(yōu)化能力;
6. 具備良好的代碼規(guī)范和編程習(xí)慣,能獨(dú)立完成模塊開發(fā),有排查和解決線上問題的能力。
##### 【重點(diǎn)看】
1. 熟悉Selenium/Playwright/Pyppeteer等動(dòng)態(tài)頁面渲染工具,有分布式爬蟲(Scrapy-Redis)開發(fā)經(jīng)驗(yàn);
2. 了解爬蟲監(jiān)控、日志分析工具(如ELK、Prometheus),有爬蟲集群部署和運(yùn)維經(jīng)驗(yàn);
3. 有過驗(yàn)證碼識別(OCR/打碼平臺(tái)對接)、滑塊驗(yàn)證、短信驗(yàn)證繞過等實(shí)戰(zhàn)經(jīng)驗(yàn);
4. 具備逆向工程基礎(chǔ),能分析JS加密邏輯(如AST、Hook);
5. 有電商/金融/政務(wù)類網(wǎng)站爬蟲開發(fā)經(jīng)驗(yàn)優(yōu)先。