爬蟲工程師/高級爬蟲工程師
學(xué)歷要求
?計算機(jī)、軟件工程、信息科學(xué)或相關(guān)專業(yè)本科及以上學(xué)歷
工作經(jīng)驗要求
?3年以上Web爬蟲開發(fā)經(jīng)驗
?至少主導(dǎo)或深度參與過 3個以上中大型爬取項目(如電商、新聞、社交平臺、搜索引擎數(shù)據(jù)源等)
?有從零搭建分布式爬蟲系統(tǒng)經(jīng)驗者優(yōu)先
崗位職責(zé)
1. 負(fù)責(zé)大規(guī)?;ヂ?lián)網(wǎng)公開數(shù)據(jù)的采集、解析、清洗與結(jié)構(gòu)化存儲;
2. 設(shè)計并實現(xiàn)高可用、高并發(fā)、抗反爬的分布式爬蟲系統(tǒng);
3. 深度研究目標(biāo)網(wǎng)站的反爬機(jī)制(如JS加密、滑塊驗證碼、IP封鎖、行為檢測等),并制定破解方案;
4. 維護(hù)現(xiàn)有爬蟲集群,優(yōu)化采集效率與穩(wěn)定性;
5. 與數(shù)據(jù)工程師、算法團(tuán)隊協(xié)作,提供高質(zhì)量結(jié)構(gòu)化數(shù)據(jù)支持;
6. 編寫技術(shù)文檔,指導(dǎo)初級工程師,參與技術(shù)評審與架構(gòu)設(shè)計;
7. 關(guān)注法律法規(guī)與合規(guī)性,確保數(shù)據(jù)采集符合《網(wǎng)絡(luò)安全法》《數(shù)據(jù)安全法》等要求。
任職要求(核心技術(shù)點(diǎn) 必備技能:
?精通 Python,熟練使用 Scrapy、Requests、Selenium、Playwright、BeautifulSoup、lxml 等爬蟲框架與庫;
?熟悉 HTTP/HTTPS、TCP/IP、Cookie、Session、User-Agent、Referer 等協(xié)議機(jī)制;
?熟練掌握 JavaScript逆向分析,能使用 Chrome DevTools、Fiddler、Charles 進(jìn)行抓包與調(diào)試;
?熟悉常見反爬機(jī)制及應(yīng)對方案:
?動態(tài)渲染頁面(SPA)采集
?驗證碼識別(OCR、打碼平臺、模型識別)
?IP代理池建設(shè)與調(diào)度(自建/第三方)
?請求頻率控制、指紋偽裝、行為模擬
?熟悉 數(shù)據(jù)存儲與中間件:MySQL、MongoDB、Redis、Kafka、Elasticsearch;
?熟悉 分布式架構(gòu):能使用 Scrapy-Redis、Celery、Kubernetes、Docker 構(gòu)建分布式爬蟲集群;
?具備基礎(chǔ)的 Linux 操作能力,能編寫 Shell 腳本進(jìn)行自動化部署與監(jiān)控。