工作內容
1.負責網(wǎng)絡爬蟲系統(tǒng)的設計、開發(fā)和維護,確保數(shù)據(jù)抓取的效率和穩(wěn)定性;
2.針對不同網(wǎng)站結構(靜態(tài)/動態(tài)頁面、API接口等)設計爬蟲策略,解決反爬機制(如驗證碼、IP封鎖等);
3.清洗、存儲和分析爬取的數(shù)據(jù),支持業(yè)務部門的數(shù)據(jù)需求;
4.優(yōu)化爬蟲性能,提升抓取速度和數(shù)據(jù)質量;
5.參與數(shù)據(jù)平臺相關工具的開發(fā)和維護。
任職要求
1.精通Python,熟悉常用庫(如Requests、 Scrapy、BeautifulSoup、Selenium等);
2.掌握HTTP/HTTPS協(xié)議、XPath/CSS選擇器、正則表達式等爬蟲基礎技術;
3.熟悉反爬應對策略(如代理IP、請求頭模擬、分布式爬蟲等);
4.了解常見數(shù)據(jù)庫(MySQL/MongoDB/Redis等)和數(shù)據(jù)存儲方案;
5.能獨立完成從爬取到數(shù)據(jù)落地的全流程開發(fā)。