崗位職責:
1. 負責互聯(lián)網(wǎng)數(shù)據(jù)的定向抓取、清洗與結(jié)構(gòu)化;
2. 設(shè)計和實現(xiàn)數(shù)據(jù)清洗流程,協(xié)助產(chǎn)品及業(yè)務(wù)完成數(shù)據(jù)融合等數(shù)據(jù)集成工作;
2. 搭建高效穩(wěn)定的數(shù)據(jù)采集系統(tǒng)與調(diào)度框架;
3. 對反爬機制進行識別、規(guī)避及應(yīng)對;
4. 定期維護爬蟲策略,確保數(shù)據(jù)持續(xù)可用;
崗位要求:
? 精通 Python、Java;
? 精通 SQL 、Scala;
? 熟悉 常用 ETL 工具、Spark、Flink
? 熟悉網(wǎng)頁結(jié)構(gòu)(HTML/DOM/XPath/Regex);
? 熟悉代理IP、Cookies管理、Header偽裝、驗證碼識別等反爬機制;
? 具備良好的代碼結(jié)構(gòu)意識和日志監(jiān)控能力;
? 有大型網(wǎng)站(如港交所、雪球、EDGAR、天眼查等)實戰(zhàn)抓取經(jīng)驗優(yōu)先;
? 具備 異步爬蟲 / 多線程 / 分布式爬蟲開發(fā)經(jīng)驗者優(yōu)先;
? 熟悉 MySQL/MongoDB/Elasticsearch 等任一存儲技術(shù)。
特殊:
要求3年以上采集/清洗工作實際經(jīng)驗。
要求工作上細致,有自主分析問題,解決問題的能力