崗位職責(zé):
1、負(fù)責(zé)網(wǎng)絡(luò)資源的搜集、抽取、清洗、去重、分類及過濾,構(gòu)建高質(zhì)量的數(shù)據(jù)資源庫;
2、根據(jù)業(yè)務(wù)需求,設(shè)計(jì)并實(shí)現(xiàn)高效的數(shù)據(jù)采集方案,確保數(shù)據(jù)的實(shí)時(shí)性和準(zhǔn)確性;
3、協(xié)助業(yè)務(wù)部門進(jìn)行數(shù)據(jù)的更新與維護(hù),提供數(shù)據(jù)支持及解決方案;
4、優(yōu)化采集腳本,提升數(shù)據(jù)采集效率,解決采集過程中的反爬蟲策略問題;
5、參與數(shù)據(jù)采集工具的開發(fā)以及成品數(shù)據(jù)集的制作。
任職要求:
1、統(tǒng)招本科及以上學(xué)歷,計(jì)算機(jī)、電子信息、軟件工程等相關(guān)專業(yè);
2、熟練掌握Python編程語言,具備扎實(shí)的編程基礎(chǔ),熟悉正則表達(dá)式、XPATH、requests等技術(shù);
3、熟悉Web前端技術(shù),包括HTML、HTTP、JavaScript、JSON等,能夠處理動(dòng)態(tài)網(wǎng)頁數(shù)據(jù);
4、掌握常用數(shù)據(jù)庫操作,mongodb,mysql等
5、了解Linux開發(fā)環(huán)境,掌握基本shell命令,具備linux部署的能力;
6、有爬蟲類項(xiàng)目經(jīng)驗(yàn)優(yōu)先,熟悉常用的爬蟲框架(如Scrapy、自動(dòng)化等);
7、具備網(wǎng)絡(luò)資源搜集、信息抽取、文本分類等相關(guān)經(jīng)驗(yàn)者優(yōu)先;
8、具備良好的溝通能力和團(tuán)隊(duì)協(xié)作精神,能夠獨(dú)立解決問題并承擔(dān)工作壓力。