1.負責大模型預訓練數(shù)據(jù)的清洗、去噪與結(jié)構(gòu)化處理,構(gòu)建高質(zhì)量語料庫,支持模型訓練需求:
2.設計并實現(xiàn)基于Python的高效數(shù)據(jù)處理Pipeline,優(yōu)化數(shù)
據(jù)預處理流程,提升數(shù)據(jù)質(zhì)量;
3.擅長對接數(shù)據(jù)采集(上游)與模型訓練(下游),制定數(shù)據(jù)規(guī)范、質(zhì)量監(jiān)控及閉環(huán)優(yōu)化策略,確保數(shù)據(jù)-模型高效協(xié)同
崗位要求:
1.研究生及以上學歷,計算機、數(shù)據(jù)科學、人工智能相關
專業(yè);2.一年以上數(shù)據(jù)清洗/處理經(jīng)驗,有LLM或NLP項目經(jīng)驗者
優(yōu)先;
3.具備良好的數(shù)據(jù)敏感度,能獨立解決復雜數(shù)據(jù)問題;4.強烈的責任心與團隊協(xié)作能力,適應快節(jié)奏技術迭代,