數(shù)據(jù)采集工程師-上海
面議
應(yīng)屆畢業(yè)生
學(xué)歷不限
應(yīng)屆畢業(yè)生
學(xué)歷不限
數(shù)據(jù)采集工程師-上海
面議
應(yīng)屆畢業(yè)生
學(xué)歷不限
應(yīng)屆畢業(yè)生
學(xué)歷不限
職位描述
該職位還未進行加V認證,請仔細了解后再進行投遞!
1 項目背景
針對外文語料數(shù)據(jù)采集工作,目前已經(jīng)對預(yù)訓(xùn)練數(shù)據(jù)采集、全站數(shù)據(jù)采集或者文
件文檔下載類的需求已經(jīng)開發(fā)了采集系統(tǒng)或者采集平臺進行需求覆蓋。但是由于需求種類多樣還有較多類型的采集需求(定向采集,數(shù)據(jù)字段高定,目標站點反爬比較嚴重等)數(shù)據(jù)系統(tǒng)與平臺無法進行覆蓋需求,需要鋪設(shè)較多開發(fā)人員進行單站點或者單需求進行數(shù)據(jù)采集研發(fā)工作。
2 預(yù)算與人員資質(zhì)要求
? 需求人數(shù):2人
? 期望到崗時間:2025年11月初
? 崗位級別:中級采集工程師
? 教育背景與工作經(jīng)驗
o 本科及以上學(xué)歷,計算機相關(guān)專業(yè)
o 2年以上數(shù)據(jù)采集工作經(jīng)驗
? 核心技能
o 精通 JavaScript 逆向工程
o 有主流站點 Web端大規(guī)模數(shù)據(jù)采集經(jīng)驗
o 具備多類型驗證碼處理能力:包括滑塊、點選、GooglereCAPTCHA、
旋轉(zhuǎn)驗證碼等
o 熟悉 APP 脫殼、逆向、反編譯及自動化相關(guān)技術(shù)
o 具備 AST 反混淆 JavaScript 代碼及 JSVMP 算法還原能力
? 附加技能(優(yōu)先考慮):具有風(fēng)控應(yīng)對經(jīng)驗(如 Akamai 并發(fā)、Cloudflare 等
反爬蟲策略處理經(jīng)驗)
3 崗位描述
3.1負責(zé)大模型相關(guān)數(shù)據(jù)采集,包括不限于海內(nèi)外文本,圖片,音視頻數(shù)據(jù);
3.2負責(zé)對目標網(wǎng)站或APP進行反爬突破、協(xié)議破解和提取關(guān)鍵數(shù)據(jù);
3.3負責(zé)反爬蟲策略研究,代理、驗證碼識別等采集支撐服務(wù)建設(shè);
3.4 參與大規(guī)模數(shù)據(jù)處理流程的設(shè)計與開發(fā),包括但不限于數(shù)據(jù)采集、清洗、轉(zhuǎn)
換、存儲等過程。
4 服務(wù)范圍與內(nèi)容
4.1 服務(wù)目標
協(xié)助開展各類數(shù)據(jù)采集業(yè)務(wù)(包括但不限于預(yù)訓(xùn)練數(shù)據(jù)采集、全站數(shù)據(jù)采
集、文件文檔下載等),針對多樣化的需求種類,特別是定向采集、高定數(shù)
據(jù)字段以及目標站點反爬嚴重等情況,提供定制化解決方案。具體包含但不
限于以下內(nèi)容:
1. 大模型相關(guān)數(shù)據(jù)采集
o 海內(nèi)外文本、圖片、音視頻等數(shù)據(jù)采集
o 保證數(shù)據(jù)多樣性及高質(zhì)量
2. 反爬蟲策略研究與實施
o 深度分析目標網(wǎng)站或APP
o 突破反爬措施(協(xié)議破解、代理使用、驗證碼識別等)
o 提供反爬支撐服務(wù)建設(shè)
3. 大規(guī)模數(shù)據(jù)處理流程設(shè)計與開發(fā)
o 數(shù)據(jù)采集、清洗、轉(zhuǎn)換、存儲的全流程實現(xiàn)
o 確保數(shù)據(jù)準確性與可用
針對外文語料數(shù)據(jù)采集工作,目前已經(jīng)對預(yù)訓(xùn)練數(shù)據(jù)采集、全站數(shù)據(jù)采集或者文
件文檔下載類的需求已經(jīng)開發(fā)了采集系統(tǒng)或者采集平臺進行需求覆蓋。但是由于需求種類多樣還有較多類型的采集需求(定向采集,數(shù)據(jù)字段高定,目標站點反爬比較嚴重等)數(shù)據(jù)系統(tǒng)與平臺無法進行覆蓋需求,需要鋪設(shè)較多開發(fā)人員進行單站點或者單需求進行數(shù)據(jù)采集研發(fā)工作。
2 預(yù)算與人員資質(zhì)要求
? 需求人數(shù):2人
? 期望到崗時間:2025年11月初
? 崗位級別:中級采集工程師
? 教育背景與工作經(jīng)驗
o 本科及以上學(xué)歷,計算機相關(guān)專業(yè)
o 2年以上數(shù)據(jù)采集工作經(jīng)驗
? 核心技能
o 精通 JavaScript 逆向工程
o 有主流站點 Web端大規(guī)模數(shù)據(jù)采集經(jīng)驗
o 具備多類型驗證碼處理能力:包括滑塊、點選、GooglereCAPTCHA、
旋轉(zhuǎn)驗證碼等
o 熟悉 APP 脫殼、逆向、反編譯及自動化相關(guān)技術(shù)
o 具備 AST 反混淆 JavaScript 代碼及 JSVMP 算法還原能力
? 附加技能(優(yōu)先考慮):具有風(fēng)控應(yīng)對經(jīng)驗(如 Akamai 并發(fā)、Cloudflare 等
反爬蟲策略處理經(jīng)驗)
3 崗位描述
3.1負責(zé)大模型相關(guān)數(shù)據(jù)采集,包括不限于海內(nèi)外文本,圖片,音視頻數(shù)據(jù);
3.2負責(zé)對目標網(wǎng)站或APP進行反爬突破、協(xié)議破解和提取關(guān)鍵數(shù)據(jù);
3.3負責(zé)反爬蟲策略研究,代理、驗證碼識別等采集支撐服務(wù)建設(shè);
3.4 參與大規(guī)模數(shù)據(jù)處理流程的設(shè)計與開發(fā),包括但不限于數(shù)據(jù)采集、清洗、轉(zhuǎn)
換、存儲等過程。
4 服務(wù)范圍與內(nèi)容
4.1 服務(wù)目標
協(xié)助開展各類數(shù)據(jù)采集業(yè)務(wù)(包括但不限于預(yù)訓(xùn)練數(shù)據(jù)采集、全站數(shù)據(jù)采
集、文件文檔下載等),針對多樣化的需求種類,特別是定向采集、高定數(shù)
據(jù)字段以及目標站點反爬嚴重等情況,提供定制化解決方案。具體包含但不
限于以下內(nèi)容:
1. 大模型相關(guān)數(shù)據(jù)采集
o 海內(nèi)外文本、圖片、音視頻等數(shù)據(jù)采集
o 保證數(shù)據(jù)多樣性及高質(zhì)量
2. 反爬蟲策略研究與實施
o 深度分析目標網(wǎng)站或APP
o 突破反爬措施(協(xié)議破解、代理使用、驗證碼識別等)
o 提供反爬支撐服務(wù)建設(shè)
3. 大規(guī)模數(shù)據(jù)處理流程設(shè)計與開發(fā)
o 數(shù)據(jù)采集、清洗、轉(zhuǎn)換、存儲的全流程實現(xiàn)
o 確保數(shù)據(jù)準確性與可用
工作地點
地址:徐匯區(qū)上海庫帕思科技有限公司A
??
點擊查看地圖
詳細位置,可以參考上方地址信息
以擔(dān)?;蛉魏卫碛伤魅∝斘铮垩鹤C照,均涉嫌違法,請?zhí)岣呔?
職位發(fā)布者
1851..HR
科銳爾人力資源服務(wù)(蘇州)有限公司

-
中介服務(wù)
-
1000人以上
-
國內(nèi)上市公司
-
中興路1520(上?;疖囌镜罔F站6號口步行410米)
相似職位
-
解決方案工程師 面議應(yīng)屆畢業(yè)生 學(xué)歷不限中際聯(lián)合(北京)科技股份有限公司
-
傳輸工程師 面議應(yīng)屆畢業(yè)生 學(xué)歷不限浙江中通文博服務(wù)有限公司
-
助理 面議應(yīng)屆畢業(yè)生 學(xué)歷不限宜昌永鴻建設(shè)工程有限公司
-
武術(shù)散打搏擊教練 6000-11000元應(yīng)屆畢業(yè)生 學(xué)歷不限紹興新京體育有限公司
-
【月入7K】0元入職??提供車電 住宿 面議應(yīng)屆畢業(yè)生 學(xué)歷不限上海森成快遞有限公司
-
EHS安全員(渤龍湖廠區(qū)) 面議應(yīng)屆畢業(yè)生 學(xué)歷不限格瑞食品科技(天津)有限公司
2025-12-23 04:12:10
人關(guān)注
下載APP
關(guān)注今日招聘微信服務(wù)號