当前位置:简历谷 >

职责 >工程师职责 >

爬虫工程师岗位职责

爬虫工程师岗位职责

爬虫工程师是做什么的?本文提供爬虫工程师的岗位职责例子,包括详细的工作内容及任职要求。

岗位职责

爬虫工程师岗位职责

1. 负责设计和开发分布式的网络爬虫,参与各种核心搜索策略、算法、数据聚类、重组的设计与开发;

2. 负责网页信息抽取技术算法的研究和开发,提升网页抓取的效率和质量;

3. 计算机软件及相关专业有1年以上的爬虫程序设计开发经验;

4.拥有分布式爬虫、垂直网站抓取经验优先。

5. 拥有淘宝APP及淘系网站抓取经验者优先。

6、拥有较强的反反爬能力。


岗位要求:

1. 2年以上JAVA开发的经验;有多线程开发经验;

2. 熟悉整个爬虫的设计及实现流程,有从事网络爬虫,网页信息抽取开发经验;

3. 熟悉nutch,httpclient,jsoup等工具;

4. 熟悉http,xml,json,soap协议;

5. 熟悉网页抓取/解析,网页消重, 统计分析等研发经验;

6. 拥有淘宝APP,淘系网站,微信公众号抓取经验者优先。

7. 对开源项目有较好的跟踪和关注,如果对一些开源的做海量数据处理的项目有经验者会优先考虑。


1、参与设计爬虫策略和防屏蔽规则,提升网页抓取的效率和质量;

2、参与搜索引擎及个性化推荐项目的开发。

3、参与开发分布式网络爬虫系统,进行多平台信息的抓取和分析。

岗位要求

1、熟悉linux平台开发,有过python开发经验;2、具有搜索相关技术研发经验者优先;

2、具有数据挖掘、自然语言处理、信息检索、机器学习背景者优先;

3.大专及以上学历

1、负责爬虫系统的开发;

2、负责爬虫平台的开发;

3、负责新人的指导;

4、负责数据采集的策略制定;

任职资格:

(1)统招一本以上学历,计算机相关专业;

(2)熟悉Linux系统,掌握Python开发语言。
(3)熟悉mysql、redis,mongodb等数据库。
(4)有scrapy、pyspider等爬虫框架使用经验。
(5)熟悉基于正则表达式、XPath、jsonPath、CSS等网页信息抽取技术。
(6)加分项:有滑动验证码识别技术经验;有nodejs开发经验。

具体要求:

1. 熟悉 Python,有分布式爬虫架构、数据挖掘经验;

2· 熟悉网页抓取原理及技术,熟悉基于Cookie的网站登录原理,熟悉基于正则表达式、Xpath、CSS等网页信息抽取技术;

3. 熟悉网络编程(TCP/HTTP 协议),具有 Linux 下编程经验和操作经验;;

4· 熟悉多线程,熟悉使用至少一种关系型数据库(MYSQL)等,熟悉NOSQL、hbase技术者优先;

5. 了解分布式系统的设计与实现,能够解决反爬虫、网络异常等各种常见爬虫问题;

6. 优秀的分析、解决问题能力,对处理未知的、挑战性问题充满激情;

主要职责:

1. 负责爬虫系统的设计、研发与维护;

2. 设计爬虫策略与算法,提升平台的抓取效率;

3. 持续优化系统,提高系统的稳定性及性能;

4· 网站、网页、链接的特征挖掘;对指定的多个网站进行网页抓取、数据的提取、清洗、入库;开发垂直站点定向抓取程序,持续优化系统已有模块性能;

5· 能实时监控爬虫的进度和警报反馈;

  • 文章版权属于文章作者所有,转载请注明 https://jianligu.com/zz/gongchengshi/w3krl.html