Jscrapy

功能

用户友好,一个管控界面解决全部问题
动态上线，新站点抓取无需重新发布部署。
天生分布式。支持集群动态扩、缩容、分组
精准解析。解析脚本化，支持Groovy, Javascript, python
支持的去重方式：redis, mongodb, ehcache, 内存
支持的队列： redis, mongodb(可靠抓取), ehcache, 内存
支持伪分布式：一台机器模拟集群。
支持大集群虚拟分组功能：隔离故障，降低维护成本。
模块化：方便地使用脚本在运行时控制proxy，http header, url
直接对接maven库，让部署新任务自动化、规范化
分布式自动调度：无论单机还是多机都提供可靠的调度。不重复，不遗漏。
提供低资源占用的js动态渲染解决方案：抓取ajax内容从此简单。
增量抓取功能：新闻，股票，竞品数据...
多页面数据合并功能：一条完整数据横跨几个页面?没关系！
分页抓取功能，毫无乱序。
支持URL优先级。
提供辅助功能，利用机器学习实现无解析化抓取（实验特性）
提供多种数据持久化策略：无论您想直接保存在db，还是希望实时处理，想要的都可以满足。
登录：你懂的。
验证码破解服务：你懂的，不罗嗦。
提供多种变幻莫测的代理策略：当然你只需要管控界面上动动鼠标。
解析太头疼？看看解析工具里的武器。表格，列表只需一条语句。
OCR太深奥？我都给你包好了，绝不放过任何一条数据。
自适应线程调节，让“弱网站”全自动化

使用手册TODO

特别感谢

If I have been able to see further, it was only because I stood on the shoulders of giants.  

                                                                                   --Newton

本产品的开发借鉴或者复用了很多优秀的开源软件。特别感谢

webmagic
scrapy
SeimiCrawler
gecco
G-Crawler

Name		Name	Last commit message	Last commit date
Latest commit History 177 Commits
docs		docs
env		env
jscrapy-admin		jscrapy-admin
jscrapy-common		jscrapy-common
jscrapy-core		jscrapy-core
jscrapy-ext		jscrapy-ext
jscrapy-service		jscrapy-service
.gitignore		.gitignore
.travis.yml		.travis.yml
README.md		README.md
pom.xml		pom.xml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Jscrapy

功能

使用手册TODO

特别感谢

About

Releases

Packages

Languages

jwlyn/jscrapy

Folders and files

Latest commit

History

Repository files navigation

Jscrapy

功能

使用手册TODO

特别感谢

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages