网络爬虫(英语:web crawler),也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
一个比较简单的java练习项目。
- 什么是网络爬虫
- Java基础
- 正则表达式
在慕课网的猿问页面,寻找一个你喜欢的问题页面,利用http请求获取问题页面的源码,然后通过正则表达式,不断爬取相关问题页面。
该项目存在三个类
Imooc.java :
imooc问题bean类
Spider.java:
封装用来爬取页面的方法类
Main.java:
运行起始页面
- Imooc.java类是要爬取内容的对象类,属性成员有问题,问题链接,问题描述,答案列表和下一个问题链接。
- Spider.java类封装了2个可能用到的方法,getSource方法获取网页源代码和getImoocPage获取页面Url列表。
IMOOCSpider项目已上传到我的github上----传送门 欢迎Star
下载下来后导入eclipse即可运行。