博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python 爬虫
阅读量:6950 次
发布时间:2019-06-27

本文共 866 字,大约阅读时间需要 2 分钟。

一、爬虫定义

网络爬虫,也叫网络蜘蛛(Web Spider),如果把互联网比喻成一个蜘蛛网,Spider就是一只在网上爬来爬去的蜘蛛。网络爬虫就是根据网页的地址来寻找网页的,也就            是URL。            我们输入的url由三部分组成:          (1)protocol:第一部分就是协议,例如百度使用的就是https协议;         (2)hostname[:port]:第二部分就是主机名(还有端口号为可选参数),一般网站默认的端口号为80,例如百度的主机名就是www.baidu.com,这个就是服务器的地址;         (3)path:第三部分就是主机资源的具体地址,如目录和文件名等。         网络爬虫就是根据这个URL来获取网页信息的。

二、步骤

(1)获取HTML页面,注意获取的HTML编码格式。我在其中install了 chardet,用于获取要解析页面的编码格式。

response = request.urlopen("http://xxxxx")    html = response.read()    chardet = chardet.detect(html)    print(charset)    html = html.decode("utf-8")

(2)解析html。

使用BeautifulSoup:构建一个 BeautifulSoup 对象需要两个参数,第一个参数是将要解析的 HTML 文本字符串,第二个参数告诉 BeautifulSoup 使用哪个解析器来解析 HTML。
”html.parser” 是Python内置的解析器

soup = BeautifulSoup(html,"html.parser")    print(soup.title.string )    print(soup.p.string)

转载于:https://www.cnblogs.com/gloria-liu/p/9191460.html

你可能感兴趣的文章
两列布局的基本思路
查看>>
python logging 重复写日志问题
查看>>
RAC4——架构和变化
查看>>
jQuery基础与实例
查看>>
A girl
查看>>
java导入excel很完美的取值的方法
查看>>
CCF201403-3 命令行选项(100分)
查看>>
精选ACM-ICPC待解问题之一
查看>>
Project Euler Problem 14 Longest Collatz sequence
查看>>
导入Excel 文件(图片和文字)NPOI+BootStrap fileinput 插件 的结合使用
查看>>
是男人就下100层【第一层】——高仿微信界面(2)
查看>>
【基础篇】EditText的一些属性设置
查看>>
【深入篇】自定义ExpandableListView,实现二级列表效果
查看>>
Unity 分场景打包
查看>>
MVVM架构~Knockoutjs系列之text,value,attr,visible,with的数据绑定
查看>>
多层架构的调用方式(方法回调)
查看>>
django数据库的增、删、改、查
查看>>
从汉诺塔游戏理解python递归函数
查看>>
立刻生效配置文件
查看>>
Java : java基础(6) 反射与枚举
查看>>