python 爬虫-白红宇

python 爬虫

阅读量：6950 次

发布时间：2019-06-27

本文共 866 字，大约阅读时间需要 2 分钟。

一、爬虫定义

网络爬虫，也叫网络蜘蛛(Web Spider)，如果把互联网比喻成一个蜘蛛网，Spider就是一只在网上爬来爬去的蜘蛛。网络爬虫就是根据网页的地址来寻找网页的，也就            是URL。            我们输入的url由三部分组成：          (1)protocol：第一部分就是协议，例如百度使用的就是https协议；         (2)hostname[:port]：第二部分就是主机名(还有端口号为可选参数)，一般网站默认的端口号为80，例如百度的主机名就是www.baidu.com，这个就是服务器的地址;         (3)path：第三部分就是主机资源的具体地址，如目录和文件名等。         网络爬虫就是根据这个URL来获取网页信息的。

二、步骤

（1）获取HTML页面，注意获取的HTML编码格式。我在其中install了 chardet,用于获取要解析页面的编码格式。

response = request.urlopen("http://xxxxx")    html = response.read()    chardet = chardet.detect(html)    print(charset)    html = html.decode("utf-8")

（2）解析html。

使用BeautifulSoup：构建一个 BeautifulSoup 对象需要两个参数，第一个参数是将要解析的 HTML 文本字符串，第二个参数告诉 BeautifulSoup 使用哪个解析器来解析 HTML。

”html.parser” 是Python内置的解析器

soup = BeautifulSoup(html,"html.parser")    print(soup.title.string )    print(soup.p.string)

转载于:https://www.cnblogs.com/gloria-liu/p/9191460.html

你可能感兴趣的文章

两列布局的基本思路

查看>>

python logging 重复写日志问题

CCF201403-3 命令行选项（100分）

查看>>

精选ACM-ICPC待解问题之一

查看>>

Project Euler Problem 14 Longest Collatz sequence

查看>>

导入Excel 文件（图片和文字）NPOI+BootStrap fileinput 插件的结合使用

查看>>

是男人就下100层【第一层】——高仿微信界面（2）

查看>>

【基础篇】EditText的一些属性设置

查看>>

【深入篇】自定义ExpandableListView，实现二级列表效果

查看>>

Unity 分场景打包

查看>>

MVVM架构~Knockoutjs系列之text,value,attr,visible,with的数据绑定

Java : java基础(6) 反射与枚举

查看>>