RHZ'S BLOG | 个人分享

  • 首页
  • 笔记
  • 小日常
  • 音乐
  • 读书
  • 软件分享
爬虫
Code

网页审查元素

在讲解爬虫内容之前,我们需要先学习一项写爬虫的必备技能:审查元素 1、审查元素 在浏览器的地址栏输入URL地址,在网页处右键单击,找到检查。(不同浏览器的叫法不同,Chrome浏览器叫做检查,Firefox浏览器叫做查看元素,但是功能都是相同的) 我们可以看到,右侧出现了一大推代码,这些代码就叫做HTML。什么是HTML?举个容易理解的例子:我们的基因决定了我们的原始容貌,服务器返回的HTML决定了网站的原始容貌。 为啥说是原始容貌呢? 因为人可以整容啊!扎心了,有木有?那网站也可以”整容”吗?可以!请看下图: 我…

2022年8月9日 0条评论 317点热度 0人点赞 RHZ 阅读全文
python

什么是Python3网络爬虫?

定义: 网络爬虫(Web Spider),又被称为网页蜘蛛,是一种按照一定的规则,自动地抓取网站信息的程序或者脚本。爬虫其实是通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。 爬虫的价值: 抓取互联网上的数据,为我所用,有了大量的数据,就如同有了一个数据银行一样,下一步就是如何将这些数据产品化、商业化。 爬虫是否合法 网络爬虫在法律中是不被禁止,但是具有违法风险,通常来说爬虫分为善意的爬虫和恶意的爬虫。爬虫带来的风险可以体现在如下两个方面: 爬虫干扰了被访问网站的正常运营 爬虫抓取了受法律保护的特定…

2022年8月9日 0条评论 272点热度 0人点赞 RHZ 阅读全文
Code

文件操作

对文件的读/写与编码的处理,是学习爬虫的必备知识 1.使用Python读/写文本文件 使用'open'关键字,作用是打开一个文件,并创建一个文件对象 使用Python打开文件,有两种写法: 参数encoding,打开文件的时候将文件转换为UTF-8编码的格式,从而避免乱码的出现,这个参数只有py3有,在Py2会报错,如果用UTF-8打开文件乱码,可以把编码格式改成GBK 读取文本所有行,并以列表的形式返回结果: 读取文本,直接把整个文本内容以一个字符串方式返回: 2.使用py写文本文件 先打开文件: 参数w是英文w…

2022年7月21日 0条评论 300点热度 0人点赞 RHZ 阅读全文
归档
  • 2023年2月
  • 2022年12月
  • 2022年11月
  • 2022年10月
  • 2022年9月
  • 2022年8月
  • 2022年7月
  • 2022年6月
  • 2022年5月
  • 2022年4月
  • 2022年3月
  • 2022年2月
  • 2021年12月
  • 2021年11月
  • 2021年10月
  • 2021年8月
  • 2021年7月

COPYRIGHT © 2022 RHZ的博客. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang

渝ICP备2022008933号-1