selenium
selenium 一、前期准备 1、概述 selenium本身是一个自动化测试工具。它可以让python代码调用浏览器。并获取到浏览器中加载的各种资源。 我们可以利用selenium提供的各项功能。 帮助我们完成数据的抓取。 2、学习目标 掌握 selenium发送请求,加载网页的方法 掌握 selenium简单的元素定位的方法 掌握 selenium的基础属性和方法...
selenium 一、前期准备 1、概述 selenium本身是一个自动化测试工具。它可以让python代码调用浏览器。并获取到浏览器中加载的各种资源。 我们可以利用selenium提供的各项功能。 帮助我们完成数据的抓取。 2、学习目标 掌握 selenium发送请求,加载网页的方法 掌握 selenium简单的元素定位的方法 掌握 selenium的基础属性和方法...
抓取m3u8视频 1、思路分析 视频url:https://www.9tata.cc/play/96310-4-0.html 上面那个资源被删了,笑死了 https://www.9tata.cc/play/13408-0-0.html 打开网址分析当前视频是由多个片段组成还是单独一个视频 如果是一个单独视频,则找到网址,直接下载即可,如果为多个片段的视频,则需要找到片段的文件进...
一、协程 概念 协程 又称微线程(纤程),是一种用户态的轻量级线程 子程序 在所有的语言中都是层级调用的,比如A中调用B,B在执行过程中调用C,C执行完返回,B执行完返回,最后是A执行完毕。这是通过栈实现的,一个函数就是一个执行的子程序,子程序的调用总是有一个入口、一次返回,调用的顺序是明确的 理解协程 ...
一、线程 1、概念 线程 在一个进程的内部,要同时干多件事,就需要同时运行多个“子任务”,我们把进程内的这些“子任务”叫做线程 是操作系统能够进行运算调度的最小单位。它被包含在进程之中,是进程中的实际运作单位。一条线程指的是进程中一个单一顺序的控制流,一个进程中可以并发多个线程,每条线程并行执行不同的任务。 线程通常叫做轻型的进程。线程是共享...
高效编程 一、多任务原理 概念 现代操作系统比如Mac OS X,UNIX,Linux,Windows等,都是支持“多任务”的操作系统 什么叫多任务? 就是操作系统可以同时运行多个任务 单核CPU实现多任务原理 操作系统轮流让各个任务交替执行,QQ执行2us(微秒),切换到微信,在执行2us,再切换到陌...
三、requests模块处理cookie相关的请求 学习目标 掌握requests处理cookie的三种方法 1 爬虫中使用cookie 为了能够通过爬虫获取到登录后的页面,或者是解决通过cookie的反扒,需要使用request来处理cookie相关的请求 1.1 爬虫中使用cookie的利弊 带上cookie的好处 能够访问登录后的页面 ...
爬虫案例网址 Website Link 豆瓣影评 https://movie.douban.com/review/best/ 豆瓣电影 Top 250 https://movie.douban.com/top250?start=1 ...
一、urllib 的学习 学习目标 了解 urllib 的基本使用 1、urllib 介绍 除了 requests 模块可以发送请求之外,urllib 模块也可以实现请求的发送,只是操作方法略有不同! urllib 在 Python 中分为 urllib 和 urllib2,在 Python3 中为 urllib 下面以 Python3 的 urllib 为例进行讲解 2、ur...
前情摘要 一、web请求全过程剖析 我们浏览器在输入完网址到我们看到网页的整体内容, 这个过程中究竟发生了些什么? 我们看一下一个浏览器请求的全过程 接下来就是一个比较重要的事情了. 所有的数据都在页面源代码里么? 非也~ 这里要介绍一个新的概念 那就是页面渲染数据的过程, 我们常见的页面渲染过程有两种, 服务器渲染, 你需要的数据直接在页面源代码里能...
xpath 1、xpath安装与使用 安装 安装lxml库 pip install lxml -i pip源 2、解析流程与使用 解析流程 实例化一个etree的对象,把即将被解析的页面源码加载到该对象 调用该对象的xpath方法结合着不同形式的xpath表达进行标签定位和数据提取 使用 导入lxml.etree ...