资源分享 Python网络爬虫讲义
July 10, 2020 •
Comment
高级爬虫系列
先简单介绍下Ajax,全称Asynchronous JavaScript and XML(异步的 JavaScript 和 XML)。它并不是编程语言额,而是利用JavaScript在保证页面不被刷新,页面链接不改变的情况下与服务器交换数据并更新部分网页的一种技术。(可以理解为多个技术组合而成,包括JavaScript、DOM、CSS等)
Ajax使用简单的XMLHttpRequest对象发送请求,使用简单的JavaScript函数监视服务器响应。在服务器响应完成后,JavaScript通过DOM动态更新HTML页面。自始至终用户无需终端,感受连续的体验。
该案例使用requests库模拟浏览器连接 Python入门指南目录(采集目标)
使用PyQuery库提取目录和对应连接,并保留到txt文件