博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python爬虫之爬取煎蛋网妹子图
阅读量:6986 次
发布时间:2019-06-27

本文共 1612 字,大约阅读时间需要 5 分钟。

这篇文章通过简单的Python爬虫(未使用框架,仅供娱乐)获取并下载指定页面或全部图片,并将图片下载到磁盘。

 

首先导入模块:urllib.request、re、os

import urllib.requestimport reimport os

urllib.request模块用于获取HTML页面数据

re模块用于通过正则表达式解析并截取HTML页面图片url

os模块用于文件夹相关操作

 

代码不多,直接贴出来,代码解释在注释中:

def crawl_jiandan(page, path):    """    :param page:获取指定页面数据,值为0或超过最大值则爬取全部数据    :param path:文件存储路径,没有目录则创建目录    """    if page < 0:        return    # 路径是否存在,不存在则创建目录    if not os.path.exists(path):        os.mkdir(path)    # 切换到目录    os.chdir(path)    # 煎蛋网妹子图首页    url = 'http://jandan.net/ooxx/page-%d#comments' % page    while True:        request = urllib.request.Request(url)        request.add_header('User-Agent',                           'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.11; rv:54.0) Gecko/20100101 Firefox/54.0')        with urllib.request.urlopen(request) as response:            html = response.read().decode('utf-8')            # print(html)            items = re.findall(re.compile(r'

 

打开本次磁盘,效果如下:

这里只显示了部分图像,有兴趣的可以下载煎蛋网所有妹子图,只需在上述函数中第一个参数传0即可

 

注意:此文仅供参考和娱乐,代码还不够严谨。

转载于:https://www.cnblogs.com/keqipu/p/7297868.html

你可能感兴趣的文章
蚂蚁区块链平台BaaS技术解析与实践
查看>>
Nervos 双周报第 3 期:佛系新年之后的开工大吉!
查看>>
测试开发系类之接口自动化测试
查看>>
【PHP 扩展开发】Zephir 基础篇
查看>>
HTML
查看>>
HashMap浅析?
查看>>
字节跳动开源Go结构体标签表达式解释器,成请求参数校验的杀手锏
查看>>
怎么将在线录制的视频转为GIF动态图
查看>>
js的setTimeout和Promise---同步异步和微任务宏任务
查看>>
【剑指offer】顺时针打印矩阵
查看>>
怎么将图片上传封装成指令?
查看>>
leetcode讲解--861. Score After Flipping Matrix
查看>>
聊聊JavaScript和Scala的表达式 Expression
查看>>
[原]数据科学教程: 如何使用 mlflow 管理数据科学工作流
查看>>
npm上创建发布package
查看>>
解决JS文件引用路径多层查找
查看>>
FE.TEST-前端测试初探
查看>>
超详细Dkhadoop虚拟机安装图文教程
查看>>
排序算法上——冒泡排序、插入排序和选择排序
查看>>
JAVA 8 函数式接口--Supplier
查看>>