python 爬取网站上的图片，抛个砖，分享下代码

justdomyself · 发表于 2018-11-17 19:11:23

刚学两天，根据网上教程敲的。代码如下：

import urllib.request
import urllib.parse
import os
#要先进行安装， pip install lxml
from lxml import etree
import time

def handle_request1(url,page):
print("jaaj")
#构建请求对象
def handle_request(url, page):
#由于第一页和后面的页码规律不一样，要判断
if page == 1:
      url = url.format('')
else:
      url = url.format('_'+str(page))
print(url)
headers={
      'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0;'
                  ' Windows NT 6.1; WOW64; Trident/4.0; '
                  'SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729;'
                  ' .NET CLR 3.0.30729; Media Center PC 6.0)'
}
request = urllib.request.Request(url=url, headers=headers)
return request

#解析内容并且下载图片
def parse_content(content):
tree = etree.HTML(content)
#最后一项为src就不行，懒加载？ what
image_list = tree.xpath('//div[@id="container"]/div/div/a/img/@src2')
print("image_list:",image_list)
print('iamge_list len is :',len(image_list))
#遍历列表一次下载
for image_src in image_list:
      download_image(image_src)

def download_image(image_src):
dirpath= 'xinggan'
#创建文件夹
if not os.path.exists(dirpath):
      os.mkdir(dirpath)
#文件mimg
filename =os.path.basename(image_src)
print("文件名:",filename)
#文件路径
filepath = os.path.join(dirpath,filename)
print("文件路径:",filepath)
#发送请求，保存图片
headers = {
      'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0;'
                  ' Windows NT 6.1; WOW64; Trident/4.0; '
                  'SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729;'
                  ' .NET CLR 3.0.30729; Media Center PC 6.0)'
}
print('image_src:', image_src)
request = urllib.request.Request(url=image_src, headers=headers)
response = urllib.request.urlopen(request)
with open(filepath, 'wb') as fp:
      fp.write( response.read())
      print("下载成功")
def main():
url = 'http://sc.chinaz.com/tupian/' \
      'xingganmeinvtupian{}.html'
start_page = int(input('请输入起始图片页码：'))
end_page = int(input('请输入结束图片页码：'))
#start_page=1
#end_page=10
for page in range(start_page,end_page+1):
      request = handle_request(url,page)
      content=urllib.request.urlopen(request).read().decode()
      parse_content(content)
      print("第几页:",page)
      time.sleep(2)

if __name__ == '__main__':
main()

rei1984 · 发表于 2018-11-17 19:56:19

py2 还是py3

justdomyself · 发表于 2018-11-17 20:44:42

3…………

heimareed · 发表于 2018-11-17 21:20:25

不明觉厉，顶一个。有朋友在学，分享过去~

tarchen · 发表于 2018-11-17 21:27:31

厉害，有空试试。

eliterxzgxu · 发表于 2018-11-17 21:37:30

感谢楼主分享

我是一个大白菜 · 发表于 2018-11-18 14:36:02

感谢分享，下载学习一下

wyn20007 · 发表于 2018-11-18 14:59:11

感谢分享，

xianting77 · 发表于 2019-1-1 00:02:03

会被封IP么

justdomyself · 发表于 2019-1-2 16:39:50

xianting77 发表于 2019-1-1 00:02
会被封IP么

搞慢点一般不会

cjxu · 发表于 2019-1-2 17:26:19

rei1984 发表于 2018-11-17 19:56
py2 还是py3

看下print不就知道了吗

wistarky · 发表于 2019-1-3 01:08:21

用requests会不会方便一点？urllib还得自己来

canlin029 · 发表于 2019-1-3 11:16:36

好，收藏试一试.

justdomyself · 发表于 2019-1-3 18:12:03

wistarky 发表于 2019-1-3 01:08
用requests会不会方便一点？urllib还得自己来

request那个时候还不会

batou · 发表于 2019-8-12 13:37:29

不错，感谢分享

lyl2022 · 发表于 2019-8-15 10:26:03

谢谢分享，试了下可以用，换个网站就不行

justdomyself · 发表于 2019-8-15 10:45:16

lyl2022 发表于 2019-8-15 10:26
谢谢分享，试了下可以用，换个网站就不行

这东西要先分析网站架构，根据源码特点做爬取的，并不是通用的。

lyl2022 · 发表于 2019-8-15 10:53:55

justdomyself 发表于 2019-8-15 10:45
这东西要先分析网站架构，根据源码特点做爬取的，并不是通用的。

谢谢回复，大概知道一点，正在学习

huangqi412 · 发表于 2019-8-15 13:45:41

lyl2022 发表于 2019-8-15 10:26
谢谢分享，试了下可以用，换个网站就不行

有些网站有反爬虫攻防双方互相升级

python 爬取网站上的图片，抛个砖，分享下代码

阿莫论坛20周年了！感谢大家的支持与爱护！！