# 前言
相信大家都是老司机,但是不知道看没看过美女写真,贼.好看。呃呃呃,贼有艺术感,哈哈,其实你看待事物不同的角度,就会有不一样的想法。
那接下来,就是奉献代码的时候了
首先导入库
导入重新导入o导入请求
大家应该请求这个库吧?如果没有自己在路径上点一下就好了
上主体代码,创建爬虫主函数
def spider main(page=11): main _ URL _=' http://www . rosiok.com/app/list _ 12 _ { 0 } .html' for _ in范围(1,第一页): main_url=main_url_ .格式(_)domain _ URL=' http://www。罗齐克。com { 0 } ' start _ html=requests。get(main _ URL)。内容。decode(' GB 2312 ')kids _ URL _ regex=re。编译('') kids_url = [domain_url.format(i) for i in re.findall(kids_url_regex, start_html)] for kid_url in kids_url: all_pic_urls = [] pic_html = requests.get(kid_url).content.decode('gb2312')
学习从来不是一个人的事情,要有个相互监督的伙伴,工作需要学习python或者有兴趣学习python的伙伴可以私信回复小编“学习”
领取全套免费大蟒学习资料、视频()装包
抓取标题
title_regex=re.compile(' .*?)')title=re.findall(title_regex,pic_html)[0]
抓取封面图片url
parent _ pic _ regex=re。编译(' 9502.163.com)
抓取封面所对应的子图片url
kids _ pic _ regex=re。编译(' class=' a ' src=').*?)'/')kids _ pic _ URL=re。全部查找(kids _ pic _ regex,pic_html)
合并封面url列表和子图url列表
all _ pic _ URL。扩展(parent _ pic)all _ pic _ URL。扩展
下载并存储图片
如果不是os.path.exists(' ./{0}'.format(title)): os.mkdir(' ./{0}'.格式(标题))s=请求。计数的Session(),枚举中的pic _ URL(all _ pic _ URL):带有打开(' ./{0}/{1}.'jpg ' .格式(标题,计数),' wb ')为文件:尝试:文件。写获取(pic _ URL,超时=5).内容)例外:通行证
执行函数
if _ _ name _ _==' _ _ main _ _ ' : spider main()
哈哈,各位老.司.呃呃,各位小可爱们看懂了吗?可以存储几个T的内容,尽情欣赏艺术拉,哈哈(开玩笑的- - !),最后欢迎大家一起交流学习,一起进步