发布时间:2025-02-20 11:01
1.缘由
女神前几天参加一个活动,需要制作ppt,制作完之后ppt模板死活不能让人满意。然后就去网上找模板,有些比较适合ppt模板还是收费的,这…,有点恶心,哈哈哈!!
今天教女神也教大家如何使用python爬虫爬取1万份『ppt模板』,以后制作ppt再也不怕了没有模板了!!!
2.相关介绍
网站:
https://sc.chinaz.com/ppt/free.html
一共702页,每页20个ppt模板
2.爬虫思路
先遍历每一页,获取每一页ppt模板的url。
根据ppt模板的url获取下载地址。
最后根据下载地址将文件下载到本地。
3.遍历每一页
获取ppt模板url和类型
# 个人公众号 yk 坤帝 # 后台回复 ppt模板 领取ppt for i in range(1,5): response = requests.get(\'https://sc.chinaz.com/ppt/free_\' + str(i) + \'.html\') response.encoding = \'utf-8\' page_text = response.text tree = etree.HTML(page_text) div_list = tree.xpath(\'//div[@class=\"bot-div\"]\') for div in div_list: href =\'https://sc.chinaz.com\' + div.xpath(\'./a/@href\')[0] title = div.xpath(\'./a/text()\')[0]
保存ppt的url和类型
4.下载保存
获取下载地址:
res = requests.get(href)
tree = etree.HTML(res.text)
url = tree.xpath(\'//div[@class=\"download-url\"]/a[1]/@href\')[0]
print(url)
ppt = requests.get(href).content
if not os.path.exists(\'ppt模板\'):
os.mkdir(\'ppt模板\')
with open(\'ppt模板/\' + title + \'.rar\', \'wb\') as file:
file.write(ppt)
print(title + \':下载完毕!!!!!!\')
5.批量下载
for i in range(1,5): response = requests.get(\'https://sc.chinaz.com/ppt/free_\' + str(i) + \'.html\')
通过设置遍历的页数,实现批量下载
6.10000+ppt模板素材随用随取 完整源代码点这里获取
通过python编程实现爬取10000+ppt模板素材,以后再也不用担心制作ppt没有模板了!