Python中去除html中的标签，css(style样式)

发布时间：2024-01-28 17:00

需求：获取公司官网数据

question1：部分网站是通过js动态加载的，如果直接只用requests.get(url)，就会出现获取信息不全的问题，举个例子:

import requests

def main():
    r = requests.get('https://www.tee.com/index')
    print(r.text)


if __name__ == '__main__':
    main()

运行结果

TEE

answer1: 解决办法是有很多种的，这里一种介绍个人认为比较简单的方法，使用selenium 的webdriver去请求（这个过程是需要安装selenium和对应版本的chromedriver,自行百度）

直接上代码：

from selenium import webdriver

def main():
    driver = webdriver.Chrome()
    driver.get('https://www.tee.com/index')
    html = driver.page_source
    print(html)


if __name__ == '__main__':
    main()

运行结果

TEE