Python中去除html中的标签,css(style样式)

发布时间:2024-01-28 17:00

需求:获取公司官网数据

question1:部分网站是通过js动态加载的,如果直接只用requests.get(url),就会出现获取信息不全的问题,举个例子:

import requests

def main():
    r = requests.get('https://www.tee.com/index')
    print(r.text)


if __name__ == '__main__':
    main()

运行结果



  
    
    TEE
  
  
    

answer1: 解决办法是有很多种的,这里一种介绍个人认为比较简单的方法,使用selenium 的webdriver去请求(这个过程是需要安装selenium和对应版本的chromedriver,自行百度)

直接上代码:

from selenium import webdriver

def main():
    driver = webdriver.Chrome()
    driver.get('https://www.tee.com/index')
    html = driver.page_source
    print(html)


if __name__ == '__main__':
    main()

运行结果


    
    TEE