`

python使用beutifulsoup来爬虫的基本套路

 
阅读更多
使用python3,比如爬kugo的榜单:

import requests
from bs4 import BeautifulSoup
import time

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
}

def get_info(url):
    wb_data = requests.get(url,headers=headers)
    soup = BeautifulSoup(wb_data.text,'lxml')
    ranks = soup.select('span.pc_temp_num')
    titles = soup.select('div.pc_temp_songlist > ul > li > a')
    times = soup.select('span.pc_temp_tips_r > span')
    for rank,title,time in zip(ranks,titles,times):
        data = {
            'rank':rank.get_text().strip(),
            'singer':title.get_text().split('-')[0],
            'song':title.get_text().split('-')[0],
            'time':time.get_text().strip()
        }
        print(data)

if __name__ == '__main__':
    urls = ['http://www.kugou.com/yy/rank/home/{}-8888.html'.format(str(i)) for i in range(1,2)]
    for url in urls:
        get_info(url)
        time.sleep(5)



  在上面的代码中 from bs4 import BeautifulSoup首先导入;
然后设置headers,
然后   soup = BeautifulSoup(wb_data.text,'lxml') 中,调用BeautifulSoup,
设置lxml解析器;
然后在
ranks = soup.select('span.pc_temp_num')
    titles = soup.select('div.pc_temp_songlist > ul > li > a')
这些,XPATH用CHROME浏览器的检查功能,查看下就可以了;
然后一个循环,把数据打印出来,注意其中用strip去掉空格;
然后
urls = ['http://www.kugou.com/yy/rank/home/{}-8888.html'.format(str(i)) for i in range(1,2)]
是python中很有特色的语法,设置一个URL的模板,其中{}就是要用format中的内容去替换的;
分享到:
评论

相关推荐

    python爬虫基础python爬虫基础

    python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础...

    python爬虫,拉勾网爬虫

    python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫...

    Python网络爬虫技术 第1章 Python爬虫环境与爬虫简介 教案.pdf

    Python网络爬虫技术 第1章 Python爬虫环境与爬虫简介 教案.pdfPython网络爬虫技术 第1章 Python爬虫环境与爬虫简介 教案.pdfPython网络爬虫技术 第1章 Python爬虫环境与爬虫简介 教案.pdfPython网络爬虫技术 第1章 ...

    Python大作业:爬虫(完美应付大作业).zip

    python大作业--爬虫(完美应付大作业),Python大作业:爬虫(完美应付大作业)。 python大作业,简易爬虫 2020-2021学年上学期python大作业,爬取https://www.shicimingju.com ,模拟网站的7种搜索。 用pyqt5做...

    python安装包,网络爬虫工具

    python安装包,网络爬虫工具 python安装包,网络爬虫工具 python安装包,网络爬虫工具 python安装包,网络爬虫工具 python安装包,网络爬虫工具 python安装包,网络爬虫工具 python安装包,网络爬虫工具 python...

    Python网络爬虫技术 第1章 Python爬虫环境与爬虫简介 教案.docx

    Python网络爬虫技术 第1章 Python爬虫环境与爬虫简介 教案.docxPython网络爬虫技术 第1章 Python爬虫环境与爬虫简介 教案.docxPython网络爬虫技术 第1章 Python爬虫环境与爬虫简介 教案.docxPython网络爬虫技术 第1...

    python 多线程爬虫

    python 多线程爬虫python 多线程爬虫python 多线程爬虫python 多线程爬虫python 多线程爬虫python 多线程爬虫python 多线程爬虫python 多线程爬虫python 多线程爬虫python 多线程爬虫python 多线程爬虫python 多线程...

    山东建筑大学计算机网络课程设计《基于Python的网络爬虫设计》.docx

    山东建筑大学计算机网络课程设计《基于Python的网络爬虫设计》.docx山东建筑大学计算机网络课程设计《基于Python的网络爬虫设计》.docx山东建筑大学计算机网络课程设计《基于Python的网络爬虫设计》.docx山东建筑...

    Python网络爬虫实战.pdf

    本书共8章,涵盖的内容有Python语言的基本语法、Python常用IDE的使用、Python第三方模块的导入使用、Python爬虫常用模块、Scrapy爬虫、Beautiful Soup爬虫、Mechanize模拟浏览器和Selenium模拟浏览器。本书所有源...

    Python-掘金文章爬虫

    [Python]掘金文章爬虫

    python爬虫框架python爬虫框架python爬虫框架

    python爬虫框架python爬虫框架

    基于python和定向爬虫的商品比价系统

    基于python和定向爬虫的商品比价系统基于python和定向爬虫的商品比价系统基于python和定向爬虫的商品比价系统基于python和定向爬虫的商品比价系统基于python和定向爬虫的商品比价系统基于python和定向爬虫的商品比价...

    用Python写网络爬虫

    《用Python写网络爬虫》讲解了如何使用Python来编写网络爬虫程序,内容包括网络爬虫简介,从页面中抓取数据的三种方法,提取缓存中的数据,使用多个线程和进程来进行并发抓取,如何抓取动态页面中的内容,与表单进行...

    python 爬虫程序链家

    python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 ...

    Python-Python3爬虫实战JS加解密逆向教程

    Python-Python3爬虫实战JS加解密逆向教程

    Python爬虫入门教程.docx

    Python爬虫入门教程Python爬虫入门教程Python爬虫入门教程Python爬虫入门教程Python爬虫入门教程Python爬虫入门教程Python爬虫入门教程Python爬虫入门教程Python爬虫入门教程Python爬虫入门教程Python爬虫入门教程...

    网络爬虫作业练习_爬虫_python学习_网络爬虫_python_

    网络爬虫作业练习

    老男孩最新周末班Python开发与Python爬虫实战视频教程 老男孩Python周末班视频教程.txt

    老男孩最新周末班Python开发与Python爬虫实战视频教程,较以往的Python全栈开发课程来看,更为干练和精准一些。课程将开发教学的目标放在了Python的开发流程和和爬虫的重点教学之上,更好的适用于同学们的快速学习和...

    python爬虫,爬虫破解pexels高清原图

    python爬虫,爬虫破解pexels高清原图python爬虫,爬虫破解pexels高清原图python爬虫,爬虫破解pexels高清原图python爬虫,爬虫破解pexels高清原图python爬虫,爬虫破解pexels高清原图python爬虫,爬虫破解pexels高清...

Global site tag (gtag.js) - Google Analytics