博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python BS4爬取网易(NetEase)静态首页HTML的所有链接,并保存CSV文件中!
阅读量:3961 次
发布时间:2019-05-24

本文共 1032 字,大约阅读时间需要 3 分钟。

@2019 11 23 周六

Python BS4爬取网易(NetEase)首页静态HTML的所有链接,并保存CSV文件中!

前期准备

网站:https://www.163.com/

获取其HTML文件,笔者之前做了的,所以展示哈163.html,如果没有的话,可以自己爬取,因为网易首页里面有些链接都在变化的,我已经下载保存到本地163.html,所以只是针对某一时间段的链接,一共爬取1787条网易首页的链接。
在这里插入图片描述

python 代码

# ecoding:utf-8import csvfrom bs4 import BeautifulSoupdef getpath(path):    htmlfile = open(path,'r')    soup = BeautifulSoup(htmlfile,'lxml')    # print(soup)    list_href = soup.find_all("a")    with open("D:\\StudyDemo\\Python\\PythonDemo\\Studypachong\\pochong\data\\163.csv", 'w+',newline="") as f:        print("*"*50+"开始保存CSV文件!"+"*"*50)        for href in list_href:            text = href.get_text()            hreflist = href.get('href')            write = csv.writer(f)            write.writerow([str(text),str(hreflist)])            # list= [text,hreflist]            # f.write(str(list)+"\n")        print("*"*50+"保存CSV文件完成!"+"*"*50)if __name__ == "__main__":    path = "D:\\StudyDemo\\Python\\PythonDemo\\Studypachong\\pochong\\data\\163.html"    getpath(path)

结果展示

运行结果

在这里插入图片描述
在这里插入图片描述
pycharm中查看CSV文件
在这里插入图片描述
Excel中查看CSV文件
在这里插入图片描述
在这里插入图片描述

转载地址:http://nhqzi.baihongyu.com/

你可能感兴趣的文章