本文共 1032 字,大约阅读时间需要 3 分钟。
@2019 11 23 周六
网站:https://www.163.com/
获取其HTML文件,笔者之前做了的,所以展示哈163.html,如果没有的话,可以自己爬取,因为网易首页里面有些链接都在变化的,我已经下载保存到本地163.html,所以只是针对某一时间段的链接,一共爬取1787条网易首页的链接。# ecoding:utf-8import csvfrom bs4 import BeautifulSoupdef getpath(path): htmlfile = open(path,'r') soup = BeautifulSoup(htmlfile,'lxml') # print(soup) list_href = soup.find_all("a") with open("D:\\StudyDemo\\Python\\PythonDemo\\Studypachong\\pochong\data\\163.csv", 'w+',newline="") as f: print("*"*50+"开始保存CSV文件!"+"*"*50) for href in list_href: text = href.get_text() hreflist = href.get('href') write = csv.writer(f) write.writerow([str(text),str(hreflist)]) # list= [text,hreflist] # f.write(str(list)+"\n") print("*"*50+"保存CSV文件完成!"+"*"*50)if __name__ == "__main__": path = "D:\\StudyDemo\\Python\\PythonDemo\\Studypachong\\pochong\\data\\163.html" getpath(path)
运行结果
pycharm中查看CSV文件 Excel中查看CSV文件转载地址:http://nhqzi.baihongyu.com/