您现在的位置是:必威体育APP > 科技资讯 >

爬虫大作业(2017年科技界发生了哪些变化——爬

2020-04-10 15:29科技资讯 人已围观

简介印尼盾本次作业是通过爬取腾讯新闻科技板块下2017年所有的新闻数据来分析17年科技界都发生了哪些热门事件,通过词云分析得出17年度科技界最热的词语。 1、首先打开腾讯新闻网,进入科技...

  本次作业是通过爬取腾讯新闻科技板块下2017年所有的新闻数据来分析17年科技界都发生了哪些热门事件,通过词云分析得出17年度科技界最热的词语。

  1、首先打开腾讯新闻网,进入科技频道。然后通过浏览器检查工具查看网页源代码,查找规律。

  2、但由于具体哪一天到底有几页新闻列表页是不确定的(如下图,有些一天的新闻列表页只有一页,有些两页或者三页。由于三页的情况比较少,所以我只考虑了一页两页的情况)

  通过观察网页源代码可知,当某天新闻列表页存在第二页的情况下,第二页新闻列表页网址是在第一页网址基础上追加“_2来表示的,如下图

  3、在爬取到了17年全天的新闻列表页的情况下,接下来就是爬取具体新闻列表页的所有新闻详情的网址链接了

  可以看到,新闻详情页链接放在li标签里的a标签下,所以只需爬取a标签的href属性值,代码如下:

  4、知道了17年所有科技新闻的详情页链接,就可以开始爬取新闻详情正文内容为词云分析做准备了

  通过查看源代码,可知新闻正文放在”Cnt-Main-Article-QQ“里的P标签下,如图

  但由于腾讯新闻种类繁多,有些是图集新闻,没有正文内容,如果还按照有正文的方式爬取便会出错,而且有些新闻代码风格也不一致,正文放的DIV名字不相同,所以要区别对待爬取,代码如下:

  5、在爬取新闻正文之后,印尼盾还要注意把内容保存起来,这里我把爬取到的新闻正文内容保存到TechNews.txt里。代码如下:

  7、由词云图可以看出,17年科技界比较火的就是大数据,人工智能,物联网,区块链等等。其中也可以看出,腾讯,谷歌,阿里巴巴,微软,谷歌这几家公司几乎是占据着科技新闻的头条,可以是科技界的大哥大了

Tags: 印尼盾 

本栏推荐

标签云

站点信息

  • 文章统计2440篇文章
  • 标签管理标签云
  • 微信公众号:扫描二维码,关注我们