做网站采集,wordpress更改注册地址,wordpress禁用google字体,找客户的平台python数据分析,爬取某东商城商品评论数据并做词云展示。 一、明确爬取的网页及结构 找到要爬取的网页地址,发现有一个获取json格式评论数据的接口:
url = https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98productId=217…python数据分析,爬取某东商城商品评论数据并做词云展示。 一、明确爬取的网页及结构 找到要爬取的网页地址,发现有一个获取json格式评论数据的接口:
url = "https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98productId=21738292624score=0sortType=5page={pno}pageSize=10isShadowSku=0rid=0fold=1"
分析其中的结构,可以知道,其中的productId就是商品的ID,如果要爬取某个商品的评论数据,只需要更换这个值即可。可以直接把这个url复制到浏览器中访问,可以看到确实有数据: 其中的page就是页码,如果评论有多页,就需要改变这个值从而实现多页的爬取。 二、明确获取到的数据结构 我们看到返回的数据是json格式的,所以直接解析json即可,前提就是需要解读json中的每一项代表的意义,这样才知道评论人、评论的内容分别在json中的哪个位置。直接返回的json格式不太直观,可以搜索一些在线解析json的网站,把返回的json复制进去,这些网