当前位置: 首页 > news >正文

泰安网站制作服务公司网站模板设计

泰安网站制作服务,公司网站模板设计,去河南省住房和城乡建设厅网站查,wordpress视频播放列表微博粉丝数据爬取 功能特性 🕸️ 智能爬取:自动获取用户粉丝和关注者的详细信息📊 数据导出:将爬取的数据保存为CSV格式📈 批量处理:支持同时爬取多个用户的数据🔧 易于扩展:模块化…

微博粉丝数据爬取

功能特性

  • 🕸️ 智能爬取:自动获取用户粉丝和关注者的详细信息
  • 📊 数据导出:将爬取的数据保存为CSV格式
  • 📈 批量处理:支持同时爬取多个用户的数据
  • 🔧 易于扩展:模块化设计,便于功能扩展

依赖库

import json      # JSON数据解析
import requests  # HTTP请求处理
import csv       # CSV文件操作
import time      # 时间控制
import math      # 数学计算

核心函数详解

1. get_html(url) - 网页内容获取函数

功能说明:
负责发送HTTP请求获取指定URL的页面内容,并实现基本的反爬虫措施。

参数:

  • url (str): 要请求的目标URL

返回值:

  • str: 返回页面的HTML文本内容

实现细节:

def get_html(url):headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36","Referer": "https://weibo.com"}cookies = {"cookie": "你的Cookie"}response = requests.get(url, headers=headers, cookies=cookies)time.sleep(5)   # 加上5s 的延时防止被反爬return response.text

关键技术点:

  • User-Agent:模拟真实浏览器访问
  • Referer设置:表明请求来源,增加可信度
  • Cookie认证:需要登录后的有效Cookie
  • 延时机制:每次请求间隔5秒,避免触发反爬虫

2. save_fans_data(data) - 粉丝数据保存函数

功能说明:
将单个粉丝的数据追加保存到CSV文件中。

参数:

  • data (dict): 包含粉丝信息的字典

数据字段:

title = ['uid', 'id', 'screen_name', 'description', 'followers_count', 'friends_count', 'statuses_count', 'gender']

实现逻辑:

def save_fans_data(data):title = ['uid', 'id', 'screen_name', 'description', 'followers_count', 'friends_count', 'statuses_count', 'gender']with open("fans_data.csv", "a", encoding="utf-8", newline="") as fi:fi = csv.writer(fi)fi.writerow([data[k] for k in title])

3. save_followers_data(data) - 关注者数据保存函数

功能说明:
将单个关注者的数据追加保存到CSV文件中,功能与save_fans_data相似。

输出文件:

  • 文件名:followers_data.csv
  • 编码:UTF-8
  • 模式:追加模式(append)

4. get_fans_data(id) - 粉丝数据爬取函数

功能说明:
获取指定用户的所有粉丝信息,支持分页爬取。

参数:

  • id (str): 目标用户的微博UID

工作流程:

  1. 获取总数量

    url = "https://www.weibo.com/ajax/friendships/friends?relate=fans&page={}&uid={}&type=all&newFollowerCount=0"
    html = get_html(url.format(1, id))
    response = json.loads(html)
    total_number = response['total_number']
    
  2. 计算页数并循环爬取

    for page in range(1, math.ceil(total_number/20) + 1):# 每页最多20条数据html = get_html(url.format(page, id))response = json.loads(html)fans_list = response['users']
    
  3. 数据提取与保存

    for fan in fans_list:data['uid'] = id                                    # 目标用户IDdata['id'] = fan['id']                             # 粉丝IDdata['screen_name'] = fan['screen_name']           # 粉丝昵称data['description'] = fan['description']           # 个性签名data['gender'] = fan['gender']                     # 性别data['followers_count'] = fan['followers_count']   # 粉丝的粉丝数data['friends_count'] = fan['friends_count']       # 粉丝的关注数data['statuses_count'] = fan['statuses_count']     # 粉丝的微博数save_fans_data(data)
    

5. get_followers_data(id) - 关注者数据爬取函数

功能说明:
获取指定用户关注的所有用户信息,逻辑与粉丝爬取类似。

API接口:

https://www.weibo.com/ajax/friendships/friends?page={}&uid={}

主要差异:

  • URL不包含relate=fans参数
  • 保存到followers_data.csv文件

数据字段说明

字段名类型说明
uidstr目标用户的微博UID
idstr粉丝/关注者的微博ID
screen_namestr粉丝/关注者的昵称
descriptionstr个性签名
followers_countint粉丝数量
friends_countint关注数量
statuses_countint微博数量
genderstr性别(m/f/n)

使用方法

1. 环境准备

确保已安装required依赖:

pip install requests

2. 获取Cookie

  1. 登录微博网页版
  2. 打开浏览器开发者工具(F12)
  3. 在Network标签页中找到任意请求
  4. 复制Cookie值替换代码中的"你的Cookie"

3. 运行脚本

if __name__ == '__main__':  # 注意:原代码中此处有错误uid = ['2806747565']    # 目标用户UID列表for id in uid:get_fans_data(id)      # 爬取粉丝数据get_followers_data(id) # 爬取关注数据

4. 批量爬取

支持同时爬取多个用户:

uid = ['2806747565', '1234567890', '9876543210']

输出文件

脚本运行后会在同目录下生成两个CSV文件:

  • fans_data.csv: 包含所有粉丝的详细信息
  • followers_data.csv: 包含所有关注者的详细信息

代码优化建议

1. 错误处理

def get_html(url):try:response = requests.get(url, headers=headers, cookies=cookies, timeout=10)response.raise_for_status()  # 检查HTTP错误return response.textexcept requests.RequestException as e:print(f"请求失败: {e}")return None

2. 配置文件

将Cookie和其他配置项提取到单独的配置文件:

# config.py
COOKIE = "你的Cookie值"
USER_AGENT = "Mozilla/5.0 ..."
DELAY_TIME = 5

3. 进度显示

from tqdm import tqdmfor page in tqdm(range(1, math.ceil(total_number/20) + 1), desc="爬取进度"):# 爬取逻辑

4. 数据去重

def save_fans_data(data):# 检查是否已存在该用户数据if not is_duplicate(data['id']):# 保存数据

注意事项与风险提示

⚠️ 法律合规

  • 请遵守相关法律法规和微博平台的使用条款
  • 仅用于学习研究目的,不得用于商业用途
  • 尊重用户隐私,不得滥用爬取的数据

🛡️ 技术风险

  • 账号风险:频繁爬取可能导致账号被限制或封禁
  • IP封禁:过于频繁的请求可能导致IP被封
  • 数据时效性:用户数据会发生变化,爬取的数据具有时效性

🔧 使用限制

  • 需要有效的登录Cookie
  • 爬取速度受延时设置影响
  • 大量数据爬取需要较长时间

扩展功能建议

  1. 数据库存储:将数据保存到MySQL或MongoDB
  2. 多线程爬取:提高爬取效率(需注意频率控制)
  3. 数据分析:添加粉丝画像分析功能
  4. 定时任务:支持定期自动爬取更新
  5. 图形界面:开发GUI界面提升用户体验

常见问题解决

Q1: Cookie失效怎么办?

A: 重新登录微博并获取新的Cookie值

Q2: 为什么有些用户爬取不到数据?

A: 可能是用户设置了隐私保护,或者账号已注销

Q3: 如何提高爬取速度?

A: 可以适当减少延时时间,但要注意不要触发反爬虫机制

Q4: 数据量太大怎么办?

A: 可以分批爬取,或者使用数据库而非CSV文件存储

版本信息

  • 版本: 1.0.0
  • 适用平台: Windows/macOS/Linux
  • Python版本: 3.6+
  • 最后更新: 2025年6月

免责声明: 本工具仅供学习和研究使用,使用者需承担相应的法律责任。作者不对因使用本工具而产生的任何后果负责。

http://www.hkea.cn/news/94331/

相关文章:

  • 兼职做网站编辑百度搜索推广开户
  • 谁告诉你j2ee是做网站的宁波网站推广找哪家公司
  • 谷歌外贸建站多少钱搭建网站教程
  • 赚钱靠普的网站关键字搜索软件
  • 建设银行深分行圳招聘网站做游戏推广一个月能拿多少钱
  • 北京网站建设及推广招聘关键词排名代做
  • 对网站建设的意见建议网络营销推广的方法有哪些
  • 爬虫网站怎么做怎样才能在百度上面做广告宣传
  • 网站页码南昌做seo的公司有哪些
  • 网络设计方案包括哪些深圳百度推广seo公司
  • 亚马逊跨境电商开店站长工具seo综合查询5g
  • 网站怎么做百度快照logo百度快照优化推广
  • 山西网站建设排名seo技术培训山东
  • 日韩系成人影片成首选网站如何优化推广
  • 网站到期续费通知搜索风云排行榜
  • 网站公司说我们做的网站服务器不够用哪个杭州seo好
  • 类似淘宝网站建设费用杭州哪家seo公司好
  • 装修网站怎样做seo专员很难吗
  • 无锡网站外包如何接广告赚钱
  • 英文网站制作 官网淘宝标题优化网站
  • 电力建设网站网络推广网站的方法
  • 如何做网站窗口网站优化网络推广seo
  • 营销型网站建设效果网络营销策划推广方案
  • 专业的网站搭建多少钱网站seo优化价格
  • 广州公司网站设计制作win10优化大师官网
  • 做调查哪个网站比较可靠百度指数查询
  • 怎么在建设厅网站报名广州网站优化服务
  • 怎么用dw做静态网站b站好看的纪录片免费
  • 济南网站建设那家好网站制作公司有哪些
  • 域名和网站名不一样营销公司