当前位置: 首页 > news >正文

电子商务网站建设规划报告书试玩平台wordpress

电子商务网站建设规划报告书,试玩平台wordpress,a站下载安装,seo诊断分析工具目录1、聊天软件数据分析案例需求2、基于Hive数仓实现需求开发2.1 建库2.2 建表2.3 加载数据2.4 ETL数据清洗2.5 需求指标统计---都很简单3、FineBI实现可视化报表3.1 FineBI介绍3.2 FineBI配置数据3.3 构建可视化报表1、聊天软件数据分析案例需求 MR速度慢—引入hive 背景大量的用户在线通过对聊天数据的分析构建用户画像为用户提供更好的服务、以及实现高ROI的平台运营推广给公司的发展决策提供精确的数据支撑。 目标基于Hadoop和Hive实现聊天数据统计分析构建聊天数据分析报表 需求 统计今日总消息量统计今日每小时消息量、发送和接收用户数统计今日各地区发送消息数据量统计今日发送消息和接收消息的用户数统计今日发送消息最多的Top10用户统计今日接收消息最多的Top10用户统计发送人的手机型号分布情况统计发送人的设备操作系统分布情况 原始数据业务系统中导出的某一天24小时的用户聊天数据TSV文件。列分隔符制表符 \t 2、基于Hive数仓实现需求开发 在Notepad中可以通过显示所有字符来判断间隔符 打开Datagrip创建一个hive工程语言选择hive并与hive服务器创建连接。 Datagrip中 2.1 建库 --------------1、建库---------------------如果数据库已存在就删除 drop database if exists db_msg cascade; --创建数据库 create database db_msg; --切换数据库 use db_msg; 2.2 建表 --------------2、建表------------------- --如果表已存在就删除 drop table if exists db_msg.tb_msg_source; --建表 create table db_msg.tb_msg_source(msg_time string comment 消息发送时间, sender_name string comment 发送人昵称, sender_account string comment 发送人账号, sender_sex string comment 发送人性别, sender_ip string comment 发送人ip地址, sender_os string comment 发送人操作系统, sender_phonetype string comment 发送人手机型号, sender_network string comment 发送人网络类型, sender_gps string comment 发送人的GPS定位, receiver_name string comment 接收人昵称, receiver_ip string comment 接收人IP, receiver_account string comment 接收人账号, receiver_os string comment 接收人操作系统, receiver_phonetype string comment 接收人手机型号, receiver_network string comment 接收人网络类型, receiver_gps string comment 接收人的GPS定位, receiver_sex string comment 接收人性别, msg_type string comment 消息类型, distance string comment 双方距离, message string comment 消息内容 ) --指定分隔符为制表符 row format delimited fields terminated by \t;2.3 加载数据 --------------3、加载数据------------------- --上传数据文件到node1服务器本地文件系统HS2服务所在机器 --shell: mkdir -p /root/hivedata--加载数据到表中 load data local inpath /root/hivedata/data1.tsv into table db_msg.tb_msg_source; load data local inpath /root/hivedata/data2.tsv into table db_msg.tb_msg_source;--查询表 验证数据文件是否映射成功 select * from tb_msg_source limit 10;--统计行数 select count(*) as cnt from tb_msg_source;2.4 ETL数据清洗 加载完数据后需要判断加载过来的数据是否有效–ETL 问题与解决 sender_gps字段有些记录为空如何处理 – where length(sender_gps) 0筛选出非空的时间字段只需要提取中间的小时信息 —substr(字段121)提取小时GPS经纬度是一个字段需要获取经纬度两个 — split(字段,‘,’)根据逗号进行字段切割将ETL处理后的结果保存到一张新hive表中—CTAS语法 create table … as select … 表结构和数据全部都有了 --ETL实现 --如果表已存在就删除 drop table if exists db_msg.tb_msg_etl; --将Select语句的结果保存到新表中 create table db_msg.tb_msg_etl as select*,substr(msg_time,0,10) as dayinfo, --获取天substr(msg_time,12,2) as hourinfo, --获取小时split(sender_gps,,)[0] as sender_lng, --提取经度split(sender_gps,,)[1] as sender_lat --提取纬度 from db_msg.tb_msg_source --过滤字段为空的数据 where length(sender_gps) 0 ;数据量太多–记得limit 10 --验证ETL结果 selectmsg_time,dayinfo,hourinfo,sender_gps,sender_lng,sender_lat from db_msg.tb_msg_etl limit 10;2.5 需求指标统计—都很简单 需求1统计今日总消息量 group by 每日后count计数 create table if not exists tb_rs_total_msg_cnt comment 今日消息总量 as selectdayinfo,count(*) as total_msg_cnt from db_msg.tb_msg_etl group by dayinfo;select * from tb_rs_total_msg_cnt;--结果验证需求2统计今日每小时消息量、发送和接收用户数 按每天每小时分组计数 create table if not exists tb_rs_hour_msg_cnt comment 每小时消息量趋势 as selectdayinfo,hourinfo,count(*) as total_msg_cnt,count(distinct sender_account) as sender_usr_cnt,count(distinct receiver_account) as receiver_usr_cnt from db_msg.tb_msg_etl group by dayinfo,hourinfo;select * from tb_rs_hour_msg_cnt;--结果验证需求3统计今日各地区发送消息数据量 按照每日与地区GPS分组 出现在select后的字段要么是group by 后的字段要么是聚合函数字段所以分组还加了经纬度字段。 case函数将原本经纬度的string类型转换成double数字类型 cast(sender_lng as double) create table if not exists tb_rs_loc_cnt comment 今日各地区发送消息总量 as selectdayinfo,sender_gps,cast(sender_lng as double) as longitude,cast(sender_lat as double) as latitude,count(*) as total_msg_cnt from db_msg.tb_msg_etl group by dayinfo,sender_gps,sender_lng,sender_lat;select * from tb_rs_loc_cnt; --结果验证需求4统计今日发送消息和接收消息的用户数 按照天分组对用户数进行去重统计 create table if not exists tb_rs_usr_cnt comment 今日发送消息人数、接受消息人数 as selectdayinfo,count(distinct sender_account) as sender_usr_cnt,count(distinct receiver_account) as receiver_usr_cnt from db_msg.tb_msg_etl group by dayinfo;select * from tb_rs_usr_cnt; --结果验证需求5统计今日发送消息最多的Top10用户 按照天用户分组计数后排序limit 10 create table if not exists tb_rs_susr_top10 comment 发送消息条数最多的Top10用户 as selectdayinfo,sender_name as username,count(*) as sender_msg_cnt from db_msg.tb_msg_etl group by dayinfo,sender_name order by sender_msg_cnt desc limit 10;select * from tb_rs_susr_top10; --结果验证需求6统计今日接收消息最多的Top10用户 按照天用户分组计数后排序limit 10 create table if not exists tb_rs_rusr_top10 comment 接受消息条数最多的Top10用户 as selectdayinfo,receiver_name as username,count(*) as receiver_msg_cnt from db_msg.tb_msg_etl group by dayinfo,receiver_name order by receiver_msg_cnt desc limit 10;select * from tb_rs_rusr_top10; --结果验证需求7统计发送人的手机型号分布情况 按照天用户手机型号分组对用户去重计数 create table if not exists tb_rs_sender_phone comment 发送人的手机型号分布 as selectdayinfo,sender_phonetype,count(distinct sender_account) as cnt from tb_msg_etl group by dayinfo,sender_phonetype;select * from tb_rs_sender_phone; --结果验证需求8统计发送人的设备操作系统分布情况 create table if not exists tb_rs_sender_os comment 发送人的OS分布 as selectdayinfo,sender_os,count(distinct sender_account) as cnt from tb_msg_etl group by dayinfo,sender_os;select * from tb_rs_sender_os; --结果验证3、FineBI实现可视化报表 进入可视化展示阶段 3.1 FineBI介绍 FineBIhttps://www.finebi.com/ FineBI特点可多人协作、拖拽不需要代码、适合各种分析场景、支持各种图表、支持大数据 已下载安装好 3.2 FineBI配置数据 将hive中数据连接到BI上。 FineBI与Hive集成的官方文档https://help.fanruan.com/finebi/doc-view-301.html 驱动配置、安装插件-----都配置好了可直接连接hive数据 配置数据操作 3.3 构建可视化报表 FineBI上各种拖拽操作 最后效果 总结很简单的一个案例但把数据分析的整个流程走完了
http://www.hkea.cn/news/14503840/

相关文章:

  • 做室内3d设计的网站seo优化是怎么回事呢
  • 性价比最高网站建设价格设计网站需要什么条件
  • 王建设医生个人网站网站建设业务活动
  • 手机网站建设的代码龙华网站建设专业公司
  • 监理工程师证查询网站济南网站优化推广方案
  • 流量套餐汇总网站电子商务网站关键技术
  • 南京建设集团网站如何注册域名?成本多少
  • 纪念馆网站建设方案贵阳网站建
  • 企业邮箱注册账号搜索引擎seo如何优化
  • 新手设计师接单网站搜索引擎广告是什么
  • 电影网站建设的核心是今天上午北京发生了什么
  • 湘潭网站建设 电话磐石网络设计师交流平台有哪些
  • qq登录网页手机版网站优化的方法有哪些
  • 手机单机游戏网站大全莱芜搜狗推广咨询
  • 陕西网站建设方案软文推广网
  • 怎么做无损mp3下载网站当下最火的购物app
  • 网站彩票做号网站备案的坏处
  • 投资公司名字大全集seo发包软件
  • 自己建网站做网店网页广告屏蔽
  • 清远市住房和城乡建设管理局门户网站设计素材网站排行
  • 怎样给一个公司做网站改版西安百度框架户
  • 网站维护 年费江门恒阳网站建设
  • 网络推广的方式方法深圳网站seo外包公司哪家好
  • 太原网站优化多少钱网页设计心得体会600字
  • 网站地图在线生成器深圳龙岗区吉华街道邮编
  • 网站都有后台吗wordpress 修订
  • php 网站下载器南宁建设银行官网招聘网站
  • 网站面包屑导航设计即位置导航家装设计费用怎么收费
  • 医院网站html模板模板手机网站建设公司排名
  • 音乐网站设计源码查找企业信息的网站