网站怎么做才能赚钱吗,wordpress地址应该填什么意思,可信网站多少钱,做棋牌推广网站违法不各位大佬好 #xff0c;这里是阿川的博客#xff0c;祝您变得更强 个人主页#xff1a;在线OJ的阿川
大佬的支持和鼓励#xff0c;将是我成长路上最大的动力
阿川水平有限#xff0c;如有错误#xff0c;欢迎大佬指正 Python 初阶 Python–语言基础与由来介绍 Python–…
各位大佬好 这里是阿川的博客祝您变得更强 个人主页在线OJ的阿川
大佬的支持和鼓励将是我成长路上最大的动力
阿川水平有限如有错误欢迎大佬指正 Python 初阶 Python–语言基础与由来介绍 Python–注意事项 Python–语句与众所周知 数据清洗前 基本技能 数据分析—技术栈和开发环境搭建 数据分析—Numpy和Pandas库基本用法及实例 数据可视化前 必看 数据分析—三前奏获取/ 读取/ 评估数据 数据分析—数据清洗操作及众所周知 数据分析—数据整理操作及众所周知 数据分析—统计学基础及Python具体实现 目录 可视化介绍一维图表补充的话 二维图表补充的话 多维图表补充的话 互相对比 可视化介绍
可视化是数据分析中 很重要 的一个环节
一图胜千言 发现隐藏的关系、趋势、影响可视化本身也是一种探索数据分析数据的方式 可视化中的图表可从维度主要分为一维图表和二维图表和多维图表及互相对比图表 主要用的库为seaborn和matplotlib 在cmd中安装pip install seaborn和pip install matplotlib 阿里云的镜像源
pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/
在jupyter中导入 import seaborn as snsimport matplotlib.pyplot as plt 大部分我们使用的功能都在pyplot的子模板下 一维图表
一维图表
直方图 Histogram 表示数据分布 有助于展示数据频率分布 横轴数据范围纵轴个数即一个数值变量. sns.histplot变量名 密度图 KernelDensity 表示数据分布 用平滑的曲线更易看出分布形状 sns.kdeplot变量名 箱型图 BoxPlot 其中上界为最大值或者上界等于第三四分位数加上1.5×四分位距跟上界进行比较谁小取谁作为上界 其中下界为最小值或者下界等于第一四分位数减去1.5×四分位距跟下界进行比较谁大取谁作为下界 这样做的好处是可以帮助我们发现数据当中的异常值
sns.boxplot变量名 小提琴图 ViolinPlot 结合了密度图、直方图、箱形图横轴数据分布纵轴概率密度 sns.violinplot变量名 补充的话
上述这些一维图表中参数可以传入DataFrame DataFrame名x “y”
若要更改一维图表中的标题标签 plt.title 更改 x轴标签 plt.xlabel 更改 y轴标签 plt.ylabel 因为matplotlib库中默认的字体它不支持中文所以要自己手动更换支持中文的字体 查看支持中文的字体如下:
import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib.font_manager import FontManagerfont_manager FontManager()
print(set(f.name for f in font_manager.ttflist))
更换字体如下:
matplotlib.rc(font,familyHeiti TC)二维图表
折线图 LinePlot 用于展示连续间隔或时间跨度上数值的变化从而看出趋势变化两个 数值变量加一个颜色即可多表示一个分类变量 sns.lineplotdataDataFrame名x “y” 饼图 PiePlot 展示各个分类对应数值之间的比例一个分类变量一个数值变量 plt.pieDataFrame名[“数值变量列]”labelsDataFrame名[“分类变量列”] autopct%.1f%% 该参数可以显示百分比%可以告诉系统这是用来展示格式字符串%%告诉系统这是百分比结尾 散点图 ScatterPlot 展示两个数值变量关系 可以看出两个变量之间的相关性 x轴一个变量的值y轴一个变量的值 sns.scatterplotDataFrame名x “y” 或者 sns.scatterplotxDataFrame[ “]yDataFrame[” ] 条形图 BarPlot 横轴分类类别纵轴数值一个分类变量加一个数值变量 sns.barplotdataDataFrame名x “y” estimator 该参数可以指定纵轴的高度对应所属分类下的所有值的样式不写该参数则默认纵轴高度对应所属分类下的所有值的平均值 但在条形图基础上若纵轴想记录个数则用
计数图 countplot sns.countplotdataDataFrame名 x Y轴自动聚合成x里面的个数 补充的话
上述图表的颜色有点不合时宜更新颜色 color颜色 或者 sns. set_palette 色盘 常用的颜色有: 这里推荐这个网站:中国色里面有非常多美丽的颜色调色师、设计师必备哦 常用的色板有:
多维图表
更多维 用面积大小和颜色来区分新的变量
气泡图 引入新的数值变量用面积大小来区分 plt.scatterplotDataFramex “y” “size” 热力图 Heatmap 两个分类变量加一个数值变量x轴和y轴分别表示不同的分类变量颜色代表数值变量 plt.heatmapannotTrue annot 该参数表示具体数值展示出来 复式条形图 在条形图的基础上引入多个条柱则表示多个分类变量 sns.barplotdataDataFrame名x “y” hue分类变量 补充的话
在基础图表的基础上加一种颜色加一下面积大小即可表示更多的变量 plt.scatterplotDataFramex “y” “hue” “size” 更改图例位置: plt.legendbbox_to_anchor 数字1 数字2
数字1中有零/一可能性数字2中有零/一可能性 数字一的零表示图例在图表的左边一表示在图表的右边。数字二的零表示图例在图表的下面一表示在图表的上面。 互相对比
将这些图表互相对比挖掘出更多信息 在同一个单元格里输入 多个相同的图表的公式 最后plt.show) 出来 此时多个相同图表就在一个图上了。 binwidth 该参数可以改变图表的长度label 该参数为图例标签
例如以直方图为例 那么最后呈现的结果若没有展现出图例标签则再加一个plt.legend 密度图也是同样的道理但不需要binwidth参数因为它是一条平滑的曲线。 箱形图
没有label和binwidth参数只有y轴/x轴参数 小提琴图也是同样的道理 但会显得很拥挤更好选择是将分类变量作为x轴的变量即x
若想将不同的类型的图 并排放在一起 fig,axesplt.subplots行列figsize高宽
fig 代表大图axis代表小图 这里是绘制空白图
在想要的图形种类中加入ax参数axes[n]
n表示第n个子图n从0开始 配对图 pairplot
能将DataFrame中的数值变量两两关系分布出来 将各变量的分布用直方图绘制出来将不同变量两两之间的关系绘制成散点图 sns.pairplothue 分类变量 可以探讨不同分类变量之间的数值关系 好的到此为止啦祝您变得更强 想说的话
实不相瞒写的这篇博客写了十一个小时加上自己学习和纸质笔记共十三小时吧很累希望大佬支持 道阻且长 行则将至
个人主页在线OJ的阿川大佬的支持和鼓励将是我成长路上最大的动力