揭秘数据之美:【Seaborn】在现代【数学建模】中的革命性应用

目录

已知数据集 tips

生成数据集并保存为CSV文件 

数据预览:

导入和预览数据

步骤1:绘制散点图(Scatter Plot)

步骤2:添加回归线(Regression Analysis)

步骤3:分类变量分析(Categorical Variables)

步骤4:箱线图(Box Plot)

步骤5:小提琴图(Violin Plot)

步骤6:绘制热力图(Heatmap)

 ​编辑

总结

1. 生成数据集并保存为CSV文件

2. 导入和预览数据

3. 绘制散点图(Scatter Plot)

4. 添加回归线(Regression Analysis)

5. 分类变量分析(Categorical Variables)

6. 绘制箱线图(Box Plot)

7. 绘制小提琴图(Violin Plot)

8. 绘制热力图(Heatmap)


 

ce6fbd68767d465bbe94b775b8b811db.png

731bd47804784fa2897220a90a387b28.gif

 

专栏:数学建模学习笔记

python相关库的安装:pandas,numpy,matplotlib,statsmodels

总篇:【数学建模】—【新手小白到国奖选手】—【学习路线】

第一卷:Numpy

第二卷:Pandas

第三卷:Matplotlib

在数据科学和数学建模的过程中,数据可视化是非常重要的一环。通过可视化,我们能够更直观地理解数据的分布和关系,从而为后续的分析和建模打下坚实的基础。本篇文章将围绕一个具体的实例,详细讲解如何使用Seaborn库进行数据可视化。我们将使用Seaborn内置的数据集tips,该数据集包含了一些餐馆的小费数据。我们的目标是通过数据可视化,探索影响小费金额的因素,并尝试建立一个数学模型。

已知数据集 tips

tips 数据集包含以下几个主要字段:

  • total_bill: 总账单金额
  • tip: 小费金额
  • sex: 性别
  • smoker: 是否吸烟
  • day: 就餐日期
  • time: 就餐时间(午餐或晚餐)
  • size: 就餐人数

生成数据集并保存为CSV文件 

import pandas as pd
import numpy as np

# 设置随机种子
np.random.seed(0)

# 生成数据
n = 1000
total_bill = np.round(np.random.uniform(5, 50, n), 2)
tip = np.round(total_bill * np.random.uniform(0.1, 0.3, n), 2)
sex = np.random.choice(['Male', 'Female'], n)
smoker = np.random.choice(['Yes', 'No'], n)
day = np.random.choice(['Thur', 'Fri', 'Sat', 'Sun'], n)
time = np.random.choice(['Lunch', 'Dinner'], n)
size = np.random.randint(1, 6, n)

# 创建DataFrame
tips = pd.DataFrame({
    'total_bill': total_bill,
    'tip': tip,
    'sex': sex,
    'smoker': smoker,
    'day': day,
    'time': time,
    'size': size
})

# 保存数据集到CSV文件
tips.to_csv('tips.csv', index=False)

# 显示数据集的前几行
print(tips.head())

数据预览

total_billtipsexsmokerdaytimesize
29.706.49FemaleNoFriLunch5
37.183.79FemaleYesThurLunch2
32.126.27FemaleNoThurLunch4
29.527.14FemaleNoFriLunch5
24.062.62FemaleYesSunDinner5

导入和预览数据

在生成数据后,我们导入必要的可视化库,并预览数据。

import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

# 读取本地示例数据集
tips = pd.read_csv('tips.csv')

# 显示数据集的前几行
print(tips.head())

详解:

  1. 导入必要的库

    • seaborn: 用于数据可视化的主要库。
    • matplotlib.pyplot: Seaborn是基于Matplotlib构建的,所以我们需要同时导入Matplotlib来进行图表的展示。
  2. 读取数据

    • 使用pandas.read_csv函数从CSV文件中读取数据。
  3. 预览数据

    • 使用print(tips.head())函数来显示数据集的前几行,帮助我们快速了解数据的结构和内容。

步骤1:绘制散点图(Scatter Plot)

我们首先绘制一个散点图,展示总账单(total_bill)与小费(tip)之间的关系。

# 绘制散点图
sns.scatterplot(data=tips, x='total_bill', y='tip')
plt.title('Scatter plot of Total Bill vs Tip')
plt.xlabel('Total Bill')
plt.ylabel('Tip')
plt.show()

 

  1. 绘制散点图

    • 使用seaborn.scatterplot函数,其中data参数指定数据集,xy参数分别指定横轴和纵轴的数据字段。
  2. 设置图表标题和标签

    • 使用plt.title设置图表标题。
    • 使用plt.xlabelplt.ylabel分别设置横轴和纵轴的标签。
  3. 显示图表

    • 使用plt.show()函数来显示图表。

散点图是一种常用的图表类型,用于展示两个变量之间的关系。在这个例子中,使用seaborn.scatterplot函数绘制总账单(total_bill)与小费(tip)之间的散点图。通过散点图,可以直观地看到总账单和小费之间的关系。从图中可以看出,小费随总账单的增加而增加,但这种关系是否是线性的还需要进一步分析。

步骤2:添加回归线(Regression Analysis)

为了更好地了解总账单和小费之间的关系,我们可以使用Seaborn的 lmplot 函数来添加一条回归线。

# 绘制带回归线的散点图
sns.lmplot(data=tips, x='total_bill', y='tip')
plt.title('Total Bill vs Tip with Regression Line')
plt.xlabel('Total Bill')
plt.ylabel('Tip')
plt.show()

 

  1. 绘制带回归线的散点图

    • 使用seaborn.lmplot函数,其中data参数指定数据集,xy参数分别指定横轴和纵轴的数据字段。
    • lmplot函数不仅绘制散点图,还会自动添加一条回归线,用于展示两个变量之间的线性关系。
  2. 设置图表标题和标签

    • 同样使用plt.titleplt.xlabelplt.ylabel设置图表的标题和轴标签。
  3. 显示图表

    • 使用plt.show()函数来显示图表。

回归分析是一种统计方法,用于研究两个变量之间的关系。在这个例子中,使用Seaborn的lmplot函数来绘制带有回归线的散点图。通过添加回归线,可以更清楚地看到总账单和小费之间的线性关系。这条回归线表示小费随总账单增加的趋势,图中还会显示回归线的置信区间。

步骤3:分类变量分析(Categorical Variables)

接下来,我们分析性别、吸烟情况等分类变量对小费的影响。

# 使用hue参数根据性别绘制不同颜色的散点图
sns.scatterplot(data=tips, x='total_bill', y='tip', hue='sex')
plt.title('Total Bill vs Tip by Gender')
plt.xlabel('Total Bill')
plt.ylabel('Tip')
plt.show()

 

  1. 根据分类变量绘制散点图

    • 使用seaborn.scatterplot函数,通过hue参数指定分类变量(例如性别),从而根据不同类别绘制不同颜色的点。
  2. 设置图表标题和标签

    • 使用plt.titleplt.xlabelplt.ylabel设置图表的标题和轴标签。
  3. 显示图表

    • 使用plt.show()函数来显示图表。

分类变量(如性别、吸烟情况等)在数据分析中非常重要,因为它们能够提供关于数据分布的更多信息。在这个例子中,使用seaborn.scatterplot函数,根据性别绘制不同颜色的散点图。通过这种方式,可以看到性别对总账单和小费关系的影响。例如,可以观察到男性和女性在小费上的差异。

步骤4:箱线图(Box Plot)

箱线图可以帮助我们了解数据的分布及其异常值。

# 绘制箱线图展示不同日期的总账单分布
sns.boxplot(data=tips, x='day', y='total_bill')
plt.title('Box plot of Total Bill by Day')
plt.xlabel('Day')
plt.ylabel('Total Bill')
plt.show()

 

  1. 绘制箱线图

    • 使用seaborn.boxplot函数,其中data参数指定数据集,xy参数分别指定分类变量和连续变量。
    • 箱线图可以展示数据的中位数、四分位数及其异常值。
  2. 设置图表标题和标签

    • 使用plt.titleplt.xlabelplt.ylabel设置图表的标题和轴标签。
  3. 显示图表

    • 使用plt.show()函数来显示图表。

箱线图是一种统计图表,用于展示数据分布的五个统计量:最小值、第一四分位数、中位数、第三四分位数和最大值。箱线图还可以展示异常值。在这个例子中,使用seaborn.boxplot函数绘制不同日期(day)的总账单(total_bill)分布。通过箱线图,可以看到不同日期的总账单分布情况,并识别出哪些数据点是异常值。例如,可以观察到在某些日期,总账单的分布范围较广,而在另一些日期,分布范围较窄。

步骤5:小提琴图(Violin Plot)

小提琴图结合了箱线图和核密度图,可以提供关于数据分布的更多信息。

# 绘制小提琴图展示不同日期的小费分布
sns.violinplot(data=tips, x='day', y='tip')
plt.title('Violin plot of Tip by Day')
plt.xlabel('Day')
plt.ylabel('Tip')
plt.show()

  1. 绘制小提琴图

    • 使用seaborn.violinplot函数,其中data参数指定数据集,xy参数分别指定分类变量和连续变量。
    • 小提琴图展示了数据分布的核密度估计,并结合了箱线图的元素。
  2. 设置图表标题和标签

    • 使用plt.titleplt.xlabelplt.ylabel设置图表的标题和轴标签。
  3. 显示图表

    • 使用plt.show()函数来显示图表。

小提琴图结合了箱线图和核密度图的优点,可以更详细地展示数据分布的特征。在这个例子中,使用seaborn.violinplot函数绘制不同日期(day)的小费(tip)分布。通过小提琴图,可以看到不同日期的小费分布情况,并识别出数据分布的密度和异常值。例如,可以观察到在某些日期,小费的分布较为集中,而在另一些日期,分布较为分散。

步骤6:绘制热力图(Heatmap)

热力图适合展示矩阵数据,比如相关矩阵。例如,绘制数据集的相关矩阵:

# 选择数值列
numeric_tips = tips.select_dtypes(include='number')

# 计算相关矩阵并绘制热力图
corr = numeric_tips.corr()
plt.figure(figsize=(10, 8))
sns.heatmap(corr, annot=True, cmap='coolwarm', linewidths=0.5)
plt.title('Heatmap of Correlation Matrix')
plt.show()

  1. 计算相关矩阵

    • 使用DataFrame.corr()函数计算数据集中数值变量之间的相关系数。
  2. 绘制热力图

    • 使用seaborn.heatmap函数绘制热力图。
    • corr:相关矩阵,作为热力图的数据输入。
    • annot=True:在每个单元格中显示相关系数的数值。
    • cmap='coolwarm':设置热力图的颜色映射,coolwarm颜色映射使得正相关和负相关的数据点能够通过颜色区分开来。
    • linewidths=0.5:设置每个单元格之间的间隔线宽度。
  3. 设置图表大小:使用plt.figure(figsize=(10, 8))设置图表的大小,确保图表清晰可读。

  4. 设置图表标题:使用plt.title设置图表的标题。

  5. 显示图表:使用plt.show()函数来显示热力图。

相关矩阵热力图解释:

  • 对角线:热力图的对角线上的值都是1,因为每个变量与自身的相关系数都是1。
  • 变量之间的相关性:热力图的非对角线单元格显示了不同变量之间的相关系数。颜色的深浅表示相关性强弱,颜色的方向(冷暖)表示正相关或负相关。

通过这些详细的步骤,我们能够全面地分析和可视化餐馆小费数据,深入了解影响小费的各种因素,为进一步的数学建模和决策提供有力的支持。

 

总结

1. 生成数据集并保存为CSV文件

首先,我们生成了一个包含餐馆小费信息的模拟数据集,并将其保存为CSV文件。数据集包含以下字段:total_billtipsexsmokerdaytimesize

2. 导入和预览数据

使用Pandas库读取本地CSV文件,并预览数据集的前几行,以了解数据的结构和内容。

3. 绘制散点图(Scatter Plot)

使用Seaborn的scatterplot函数绘制散点图,展示总账单(total_bill)与小费(tip)之间的关系。

4. 添加回归线(Regression Analysis)

使用Seaborn的lmplot函数在散点图上添加回归线,以更清晰地展示总账单和小费之间的线性关系。

5. 分类变量分析(Categorical Variables)

使用scatterplot函数的hue参数,根据性别绘制不同颜色的散点图,分析性别对总账单和小费关系的影响。

6. 绘制箱线图(Box Plot)

使用Seaborn的boxplot函数绘制箱线图,展示不同日期的总账单分布,帮助识别数据的中位数、四分位数及其异常值。

7. 绘制小提琴图(Violin Plot)

使用Seaborn的violinplot函数绘制小提琴图,结合箱线图和核密度图,提供更多关于数据分布的信息。

8. 绘制热力图(Heatmap)

计算数据集中数值变量之间的相关矩阵,使用Seaborn的heatmap函数绘制热力图,直观地展示各变量之间的相关性。

通过这些步骤,可以全面地分析和可视化餐馆小费数据,深入了解影响小费的各种因素,为进一步的数学建模和决策提供有力的支持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/773962.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Mall,正在和年轻人重新对话

【潮汐商业评论/原创】 结束了一下午的苦闷培训,当Cindy赶到重庆十字大道时,才发现十字路口上的巨大“飞行棋”在前两天就已经撤展了。 “来了又错过,就会觉得遗憾,毕竟这样的路口不多,展陈又不可能会返场。” 飞行棋…

藏文作文写作业推荐什么学习工具?《藏文翻译词典》App值得你使用,一款好用准确的藏语词汇查询辞典!

探索藏语的奥秘,体验藏族文化的魅力,尽在《藏文翻译词典》App。这款App是藏汉翻译的神器,也是藏语学习者的必备工具。在学习过程中遇到不会的藏语单词,可以使用《藏文翻译词典》App进行查询! 主要特性: 藏…

SCT612404通道,高效高集成,摄像头模组电源集成芯片

集成三路降压变换器,1CH高压BUCK,2CH低压Buck >HVBuck1:输入电压4.0V-20V,输出电流1.2A,Voo300mV/500mV >LVBuck2:输入电压2.7V-5V,输出电流0.6A , 固定1.8V输出 ;LVBuck3:输λ2.7V-5V,输出电流1.2A,可设定固定输出: 1 . 1 V / 1 . 2 V / 1 . 3 …

Intellj idea无法启动

个人电脑上安装的是2024.01版本的intellj idea作为开发工具,引入了javaagent作为工具包 但是在一次invaliad cache操作后,intellj idea就无法启动了,双击无响应。 重装了idea后也无效(这个是有原因的,下面会讲&#…

开发人员使用的10大主流任务进度管理工具

本文将分享10大优质任务管理软件:Worktile、PingCode、Asana、Todoist、ClickUp、HubSpot Task Management、Hitask、Smartsheet、ProjectManager、Microsoft To Do。 任务管理软件不仅帮助个人和团队跟踪日常任务,还优化了工作流程,确保项目…

Linux/Ubuntu访问局域网共享文件夹

文件夹中找到“Other Location”,输入“smb:IP地址/共享文件夹名称”,然后点击connect后者直接回车即可! End!

Redis 主从,哨兵,cluster集群

概述 主从复制 主从复制是高可用Redis的基础,哨兵和集群都是在主从复制基础上实现高可用的。 主从复制主要实现了数据的多机备份,以及对于读操作的负载均衡和简单的故障恢复。 缺陷:故障恢复无法自动化;写操作无法负载均衡&am…

联合查询(多表查询)

多表查询是对多张表的数据取笛卡尔积(关联查询可以对关联表使用别名) 数据准备 insert into classes(name, desc) values (计算机系2019级1班, 学习了计算机原理、C和Java语言、数据结构和算法), (中文系2019级3班,学习了中国传统文学), (自动化2019级5…

Mysql 的第二次作业

一、数据库 1、登陆数据库 2、创建数据库zoo 3、修改数据库zoo字符集为gbk 4、选择当前数据库为zoo 5、查看创建数据库zoo信息 6、删除数据库zoo 1)登陆数据库。 打开命令行,输入登陆用户名和密码。 mysql -uroot -p123456 ​ 2)切换数据库…

前端修改audio背景色

1.查看浏览器设置Show user agent shadow DOM是否打开 2.打开可以查看audio Dom /** 去掉默认的背景颜色 */ audio::-webkit-media-controls-enclosure{background-color:unset; } 3.效果图

浅谈OpenCV的多对象匹配透明图像的实现,以及如何匹配半透明控件

引子 OpenCV提供的templateMatch只负责将(相关性等)计算出来,并不会直接提供目标的对应坐标,一般来说我们直接遍历最高的相关度,就可以得到匹配度最高的坐标。但是这样一般只能得到一个坐标。在实际操作中,…

边缘计算赋能:高效固体废物管理的ARMxy工业计算机实践

固体废物处理成为城市管理与环境保护的重要议题。传统处理方式效率低下且环境污染风险高,迫切需要智能化、高效化的解决方案。在此背景下,基于ARM架构的工业计算机以其低功耗、高性能及高度可定制性,正逐渐成为智能固体废物处理系统的核心驱动…

html三级菜单

示例 <!DOCTYPE html> <html lang"en"> <head> <meta charset"UTF-8"> <meta name"viewport" content"widthdevice-width, initial-scale1.0"> <title>Menu Example</title> <link re…

工作效率飞跃提升

Hey小伙伴们&#x1f44b;&#xff0c;今天我要来给大家种草几款让我效率翻倍的超实用工具&#x1f6e0;️&#xff01;如果你也常常感觉时间不够用&#xff0c;这些小帮手绝对能让你事半功倍哦✨&#xff01; 1️⃣ 亿可达 — 软件连接器&#x1f517; 作为一款自动化工具&am…

SVN回退版本

我是直男, 所以, 就直接进入主题了 先本地备份要重新上传的代码文件 回退版本 ↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓ → 然后提交刚刚回退的文件(别忘了) ← ↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑ 到这里…

【Python机器学习】处理文本数据——将文本数据表示为词袋

用于机器学习的文本有一种最简单的方法&#xff0c;也是最有效且最常用的方法&#xff0c;就是使用词袋表示。使用这种表示方法时&#xff0c;我们舍弃了输入文本中的大部分结构&#xff0c;比如章节、段落、句子和格式&#xff0c;只计算语料库中&#xff0c;只计算语料库中每…

Elasticsearch实战教程:如何使用集群索引数据来进行统计多个数据?

&#x1f3ac; 鸽芷咕&#xff1a;个人主页 &#x1f525; 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想&#xff0c;就是为了理想的生活! 引入 Elasticsearch聚合查询是一种强大的工具&#xff0c;允许我们对索引中的数据进行复杂的统计分析和计算。本文将详细解释一…

为何整个 AI 领域都朝着 AI Agents 这一方向发展?

编者按&#xff1a; 当前大热的大语言模型和检索增强生成模型&#xff0c;虽然在语言理解和内容生成方面取得了突破性的进展&#xff0c;但仍然存在诸多限制。它们缺乏根据目标导引行为、持续学习和与环境交互的能力&#xff0c;难以应对复杂多变的现实场景需求。 今天为大家带…

国信华源全力守护湖南水库安全,汛期坚守岗位

连日来&#xff0c;湖南省遭受持续强降雨侵袭&#xff0c;部分地区暴雨倾盆&#xff0c;山塘河库水位急剧上升&#xff0c;防汛形势极为严峻。面对这场防汛大考&#xff0c;北京国信华源公司迅速响应&#xff0c;技术团队以高度的责任感和使命感&#xff0c;全力投入防汛减灾工…

ASP.NET Core Blazor 5:Blazor表单和数据

本章将描述 Blazor 为处理 HTML 表单提供的特性&#xff0c;包括对数据验证的支持。 1 准备工作 继续使用上一章项目。   创建 Blazor/Forms 文件夹并添加一个名为 EmptyLayout.razor 的 Razor 组件。本章使用这个组件作为主要的布局。 inherits LayoutComponentBase<div …