你能否也在冤家圈看过这样的小广告:
「你要悄然学Python,然后冷艳一切人。」
如今,GitHub上一位博主通知你:不用学,用sweetviz就行。
这是一个基于Python编写的数据剖析软件,只需掌握3种函数用法,一行Python代码就能完成数据集可视化、剖析与比较。
我们以Titanic数据集为例,输入一行代码:
一个1080p的明晰网页界面就出如今了眼前。
不只依据性别、年龄等不同栏目纵向剖析数据,每个栏目下还有众数、最大值、最小值等横向比照。
一切输入的数值、文本信息都会被自动检测,并停止数据剖析、可视化和比照,最后帮你停止数据总结。
在这样的数据剖析下,结果了如指掌。
△ Titanic数据集部分功用细节展现这样的效果,是基于3个主函数完成的。
3种函数用法 analyze()丨数据剖析数据剖析函数中,有4个参数source,target_feat,feat_cfg和pairwise_analysis需求被设置。
source:以pandas中的DataFrame数据结构、或是DataFrame中的某一类字符串作为剖析对象。
target_feat:需求被标记为目的对象的字符串。
feat_cfg:需求被跳过、或是需求被强迫转换为某种数据类型的特征。
pairwise_analysis:相关性和其他类型的数据关联能够需求破费较长时间。假设超过了某个阈值,就需求设置这个参数为on或许off,以判别能否需求剖析数据相关性。
△ 数据相关性剖析效果,能够需求破费一定时间 compare()丨两个数据集比较假设想要对两个数据集停止比照剖析,就运用这个比较函数。
例子中的my_dataframe和test_df是两个数据集,辨别被命名为训练数据和测试数据。
除了这个被插入的数据集,剩余的参数与analyze中的分歧。
compare_intra()丨数据集栏目比较想要对数据集中某个栏目下的参数停止剖析,就采用这个函数停止。
例如,假设需求比较“性别”栏目下的“男性”和“女性”,就可以采用这个函数。
了解这几种函数的变量后,一行代码就能完成Python数据剖析。
运用指南sweetviz支持Python 3.6+和Pandas0.25.3+环境,配置好环境后,运用万能的pip下载安装包:
但有一个条件需求留意:sweetviz需求用到基础「os」模块。所以,假设你在运用相似于Google Colab的自定义环境,能够会无法运用sweetviz,目前开发者也在探求处置方案。
下载好后,运用import快速导入sweetviz,就可以末尾运用了~
sweetviz运用的原理是,运用一行代码,生成一个数据报告的对象(其中,my_dataframe是pandas中的DataFrame,一种表格型数据结构):
在这里,analyze函数可以被交流为compare或compare_intra函数,运用办法在下面曾经给出,全看你需求什么类型的数据报告了。
最后,用show一键输入。(结果会以SWEETVIZ_REPORT.html网页方式展现)
由于在这个进程中,实践上真正需求编写的只要第二行的生成对象代码,可以说是名副其实的1行代码生成数据剖析。
展现界面也十分繁复,只需鼠标停留在感兴味的栏目上,右侧就会自动显示出数据剖析的图表和报告。
(责任编辑:admin)