数据迷信20个最好的Python库

时间：2018-06-27 12:05 来源：网络整理作者：网络浏览：次收藏挑错推荐打印

技术沙龙 | 6月30日与多位专家讨论技术高速开展下如何应对运维新应战！

Python 在处置数据迷信义务和应战方面继续处于抢先位置。去年，我们曾宣布一篇博客文章 Top 15 Python Libraries for Data Science in 2017，概述了事先业已证明最有协助的Python库。往年，我们扩展了这个清单，添加了新的 Python 库，并重新审视了去年曾经讨论过的 Python 库，重点关注了这一年来的更新。

我们的选择实践上包含了 20 多个库，由于其中一些库是相互替代的，可以处置相反的成绩。因此，我们将它们放在同一个分组。

▌中心库和统计数据

1. NumPy (Commits: 17911, Contributors: 641)

官网：

NumPy 是迷信运用顺序库的主要软件包之一，用于处置大型多维数组和矩阵，它少量的初级数学函数集合和完成办法使得这些对象执行操作成为能够。

2. SciPy (Commits: 19150, Contributors: 608)

官网：https://scipy.org/scipylib/

迷信计算的另一个中心库是 SciPy。它基于 NumPy，其功用也因此失掉了扩展。SciPy 主数据结构又是一个多维数组，由 Numpy 完成。这个软件包包含了协助处置线性代数、概率论、积分计算和许多其他义务的工具。此外，SciPy 还封装了许多新的 BLAS 和 LAPACK 函数。

3. Pandas (Commits: 17144, Contributors: 1165)

官网：https://pandas.pydata.org/

Pandas 是一个 Python 库，提供初级的数据结构和各种各样的剖析工具。这个软件包的主要特点是可以将相当复杂的数据操作转换为一两个命令。Pandas包含许多用于分组、过滤和组合数据的内置办法，以及时间序列功用。

4. StatsModels (Commits: 10067, Contributors: 153)

官网：

Statsmodels 是一个 Python 模块，它为统计数据剖析提供了许多时机，例如统计模型估量、执行统计测试等。在它的协助下，你可以完成许多机器学习办法并探求不同的绘图能够性。

Python 库不断开展，不断丰厚新的机遇。因此，往年出现了时间序列的改良和新的计数模型，即 GeneralizedPoisson、零收缩模型（zero inflated models）和 NegativeBinomialP，以及新的多元办法：因子剖析、多元方差剖析以及方差剖析中的重复测量。

▌可视化

5. Matplotlib (Commits: 25747, Contributors: 725)

官网：https://matplotlib.org/index.html

Matplotlib 是一个用于创立二维图和图形的底层库。藉由它的协助，你可以构建各种不同的图标，从直方图和散点图到费笛卡尔坐标图。此外，有许多盛行的绘图库被设计为与matplotlib结合运用。

数据迷信20个最好的Python库

6. Seaborn (Commits: 2044, Contributors: 83)

官网：https://seaborn.pydata.org/

Seaborn 本质上是一个基于 matplotlib 库的初级 API。它包含更适宜处置图表的默许设置。此外，还有丰厚的可视化库，包括一些复杂类型，如时间序列、结合散布图（jointplots）和小提琴图（violin diagrams）。

数据迷信20个最好的Python库

7. Plotly (Commits: 2906, Contributors: 48)

官网：https://plot.ly/python/

Plotly 是一个盛行的库，它可以让你轻松构建复杂的图形。该软件包适用于交互式 Web 运用程，可完成轮廓图、三元图和三维图等视觉效果。

8. Bokeh (Commits: 16983, Contributors: 294)

官网：https://bokeh.pydata.org/en/latest/

Bokeh 库运用 JavaScript 小部件在阅读器中创立交互式和可缩放的可视化。该库提供了多种图表集合，样式能够性（styling possibilities），链接图、添加小部件和定义回调等方式的交互才能，以及许多更有用的特性。

数据迷信20个最好的Python库

9. Pydot (Commits: 169, Contributors: 12)

官网：https://pypi.org/project/pydot/

Pydot 是一个用于生成复杂的定向图和无向图的库。它是用纯 Python 编写的Graphviz 接口。在它的协助下，可以显示图形的结构，这在构建神经网络和基于决策树的算法时常常用到。

数据迷信20个最好的Python库

▌机器学习

10. Scikit-learn (Commits: 22753, Contributors: 1084)

官网：

这个基于 NumPy 和 SciPy 的 Python 模块是处置数据的最佳库之一。它为许多标准的机器学习和数据开掘义务提供算法，如聚类、回归、分类、降维和模型选择。

应用 Data Science School 提高你的技艺

Data Science School：

11. XGBoost / LightGBM / CatBoost (Commits: 3277 / 1083 / 1509, Contributors: 280 / 79 / 61)

官网：://lightgbm.readthedocs.io/en/latest/Python-Intro.htmlhttps://github.com/catboost/catboost

梯度增强算法是最盛行的机器学习算法之一，它是树立一个不断改良的基本模型，即决策树。因此，为了快速、方便地完成这个办法而设计了专门库。就是说，我们以为 XGBoost、LightGBM 和 CatBoost 值得特别关注。它们都是处置常见成绩的竞争者，并且运用方式简直相反。这些库提供了高度优化的、可扩展的、快速的梯度增强完成，这使得它们在数据迷信家和 Kaggle 竞争对手中十分盛行，由于在这些算法的协助下博得了许多比赛。

12. Eli5 (Commits: 922, Contributors: 6)

官网：https://eli5.readthedocs.io/en/latest/

通常状况下，机器学习模型预测的结果并不完全清楚，这正是 Eli5 协助应对的应战。它是一个用于可视化和调试机器学习模型并逐渐跟踪算法任务的软件包，为 scikit-learn、XGBoost、LightGBM、lightning 和 sklearn-crfsuite 库提供支持，并为每个库执行不同的义务。

▌深度学习

13. TensorFlow (Commits: 33339, Contributors: 1469)

官网：https://www.tensorflow.org/ (责任编辑：admin)