数据迷信家易犯的十大编码错误，你中招了吗？(2)

时间：2019-05-05 12:04 来源：网络整理作者：网络浏览：次收藏挑错推荐打印

我明白你急着做剖析。于是你把代码拼凑起来失掉结果，把结果交给你的客户或许老板。一周之后他们找到你，问你「你能改掉 xyz 吗?」或「你能更新一下结果吗?」。然后你和本人的代码大眼瞪小眼，既不记得你为什么要这么做，也不记得你做过什么。如今想象一下其别人运转这段代码时的心境。

def some_complicated_function(data):

datadata = data[data['column']!='wrong']

datadata = data.groupby('date').apply(lambda x: complicated_stuff(x))

datadata = data[data['value']<0.9]

return data

处置方案：即使你曾经完成了剖析，也要花时间注释一下你做过什么。你会感谢本人的，当然其别人会愈加感谢你!这样你看起来会更专业!

9. 把数据存成 csv 或 pickle

说回数据，毕竟我们讨论的是数据迷信。就像函数和 for 循环一样，CSV 和 pickle 文件也很常用，但它们其实并没有那么好。CSV 不包含形式(schema)，所以每团体都必须重新解析数字和日期。Pickle 可以处置这一点，但只能用在 Python 中，而且不能紧缩。这两种格式都不适宜存储大型数据集。

def process_data(data, parameter):

data = do_stuff(data)

data.to_pickle('data.pkl')

data = pd.read_csv('data.csv')

process_data(data)

df_train = pd.read_pickle(df_train)

处置方案：用 parquet 或许其他带有数据形式的二进制数据格式，最好还能紧缩数据。d6tflow 可以自动将数据输入存储为 parquet，这样你就不用途理这个成绩了。

parquet：https://github.com/dask/fastparquet

10. 运用 Jupyter notebook

这个结论还有一些争议——Jupyter notebook 就像 CSV 一样常用。很多人都会用到它们。但这并不能让它们变得更好。Jupyter notebook 滋长了下面提到的许多不好的软件工程习气，特别是：

你会把一切文件存在一个目录中;

你写的代码是自上而下运转的，而不是 DAG;