在训练计算机视觉机器学习模型时,数据加载常常会成为功用瓶颈,招致在等候将数据加载到模型中时 GPU 或 TPU 资源的应用率不足。以 TFRecord 格式存储数据集是一个行之有效的办法,但是,创立 TFRecord 通常需求少量的复杂代码。
于是,谷歌近期开源了 TensorFlow Recorder(即 TFRecorder)项目,旨在简化 TFRecord 的创立流程。TFRecord是一种二进制文件格式,处置数据相对高效,但要将其他数据转为 TFRecord 较为费事,通常需求编写一个数据管道来解析结构化数据,从存储中加载图像,然后再将结果序列化为 TFRecord 格式。而此次开源的 TFRecorder 可以直接从 Pandas dataframe 或 CSV 等格式写入 TFRecords,无需再编写复杂的代码。
运用 TFRecorder 创立 TFRecord 只需求几行代码,运转方式如下:
import pandas as pd
import tfrecorder
df = pd.read_csv(...)
df.tensorflow.to_tfrecord(output_dir="gs://my/bucket")
TFRecorder 希冀写入的数据与 Google AutoML Vision 的格式相反,也就是相似 pandas dataframe 或 CSV 的格式,例如:
split image_uri label目前,TFRecorder 支持的数据格式还很有限,未来会进一步扩展,以支持运用任何格式的数据。
关于更庞大的数据集,TFRecorder 还提供了与 Google Cloud Dataflow 的衔接性,扩展到 DataFlow 仅需求多几行代码配置。
关于 TFRecorder 的更多信息,可查看谷歌开源博客的引见:https://opensource.谷歌blog.com/2020/08/introducing-tensorflow-recorder.html
【编辑引荐】
AI创业公司优秀开发工具指南火了,还发现了个Jupyter的「杀手」
20年招聘阅历:我所看重的开发人员的质量
技术Leader远离代码,就是自废武功?
微软部分Edge插件疑是李鬼 大神剖析称其有恶意代码
数据集轻松按需搜索,这个工具有近2000个图像数据集,可收费获取
(责任编辑:admin)