您好,欢迎来到12图资源库!分享精神,快乐你我!我们只是素材的搬运工!!
  • 首 页
  • 当前位置:首页 > 开发 > WEB开发 >
    几行代码即可高效创立数据集,谷歌开源 TFRecorder
    时间:2020-08-11 12:02 来源:网络整理 作者:网络 浏览:收藏 挑错 推荐 打印

    几行代码即可高效创立数据集,谷歌开源 TFRecorder

    在训练计算机视觉机器学习模型时,数据加载常常会成为功用瓶颈,招致在等候将数据加载到模型中时 GPU 或 TPU 资源的应用率不足。以 TFRecord 格式存储数据集是一个行之有效的办法,但是,创立 TFRecord 通常需求少量的复杂代码。

    于是,谷歌近期开源了 TensorFlow Recorder(即 TFRecorder)项目,旨在简化 TFRecord 的创立流程。TFRecord是一种二进制文件格式,处置数据相对高效,但要将其他数据转为 TFRecord 较为费事,通常需求编写一个数据管道来解析结构化数据,从存储中加载图像,然后再将结果序列化为 TFRecord 格式。而此次开源的 TFRecorder 可以直接从 Pandas dataframe 或 CSV 等格式写入 TFRecords,无需再编写复杂的代码。

    运用 TFRecorder 创立 TFRecord 只需求几行代码,运转方式如下:

    import pandas as pd 

    import tfrecorder 

    df = pd.read_csv(...) 

    df.tensorflow.to_tfrecord(output_dir="gs://my/bucket"

    TFRecorder 希冀写入的数据与 Google AutoML Vision 的格式相反,也就是相似 pandas dataframe 或 CSV 的格式,例如:

    split   image_uri   label  
    TRAIN   gs://my/bucket/image1.jpg   cat  

    目前,TFRecorder 支持的数据格式还很有限,未来会进一步扩展,以支持运用任何格式的数据。

    关于更庞大的数据集,TFRecorder 还提供了与 Google Cloud Dataflow 的衔接性,扩展到 DataFlow 仅需求多几行代码配置。

    关于 TFRecorder 的更多信息,可查看谷歌开源博客的引见:https://opensource.谷歌blog.com/2020/08/introducing-tensorflow-recorder.html

    【编辑引荐】

    AI创业公司优秀开发工具指南火了,还发现了个Jupyter的「杀手」

    20年招聘阅历:我所看重的开发人员的质量

    技术Leader远离代码,就是自废武功?

    微软部分Edge插件疑是李鬼 大神剖析称其有恶意代码

    数据集轻松按需搜索,这个工具有近2000个图像数据集,可收费获取

    (责任编辑:admin)