您好,欢迎来到12图资源库!分享精神,快乐你我!我们只是素材的搬运工!!
  • 首 页
  • 当前位置:首页 > 开发 > WEB开发 >
    用 Java 训练深度学习模型,原来可以这么复杂!(2)
    时间:2020-11-02 21:13 来源:网络整理 作者:网络 浏览:收藏 挑错 推荐 打印

    这段代码辨别制造出了训练和验证集。同时我们也随机陈列了数据集从而更好的训练。除了这些配置以外,你也可以添加关于图片的进一步处置,比如设置图片大小,对图片停止归一化等处置。

    制造 model(树立 Block)

    当你的数据集预备就绪后,我们就可以构建神经网络了。在 DJL 中,神经网络是由 Block(代码块)构成的。一个 Block 是一个具有多种神经网络特性的结构。它们可以代表 一个操作, 神经网络的一部分,甚至是一个残缺的神经网络。然后 Block 可以顺序执行或许并行。同时 Block 本身也可以带参数和子 Block。这种嵌套结构可以协助我们结构一个复杂但又不失维护性的神经网络。在训练进程中,每个 Block 中附带的参数会被实时更新,同时也包括它们的各个子 Block。这种递归更新的进程可以确保整个神经网络失掉充沛训练。

    当我们构建这些 Block 的进程中,最复杂的方式就是将它们一个一个的嵌套起来。直接运用预备好 DJL 的 Block 种类,我们就可以快速制造出各类神经网络。

    依据几种基本的神经网络任务形式,我们提供了几种 Block 的变体。SequentialBlock 是为了应对顺序执行每一个子 Block 结构而成的。它会将前一个子 Block 的输入作为下一个 Block 的输入 继续执行究竟。与之对应的,是 ParallelBlock 它用于将一个输入并行输入到每一个子 Block 中,同时将输入结果依据特定的兼并方程兼并起来。最后我们说一下 LambdaBlock,它是协助用户停止快速操作的一个 Block,其中并不具有任何参数,所以也没有任何部分在训练进程中更新。

    我们来尝试创立一个基本的 多层感知机(MLP)神经网络吧。多层感知机是一个复杂的前向型神经网络,它只包含了几个全衔接层 (LinearBlock)。那么构建这个网络,我们可以直接运用 SequentialBlock。

    int input = 28 * 28// 输入层大小 

    int output = 10// 输入层大小 

    int[] hidden = new int[] {12864}; // 隐藏层大小 

    SequentialBlock sequentialBlock = new SequentialBlock(); 

    sequentialBlock.add(Blocks.batchFlattenBlock(input)); 

    for (int hiddenSize : hidden) { 

        // 全衔接层 

        sequentialBlock.add(Linear.builder().setUnits(hiddenSize).build()); 

        // 激活函数 

        sequentialBlock.add(activation); 

    sequentialBlock.add(Linear.builder().setUnits(output).build()); 

    当然 DJL 也提供了直接就可以拿来用的 MLP Block :

    Block block = new Mlp( 

            Mnist.IMAGE_HEIGHT * Mnist.IMAGE_WIDTH, 

            Mnist.NUM_CLASSES, 

            new int[] {12864}); 

    训练

    当我们预备好数据集和神经网络之后,就可以末尾训练模型了。在深度学习中,普通会由下面几步来完成一个训练进程:

    初始化:我们会对每一个 Block 的参数停止初始化,初始化每个参数的函数都是由 设定的 Initializer 决议的。

    前向传达:这一步将输入数据在神经网络中逐层传递,然后产生输入数据。

    计算损失:我们会依据特定的损失函数 Loss 来计算输入和标记结果的偏向。

    反向传达:在这一步中,你可以应用损失反向求导算出每一个参数的梯度。

    更新权重:我们会依据选择的优化器(Optimizer)更新每一个在 Block 上参数的值。

    DJL 应用了 Trainer 结构体精简了整个进程。开发者只需求创立 Trainer 并指定对应的 Initializer、Loss 和 Optimizer 即可。这些参数都是由 TrainingConfig 设定的。下面我们来看一下详细的参数设置:

    TrainingListener :这个是对训练进程设定的监听器。它可以实时反应每个阶段的训练结果。这些结果可以用于记载训练进程或许协助 debug 神经网络训练进程中的成绩。用户也可以定制本人的 TrainingListener 来对训练进程停止监听。

    DefaultTrainingConfig config = new DefaultTrainingConfig(Loss.softmaxCrossEntropyLoss()) 

        .addEvaluator(new Accuracy()) 

        .addTrainingListeners(TrainingListener.Defaults.logging()); 

    try (Trainer trainer = model.newTrainer(config)){ 

        // 训练代码 

    当训练器产生后,我们可以定义输入的 Shape。之后就可以调用 fit 函数来停止训练。fit 函数会对输入数据,训练多个 epoch 是并最终将结果存储在本地目录下。

    /* 

     * MNIST 包含 28x28 灰度图片并导入成 28 * 28 NDArray。 

     * 第一个维度是批大小, 在这里我们设置批大小为 1 用于初始化。 

     */ 

    Shape inputShape = new Shape(1, Mnist.IMAGE_HEIGHT * Mnist.IMAGE_WIDTH); 

    int numEpoch = 5

    String outputDir = "/build/model"

     

    // 用输入初始化 trainer 

    trainer.initialize(inputShape); 

     

    TrainingUtils.fit(trainer, numEpoch, trainingSet, validateSet, outputDir, "mlp"); 

    这就是训练进程的全部流程了!用 DJL 训练是不是还是很轻松的?之后看一下输入每一步的训练结果。假设你用了我们默许的监听器,那么输入是相似于下图:

    [INFO ] - Downloading libmxnet.dylib ... 

    [INFO ] - Training on: cpu(). 

    [INFO ] - Load MXNet Engine Version 1.7.0 in 0.131 ms. 

    (责任编辑:admin)