•峰值
高于充沛训练的模型的最佳值。•有几个异常值是
,表明几个层训练欠佳。所以对GPT一无所知,也从未见过测试训练或训练数据,WeightWatcher通知我们这个模型永远不该进入消费环境。
如今不妨看看GPT2,它有相反的架构,但运用更多更好的数据加以训练。我们再次运用指定的模型创立一个watcher实例,然后运转 watcher.analyze()
watcher = ww.WeightWatcher(model=gpt2_model)
gpt2_details = watcher.analyze()
如今不妨比较GPT和GPT2的幂律alpha度量目的。我们就创立2个直方图,每个模型1个直方图,并叠加这2个图。
gpt_details.alpha.plot.hist(bins=100, color='red', alpha=0.5, density=True, label='gpt')
gpt2_details.alpha.plot.hist(bins=100, color='green', density=True, label='gpt2')
plt.xlabel(r"alpha $(\alpha)$ PL exponent")
plt.legend()
GPT的层alpha显示白色,GPT2的层alpha显示绿色,直方图差异很大。关于GPT2,峰值$alpha\sim 3.5&bg=ffffff$,更重要的是没有异常值$latex \alpha>6&bg=ffffff$。Alpha越小越好,GPT2模型比GPT好得多,缘由在于它用更多更好的数据加以训练。
图3
WeightWatcher 有许多功用可以协助您评价模型。它可以做这样的事情:
协助您决议能否用足够的数据对其停止了训练(如图所示)
检测过度训练的潜在层
用于获取提早中止的标准(当您无法查看测试数据时)
针对不同的模型和超参数,预测测试精度方面的趋向
等等
不妨试一下。假设它对您有用,请通知我。
原文标题:How to Tell if You Have Trained Your Model with Enough Data,作者:Charles Martin
【51CTO译稿,协作站点转载请注明原文译者和出处为51CTO.com】
【编辑引荐】
EXCEL数据处置基础视频课程
大数据hadoop系列-Java入门实战
scala大数据开发言语
为什么关键义务数据中心需求避免空气污染?
大数据时代,移动联通大数据技术的价值,你掌握了多少
(责任编辑:admin)