五个工业风满满的 Look-alike 算法(2)

时间：2021-08-06 21:03 来源：网络整理作者：网络浏览：次收藏挑错推荐打印

User Representation Learning 模块是基于 Youtube DNN 模型停止改良，左侧为用户特征，并用 Attention 替代 concat，左侧为 Item 特征，然后全体做 SCE Loss 或许多分类，预测用户的下一个点击，训练完成后左侧取最后一层隐层作为用户的特征向量，模型结构如下图所示：

五个工业风满满的 Look-alike 算法

Look-alike Learning 模块采用双塔结构，左边输入一切种子用户的特征向量，左边输入目的用户的特征向量，其结构如下图所示：

五个工业风满满的 Look-alike 算法

这也是 RALM 能实理想时计算的主要缘由，其将种子用户特征替代 Item 特征，从而将 User-Item 模型转换成 User-Users 模型。

所以，Look-alike Learning 模块的关键在于表达种子用户群体。

假定用户会存在本人的特性信息，同时也有群体特性信息，那幺种子群体可以表示为：特性信息+特性信息。作者为此辨别建模 Local Attention 和 Global Attention 学习出两种 embedding：

Local Attention 是将种子采用乘法 attention，提取种子用户群体中与目的用户相关的信息，捕捉用户的部分信息。

Global Attention 只与种子用户群体有关，一切采用 self-attention 的方式，将种子用户乘以矩阵转换，再乘以种子用户本人，用其捕捉用户群体本身外部的兴味散布；

失掉的 Local & Global embedding 之后，对此停止加权求和，这就是种子用户群体的全部信息。

五个工业风满满的 Look-alike 算法

但我们知道的 Attention 本身计算量十分大，所以无法满足模型线上部署的耗时要求。为此，作者将种子用户经过 k-means 停止聚类，从而增加 Key 的数量。

完成 Look-alike Learning 之后，我们可以把右侧用户过 FC 的特征向量存储起来，提供应在线效劳。

2.4.2 Online Asyncheonous

在线异步处置，主要是处置与线上央求有关的计算，如：

基于用户点击日志，更新 Item 的种子用户列表；

计算种子用户的聚类中心，并配送给引荐系统；

计算 Global Embedding。

这些一切的东西都是定时更新的，不需求停止实时计算。

2.4.3 Online Service

在线效劳这块，主要是拉取种子用户的聚类中心、Global Embedding 和用户的 Embedding，线上实时计算 Local Embedding，并计算最终的相似度。

PS：RALM 由于有聚类，种子用户出现异常点能够会出现点成绩（当然，外部大约率优化过了）。

2.5 Pinterest Look-alike

Pinterest look-alike 于 KDD 19 宣布了他们的 look-alike 模型，其大致分为两部分基于 LR 的分类模型和基于 Embedding 的相似搜索的模型。

2.5.1 Classifier-based Approach

Pinterest 的baseline 是用 LR 模型去做个分类模型，种子样本为正样本，随机选取非种子样本为负样本，然后训练一个分类模型去给一切用户打分排序。

2.5.2 Embedding-based Approach

Pinterest 探求的新办法，大致分为两块：一块是训练 Embedding ，另一块是基于 Embedding 和 LSH 找相似用户。

首先是计算用户的特征向量，其基于 StarSpace 的办法停止训练（Pair-wise）：

用户：用户作为 Piar A，concat 用户的团圆特征+归一化后的延续特征，经过一层线性激活函数的 Dense，输入失掉用户特征向量；

Topic：Item 的 Topic 作为 Pair B，经过 lookup 失掉 Topic 的特征向量；

训练样本：取与用户交户过的 Item，用 Item 的 Topic 作为 Pair B；其他随机选取 k 个的 Topic 作为负样本，与用户组成样本对；

训练集：与用户交户过的 Item 的 Topic 作为正样本，随机选取的 k 个 Topic 作为负样本，损失函数为：

训练中止：由于模型最终会用于处置种子用户分散的成绩，所以作者取种子用户和非种子用户，其中 90% 的种子用户组成集合 K，从剩下 10%的种子用户中取出一个，非种子用户取出一个。定义相似性：，则训练中止的评价标准为：

训练的 tensorboard 如下图所示：

五个工业风满满的 Look-alike 算法

模型重训：运用模型的最新版本活期（较长的时间）重新计算用户嵌入，主要是目的是希望一切用户的兴味都在变换，以捕捉用户的行为和用户的漂移。（为啥？）

五个工业风满满的 Look-alike 算法

失掉用户特征向量后，应用 LSH 对用户停止映射，然后基于种子用户的个数停止投票选出哪些区域，并取区域内用户作为扩展用户。

当然还要思索每个区域的用户数量不同，所以种子集合 s 在区域的修正得分为：

其中，为区域内的一切人数，为平滑因子，且。

下表为各区域人数（绿色为种子用户，白色为非种子用户）：

五个工业风满满的 Look-alike 算法

下表为投票得分和概率得分的区别，可以看到区域排名有所变化：

五个工业风满满的 Look-alike 算法

作者重复 m 次映射，失掉最终的的概率得分：，每个用户的映射结果为，所以用户最终得分为：。

然后，选取得分大的用户作为扩展用户。

可视化结果如下图所示：

(责任编辑：admin)

标签：12图资源库算法技术模型

从零末尾了解Docker

甲骨文谷歌版权之战，你最常用的软件或许被

微软发布 Visual Studio 开展路途图，少量

科技行业薪酬最高的15种职位看看你在哪一

StackOverflow 调查：富有国度盛行 Python

WebAssembly 再添一员猛将：将支持运用 Go

Java案虽已尘埃落定，但软件界的连锁反响才

倾听顺序员的心声真的很重要

Git 12岁了，为你送上12个Git 的运用技巧！

扎克伯格13年前写的Facebook网站代码，你见

GraphQL vs REST API 架构，谁更胜一筹？

12种从单体架构向微效劳转型的设计准绳与优

猜你也喜欢看这些 ······: [WEB开发] 五个工业风满满的 Look-alike 算; [WEB开发] Go项目实战：一步步构建一个并发; [WEB开发] Top 18 开源低代码开发平台; [WEB开发] 我是如何做软件工程化的; [WEB开发] 6月份Github上抢手Python项目排; [WEB开发] Go 内存模型并发可见性; [WEB开发] 一文带你了解散布式系统中的真真; [WEB开发] 散布式事务如何处置？一次讲清楚; [WEB开发] 用「最好的言语」PHP，做一个机; [WEB开发] 干了这么些年顺序员，这7种软件; [WEB开发] 有了这个开源项目，小白也能搭建; [WEB开发] 想做好互联网适老化设计，先搞定

其他类型的网站教程 ······: [dede教程] LuManager效劳器管理软件安装DED; [dede教程] Linux+Apache+PHP+MySQL效劳器环; [FLASH教程] szybkie po&0;yczki; [网页设计] Имеется ли возмо; [discuz教程] Транспортная фа; [建站经验] Как поступить в; [网页设计] Общебытовые акс; [dede教程] Many Thanks Very; [HTML教程] Many Thanks Extremely; [JS教程] Thanks Very; [SEO教程] Many Thanks Really; [MYSQL教程] Thanks Really

关键词标签查找 ······: 站长之家网站优化网站源码网页特效下载矢量图片素材网站运营 dedecms 矢量素材字体全国地图热点地方门户网站地图生成器蚂蚁分类系统齐博3.5 红旗安乐业房产源码安卓网站源码齐博分类1.51 汽车源码栏目嵌套顶部公告特效 128x128png图标导航竖列菜单 dede插件