五个工业风满满的 Look-alike 算法

时间：2021-08-06 21:03 来源：网络整理作者：网络浏览：次收藏挑错推荐打印

广告主通常会基于用户标签来圈定广告的目的人群，比如广告主想投奥迪的广告能够会选择北方 25～44 岁男性；投靠驰能够会选择江浙地域 25 ～55 岁男性。

但受限于广告主的先验知识，其选出来的目的人群通常十分小，不能满足投放要求。比如说广告主想投放 100w 人，但经过用户标签只选出来 10w 用户，那幺剩上去 90w 用户该怎幺选择？

假设把广告主圈出来的那 10w 用户称为种子用户（「seed users」），那幺我们可以把需求额外提供的一批相似的用户称之为「look-alike users」。我们把这种基于种子用户停止相似人群扩展的进程称之为「look-alike modeling」。所以，look-alike 并不是某种特定的算法，而是一类建模办法的统称。

2. Look-alike

Look-alike 有多种类型，包括基于相似计算的「Similarity-based」，基于回归模型预测的「Regression-based」，基于标签相似性的「Approximation-based」，基于用户相似网络的「Graph-based」，基于 attention 优化的「Attention-based」等。

但这种划分有些不太合理，所以计划直接这里引见一些经典的 look-alike 模型。

2.1 Turn Look-alike

Weighted Criteria-based Algorithm 是由广告科技公司 Turn 构建的一套 Approximation-based 算法，宣布于 ACM 2015，该算法主要是经过计算相关标签停止人群分散，其从相似性、新奇性和质量分三个角度综合评价标签对。

相似性的计算公式有：

为指示函数，有标签的则为 1，否则为 0；为用户数量。

但这种相似性计算公式能够有两个成绩：1. 由于数据稀疏，大部分用户都只要少部分标签，所以大部分标签间的相关性都比较高；2. 相关标签要幺与种子用户的标签十分大要幺十分小，这样的计算结果就显得很冗余。

所以作者采用了第二种相似性的计算公式：

此时，也有了新奇性的计算公式：

五个工业风满满的 Look-alike 算法

此外，还要定义质量分 q，其主要包括 CTR、CVR、ROI，这个可以本人的特定场景本人定义。

我们对上述三种目的停止加权相乘：

取 log，加上权重失掉最终的评价结果：

然后我们便算出了标签之间的分数，并可以应用相似标签停止人群扩展。

2.2 Yahoo Look-alike

Yahoo Look-alike Model 是 Graph-based，其结合了 Similartiy-based 和 Regression-based 办法，系统架构如下：

五个工业风满满的 Look-alike 算法

主要包含四个部分：

基于用户间相似度构建用户相似网络，并应用 LSH 对用户停止分桶；

粗召回：将种子用户在同一个桶的用户作为候选用户；

特征挑选：基于特征 IV 停止特征挑选，挑出能代表种子用户的正特征；

精排序：计算用户得分并排序，前往得分最高的用户集。

用户相似性定义如下：

其中，表示用户的特征向量，权重矩阵为单特征或许特征组合的线性相关性的重要水平，这块可以基于用户特征重要性停止构建。其时间复杂度为，搜索的时间复杂度为。Yahoo 采用了 MinHash 和 LSH 停止优化，对用户停止分桶。

然后系统基于种子用户召回同一分桶内的用户作为候选集。

由于不同的广告主所关心的用户特征不一样，比如说 K12 教育关注年龄，化装品关注性别，所以需求事行停止特征挑选。综合思索功用和可解释性缘由，Yahoo 采用 Information Value 作为特征挑选的办法，并构建权重矩阵，

其中，S 为广告主提供的种子用户；U 为备选用户集合，可以经过采样取得也可以是整个用户集合；为正特征，表示此特征在种子用户中比其他用户更重要。

此时，用户评分办法位：

其中，为特征重要性；为特征的二阶度量。

Yahoo 系统主要用了一阶，权重为 IV，所以某个广告投放下的用户分数为：

留意，这个分数的取值为实数，假设想算概率可以用 sogmoid 函数紧缩一下。

2.3 Linkedin Look-alike

Linkedin 在 KDD 16 上宣布了他们的 look-alike 系统，其架构如下图所示：

五个工业风满满的 Look-alike 算法

大致分为线上和线下两部分，辨别称为「Campaign-Agnostic Expansion」和「Campaign-Aware Expansion」。

「Campaign-Agnostic Expansion」框架主要是应用实体停止扩展，比如 Data Mining 可以扩展到 Big Data 和 Machine Learning。该框架的算法是采用 LR 模型去从历史交互数据中捕获实体间的相似性，这种扩展办法可以直接在系统中运用（不需求再去额外计算）。

「Campaign-Aware Expansion」框架是采用近邻搜索，基于用户的属性停止相似用户扩展。

无论是线上线下都需求用到相似度计算，这块复杂引见一下。

Linkedin 将每个实体建模为一个多域的结构化 doc（structured multi-fielded document），并提取四种类型的字段，包括：n-grams/词典、标准化命名的数据类型（standardized，公司名、行业名等）、派生数据类型（derived，互联网公司可以派生出网络开发、软件开发等）和相近实体（proximities，基于用户和公司交互的网络确定其他相关公司）。举个例子：

五个工业风满满的 Look-alike 算法