您好,欢迎来到12图资源库!分享精神,快乐你我!我们只是素材的搬运工!!
  • 首 页
  • 当前位置:首页 > 开发 > WEB开发 >
    五个工业风满满的 Look-alike 算法
    时间:2021-08-06 21:03 来源:网络整理 作者:网络 浏览:收藏 挑错 推荐 打印

    广告主通常会基于用户标签来圈定广告的目的人群,比如广告主想投奥迪的广告能够会选择北方 25~44 岁男性;投靠驰能够会选择江浙地域 25 ~55 岁男性。

    五个工业风满满的 Look-alike 算法

    但受限于广告主的先验知识,其选出来的目的人群通常十分小,不能满足投放要求。比如说广告主想投放 100w 人,但经过用户标签只选出来 10w 用户,那幺剩上去 90w 用户该怎幺选择?

    假设把广告主圈出来的那 10w 用户称为种子用户( 「seed users」 ),那幺我们可以把需求额外提供的一批相似的用户称之为 「look-alike users」 。我们把这种基于种子用户停止相似人群扩展的进程称之为 「look-alike modeling」 。所以,look-alike 并不是某种特定的算法,而是一类建模办法的统称。

    2. Look-alike

    Look-alike 有多种类型,包括基于相似计算的 「Similarity-based」 ,基于回归模型预测的 「Regression-based」 ,基于标签相似性的 「Approximation-based」 ,基于用户相似网络的 「Graph-based」 ,基于 attention 优化的 「Attention-based」 等。

    但这种划分有些不太合理,所以计划直接这里引见一些经典的 look-alike 模型。

    2.1 Turn Look-alike

    Weighted Criteria-based Algorithm 是由广告科技公司 Turn 构建的一套 Approximation-based 算法,宣布于 ACM 2015,该算法主要是经过计算相关标签停止人群分散,其从相似性、新奇性和质量分三个角度综合评价标签对。

    相似性的计算公式有:

    为指示函数,有标签的则为 1,否则为 0;为用户数量。

    但这种相似性计算公式能够有两个成绩:1. 由于数据稀疏,大部分用户都只要少部分标签,所以大部分标签间的相关性都比较高;2. 相关标签要幺与种子用户的标签十分大要幺十分小,这样的计算结果就显得很冗余。

    所以作者采用了第二种相似性的计算公式:

    此时,也有了新奇性的计算公式:

    五个工业风满满的 Look-alike 算法

    此外,还要定义质量分 q,其主要包括 CTR、CVR、ROI,这个可以本人的特定场景本人定义。

    我们对上述三种目的停止加权相乘:

    取 log,加上权重失掉最终的评价结果:

    然后我们便算出了标签之间的分数,并可以应用相似标签停止人群扩展。

    2.2 Yahoo Look-alike

    Yahoo Look-alike Model 是 Graph-based,其结合了 Similartiy-based 和 Regression-based 办法,系统架构如下:

    五个工业风满满的 Look-alike 算法

    主要包含四个部分:

    基于用户间相似度构建用户相似网络,并应用 LSH 对用户停止分桶;

    粗召回:将种子用户在同一个桶的用户作为候选用户;

    特征挑选:基于特征 IV 停止特征挑选,挑出能代表种子用户的正特征;

    精排序:计算用户得分并排序,前往得分最高的用户集。

    用户相似性定义如下:

    其中,表示用户的特征向量,权重矩阵为单特征或许特征组合的线性相关性的重要水平,这块可以基于用户特征重要性停止构建。其时间复杂度为,搜索的时间复杂度为。Yahoo 采用了 MinHash 和 LSH 停止优化,对用户停止分桶。

    然后系统基于种子用户召回同一分桶内的用户作为候选集。

    由于不同的广告主所关心的用户特征不一样,比如说 K12 教育关注年龄,化装品关注性别,所以需求事行停止特征挑选。综合思索功用和可解释性缘由,Yahoo 采用 Information Value 作为特征挑选的办法,并构建权重矩阵,

    其中,S 为广告主提供的种子用户;U 为备选用户集合,可以经过采样取得也可以是整个用户集合;为正特征,表示此特征在种子用户中比其他用户更重要。

    此时,用户评分办法位:

    其中,为特征重要性;为特征的二阶度量。

    Yahoo 系统主要用了一阶,权重为 IV,所以某个广告投放下的用户分数为:

    留意,这个分数的取值为实数,假设想算概率可以用 sogmoid 函数紧缩一下。

    2.3 Linkedin Look-alike

    Linkedin 在 KDD 16 上宣布了他们的 look-alike 系统,其架构如下图所示:

    五个工业风满满的 Look-alike 算法

    大致分为线上和线下两部分,辨别称为 「Campaign-Agnostic Expansion」 和 「Campaign-Aware Expansion」 。

    「Campaign-Agnostic Expansion」框架主要是应用实体停止扩展,比如 Data Mining 可以扩展到 Big Data 和 Machine Learning。该框架的算法是采用 LR 模型去从历史交互数据中捕获实体间的相似性,这种扩展办法可以直接在系统中运用 (不需求再去额外计算)。

    「Campaign-Aware Expansion」框架是采用近邻搜索,基于用户的属性停止相似用户扩展。

    无论是线上线下都需求用到相似度计算,这块复杂引见一下。

    Linkedin 将每个实体建模为一个多域的结构化 doc(structured multi-fielded document),并提取四种类型的字段,包括:n-grams/词典、标准化命名的数据类型(standardized,公司名、行业名等)、派生数据类型(derived,互联网公司可以派生出网络开发、软件开发等)和相近实体(proximities,基于用户和公司交互的网络确定其他相关公司)。举个例子:

    五个工业风满满的 Look-alike 算法

    实体的结构化 doc 会被树立成倒排索引库,doc 的每个域的属性都有一个特征向量,doc 同一域之间的相似度用 cos 相似度停止计算:

    doc 间的相似度应用域的相似度停止线性加权:

    其中,s 为不同范围的相似度,w 为不同范围的权重。

    Linkedin 将用户和公司辨别停止上述实体建模,然后将用户关注的公司作为正样本,没关注的公司作为负样本,并用 LR 模型停止训练。

    PS:会不会出现极端状况,招致召回量不够。

    2.4 Tecent Look-alike

    Realtime Attention-based Look-alike Model(RALM)是微信看一看团队提出的,其宣布于 KDD19,其将 Attention 融入到 look-alike 办法中并用于实时资讯引荐,其系统架构如下图所示:

    五个工业风满满的 Look-alike 算法

    其大致分为: 「离线训练」 、 「在线实时预测」 和 「在线异步处置」 ,辨别对应上图的下、中、上三个位置。

    2.4.1 offline Learning

    「离线训练」部分包括 User Representation Learning 和 Look-alike Learning,前者用于学习用户的特征向量,后者是基于用户特征向量计算相酥柿魁。

    (责任编辑:admin)