esm2-空间监督多任务模型的算法原理与架构演进 -阿里

摘要

作为现代电子商务的重要组成部分，推荐系统由两个基本模块组成，即点击率（CTR）和转化率（CVR）预测。虽然 CVR 对购买量有直接影响，但由于样本选择偏差（Sample Selection Bias，SSB）和数据稀疏性（Data Sparsity，DS）问题，其预测被广泛认为是具有挑战性的。尽管现有方法通常建立在用户的顺序行为路径 “展示→点击→购买” 上，用于处理 SSB 问题，但由于购买训练样本稀缺，它们仍然难以解决 DS 问题。观察到用户在点击后总是执行多个与购买相关的操作，

我们提出了一种新颖的后点击行为分解的想法。具体来说，在点击和购买之间并行插入了不相交的与购买相关的确定性操作（DAction）和其他操作（OAction），形成了新颖的用户顺序行为图 “展示→点击→D (O) Action→购买”。

在这个图上定义模型能够利用整个空间的所有展示样本以及来自 D (O) Action 的额外丰富的监督信号，这将有效地解决 SSB 和 DS 问题。为此，

我们设计了一种新颖的深度推荐模型，名为精心制定的整个空间监督多任务模型（ESM2）。根据在图上定义的条件概率规则，它采用多任务学习以并行预测一些分解的子目标，并将它们按顺序组合以构建最终的 CVR。
模型上表现出卓越
对离线和在线环境的广泛实验表明，ESM2 在最先进的性能。源代码和数据集将被发布。

我们提出的方法通过在整个空间中采用多任务学习框架，特别针对转化率预测问题。

因此，我们从以下两个方面简要回顾了最相关的工作：1) 转化率预测，和 2) 多任务学习。

转化率预测：

转化率预测是许多在线应用的关键组成部分，例如搜索引擎 [2, 33]、推荐系统 [10, 23] 和在线广告 [8, 12]。然而，关于 CVR 任务的文献很少 [16, 28, 30]，尽管最近 CTR 方法 [3, 29, 34, 35] 取得了显著的发展。

实际上，CVR 建模非常具有挑战性，因为转化是极为罕见的事件，只有极小部分的展示项目最终被点击和购买。

最近，深度神经网络由于其在特征表示和端到端建模方面的卓越能力，在包括推荐系统在内的许多领域取得了显著进展 [4, 9, 13, 14, 17, 24]。

在本文中，我们也采用深度神经网络来模拟转化率预测任务。

与上述方法相反，我们基于后点击行为分解的新颖思想提出了一个新的用户顺序行为图 “展示→点击→D (O) Action→购买”。

根据图上定义的条件概率规则，我们的网络结构专门设计用于并行预测多个分解的子目标，并将它们按顺序组合以构建最终的 CVR。

多任务学习：

由于用户购买行为具有多阶段性质，例如展示、点击和购买，先前的工作尝试通过多任务学习框架来制定转化率预测任务。

例如，Hadash 等人通过同时建模排名和评分预测任务，提出了基于多任务学习的推荐系统 [11]。

Ma 等人提出了一种名为多门混合专家的多任务学习方法，以明确从数据中学习任务关系 [18]。

Gao 等人提出了一个神经多任务推荐模型，以学习不同类型行为之间的级联关系 [6]。

相反，我们通过与用户顺序行为图相关联，同时建模 CTR 和 CVR 任务，其中任务关系由条件概率明确定义（参见第 3 节）。

Ni 等人提出通过跨多个任务学习通用用户表示以实现更有效的个性化 [21]，我们也通过在不同任务之间共享嵌入特征来探索这样的思路。

最近，Ma 等人提出了用于 CVR 预测的整个空间多任务模型（ESMM）[19]。它将 CTR 任务和 CTCVR 任务作为辅助任务添加到主要的 CVR 任务中。我们的方法在某种程度上受 ESMM 的启发，

但有以下显著差异：

我们提出了后点击行为分解的新颖思想，重新构建了一个新的用户顺序行为图 “展示→点击→D (O) Action→购买”。

在这个图上定义模型可以同时制定最终的 CVR 以及一些辅助任务。它可以利用整个空间内的所有展示样本以及与购买行为高度相关的用户后点击行为的丰富监督信号，从而同时解决 SSB 和 DS 问题。

model

动机

在实际应用中，从一个物品被展示到成功购买之间，我们发现用户可能会选择多种顺序行为。

例如，在点击一个感兴趣的物品后，用户可以毫不犹豫地直接购买，或者将其添加到购物车，然后最终购买。

这些行为路径如图 3 (a) 所示。我们可以根据预定义的特定与购买相关的后点击行为，例如添加到购物车（SCart）和添加到愿望列表（Wish），将这些路径进行简化和分组，如图 3 (b) 所示。根据我们对在线真实世界日志数据的分析，我们发现只有 1% 的点击行为最终转化为购买行为，表明购买训练样本非常稀缺。

然而，与购买相比，购物车等几种后点击行为的数据量要大得多。例如，对于点击行为，有 10% 会被添加到购物车。

此外，这些后点击行为与最终的购买行为高度相关，

例如，在将它们添加到购物车（或愿望列表）后，有 12%（或 31%）最终会购买。在考虑它们与购买之间的高度相关性的情况下，我们如何利用更多的后点击行为数据以某种方式有利于 CVR 预测呢？

条件概率分解

在本节中，我们根据图 3 (c) 中定义的有向图，介绍了 CVR 的条件概率分解以及相关辅助任务。首先，物品 xi 的后视点击率的概率，表示为 p
，被定义为已被查看的情况下被点击的条件概率，描述了有向图中的路径 “展示→点击”。在数学上，可以写成：

其中 ci ∈ C 表示第 i 个物品 xi 是否被点击，ci ∈ {0, 1}，C 是所有被点击或未被点击的物品的标签空间，i ∈ [1, N]，N 是物品数量。类似地，vi ∈ V 表示第 i 个物品 xi 是否被查看（即展示），vi ∈ {0, 1}，V 是所有被查看或未被查看的物品的标签空间。y1i 是为了简化而使用的替代符号。