推荐算法经典模型

一、DIN模型

DIN模型出发点：作为阿里发布的第一个兴趣建模模型，其出发点是基于阿里妈妈团队在其业务数据中观察到的Diversity和Local activation现象。

Diversity和Local activation 名词理解：

Diversity指用户历史兴趣呈多峰分布。即用户在过去的一段时间中，会对各种行然不同的商品产生兴趣，并产生浏览、点击、加购、下单、复购等指示性消费信息。考虑我们实际使用淘宝场景。如果我们在短期内想购买多种不同类别的商品，如水果、鞋子、笔记本电脑，并产生了大量相关的访问记录。那么在当前时刻，我们至少存在三个截然不同的兴趣峰。 Local activation则指的是，尽管用户历史兴趣呈多峰分布，但决定用户当下转化只会是其中的某几个兴趣导致。在最终下单笔记本电脑前，我们产生了很多的水果、鞋子以及笔记本的选货记录。但在购买笔记本这件事情上，只有和笔记本相关的访问中，才可能隐藏我们可能下单的兴趣信息。

如上图1-2左是阿里2016提出的GwEN，其代表着业界对用户行为序列处理的流行做法，会将用户的历史行为直接pooling后输入MLP部分。而DIN则是通过activation unit计算出candidate与用户历史行为的兴趣度分值，并以此分值加权做sum-pooling，然后再将pooling后的结果与商品candidate的embedding concatenate后输入MLP。

二、DIEN

DIEN不同于DIN和其它兴趣模型的创新点在于：

不把用户访问行为直接当做用户兴趣，而是设计了GRU单元来抽取用户兴趣和模拟兴趣迁移过程。为了避免用户兴趣的迁移（interest drifting ）带来的影响，设计了基于带attention 的GRU单元AUGRU，来强化用户相关兴趣与candidate的注意力权重。

DIEN的这两个创新点，体现出了DIEN更加注重对用户序列的深度挖掘，这么说的原因如下：

利用了用户行为序列中，极具信息量的用户购物时序信号，模拟了用户兴趣转移。如DIN模型，无序的把用户行为与candidate进行attention计算，忽略了用户访问序列时序和用户兴趣递进演绎信息。而在用户购物时，最近访问的商品恰恰对下一次购买商品的影响较大。能够从序列化的用户访问记录中，抽象出信息量更高的用户兴趣。

行为序列层（Behavior Layer ，图浅绿色部分）：将原始的ID特征转为稠密的embedding特征。兴趣抽取层（Interest Extractor Layer，图淡黄色部分）：基于用户行为序列模拟用户兴趣迁移，抽取用户各个状态对应的兴趣。兴趣进化层（Interest Evolving Layer，图粉色部分）：强化用户相关兴趣与candidate的注意力权重。

二、MIMN MIMN是阿里妈妈于2019年发布在KDD 19上的又一兴趣模型，其所解决的问题是超长（1000这个量级）兴趣序列在线推断建模，实现方法是用户兴趣求解解耦+多通道兴趣建模。核心创新点是偏向工程实现（向减少时延妥协），在算法上结构上不比DIEN复杂。

推荐系统传统经典算法：

一、FM

数学表达式如下：

之前要维护nn的矩阵，很多是稀疏的，现在只需要维护一个nk的矩阵,k远小于n

x是标量，xi表示在某一个特征上的取值，比如年龄，可以去1，2，3，4等等。

二、 FFM 通过引入特征域，使模型特征交叉能力更强。与不同域的特征做交叉，表现出不同的特征信息。

三、wide&deep

四、GBDT+LR

回归树：

I的含义：x属于第m个节点，则为1.

训练步骤：找判断的特征和阈值-计算cm-计算损失-找损失最小的特征判断和阈值。

GBDT希望用一种通过的方法，来解决回归树、分类树以及其他各类树。

将负梯度当作下一棵树训练的GT，对所有损失函数都通用。

GBDT+LR: 分开训练的。

如何处理缺失值ß

项目的细节：

LR线性回归的原理和推导
XGBoost原理及其推导是一种基于梯度提升决策树（Gradient Boosting Decision Trees, GBDT）的高效实现。GBDT是一种集成学习方法，它通过逐步构建多个决策树，每棵树都是在前一棵树的基础上进行改进。具体来说，GBDT使用梯度下降的思想来最小化损失函数，逐步调整模型的预测值。

GBDT的基本公式为：每一个f(x)目标是通过每棵树的学习来减少上一棵树的误差

生成式检索相比于传统检索的优势。基于大模型，可以学习到文本潜在的高级语义特征。达到更个性化的检索、推荐。
生成式检索baseline是unimo-text-1.0-large
每个广告都包含落地页特征文本和核心词特征文本。训练集是搜索词对应的广告id。所以我们直观想法就是，得让模型先充分学习所有广告的文本信息，然后再去训练训练集。落地页跟核心词都是一长文本，我们截取成短文本，以匹配搜索词的长度。落地页特征是比较粗糙的特征，每一句话跟广告不一定完全匹配，比如（新能源汽车的广告，落地页特征可能是，xxx汽车店，4S店。），而且会有几条非常相似的广告，对应的落地页特征完全一样。核心词特征也是类似，但会比落地页特征更准确一些。多阶段学习相当于让模型粗略地记忆所有广告的特征，然后再通过训练集去更加精细地记忆广告。
指标
DPR内部结构是两个BERT模型，六层transformer的encoder（是什么？） BM25是稀疏检索模型，通过关键词匹配。
损失函数，先softmax, 再交叉熵。采用余弦相似度，因为可以避免向量长度的影响。
TSNE是什么？
使用Neural-Chat做数据增强，因为问题只有很简短的一句话，去匹配论文的摘要。用大语言模型补充更多的信息，去匹配长度相似的论文摘要。
迭代伪标签，充分利用无标签数据集。

Transformer

transformer encoder-decoder， encoder用多头注意力机制和MLP（对每个单词做投影）为一个block，6个block合成一个encoder。
decoder也是6个，有一个自回归的东西，就是预测t时刻的时候，前t-1时刻的输出也作为输入，并且有mask，就是为了mask掉t时刻以后的输入。sequence mask 是为了使得 decoder 不能看见未来的信息。什么是 padding mask 呢？因为每个批次输入序列长度是不一样的也就是说，我们要对输入序列进行对齐。multi-head就是模仿cnn的多通道。用多个dot-product attention 并行计算(多个linear，多种投影)，然后concat，再输入到线性层。
自注意力机制：输入到encoder的k,v,q矩阵的embedding都是同一个，也就是句子每个单词编码成embedding。每个query跟所有key做相似度，得到的权重再乘以所有的value，得到对应那个query位置的输出。
注意： 1、在Encoder中的Multi-Head Attention也是需要进行mask的，只不过Encoder中只需要padding mask即可，而Decoder中需要padding mask和sequence mask。 2、Encoder中的Multi-Head Attention是基于Self-Attention地，Decoder中的第二个Multi-Head Attention就只是基于Attention，它的输入Quer来自于Masked Multi-Head Attention的输出，Keys和Values来自于Encoder中最后一层的输出。
position encoding, 加入时序信息。(sin,cos,sin....)长度512，与input embedding相加
DBSCAN聚类

k-means的k如何取，肘部法则

BERT 双向的，之前的语言模型都是单向预测的。MLM和NSP t-SNE降维方法https://zhuanlan.zhihu.com/p/426068503 保证降维前后它们是否具有相同的距离结构

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Files

README.md

Latest commit

History

README.md

File metadata and controls