物品冷启动¶

冷启动指的是从无到有的过程：

UGC（用户生成）的冷启动尤为困难，PGC（平台生成）则相对容易。

为什么要做冷启动？¶

换言之：为什么需要对新内容特别对待

冷启动的目标¶

评价指标主要分为下面几种：

作者侧（冷启动能否激励作者发布内容）：发布渗透率、人均发布量
用户侧（冷启动能否精准推荐、是否引起用户反感）：新笔记指标（点击、交互）、大盘指标（消费时长、日活）
内容侧（冷启动能否挖掘优质笔记）：高热笔记占比

作者侧指标¶

用户侧指标¶

最好区分高曝光/低曝光笔记的消费指标，尤其是低曝光，需要更多关注。高曝光笔记不需要精确的推荐也能得到很好的指标。

跷跷板效应：大力扶植低曝光笔记会降低大盘指标，因为这些低曝光笔记数据不足、推荐不够精准，用户体验会下降

内容侧指标¶

冷启动的技术点¶

优化推荐的全链路（召回和排序）：新物品在推荐系统中如何被对待
流量调控：流量在新、老物品之间的分配

召回冷启动¶

召回需要一些依据，但是新笔记有所欠缺：

缺少用户交互，笔记ID Embedding没有学好，双塔模型效果就不好
缺少用户交互，ItemCF也不适用，因为计算相似度的时候需要用到用户偏好（感觉UserCF更加不适用）

双塔模型的改造¶

方案一：使用Default Embedding（这个向量不是随机的，而是学习出来的，作为新笔记的默认嵌入向量
方案二：使用类似笔记的Embedding平均

实践中使用多个向量召回池，来保证新笔记的曝光机会：

类目/关键词召回¶

这两种有些显而易见的缺点：

聚类召回¶

聚类召回和关键词召回有类似的缺点，只会召回比较新的笔记。内容相似度模型的构建：

内容相似度模型的训练：

损失函数：

数据集构建：

Look-Alike召回¶

Look-Alike本身是互联网广告算法

用户扩散的重点在于计算用户相似度：

UserCF：用户有共同的兴趣点
Embedding：用户嵌入向量余弦距离实践过程中，可以使用新笔记交互过的所有用户（种子用户）Embedding平均作为该新笔记的特征向量（喜爱该笔记的平均用户），而后在召回的时候根据用户Embedding和特征向量的相似度来召回。

流量调控¶

提权：固定系数

保量：梯度系数，差异化权重

为什么不简单粗暴地提高分数？

虽然曝光提高了，但推荐的效果可能下降，把笔记推荐给不合适的用户

差异化保量：根据内容质量的高低（字数多少等等）来设置不同的保量目标

冷启动的AB测试¶

指标：

冷启动的AB测试很麻烦。

冷启动的用户侧实验：

这个实验中，会有变量混杂：

冷启动的作者侧实验，方案一：

冷启动的作者侧实验，方案二：

冷启动的作者侧实验，方案三：（相当于把小红书分成两个app，但是实践中不太现实，会损害用户体验，不划算）

最后更新: 2026-04-07 20:19:13
创建日期: 2026-04-07 20:19:13

广告

人要恰饭的嘛🤑🤑

评论