向量的几个基本概念（向量的生成及底层逻辑工作原理）

【写在前面】最近忙于多类目的测试，有段时间没出来交流了。

今年7月是否不像往年搜索更新慢或者不更新的情况，今年的7月起品是非常快的基本没有任何影响，那么到底是什么影响起品的效果，归根到底还是实时“竞争环境”。

很多同学还是问我什么是向量，向量如何影响搜索。

今天给大家细聊一下“向量”和直通车的冷启动及引力魔方最近为什么数据那么差的底层逻辑。

特别是新品新计划车是否最近很难开？

引力魔方的拉新计划是否数据很差？

归根到底都是“向量”问题。

正文

向量是什么？平台为什么越来越注重人群特征标签继承。

不管是付费还是免费，人群继承的权重越来越高，最近是否直通车出了一个冷启动就发现新品新车很难开了，就是卡首屏你也不到前三的位置。

如果新品没有权重，直通车的新计划权重会非常低，以前直通车还有计划权重和关键词权重，现在直通车的计划权重就跟着所开链接的搜索权重走的，链接没有搜索权重，直通车计划权重也会非常低。

为什么平台越来越注重人群特征继承？说白了还是由于平台搜索规则的召回机制，召回要有标准，那么这个标准很大的权重来源于人群特征继承，人群特征再细分一下就是人群标签，标签的延续就是向量问题。

什么是标签，什么是人群这两个概念谈了很久，标签的存在就是为了还原消费者的真实购物意图的过程。

某种意义上说，人群特征继承最精准的继承是背后的相似或者相同的购物意图。

标签也好，向量也罢都是为了还原和证实消费者真实的成交购物意愿。

从算法的角度来谈：双塔内积模型就是从用户特征端行为序列来分析消费者的购物意图，商品端也是通过商品特征来分析消费者的购物意图。

用户特征和商品特征系统是怎么识别分析的，这里就要谈到一个算法向量召回，向量就是系统通过用户端和商品端的行为序列只要你有行为序列和行为动作就会形成一个实数值，只要有实数值那么就可以生成一个“向量”。系统就会把用户端和商品端生成向量类似于数据库的向量库，向量就是基础的倒排索引中的提前分类好的数据库。

系统就会进行向量索引然后进行召回，向量检索主要是基于空间向量和图片。

可以说向量检索和文本检索很相似，文本检索对应的是关键词数据库，向量检索对应的是向量数据库。

向量的生成：

举个最简单的例子让大家理解：

为了简单起见，从句子做词频向量对比。

词频（TF）=某个词在文章中的出现次数。

　句子A：我喜欢看电视，不喜欢看电影。

　句子B：我不喜欢看电视，也不喜欢看电影。

问怎样才能计算上面两句话的相似程度？

基本思路是：如果这两句话的用词越相似，它们的内容就应该越相似。因此，可以从词频入手，计算它们的相似程度。

第一步，分词。

　　句子A：我/喜欢/看/电视，不/喜欢/看/电影。

　　句子B：我/不/喜欢/看/电视，也/不/喜欢/看/电影。

第二步，列出所有的词。

　　我，喜欢，看，电视，电影，不，也。

第三步，计算词频。

　　句子A：我 1，喜欢 2，看 2，电视 1，电影 1，不 1，也 0。

　　句子B：我 1，喜欢 2，看 2，电视 1，电影 1，不 2，也 1。

第四步，写出词频向量。

　　句子A：[1, 2, 2, 1, 1, 1, 0]

　　句子B：[1, 2, 2, 1, 1, 2, 1]

到这里，问题就变成了如何计算这两个向量的相似程度。

我们可以把它们想象成空间中的两条线段，都是从原点（[0, 0, ...]）出发，指向不同的方向。两条线段之间形成一个夹角，如果夹角为0度，意味着方向相同、线段重合；如果夹角为90度，意味着形成直角，方向完全不相似；如果夹角为180度，意味着方向正好相反。因此，我们可以通过夹角的大小，来判断向量的相似程度。夹角越小，就代表越相似。

向量的几个基本概念（向量的生成及底层逻辑工作原理）(1)

以二维空间为例，上图的a和b是两个向量，

这样就可以判断两个向量的相似度

向量相似度判断：

具体怎么判断？余弦定理告诉我们，可以用下面的公式求得：

向量的几个基本概念（向量的生成及底层逻辑工作原理）(2)

向量的几个基本概念（向量的生成及底层逻辑工作原理）(3)

假定a向量是[x1, y1]，b向量是[x2, y2]，那么可以将余弦定理改写成下面的形式：

向量的几个基本概念（向量的生成及底层逻辑工作原理）(4)

向量的几个基本概念（向量的生成及底层逻辑工作原理）(5)

数学家已经证明，余弦的这种计算方法对n维向量也成立。假定A和B是两个n维向量，A是 [A1, A2, ..., An] ，B是 [B1, B2, ..., Bn] ，则A与B的夹角θ的余弦等于：

向量的几个基本概念（向量的生成及底层逻辑工作原理）(6)

使用这个公式，我们就可以得到，句子A与句子B的夹角的余弦。

向量的几个基本概念（向量的生成及底层逻辑工作原理）(7)

余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似，这就叫"余弦相似性"。所以，上面的句子A和句子B是很相似的，事实上它们的夹角大约为20.3度。

由此，我们就得到了"向量相似度"的一种算法，这就是平台算法实际运用的向量召回的一种相似度算法。

向量相似度解决的是语义相似度的问题，因为当标题被拆分成分词后关键词与关键词之间的语义关系就被破坏了，词与词之间的语义关系就没有了，通过向量相似度再次进行语义相似度召回。

文本（标题）向量化在本文的应用场景中，用户问句是最重要的文本形式。问句长度一般情况下为10~30 个词左右。目前生成句向量的方式有很多种：Tfidf：此方式同倒排一样，无法表征句子的意思。分词，训练词向量模型，然后将问句中的词的词向量相加求平均；这在一定程度上表征了句子信息，在绝大多数场景下够用。利用 Bert 等预训练模型获取相关的句向量。

度量相似度的方式还有很多种比如欧氏距离，cos,汉明距离，Jaccard相似度等等我这里侧重讲向量召回，就是向量检索现在是各大平台最常用的索引方式之一，也是为了让大家更好的理解向量的工作原理和方式。

这里特别强调：我给大家举的例子是通过词频向量来解释向量的生成和工作过程，但是实际算法工作中，万物皆可向量，只要背后能生成数值。

总结一下：向量召回是通过多维度多目标多模态的取实数值来解决语义精准度的问题。

向量召回就是通过将基于元素取实数值进行向量化表征来构建偏向于高效检索的索引---向量索引。

背后都是基于精准的语义购物意图，这就是向量，元素数值：

可以通过实时用户行为轨迹数据获得

可以通过历史用户的行为轨迹获得

可以通过历史点击率数据获得

可以通过历史转化率数据获得

可以通过深度学习算法结合实时个性化标签数据获得等等

只要背后行为轨迹或行为数据能取实数值就可以生成向量。等等

所取的元素--数值，都是一个相同的特征就是可以进行向量化表征（Embeding成语义向量）精准反应背后的精准需求意图（表明向量表征）

这样给大家讲，能理解什么是向量了吗？

向量是一个N维向量，数学家已经证明，余弦的这种计算方法对n维向量也成立。所以向量可以多维生成向量进行余弦相似度解决语义精准度的问题，多向量维度解决语义精准度的问题，并不是像上述举例那样单一向量维度那么简单，背后取的都是个人行为数据和行为轨迹数据的数值，这些本身就不是模仿来的，而是长期沉淀下的数据取值。

那么向量如何影响搜索？

一个向量背后就是一个精准的语义就是一个精准的购物意图，做搜索就是在做“关键词”背后的购物意图。

明白了这两点，就明白了向量的价值。上述有提到“文本向量化”也就是会把文体也就是标题进行分词，分词后词与词之间的语义就被破坏，就要通过向量赋予关键词精准语义。

为什么大家一直信奉关键词背后的坑产可以解决排名和精准度的问题。

其实还是坑产思维的影响，因为那个时期是简单的规则性算法排序主要是通过机器统计排序的方式所以坑产落到关键词上面，有了排名也就有了流量，排名也就决定了转化率的问题也就解决精准度的问题。

那个时期根本就没有人群标签的概念，没有个性化所以谁能拿到排名就可以解决一切。

如果你真的看懂了向量是什么，你就能瞬间明白为什么一定要“尊重系统，顺势而为”去入池。

为什么一定不能通过长期碰关键词，通过递增此关键词坑产值来来强化关键词的精准度。

因为现在没有了排名一说，入池的背后的人群标签背后表明的相似相同的购物意图，成交是表明关键词精准，如果长期人为干预，那么系统最终是通过用户行为数据和商品数据通过取多维度，多目标，多模态的实数值来生成向量来确认精准语义也就是购物意图精准度的问题的，你模仿的假数据越多，反而会影响系统取值生成向量的精准度，所以假的就是假的，就算生成向量背后也是假的元素过多后面就很难做承接的工作了。

只有明白了这些核心底层逻辑，优化才有指引，你做的工作要以阶段目标为核心实时调整自己的方案，知道系统真正要什么。

明白了这些，为什么要有冷启动这个阶段，你也就能彻底搞明白了。

如果喜欢我的文章转发就是最大的支持。

本文由七掌柜首席运营师--鬼哥提供（qdbz888）仅代表个人观点！了解更多查看更多案例请看朋友圈。

鬼哥线下第十期课程

推荐反哺搜索篇

全店无付费推广篇

预定报名啦，

开课时间暂定8月底

地点：广州

广州圣丰索菲特大酒店（中国广州市天河区广州大道中 988 号）

提前安排行程。