抖音算法的本质和分析
抖音是一个现象级的产品,日活超过了6亿,很多人一刷抖音就停不下来,这是为什么呢?因为抖音给你推荐的很多都是你喜欢的视频(如图10-152所示)。
图10-152 抖音
抖音算法肯定算是核心机密了,我们如何从控制论角度来分析抖音算法呢?可以按照控制论中的黑箱方法进行分析,虽然我不知道抖音内部如何运作,但是我们通过输入和输出来推测抖音如何运作。用已知类型视频测试用户类型,用已知类型用户测试未知视频(如图10-153所示)。
图10-153 用户和视频黑箱
我觉得抖音算法的核心是:分类配对、择优推广(如图10-154所示)。
图10-154 分类配对
抖音如何知道用户的爱好是什么呢?答案是反馈评分。如果这个用户对音乐类视频的完播、点赞、收藏、评论和转发最高,那么这个用户就判定为音乐爱好者(如图10-155所示)。
图10-155 用户类型测试
假设有U1~U12个用户,爱好有搞笑、音乐、美食和知识4种,如何来判断每个用户的爱好呢?
用已知视频测试用户爱好。假设有20个视频,搞笑、音乐、美食和知识各有5个,并且每个视频的类型已知。将这20个视频随机投放给这12个用户,然后根据用户的反馈进行评分。假设完播视频是1分,点赞是2分,收藏是3分,评论是4分,转发是5分。这样,投放完20个视频,用户对视频的反馈就能得到,然后就会知道用户的爱好。比如U1用户对于5个搞笑类视频,他都看完了,并且点赞了5个,收藏了3个,评论了2个,转发了一个,那么,这个用户得分为37分,从反馈看他喜欢搞笑类视频,所以就可以评定为搞笑视频爱好者,这样就可以将这12个用户进行爱好分组,一个用户也可以有多个爱好,也就是他可以属于多个组(如表10-3所示)。
表10-3 用户反馈评分
抖音如何知道视频的类型和质量呢?答案是反馈评分。根据完播、点赞、收藏、评论和转发的数量,来判断视频的类型和视频的质量,搞笑用户组如果对这个视频评分最高,那么这个视频就判定为搞笑类视频(如图10-156所示)。
图10-156 视频类型和质量测试
用已知用户爱好测试视频类型。对于海量的视频,需要知道视频类型,这样才能推送给同类型视频爱好者。将一个未知类型的视频推送给这4个组,然后看用户的反馈,如果知识爱好者评分最高,那么这个视频就是知识类视频,就可以推送给其他知识类视频爱好者。比如V1推送的组中搞笑类、音乐类、美食类和知识类爱好者各有4个,然后搞笑类4个爱好者都看完了这个视频,2个给点赞,3个收藏,4个评论,2个转发,那么这个视频评分是47分。从视频反馈来看,搞笑类爱好者喜欢这个视频,那么就把这个视频归为搞笑类视频(如表10-4所示)。
表10-4 视频反馈频分
如何择优推广呢?
视频质量有好有差,好的视频要推送给更多人,所以就要择优推荐,有点类似于考试升级一样。我们可以仿照军队的层级结构来对用户进行拆分。假设分成4个层级,分别为1~4,层级越高代表用户数量越多。比如搞笑类视频的第一层为GX1,这一层的,每一个大组(比如GX2003)有100个小组,每个小组有50人,组的编号分别为GX1001~GX1100。第二层和第三层也是这样的,然后第四层就会有5千万人的搞笑视频爱好者(如图10-157所示)。
图10-157 用户的层级结构
按照之前黑箱的测试原则,新注册的用户会使用已知类型视频确定用户类型。然后新的视频也会投放给已知类型用户来确定视频类型。并且每个视频还会有完播、点赞、收藏、评论和转发这些反馈,然后通过加权就能知道每个视频的得分,按照分数进行排序,择优推荐给上层。
比如一个视频在GX1001组表现好,那么就把这个视频推荐上一层的GX2003,这样就会有5千人看到这个视频。如果这个视频在GX2003还是非常受到喜爱,也就是完播、点赞、收藏、评论和转发都很多,那么就推荐给GX3003,这样这个视频就会有50万人看到;如果还非常受到喜爱,那么就推荐给GX4001,这样就有5千万搞笑视频爱好者可以看到。
视频被上传时,很多制作者也会打上标签,比如“#搞笑”,这些标签也可以通过加权来确定视频类型。因为字节跳动有很多产品,比如头条,头条爱好者的标签也也可以通过加权来确定用户类型。
这样就达到了用户和视频分类,优秀视频被推送给更多人的目的。每个视频就像是考试的筛选,视频是参加考试的学生,用户是评分的老师,成绩好的视频就可以往上晋级。
当然,视频和用户分类也可以使用智能算法来做。
我以上举了负反馈在各个领域的例子,这些只是其中非常小的一部分,负反馈存在于世界的任何地方,就像氧气一样。没有负反馈,世界都不可能正常运作。人们并没有认识到负反馈分布之广,以及威力之强,而一旦我们学会了系统思考的角度来看待世界,那么我们对于系统的分析和优化能力将大幅度提高,进而推动社会大步前进。
摘自《世界十大学习方法》,世界十大学习方法,帮你提高学习效率,降低学习成本!!!
通用方法论
十大学习方法的思维导图
,