5月25日-26日,由中国人工智能学会主办,南京市麒麟科技创新园管理委员会与京东云共同承办的2019全球人工智能技术大会(2019 GAITC)在南京紫金山庄成功举行。在第二天的人工智能与媒体融合前沿论坛上,快手科技多媒体内容理解部负责人李岩发表了主题为《媒体融合:内容与技术的融合》的精彩演讲。

快手运营策略研究(演讲实录李岩)(1)

李岩 快手科技多媒体内容理解部负责人

以下是李岩的演讲实录:

我的分享分为三部分。第一部分简单介绍一下快手;第二部分介绍 AI 技术如何帮助用户提升视频创作质量,降低创作门槛;第三部分介绍 AI 技术如何理解视频、理解用户,并做好分发。

一、快手是什么

快手是把自己定位成普通人记录生活和分享生活的社区型产品,通过短视频、照片以及直播的形式,帮助人们记录自己的生活,使每一个人都有机会被世界看到,也能看到更广阔的世界。

快手在 2011 年诞生,今年成立 8 周年,目前 DAU 已达到 2 亿。2011 年,GIF 快手是做动图的工具;2013 年移动互联网兴起,我们看到了短视频的重要影响和作用;2013 年 7 月,工具型产品转型为短视频社区。转型短视频社区之后,快手的数据实现了指数级增长,2015 年 1 月快手日活用户超过 1 000 万,截止到现在快手的日活用户已经到达 2 亿。在中国的互联网市场,日活用户 2 亿量级的 APP 非常少。凭借数亿用户几年的积累,现在有超过 100 亿条短视频记录在我们的社区里,并以每天新增 1 500 万条短视频的速度增加,4 年前这个数字只有几十万。

在快手里,用户记录了大千世界里的方方面面,在这里可以看到很多种真实有力量的生活,有些画面是我们在大众媒体看不到的。比如,鸭绿江的放排人在运输木材,把高山上的木材顺着水流运到山下,这种古老的水运方式已经很少被人知晓,在快手被数百万人关注到。还有城市工地上的“水鬼”,这个职业很小众,但一二线城市的每一座高楼大厦都需要他们,在建高楼大厦打地基时,需要用电钻挖几十米的深坑,电钻头掉了需要他们潜到深坑的浑浊泥水中,把电钻恢复原位。

普通用户记录的生活,涵盖的内容超越了之前记者或者专业人士记录、调研的范围。有数亿人在快手记录自己的生活,这里有当代的百工图,有全球各地的田野风俗,还有用户记录的各式各样的旅行生活,也有清华、人大等高校教授讲解知识进行知识传播,这些画面聚集起来就是一幅我们当代生活的清明上河图。

二、AI 帮助用户用更低成本创作出更高水平的视频

AI 技术如何帮助这款短视频产品做得更好。AI 技术是贯穿于快手的产品骨髓之中,应用在视频生产、视频理解、用户理解到视频推荐的整个环节。

视频创作环节,我们希望每个人都能成为自己生活的导演,用手机去记录生活,而且生成相对较高质量的视频。如何帮助每个人成为自己的导演?在视频创作环节快手广泛应用了 AI 技术,用科技赋能普通用户,使他们尽可能接近专业制作视频的水准。

我们希望让用户用更低的成本创作出更高水平的视频,这就需要让 AI 助力于内容生产。

比如,快手之前上线的一款魔法表情叫做“快手时光机”,用户可以在几十秒钟内看到自己容颜变老的过程。一个人拍自己的视频是很乏味的,我们希望用户能够体验到自己变老以后的容貌。

又比如,把 AR 技术应用在用户拍摄视频的环节,给现实生活的画面加入一些虚拟元素,这属于增强现实,使虚拟世界和现实世界更好的互动,使人们在记录自己生活时有更多的新奇体验。

再比如,我们会运用图像相关的算法,帮助用户矫正拍摄中出现问题的视频,如脏镜头导致的视频画面模糊、光线问题导致的画面昏暗及画面偏色的问题。

这些玩法和功能的背后是快手对前沿AI 技术的开发,涉及人体姿态估计、手势识别、背景分割等多个技术模块。这些都是快手努力将记录形式变得更加有趣的新尝试。

这里有一个挑战,上述技术都要在手机本地实时地进行计算与渲染。快手拥有数亿手机用户,其机型千差万别的,这要求我们的算法必须都能在所有机型上流畅运行,这对 AI 能力的要求非常高,非常消耗计算资源。为了解决这个问题,快手自研了 YCNN 深度推理学习引擎,解决了 AI技术运行受限于用户设备计算量的问题。

音频方面,我们也做了非常多的工作。比如之前专业的人在创作视频时,编辑字幕是非常痛苦的事情。现在通过语音识别技术,可以帮助视频制作者自动添加、编辑字幕,而且还可以以各种各样的形式展示字幕,借助 AI 技术极大地降低了生成字幕的成本。

在短视频场景里音乐起了非常重要的作用。据统计,快手的视频中有 60%~80%的视频用背景音乐烘托气氛。如何选择恰当的音乐表达心情,是不容易的事情。让用户尽量贴合音乐的节奏创作动作,对于用户的要求非常高,具备很强乐感的人非常少。

为了降低用户创作视频时选择音乐的门槛,我们开发了智能配乐及 AI 生成音乐的技术。智能配乐可以根据视频画面及用户画像为用户推荐适合视频画面,供用户选择喜欢的背景音乐。AI 生成音乐通过 AI 的分析算法,可以感知到视频画面中人的动作,然后让生成的音乐节奏匹配人的动作,这样极大地降低了用户创作视频时选择音乐的门槛,让大家更愿意创作自己的视频。

三、用AI 理解视频、理解用户,做好分发

上面分享的是 AI 技术如何降低人工创作短视频的门槛,使普通用户都可以创作出质量不错的短视频。用户创作并上传到社区后,我们又做了哪些事情更好地分发这些视频?

理解视频非常复杂,对人脸纬度的解析、场景类的解析、音乐类的解析等,这些都是从单个角度进行建模,其实视频需要多模态的解析。我们需要做到让机器高效地判断用户上传的视频是否符合规则的,判断视频内容是否原创,以及要做到把视频精准地匹配给对它感兴趣的用户。

让机器能够帮助我们管理好上传的海量视频,同时帮我们做好视频的推荐,且推荐给用户的视频是能激发用户兴趣的。这里还涉及用户理解,即让机器理解我们的用户,其中包括理解用户在社会学上的特征,以及用户的兴趣,包括他的短期兴趣爱好和中长期兴趣爱好,以及海量的能够代表用户特征的更小向量。

在视频的分发上,不希望头部的视频内容占据太多的曝光,我们用经济学上的基尼系数控制平台上用户之间的“贫富差距”。互联网上的注意力资源是非常宝贵的,我们希望这种宝贵的资源也能分给普通人,而不是像聚光灯一样聚集在少量的头部用户身上,所以设计了快手的推荐机制,无论是明星还是普通人在快手都是一样的。快手重视生产者的利益,重视长尾视频内容的分发。我们希望注意力资源可以向阳光一样撒给所有生产视频的用户,这样普通人就有机会被更多人关注,能够感受到被关注、被认可的幸福感。

通过短视频实现的记录,让人与人,以及人与世界连接起来。我们认为,建立这种连接是非常有意义的事情。我们每个人的内心深处都是寂寞的,都希望通过连接去获得关注、认可,并且能结交朋友。因此,快手用户之间的关系会粘性更高、更稳固。从整体来看,可以提升网民之间的信任。

(本报告根据速记整理)

CAAI原创 丨 作者李岩

未经授权严禁转载及翻译

如需转载合作请向学会或本人申请

转发请注明转自中国人工智能学会

,