在中国短视频 APP 领域,「快手」从渗透率、用户数量上都名列第一,其日活跃用户已超 1 亿。在快速发展的背后,快手应用了很多人工智能技术。5 月 21 日,中国图灵大会(ACM TURC 2018)在上海举行。快手创始人兼 CEO 宿华和快手 AI 技术副总裁郑文出席了大会,并在会上向人们分享了快手在 AI 方面的探索以及应用。
最热门的短视频社交平台
快手成立于 2011 年,自 2013 年转型为短视频社交应用以来,已成为了国内最热门的短视频社交平台。在快手上,用户可以用短视频和照片记录自己的生活片段,也可以通过直播与他人进行交流互动。据快手 AI 技术副总裁郑文介绍,目前用户在快手上累计发布短视频的数量已超 50 亿条,而这些视频每天被播放 150 亿次,用户日均使用时长超过 60 分钟。
「我一直在思考 AI 应该用来解决什么样的问题,」快手 CEO 宿华说道。「这不是数学层面上的问题,而是能为社会、人类解决的问题。在这些年实践的领域中,我明白了技术最终都应该用于提升人类的幸福感。」
今天,快手已成长为拥有 1 亿日活跃用户的庞大网络社区。在这里,每天都会新增 1000-2000 万条视频。每个用户打开快手,都可以看到有关任何一个地方的内容,涵盖生活的方方面面。面对总量达 50 亿条的视频内容,这家公司还希望能够照顾到所有用户,为每个人都带来关注。
这意味着必须对所有视频进行准确的内容标注,而人工智能是唯一的技术手段。
快手背后的 AI 技术
据宿华介绍,快手目前的人工智能技术主要应用在四个方面:视频生产、视频理解、用户理解、视频分发。
今年 4 月,快手上线了「快手时光机」功能,它能够在手机屏幕中快速模拟人从年轻到老去的面部变化过程。5 月,快手推出了「AR 换脸」的玩法。很早之前,快手还推出了基于人体姿态检测技术的游戏,这一切的背后是基于快手自行研发的 YCNN 深度学习推理引擎。快手称,该系统的核心优势在于其可以适配于各类高端和低端硬件,可以方便地跨平台部署。为了在移动端部署神经网络,快手的开发者对模型结构进行了优化,并大幅提高了运行效率。
快手的 YCNN 深度学习推理引擎是其 AI 技术实现的基础
为了实现更多视频玩法,快手探索了姿态识别、人脸关键点检索、视觉惯性和手势识别等方向,并最终将其依次实现。「快手会通过深度学习算法来检测用户拍摄的场景类别,并据此选择最适合的滤镜效果以提升视频的质量。」郑文表示。
「这其中还有和语音有关的理解,」宿华介绍道。「我们经常会发现视频中的很多信息是包含在音频里面的,特别是传递情绪。人类的很多情绪是在声音里面,再转化为语速、语调起伏。」
据介绍,快手目前视频最高的并发量约为 20 万。这意味着存在几十万并发、实时的语音识别需求。快手正在使用自研的机器学习平台处理这类业务。
训练高准确率的机器学习模型需要大量已标注数据,这对于快手而言并不困难,在它的社交网络中,每天都有上亿人次的人工标注行为发生。每个用户的点击、点赞、关注和转发行为,每一条视频的播放时长,用户之间的相互关系,都可以作为可用数据。但如何把这些行为数据和平台中的内容结合,进行连续、深度的分析,则是一个复杂的课题。
在获取大量数据的同时,快手需要理解用户,帮助观看者找到他最喜欢的内容,这就需要推荐系统能够理解每个人的偏好,甚至找到潜在的喜好,这样才能不断拓展推荐的范围。
快手使用了协同过滤模型等算法帮助人们找到自己的新兴趣。每个人都有不同的喜好,但也有相同的兴趣点,机器学习算法可以帮你找到类似的人,推荐他人喜好中和你不一样的东西——你很有可能也会喜欢这些新内容。
通过不断地数据挖掘,快手实现了高效的内容分发系统。
在视频分发上,快手希望能够在推荐热点内容的同时照顾到以往难以「火」起来的长尾内容。在发展早期,快手应用了逻辑回归等机器学习方法。而最近,基于深度学习方法的分发系统已经可以做到实时响应用户的行为,并更新视频推荐了。
未来展望
作为风头正劲的科技公司,快手正在努力加大对于人工智能等技术的研发投入,以不断提高用户体验。今年 4 月,这家公司与清华大学合作成立了未来媒体数据联合研究院,其中包括 AI 技术相关的诸多课题。
视频是一种多模态信息,人们一直希望在视觉、音频和自然语言中获取观点和不变性表示。具有提取不变性表示的识别能力可以让机器从大量数据中学习特征,从而获得接近人类的识别效果。在快手看来,机器学习最终或许可以像人一样能够理解视频中人物的感情。
「也许有一天,我们的人工智能系统能够像人一样理解生活中的视频片段,」宿华表示。「机器将能够更好的理解人类的情绪、情感,甚至灵感。我很期待那一天的到来。」
,