ai人工智能讲解(理解的场景与含义)(1)

Netflix的一位资深数据科学家训练了一个AI来检测电影中的接吻场景。

Netflix(Nasdaq NFLX) 成立于1997年,是一家在线影片租赁提供商,主要提供Netflix超大数量的DVD并免费递送,总部位于美国加利福尼亚州洛斯盖图。

ai人工智能讲解(理解的场景与含义)(2)

图1 Netflix应用

导读

通过人脸与物体识别的深度学习算法,人工智能AI可以识别由专业演员表演的接吻场景。

人工智能系统能够更好地洞察人类最亲密的活动。

ai人工智能讲解(理解的场景与含义)(3)

图2 电影"幽灵"

实现过程

这项基于人工智能的接吻检测研究来自Netflix资深数据科学家阿米尔·齐艾(Amir Ziai)

当时他正在完成研究生课程,以获得斯坦福大学(Stanford University)的人工智能硕士学位。

就像一个从未被吻过的人一样,AI开始通过观看浪漫电影片段来学习基本知识。看看好莱坞明星是如何亲吻的。

ai人工智能讲解(理解的场景与含义)(4)

图3 情侣街头接吻

Ziai从过去一个世纪的好莱坞电影数据库中挑选了有代表性的100部电影样本。然后,他将不同的电影片段手工标记为接吻或非接吻场景,并使用这些片段中的静止帧和声音片段来训练深度学习算法,以检测接吻的景象和声音。

Ziai说:“现在还不清楚,吻检测方法是否适用于更多的性行为场景。在我的训练中,我远离了过度的性场景,以确保该模型不会混淆接吻和性。"

ai人工智能讲解(理解的场景与含义)(5)

图4 海绵宝宝的飞吻

Ziai目前的雇主Netflix没有参与斯坦福大学的这项研究,这项研究的详细情况发表在arxiv上。

但不难想象,Netflix或YouTube、Facebook、Instagram和TikTok(抖音)等处理大量流媒体或存储视频的公司可能会对这些应用产生兴趣。

早在2019年4月,谷歌就宣布其Pixel智能手机已经进行了PhotoBooth功能更新。当智能手机摄像头拍摄的一个框架内检测到接吻时,手机就可以自动拍照。

ai人工智能讲解(理解的场景与含义)(6)

图5 pixel手机

Ziai展示了接吻视频检测技术,为未来的应用程序提供了线索,这些应用程序可以自动对视频内容进行分类,为观众创建个性化视频推荐,甚至可能将某些视频作为在线内容审核的一部分进行筛选。

ai人工智能讲解(理解的场景与含义)(7)

图6 图像识别,人、羊、狗

OpenAI的战略和沟通主管杰克·克拉克(Jack Clark)表示:“这是一个很好的例子,说明了现代计算机视觉技术使开发特定的'感知和响应'软件变得相当容易,这些软件被引导到定性/非结构化的事物."

ai人工智能讲解(理解的场景与含义)(8)

图7 openai是一家人工智能研究公司,它发现并实施了安全人工通用智能的途径。

相关的研究成果

在AI识别接吻场景的时候,最成功的深度学习模型是RESNET-18,这是一种图像分类算法。它已经对流行的ImageNet数据库中的100多万张图像进行了训练。为了倾听接吻的声音,一种被称为vggish的深层次学习模式在每个场景的最后960毫秒的音频片段上进行了训练。

ai人工智能讲解(理解的场景与含义)(9)

图8 ResNet-18网络结构

这种双管齐下的训练,即同时处理图像和接吻音频的方法,帮助整个模型获得了相当令人印象深刻的分数,0.95(可以理解成识别准确率)。

ai人工智能讲解(理解的场景与含义)(10)

图9 这一个采用数据流图(data flow graphs),用于数值计算的开源软件库

但是,当它在一些电影场景中遇到更复杂的视频编辑和镜头时,这个模型仍然步履蹒跚。

例如,演员接吻的宽镜头有时会混淆算法,因为大部分镜头都是由背景场景组成的。

ai人工智能讲解(理解的场景与含义)(11)

图10 人工智能的应用

经过大量训练的AI模型,现在很难确定它是用哪种特定的数据模式来实现预测的。但在好莱坞接吻场景中,深度学习模型似乎更关注与演员面部相关的图像像素。可以想象,这种AI是通过演员的面部表情变化(像素变化),以及视频的上下文语义,实现预测的。

总结

另一个问题是,这样的人工智能模型能否在社交媒体上常见的视频类型中,准确地检测接吻场景。

这一挑战可能需要在更大的视频数据集上进行更多的训练。

尽管如此,一些非常初步的测试表明,这种人工智能的吻检测可以被更广泛的应用。

文 | Jeremy Hsu,IEEE Spectrum,24 Jun 2019 | 15:29 GMT.

通信M班长编译

看到这里,给班长点个赞吧。欢迎在评论区留言讨论!

,