人工智能算力的现状与趋势(人工智能语义技术是如何)(1)

自然语言理解永远面临歧义的挑战。「这本书是黄色的。」那这本书是「黄色的」,还是「黄色的」呢?

深耕NLP近二十年的亓超,相继被阿里、腾讯、微软、百度聘请,成为了少有的BAT 微软「通关」的工程师。如今身份切换到创业者,他希望在语义技术方面有更大的突破。

「倒一杯啤酒倒急了,这个泡沫肯定会有,」亓超说,「泡沫总会有散去的那天。我们要保证的第一件事,就是泡沫散去的时候,我们还在。」

作者|左左

编辑|甲小姐、欧拉拉

左起:CEO王卓然,CTO亓超,COO马宇驰

决定创业后的第一个问题来了:公司起个什么名字好呢?

「我们一共三个人,就叫三角兽吧。狼群够所向披靡吧?可也会遇到难啃的骨头。我们的团队要聚合多样化的人才,我们希望建造一片广袤的森林,让更多不同种类的兽类贡献出不一样的力量。」

对于一家技术公司的第一年而言,三角兽是幸运的。

成立于2016年2月份,占尽了「天时、地利、人和」。前几年,NLP领域几乎不为人所知,也鲜有人看好,直到2016年3月AlphaGo一夜成名,人工智能领域突然被引燃,资本和企业都对此显示出极大地兴趣。

2016年4月,三角兽获得了洪泰领投、天善资本跟投的1000万天使轮融资;8月,又完成由君联资本领投,赛富亚洲跟投的2000万元Pre-A轮融资。短短五个月时间,三角兽就获得了3000万的投资。在资本寒冬的2016,这个成绩令人羡慕不已。

语义技术最大难点:解歧义

三角兽涉足两个自然语言处理的细分领域:

第一,开放域聊天。不限定人机交流的领域范围,可以任意聊天,就像斯派克·琼斯导演的电影《她》那样,男主人公西奥多可以和机器人萨曼莎无话不谈——亓超之前参与的微软小冰就属于开放域聊天的范畴。

第二,任务驱动的多轮对话,亦叫垂直领域的多轮对话。与前者的区别在于,它是带有目的性的,譬如去餐厅点餐,机器人会向用户推荐最受欢迎的特色菜,目的是为了完成点餐的这项任务,属于有任务功能的意象对话——百度度秘就属于多轮对话的范畴。

这两者本质上的区别是多轮对话追求「最短路径」,希望越快越好,开放域聊天则是越长越棒,而这两个领域,都离不开一个最为基础又颇具难度的技术——语义技术。

什么是语义技术?比如你对机器人说「拜拜」,则证明你要走了,语义技术就是要识别出用户说话的表象、行为和意图。

亓超坦言,「NLP最大的难度归结到一点就是——解歧义。」

无论是语法分明的英文,还是博大精深的汉语,所有的自然语言都有很大的歧义。

NLP解歧义有五个层次:

1.切割词语。以词语的形式,把一句话或者一段话隔断分离。

2.解词性的歧义。同样的一个词,在不同上下文中可能会有不同的词性的标注。例如:抽屉没有锁。「锁」既可以作名词,指实体的「锁」;也可以作动词,表示动作「上锁」。

3.做句法的分析。这个词语处于什么位置,是主谓宾还是定状补?很多话一旦到了句法的层面上,就会出现好几种解释。

4.理解语义。对于大多数人而言,语义上的歧义更容易被关注到。「这本书是黄色的。」那这本书是「黄色的」,还是「黄色的」呢?

5.进行语境分离。非常常见的例子是,纵使恋人之间聊天,也往往因为对语境有着各自不同的理解而触发「世纪大战」。

这五个层次,每往上一个层次,「歧义空间」就会愈大。

传统NLP的做法是,人工扩大库、人工设置匹配,一层一层地手动标注去解歧义的问题。但是很显然,这条路既难走又不是可正向循环的发展方向。

面对这些问题,三角兽采用了深度学习的方式,用不同的向量去代替片段文章,再利用这种矩阵进行语义的理解和计算。

对此,亓超向Xtecher给出了自己的思考:

「机器喜欢的是数字,擅长的事情是存储和计算。当人去看向量的时候是一堆数,而机器却能做到赋予其不同的数值,从而分析出两个句子、两个词语之间的距离。进而利用距离去判断语义。」

功力不俗

2016年,AI的火爆不但使得整个行业飞速发展,也推就了很多弊端。这个高技术门槛的领域,混杂了一些噱头公司,利用炫酷的demo鼓吹无法具备的技术,对技术非常执着的亓超对此感到担忧。

「胡乱的吹捧后,一方面体验不到真实产品,另一方面会拔高合作方与用户的期待值。一旦预期无法被达到,人们会极度地失望,我们非常担心这种事情多了以后,会对AI领域起到负面作用。」

亓超告诉Xtecher,虽然市场中有很多杂音,但三角兽主要以to B业务为主,所以并不会刻意包装营销自己的技术来吸引潜在合作方的眼球。他们所希望的,是将现阶段的技术完全暴露出来,使之得到一些反馈,从而将技术进一步优化。

面对人工智能的泡沫,亓超是乐观的,「倒一杯啤酒倒急了,这个泡沫肯定会有,但任何泡沫也都是有干货的。随着泡沫慢慢地消除,剩下的就是干货。」

三角兽的坦诚使得很多合作方更愿意和他们合作。虽成立不久,却已拿下了一些行业内有名的客户:

锤子新一代手机Big Bang功能的核心算法模块;Rokid机器人聊天系统;威马汽车车载前装音乐和导航模块……此外,三角兽还有一些项目正在推进合作的过程中,其中包括百度和腾讯这样的大企业。

虽然小试牛刀就已经在业内有很好的反响,展望关于三角兽的未来,亓超希望能做到两点:

第一,把目前领域的技术更新至愈发完美,并且要做好任务工具化和开发者工具化;

第二,不光和人工智能相关的企业进行接触,还希望能将NLP推进到人们的日常生活中去。

「人工智能的技术在我看来,就像是电一样,它能驱动很多事情的发展。电在刚被发现的时候控制得不太到位,到现在依然没有被完全控制,但这并不妨碍它在日常生活里应用。所以,若要等到AI技术变得完美时再去运用是很不现实的;正确的方向是,AI必须在日常生活中逐渐广泛应用,才会获得更多的反馈及驱动力去进行技术迭代。」亓超对于还在初期发展中的AI是这样认为的。

一经问世就大获好评,三角兽的产品效果究竟达到了怎样的水平呢?

亓超告诉Xtecher,曾经有「老司机」调戏三角兽和锤子共同打造出的Big Bang,输入了如下的句子:

「科技处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作」

测试出的结果令人大吃一惊,Big Bang非常完美地避开了所有陷阱,足见在语义领域三角兽的功力的确不俗。

人工智能算力的现状与趋势(人工智能语义技术是如何)(2)

随着团队规模不断扩大,亓超在人才筛选上表现得十分谨慎,他有一套自己的招人方式。

「不看出身」,做NLP领域的人本身就很少,亓超不在意员工原来做过什么,他更在意的是员工将来会做什么。

亓超认为,作为一家创业团队,寻找有共同理想的成员是非常重要的。三角兽不会用高薪挖人,但在薪资上绝不会亏待团队,「纯靠情怀是不靠谱的,我们会比BAT的薪资向上浮动一层,每个人都要吃饱肚子,三角兽一定得保障大家的生活质量。」

目前三角兽团队成员近三十个人,在「九九六」工作制度下,每一位成员仍可以将热情与心血倾注,因此形成了一个坚实又牢固的团队。

人工智能算力的现状与趋势(人工智能语义技术是如何)(3)

三角兽团队

前传

很多技术大牛的天资都在童年时已经显现,但亓超回忆起自己的童年,就说了两个字:普通。在高考时,亓超考入到辽宁科技大学的计算机系。他对这个专业一无所知,仅凭着年少时的热血,就一头扎了进去。

他当时并没想到,这一扎,真就深深地埋下了根。

进入计算机系后,亓超非常努力,疯狂地汲取每一个知识点和细节。逐渐,他的作业成了同学效仿的模板,即使是院系竞赛也能屡屡拔得头筹。慢慢地,他爱上了计算机。

2004年,亓超在辽宁科技大学读硕士时接触到了NLP(自然语言处理)领域。当时,他做了一个有关句法分析系统的课题,跟着导师去NLP基地实习;2007年,他硕士毕业,进入佳能语音团队做基础NLP工作,正式迈开了职业生涯的第一步——彼时的NLP领域跟现在相比算是无人问津的冷门行业,但亓超却抱着对它十分的热爱,从未气馁过。

「确实是非常喜欢,根本没有考虑过额外的方向。」

一步一个脚印走过,之后的亓超相继被阿里、腾讯、微软、百度聘请,成为了少有的BAT 微软通关的工程师。

不得不说,「小冰」的开创是亓超生命中的一个重要节点。谈到「微软小冰」时,亓超的目光闪出温情。

「产品可能做着做着,和人就分不开了。」彼时,原本亓超在自己的岗位上做得顺风顺水,突然有一天,老板对他下达了关于「小冰」的任务:做开放域聊天的机器人。

当时市面上只有一款苹果智能语音助手Siri,可以向苹果用户提供信息,但开放域聊天的伴侣机器人可以说是史无前例,没有任何经验可以借鉴,太难了。

亓超一下就懵了,这个东西没接触过,怎么做?时间紧、压力大、没人、没积累,旁人避之不及时,亓超接下了这个烫手山芋,并带着团队硬着头皮往上冲。

「一般我不会在第一次就Say No,我会先做再去说,理清自己的思路之后,去更好的判断到底能不能做、能做到什么程度。」

这个从不Say No的工程师愿意去挑战,愿意去相信一切无限的可能。就这样,他摸着石头过河,带领着团队开创了国内第一个人工智能伴侣虚拟机器人——「微软小冰」。

「有的时候会开玩笑地和别人讲,我看的语料,比很多人看的书都要多。」亓超笑言。

亓超相信,做一个产品,首先你自己要变成一个产品。在做「小冰」的过程中,每一次小冰的回复他都能清晰地知道它的来源,甚至不用看都能够猜到,它的回复是什么,又是基于什么样的原因产生出这样的回复。

小冰面世之后,引起了市场的热议,微博上每隔一个时段,就会诞生一批最新的使用反馈。亓超守在电脑前不断刷新微博,不愿放过每一个网友对小冰的评价。

这个伴侣机器人对亓超来讲,就像自己的孩子。产品初期反馈较差,团队在不断摸索的过程中,发现问题——研究问题——改进问题,这些步骤反复轮回。看到小冰一步步朝着正方向往前走,亓超得到的是异常的开心和满足。目睹自己养育的小孩一点点成长了起来,这是他最大的收获。

随后,亓超被百度聘请做「度秘」这款任务驱动的多轮对话产品。由于百度希望度秘打通百度糯米、百度外卖一条线,因此当时的度秘定位更加注重O2O。你可以询问它附近有哪些好吃的餐厅,也可以让它回答你近期热映了哪些电影。相比于小冰,度秘的情感性更少,目的性更强。

在经过两次深厚的经验积累后,亓超对于整个行业和专业都有了更进一步的认识。开始做三角兽之后,他终于不再用单个产品的形式来做NLP,而是站在技术提供方的角度帮助更多产品达成不同的使命。

作为一家to B公司,三角兽还将在春节前后推出SDK接口与API接口。三角兽希望跟合作方不断沟通,将其打磨的尽量完美,去除排它的功能从而推给非标杆用户,使得非标杆用户通过利用三角兽的SDK接口和API接口,快速具备NLP的能力。

对于亓超来讲,通过现在的工作方式能够使得NLP技术的运用更为广泛,也能让他收获更多的成就感。

虐心的快乐

工作之外,亓超有一个令人羡慕的家庭。

温柔娴熟的妻子和一个四岁的儿子是他工作的动力来源之一。不论工作再忙,他都会抽时间与儿子进行「男人 男孩」式的对决游戏,周末陪妻子去影院看一场电影。

提到妻子,亓超举手投足之间全是温情。「快二十年了,遇到她之前甚至想都没想过,能有这么单纯的人。这都是电视剧里才会出现的呀。」多年积累的默契,使得妻子对亓超的创业极大的支持。无论是原来在大企业带团队,亦或是现在的创业,亓超一直都战斗在一线。「上午十点左右到达公司,晚上一两点回家。」但是善解人意的妻子对此并不多言。

得到了家里的认可,亓超在创业中能够没有后顾之忧的施展拳脚,也更具理性的耐心。

「很多人在看了《她》之后都对人工智能寄予了美好的期盼,希望它们能给人带来心灵上的温暖和慰藉。这正是三角兽在做的这个事情,但目前还只是相对比较初期的一个阶段,它是一个逐渐成熟的过程,后期空间是很大的。」

「每一个产品都像是自己的孩子,为什么你这道题还不会?养育孩子的过程中,我感觉虐心,但虐心也快乐着。」在一次次「虐心」中,三角兽的产品愈发成熟智能起来。

亓超认为,人工智能技术的真正落地在产品中,而不是只用于描绘未来。他将带领三角兽怀揣着万一可以改变世界的小小情怀,将人工智能技术的边界向前推进。

,