图片来源@视觉中国一周前,诺贝尔物理学奖结果公布,值得注意的,获奖的三位科学家有一个共同点就是在复杂物理系统上做出了开创性贡献其中真锅秀郎和克劳斯·哈塞尔曼的研究对象是地球气候以及人类如何影响地球气候,乔治·帕里西研究的则是无序材料和随机过程理论,我来为大家科普一下关于数据仓库的数据分析?以下内容希望对你有帮助!

数据仓库的数据分析(探索图数据库商业化新路)

数据仓库的数据分析

图片来源@视觉中国

一周前,诺贝尔物理学奖结果公布,值得注意的,获奖的三位科学家有一个共同点就是在复杂物理系统上做出了开创性贡献。其中真锅秀郎和克劳斯·哈塞尔曼的研究对象是地球气候以及人类如何影响地球气候,乔治·帕里西研究的则是无序材料和随机过程理论。

无论是地球气候还是无序材料都是复杂系统的一种。复杂系统虽然系统内各个因素看起来毫无关系,却又是彼此相连的,类似“蝴蝶效应”:因复杂系统中某个微小因子发生了变化,导致整个系统发生变化。

图数据库,就是处理复杂系统的高手,它可以寻着数据之间或明或暗的关系,查询到那个可能引发系统改变的微小因子。

关系数据增长迅猛,跑出一众图数据库玩家

近来,图数据库备受关注,一个很大原因就是随着互联网的发展和各大企业数字化转型,关系数据越来越多,比如淘宝购物车中消费品与消费品之间的关系、今日头条用户浏览的信息之间的关系等等。这些数据,彼此之间组成了一张网状的虚拟图。

数据之间的网状关系让图数据库与传统的关系型数据库的计算方式产生了很大差别,传统的关系型数据库是以寻着表格信息计算掉每个数据之后得出结论,而图数据库深度关联数据之间的关系,让分析者能更多维度地观察和分析数据,让数据分析效率更高,洞察更深层的数据价值。

这也是为什么一些数据的处理,用传统数据库计算,需要耗费几十天,而图数据库可以将时间缩短到几十分钟的原因,前提是这些数据之间存在关系。

“到 2025 年,图技术(graph technologies)将用于 80% 数据与分析的创新,这一数据高于 2021 年的 10%,图技术将会促进整个组织的快速决策。”Gartner在《2021十大数据与分析技术趋势》一文中对图数据库未来市场空间也做出了判断。

图数据库的在关系数据处理上的优势地位,也让业界希望在图数据库领域有所作为的企业和创始人跃跃欲试。

在国际调研机构Forrester的2020年Q4的一份图数据库报告中,五家提供图数据库产品的企业入局领导者,而这五家企业中,有两家独立提供图数据库产品的专业公司,分别是Neo4j和TigerGraph。

今年上半年,Neo4j和TigerGraph相继拿下新一轮融资:Neo4j获得了3.25亿美元的F轮融资,由欧瑞泽 (Eurazeo)基金领投;TigerGraph 获得了1.05亿美元C轮融资,由老虎基金(Tiger Fund)领投。两笔大额融资侧面反馈了图数据库当前的市场行情,以及两家图数据库企业你追我赶的竞争局面。

图数据库市场玩家众多,玩法也不同。在上篇文章《被视为下一个“Snowflake”,图数据平台Neo4j高明在哪儿?》中,我们以Neo4j为例,对图数据库同数仓的差异、图数据库在主数据管理上的应用做了一个较为简单的介绍。而区别于Neo4j,TigerGraph也走出了一条不同的图数据库商业化道路。

选择闭源,自上而下打造KA标杆

2012年成立的TigerGraph,2017年才发布了第一款商用产品,2018年正式进入中国。虽然入局较Neo4j 晚了几年,但TigerGraph在市场上的表现毫不逊色。

Neo4j走得是常规的开源路线,用开源吸引开发者,然后促成后面的系列商业转化。但这种方式的问题在于,代码即便被开源出来,对项目比较了解的仍然是源码厂商。如果后期源码厂商对这种在图数据库上有深入应用的企业不能及时介入,就可能面临用户流失。

“用过Neo4j开源版的企业,有很大概率转化成TG的客户。因为在图技术领域来时,Neo4j更像是教学类产品,比较难支撑起庞大的企业级应用。”业界人士表示。

闭源,用商业的力量自上而下来约束项目向好的方向演进,以订阅付费的形式,并提供免费版本降低开发者使用门槛,是TigerGraph选择的路线。

所谓自上而下,就是先行打造大客户使用案例,在其他客户看到使用效果后跟进。因此,TigerGraph的业务人员接触最多的就是企业数字化转型中的决策者们,他们可能是CEO、CTO、CIO,当然也可能某个业务线的负责人或者项目经理。这就要求,TigerGraph能够率先解决图数据库应用中的关键的痛点和难点,比如如何解决庞大企业级应用中大规模数据的处理和分析问题。

TigerGraph的创始人兼CEO许昱曾有在推特、Teradata 等大规模社交软件和软件产品的的从业经历,对大规模数据分析和处理有着相对丰富的经验。正是早期的从业经历,让许昱开始寻找合适的图数据库工具,而后创立了TigerGraph。

也正是有着这样的创业渊源,TigerGraph逐渐形成了在产品功能上擅长解决复杂系统、大规模数据深入分析的竞争优势。

差异化:标准AI算法与通用语言

数据显示,TigerGraph 能够在每台机器每秒中搜索超过 1000 万(希腊人口)种数据类型和数据连接,每增加一个并行机器,这个数量就会翻倍。TigerGraph 还可以支持每台机器每秒对图中任何位置的任何数据点进行100,000 次更新。 独立测试证明,相比之下,其他数据库慢 10 到 1000 倍。

TigerGraph之所以能够在关系数据上达到这样的效果,一个很大原因在于,其对于AI模型算法的灵活运用。

在算法的使用上,Neo4j 只支持作为固定内置函数的算法,这意味着用户无法直接自定义算法本身。Neo4j 的查询语言Cypher 也被有意限制,Neo4j 开发人员代表他们的用户进行所有编程/定制。

而TigerGraph则使用了开源的标准算法,这让客户可以完全从头开始设计任何问题或编辑预配置的问题。而在查询语言上,TigerGraph使用的是GSQL 编程语言,对于熟悉 SQL 的数据科学家来说,可以很快上手。

TigerGraph打造的生态系统

TigerGraph 还创造了一种数据进化文化,其中连接的数据保持流动性,不断产生新的数据和连接,ML 模型走向真实。TigerGraph 通过企业的数据湖、数据可视化和 AI 工具完成了一个互补的生态系统。

云战略:与三大云服务商打通

2021年对于TigerGraph是一个特殊的年份,今年拿下C轮融资之后,TigerGraph加快了“云化”步伐。可以理解为这是TigerGraph迎合市场的一种行为。毕竟走闭源路线,让客户一开始就对产品买单,需要对市场风向做出快速的反应。

TigerGraph成立于硅谷,由美籍华裔许昱创办,这也让TigerGraph有了一层浓厚的国际化色彩。事实也正是如此,TigerGraph的全球市场由4大区域组成,以美国市场为主,其次是欧洲,然后是中国和亚太。

许昱向钛媒体App表示,当前,欧美市场对已经到了充分“云化”的阶段:他们倾向于选择有云服务配套的产品,即便一时用不到,云服务的灵活扩展能够备不时之需——云产品成为客户采购的关键影响因素。

此前,TigerGraph的交付模式是基于中大型客户的本地服务器或私有云提供产品和服务。2020年开始,TigerGraph从产品技术到团队进行了云化调整,调整后,同样是订阅付费,但客户可以选择使用与TigerGraph合作的公有云产品。当前TigerGraph的合作云服务商有AWS、谷歌云以及微软云。

当然,拥抱云,也可以理解为是TigerGraph降低图数据库使用门槛的另一项动作。无论是欧美市场还是中国市场,TigerGraph都已经打造了足够多的标杆客户,例如,全球十大银行,有七家已经采用TigerGraph;中国的头部大型企业,银联、国家电网和中国移动也已经是TigerGraph的客户。在打造了足够多的标杆客户之后,TigerGraph需要推进“向下”渗透的步伐。

在与主流云服务厂商对接之后,即便是小的开发者也能够方便地使用TigerGraph。“我们也有免费版本,只不过在数据容量上做了限制。”许昱告诉钛媒体App。

一周后,TigerGraph也将在中国举办一场Graph AI的峰会,届时还将吸引一批图数据领域的探索者。

(本文首发钛媒体App 作者 | 秦聪慧)