在大数据领域,一种新角色开始出现,被称为分析工程师,根据数据工作流和团队的规模,这个角色可以帮助组织加快高级分析工作。

大数据分析工程师与程序员(大数据中的分析工程师)(1)

大数据的成功通常是团队合作的结果。但随着数据的变化和技术的进步,人们在大数据游戏中扮演的角色也发生了变化。

这就是我们现在看到的趋势,一种叫做分析工程师的新大数据角色正在崛起。根据dbt实验室的社区和数据主管Anna Filippova的说法,分析工程师是组织数据仓库的人,这样其他人就可以轻松地查询数据。

大数据分析工程师与程序员(大数据中的分析工程师)(2)

Filippova说:“分析工程师就是在一个数据团队中,有一个专注于从数据中创造意义和结构的人,这是很重要的。将数据作为一种产品来生产,在公司中定义每个人都应该知道如何使用的高质量核心表,并开设培训课程,教人们如何使用SQL,如何使用这些数据集——诸如此类的事情。”

换句话说,根据Filippova的说法,当dbt将数据工程师以前手工或编写脚本所做的大部分工作自动化时,分析工程师的角色就出现了。

“他们也称自己为分析工程师,因为他们基本上是在将软件工程最佳实践应用到分析艺术中。”她说。

在Indeed和Monster的招聘公告栏上快速搜索一下,目前并没有大量的分析工程师职位空缺。在某些情况下,搜索引擎会返回数据工程岗位的结果。

Filippova是通过一条迂回的道路进入分析工程行业的。在加入dbt实验室之前,她在GitHub的一个数据研究团队工作,并对数据集成任务的随机执行方式感到沮丧。

“我喜欢帮助人们做决定,但我和其他一些人一样,意识到当你所有的数据都非常混乱的时候,做决定真的很难,我可以看到每个人都在复制彼此的脚本,做事情的效率真的非常非常低。”

所以她就自己动手了。花时间组织人们正在使用的各种数据转换脚本,以提高数据分析师团队的效率。于是GitHub的分析工程团队就这样诞生了。最终,她决定去为分析工程师提供最大帮助的公司工作,这就是她在dbt实验室工作的原因。

大数据分析工程师与程序员(大数据中的分析工程师)(3)

她说,许多分析工程师使用dbt来执行数据转换任务。这家原名Fishtown Analytics的公司,以及dbt社区,建议通过雇佣一名分析工程师来组建一个数据团队,“然后快速雇佣一名分析师,而不是数据工程师。”

由于现代数据堆栈正在自动化大量以前手工完成的数据集成工作,数据工程师的工作描述开始发生变化。在她之前的工作中,数据工程师更专注于保持前置系统的运行。他们基本上把数据建模留给了分析工程师。

Filippova在谈到GitHub的数据工程师时表示:“他们远远不能满足业务所需,不能解决业务存在的问题,因此很难建立一个能够解决这些问题的数据模型。”

将自己定义为分析工程师“通常等同于dbt用户,”Filippova说,“尽管不一定是这样。”

以前称为数据构建工具的工具当然很受欢迎。在一年的时间里,它的Slack频道从15,000个增至逾3.2万个。今年早些时候,这家位于宾夕法尼亚州费城的公司在完成了2.22亿美元的D轮融资后,估值超过40亿美元。

云对象存储的无限和负担得起的特性已经掀起了数据向云移动的浪潮——都可以称之为数据海啸。dbt工具已经成为服务于这些数据仓库的新兴数据堆栈的关键组件。其他成员包括ELT工具,如Fivetran、Airbyte和Matillion,它们帮助从源系统提取数据并将其加载到云数据仓库中,dbt通过使用Jinja开发的自动化SQL脚本作为转换层,Jinja是Python生态系统中使用的一种通用模板语言。

大数据分析工程师与程序员(大数据中的分析工程师)(4)

这种设置不仅帮助组织在仓库中移动大量数据进行分析,而且还使分析人员更容易从他们移动的数据中获得更多信息。这就是分析工程师的角色。

“很长一段时间以来,人们认为你拥有的数据越多,你的洞察力就越好。只要把更多的数据扔到问题上。一切都会好起来的,”Filippova说。“事实证明,重要的是什么样的数据,数据有多干净,结构有多好。”

,