十本值得看的算法书(年数据科学家必读的)(1)

照片由思想目录在Unsplash上拍摄

帮助您成为更好的数据科学家的技术和非技术书籍

阅读无疑是数据科学家最重要的属性之一。随着通过 YouTube 视频、课程和博客涌入的信息(是的,我得到了讽刺),我们认为我们可以访问数据科学家理解技术概念所需的一切。然而,阅读书籍有很多好处,我们可能会因为其他来源的信息过载而错过。因此,我决定写一些与当今数据科学家相关的博学标题。

排名不分先后,我读过的一些最有趣的书帮助我成长为一名数据科学家。让我们潜入吧!

1. Freakonomics:一个流氓经济学家探索一切的隐藏面

作者:斯蒂芬·J·杜布纳和史蒂文·莱维特

十本值得看的算法书(年数据科学家必读的)(2)

书籍封面的副本(来源:维基百科)

如果你还没有听说过芝加哥大学经济学家史蒂文·莱维特和纽约时报记者斯蒂芬·J·杜布纳于 2005 年出版的这本书,你将不得不生活在困境中。它已经被认为是经济学家中最受欢迎的书籍之一但是这本书对数据科学家的重要性并没有得到足够的强调。

这本书考察了人们拥有的许多日常信念,并应用计量经济学和数据挖掘方法来揭穿这些信念,例如“是什么导致美国犯罪率减少?”、“毒贩为什么要和父母住在一起? ”、“老师在评分考试时会作弊吗?”。作者提出了一些古怪的假设,然后采用结构化数据分析方法来证明数据科学家经常做的事情。

本书的重点不是教你如何进行数据分析或如何使用尖端技术。相反,本书侧重于数据科学的基础:提出正确的问题,寻找数据中的模式,识别打破传统观念的正确数据源,并提出更多问题。

事实上,我强烈推荐给那些刚刚进入该领域的人,看看你是否有兴趣在数据科学领域从事全职工作。

2.赖以生存的算法

作者:布赖恩克里斯蒂安和汤姆格里菲斯

十本值得看的算法书(年数据科学家必读的)(3)

由PT Medika点击的算法生存的封面图片

这本书不仅适用于数据科学家,几乎每个人都可以从中受益。任何想要探索算法世界的人都必须阅读这本书。Christian 和 Griffiths 通过探索如何将它们应用到我们的日常生活中来深入理解各种计算机科学算法。Algorithms To Live By有助于解决常见的决策问题,并通过简单的写作和相关的轶事阐明人类思维的运作方式。

处理现实世界数据的数据科学家需要对算法和数据结构以及统计和概率知识有透彻的理解,这本书是深入研究算法世界及其相关概念的完美方式。

请注意,这本书不是关于编程或只是解决编码问题。它不会教你如何用各种语言编写所有不同的排序算法,而是会给你现实世界的例子,说明排序的应用位置以及它如何让世界变得不那么复杂。作者确实讨论了诸如时空复杂性、最优搜索等技术概念,但即便如此,这些概念也是以技术人员和非技术人员都能理解的方式进行讨论的。

这种技术概念的可访问性是我喜欢这本书的原因,也是我向数据科学家推荐这本书的原因,因为数据科学也是一个多元化的领域,人们来自经济学、统计学、心理学、商业等背景。这本书确保算法的垄断不仅仅由计算机科学家持有,并且这些知识可以与来自不同背景的人共享。

3. 黑天鹅:极不可能事件的影响

作者:纳西姆·尼古拉斯·塔勒布

十本值得看的算法书(年数据科学家必读的)(4)

Goodreads《黑天鹅》一书的封面

这是一位前期权交易员的书,于 2007 年出版。它回顾性地讨论了罕见且不可预测的异常事件的极端影响以及人类倾向于为这些事件找到简单化的解释。这些异常事件被称为“黑天鹅事件”。

根据Investopedia的说法,黑天鹅是一种不可预测的事件,超出了通常情况的预期,并可能产生严重后果。它们具有三个主要特征:

具有讽刺意味的是,这本书是在 2000 年代最重大的黑天鹅事件之一——2008 年金融危机之前出版的。在我写这篇文章时,我们正在摆脱另一场黑天鹅事件,即 Covid19 大流行。

黑天鹅事件这个名字来源于这样一个故事,即所有天鹅都是白色的,因为人们从未见过其他任何东西来说服他们。然而,他们震惊地遇到了一只黑天鹅,这让他们终于意识到黑天鹅的存在实际上是基因可能的。

这本书有很多关于不确定性、概率、风险和人类决策的内容。作为数据科学家,我们经常处理异常值,并提出了许多方法来处理它们。然而,这些事件不仅仅是异常值,学习如何处理它们本身就是一种技能。塔勒布讨论了我们应该如何建立针对负面事件的稳健性并学会利用正面事件,而不是试图预测黑天鹅事件。对于使用可能受此类全球事件影响的真实数据的任何人来说,这都是一本很好的读物。

4.数学破坏武器

作者:凯茜·奥尼尔

十本值得看的算法书(年数据科学家必读的)(5)

Paula Ghete的《大规模杀伤性武器》封面图片

本书由哥伦比亚大学前数据科学项目主任撰写,2016年出版,2019年获得欧拉图书奖。

这本书探讨了数据科学和大数据如何越来越多地被用于加强社会中预先存在的不平等。Cathy O'Neil 分析了大数据算法在保险、教育、金融、警务等领域的应用,并展示了这些算法如何强化我们社会中存在的种族主义、不平等和偏见。

本书补充了当前围绕机器学习系统的可解释性和公平性的对话。强烈建议初出茅庐的数据科学家和资深数据科学家了解他们构建的模型的真正影响,尤其是在处理社会经济应用时。

5.用数据讲故事

作者:科尔·努斯鲍默·纳弗利克

十本值得看的算法书(年数据科学家必读的)(6)

威利的书籍封面

数据科学不仅仅是建立复杂的模型和对数据应用高级统计概念。它还确保技术和非技术的利益相关者了解您从数据中呈现的分析。这里的一个主要因素是您从数据中讲述的故事,这本书是了解更多信息的完美方式。

这本书深入研究了有效的可视化和沟通的世界,从你的数据中创造了一个关键的故事。作者提供了理论和现实世界示例的平衡,可以转化为您的日常工作。本书展示了如何使用传统和非传统工具从数据中挖掘洞察力并以可口的方式呈现。一些重点是如何:

  • 了解上下文的重要性
  • 为每种情况选择适当的图表
  • 将观众的焦点引导到您想要的位置
  • 消除相关信息周围的混乱
  • 将设计概念融入您的数据可视化中

我个人遇到过这样的情况,我知道项目的所有技术方面,但我仍然无法说服利益相关者或我的领导相信我的项目的影响,因为我无法讲述一个令人信服的故事。我现在希望我早点读过这本书并从中吸取教训。对于已经掌握技术概念并希望了解更多关于展示结果和令人信服的工作故事情节的资深数据科学家来说,这是一个很好的建议。

6.逐步使用 PyTorch 进行深度学习

作者:丹尼尔·沃伊格特·戈多伊

十本值得看的算法书(年数据科学家必读的)(7)

来自Amazon的使用 PyTorch 进行深度学习的书籍封面

PyTorch 是 Facebook AI Research (FAIR) 团队在Soumith Chintala的领导下于 2017 年开发的优化深度学习框架。自从发布以来,PyTorch 已经成为深度学习社区中非常流行的框架,尤其是在研究人员(包括我自己)中。

数据科学家必须了解 PyTorch,因为它是个人投资组合中非常有用的工具。PyTorch 的专业知识可以帮助您在工业界和学术界工作,而且 PyTorch 的受欢迎程度只会越来越高。

这本书是开始学习 PyTorch 的好地方,因为作者以非常清晰明了的方式写作,初学者和专家都可以理解。他涵盖了 PyTorch 的基础知识,如张​量和梯度,以及 PyTorch 在计算机视觉和 NLP 领域的应用。

7.构建机器学习驱动的应用程序:从创意到产品

作者:伊曼纽尔·阿梅森

十本值得看的算法书(年数据科学家必读的)(8)

Jake Klamka的书籍封面

如果我不谈论将 ML 模型部署到生产中,那么任何关于数据科学书籍的文章都是不完整的,这是现实世界数据科学的一个重要方面。了解如何构建数据应用程序已成为当今数据科学家必备的技能。

本书解决了机器学习中模型部署过程的复杂性,并提出了解决该问题的框架。本书的主要重点是创建一个易于理解的指南,以帮助人们浏览开发基于 ML 的应用程序的过程。作者重点关注了模型部署的以下几个方面:

  • 规划 ML 应用程序并确定成功标准。
  • 部署过程和陷阱
  • 微调 ML 模型
  • 在部署阶段后监控模型

这本书推荐给具有一定行业经验并希望进入产品开发领域的数据科学家。它还需要精通 Python 编程。

结论

在这篇文章中,我谈到了一些帮助我成为更好的数据科学从业者的书籍,我希望也能帮助其他数据科学家。显然还有很多我想提到的书,所以我可能会写另一篇类似的文章。我也总是乐于接触新书,所以如果您有任何建议,请在回复中加入。

,