照片由Afif Kusuma在Unsplash上拍摄
在撰写和发表了 100 多篇与数据科学相关的文章后,人们经常在 LinkedIn/或通过电子邮件向我提出很多问题。
我把它们称为人们“不好意思”问的问题,因为我知道在一个有勇气给一个完全陌生的人写一封电子邮件的人背后,有成千上万的读者仍然在他们的脑海中保留这些问题(我曾经是其中之一)。
这里是其中的一些。
1. 作为一名数据科学家,我能赚多少钱?据 Glassdoor 称,数据科学家在美国的平均年薪为 104,235 美元。
但不要让数字欺骗你!这个数字可能因地区、国家、职位、行业等而异。就像在任何其他领域一样,你会发现薪水丰厚的专业人士和收入少得多的其他人。
2. 数据科学家实际上是做什么的?总体而言,数据科学家的工作是分析数据以获得可操作的见解。他们挖掘、清理数据并构建模型来回答问题并推动组织中的战略。
也就是说,数据科学可以以不同的方式应用,因此数据科学家的角色可能会因行业和业务目标而异。
要获得更广阔的视野,请查看这篇文章,了解 30 位数据科学家如何描述他们的角色。
3. 2022年数据科学仍是“最性感的工作”吗?取决于你对“性感”的定义。
如果清理和整理数据以构建驱动业务影响的模型对您来说是“性感的”,那么是的。
如果你认为薪水是数据科学中最性感的部分,那么它可能会随着就业市场或 IT 行业的任何变化而失去魅力。
4. 任何人都可以成为数据科学家吗?数据科学中使用的一些科目(数学和统计学)是在学校和大学教授的,而其他工具(SQL、Python 等)可以在线学习,所以,是的,任何人都可以成为数据科学家。
您应该问自己的实际问题是,这是否适合您的职业道路。
5. 我应该成为数据科学家还是数据分析师?如果你喜欢编程和统计,两者都是不错的选择。
主要区别在于他们的职责。如果您想使用数据来解决当前问题并制作报告和仪表板,那么数据分析可能是您的正确途径。但是,如果您想使用数据来开发机器学习模型并发现新的机会,那么数据科学可能适合您。
作为一名数据科学家,迟早你必须建立和理解机器学习模型,所以如果你不喜欢学习统计、概率、微积分和线性代数的想法,那么在走这条路之前要三思而后行。
6. 数据科学正在消亡吗?简短的回答,不。如果你想到数据在当下的价值,那么数据科学领域在未来消失的可能性就较小。
如果您想了解更多详细信息,请查看这篇文章。
7. 读作“SQL”还是“Sequel”?如果您的意思是 SQL(结构化查询语言),那么两者都是正确的。
不相信我?看看比尔盖茨在这个有趣的广告中是如何发音 SQL 的。
8. 我需要擅长数学/统计学才能成为数据科学家吗?是的,您需要学习数学和统计学才能理解幕后的大部分内容。
我知道数学和统计对某些人来说听起来很可怕(它曾经对我来说很可怕),但是,至少在数据科学方面,你不会无聊到死,因为你会看到现实世界的应用两个领域。
此外,您永远不会进行以前在学校/大学中进行的复杂计算,但您的计算机会处理这些。你的工作将是理解和解释结果。
9. 数据科学家会写代码吗?编码和编程有什么区别?数据科学家使用 Python 来处理数据,所以,是的,他们编写代码。
编码是用计算机可以理解的语言告诉计算机做什么的过程,而编程则包括在实际编写代码之前为程序代码创建大纲和结构。
文本编辑器是一种常用的编码工具(Atom、Sublime Text 或简单的记事本)。但是,对于编程,您将使用高级编辑器、调试器和分析工具来记录审查、考虑设计、进行测试等等。
10. 对于数据科学,我应该学习什么编程语言?应该使用什么IDE?数据科学中使用了不同的编程语言(Python、SQL、R、Julia),其中一些用于不同的目的。
两种最流行的语言是 SQL 和 Python。第一个允许您创建查询以获取数据科学项目中使用的所有数据集,而第二个帮助您操作这些数据集以分析数据和构建模型。
如果您是初学者,那么您使用的 IDE/文本编辑器并不是那么重要(只要它允许您打开.ipynb文件)。最受欢迎的选择是 Jupyter Notebook。
11. 我刚转行到数据科学,从哪里开始?这取决于你的背景。
如果您拥有 STEM 学位,那么您可能已经具备数据科学所需的基本数学和统计知识,因此您可以从 Python 或 SQL 开始。两者都在数据科学中得到高度使用。
如果您有不同的背景,您仍然可以从 Python/SQL 开始(编程时不会立即应用数学/统计概念)。也就是说,您不应该忽视数学/统计,因此请尝试在早期阶段学习它们。
作为一个经验法则,不要从机器学习开始,建立自己的课程来优先考虑你的弱点。
12. 我需要学位才能成为数据科学家吗?在任何职业中,学位总是一个加分项,数据科学也不例外。
也就是说,如果您刚刚开始数据科学之旅,您可以注册在线课程,一旦完成,就可以申请实习或入门级工作。找到工作的机会取决于您居住的地方。
随着您职业生涯的发展,您需要硕士学位才能专注于某个领域并获得更好的工作/薪水。
13. 我在哪里可以得到许多教程中使用的数据集?有不同的网站可以免费获取数据集。
最受欢迎的是Kaggle。在那里,您可以找到视频教程和指南中使用的几乎所有数据集。此外,还有其他网站包含特定主题的数据集,例如 MovieLens(电影评论)和 FiveThirtyEight(政治、经济和体育)。
也就是说,随着你职业生涯的发展,你会意识到最好的数据集类型是真实世界的数据集。大多数时候,您不会从上面列出的任何网站获取这些数据集,但您必须自己使用 API 或通过网络抓取来提取它们。
14. 既然可以通过 API 提取数据,为什么还要学习网络抓取?抓取网站合法吗?很简单,并非所有网站都有可用的 API。如果有 API,他们将限制您每天可以发出的请求数量,因此您将无法提取尽可能多的公共数据。
关于网络抓取的合法性有很多争论。一些公司可以从网站上抓取数据而侥幸逃脱,而另一些公司则不然。
这是一篇完整的文章,我在其中描述了被认为是好的和错误的场景。在大多数情况下,出于教育目的,您应该安全地抓取公共数据。
15. 有Excel/Power Query,为什么还要学Python/Pandas?有很多工具可以完成这项工作,但您应该考虑的一个因素是可扩展性。
Excel 和 Pandas 都可以帮助您清理和整理数据,但是在处理大数据时,Python 环境会更方便。此外,作为一名数据科学家,您稍后需要使用 Python 构建机器学习模型(Excel 无法做到这一点),因此从头到尾使用 Python 可能会更有利于您的工作流程。
自动化也是如此。您可以使用 Python 和 Power Query 自动执行任务,但在自定义和可扩展性方面,Python 会更方便。
,