全栈数据科学的可预测崛起

全栈数据科学的可预测崛起

作为数据科学家,越来越意味着要成为全能型人才。

以前,只需要掌握一些pandas函数,并按正确的顺序调用model.fit()和model.predict()就足够了。但时代在变化。

在2024年,数据科学家在整个机器学习项目生命周期中都参与其中,从项目范围定义到模型部署和用户界面设计,这已经不足为奇。

新潮人士称这种新趋势为“全栈数据科学”,在本文中,我将探讨其起源,并探讨它对我们数据工作者可能产生的一些影响。如果你想了解更多关于数据科学的相关内容,可以阅读以下这些文章:
所有数据科学家都应该知道的三个常见假设检验
如何开始自己的第一个数据科学项目?
导航数据驱动时代:为什么你需要掌握数据科学基础
数据科学家常见的13个统计错误,你有过吗?

  1. 什么是全栈数据科学?
  2. 为什么它会成为趋势?
  3. 我如何准备/应对
  4. 我没有说的是什么

“全栈数据科学”一词在2022年末开始流行。那时,它通常根据所需技能来定义:项目管理、建模、MLOps、数据讲述等。

但尽管这些是全栈数据科学的一部分,我认为这些定义并不总是够深入。

对我来说,全栈数据科学不仅仅是拥有广泛的技能;它是对我们这一职业未来的完整宣言。

FSDS的基本前提是,数据科学家不仅仅是构建模型;他们应积极参与整个机器学习项目的生命周期。Shopify的高级数据科学家Yizhar Toren很好地总结了这一点:

全栈数据科学可以用一个词来概括——所有权。作为数据科学家,你对一个项目拥有从头到尾的所有权。

换句话说,你不仅仅等待“业务”来决定你应该做什么;你首先参与到塑造对话中。你也不会把模型交给机器学习工程师,并耸耸肩暗示“这现在是你的问题了!”你对模型的结果负责,并对如何最大化它们对最终用户的价值有意见。简单来说:你关心!

Shaw Tabeli在他最近的TDS文章中很好地提出了这一点。Shaw认为,FSDS的一个定义特征是,你不仅问“我们在构建什么?”和“我们将如何做?”,还要问“我们为什么要构建它?”最棒的是,凭借我们的分析头脑和对数据引擎室的访问,数据科学家非常适合影响公司的战略。FSDS是关于充分利用这些机会,而不仅仅是成为公司机器中的被动组件。

正如Pau Labarta Bajo所完美表达的:

Jupyter笔记本中的ML模型的商业价值为零

高管们对困在Jupyter笔记本中的概念验证模型毫无兴趣。他们需要的是能够通过持续响应新数据来提供实际价值的实时模型。

MLOps/ML工程的发展对此有所帮助,但我们离将“商业价值”作为模型默认指标还有很长的路要走。这就是为什么我认为全栈数据科学有很大前途的原因:我们需要数据科学家对商业结果负责,而不仅仅是通过将模型推向生产来间接推动这些结果。

在这一点上,我本可以给你一些关于成为适应性“终身学习者”的宏大陈述,但我们都没有时间听这样的陈词滥调。

相反,我认为分享三件我正在做的事情,以便成为更全能的全栈数据科学家。

要影响你模型的商业结果,你必须了解它们在生产中的使用方式。学习MLOps技能帮助我更好地与我们的机器学习工程师合作,使我们的团队能够更快速地响应不断变化的商业策略并进行模型更改。

技术人员以孤立难接触而著称。这需要改变。

最近,我花了很多时间与业务利益相关者交流。我不得不说:他们在数据科学方面是专家。真的!他们可能不知道XGBoost和外生变量之间的区别,但你不能低估销售人员或营销人员在我们数据科学家试图建模的工作流和业务流程中的领域专长。花更多时间与我们的利益相关者交流,可以获得很多价值。

机器学习系统的核心原则是:输入原始数据,输出转换后的数据(或预测)

但我们的最终用户很少通过原始数据表或JSON键值对与我们的模型交互。更可能的是,我们模型的输出将被转换成更漂亮/更干净/更顺畅的东西。

因此,我正在学习UI/UX设计。我不认为这是成为成功数据科学家所必需的,但它确实帮助我更全面地看待业务问题,而不仅仅是从机器学习的角度。

在你购买一门关于Airflow的Udemy课程或将你的LinkedIn简介更改为“全栈数据科学家”之前,有必要澄清几件事:

  1. 我不是说如果你不知道MLOps就找不到工作——大多数数据科学工作岗位并不要求具备显著的MLOps技能(尤其是在大型公司)。许多数据团队仍然足够大,可以容纳具有狭窄专业技能的人,如统计建模或数据可视化。正如我之前所说,全栈数据科学家的定义特征不是拥有某个特定技能,如MLOps或数据讲故事,而是对整个模型生命周期负责。这意味着你关心数据的收集方式以及模型在生产中的表现,而不是你可以在午休时启动一个Kubernetes集群。
  2. 我不是说数据科学作品集项目需要是“全栈”项目——实际上,我认为恰恰相反!在一个数据科学项目中,你完全可以展示你的超具体技术技能和兴趣。

感谢阅读!你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

原文作者:Matt Chapman
翻译作者:文杰
美工编辑:过儿
校对审稿:Jason
原文链接:https://towardsdatascience.com/the-predictable-rise-of-full-stack-data-science-8862dad32eb0