2012年,数据科学家被《华尔街日报》评为21世纪最性感的工作 《哈佛商业评论》. 然而, 许多公司仍在努力寻找和留住顶尖的数据科学人才, 一项研究表明 只有不到2%的数据科学家能留在这个岗位上 5年以上,数据科学家的平均任期只有1年.5年.
在刚刚纳入数据科学的公司中,团队领导可能会发现扩大团队规模是一项挑战. 没有明确的计划, 通常很难决定在哪个用例上工作以及团队采取哪个方向. 你也不清楚应该与哪个团队合作, 如何追踪成功, 以及如何雇佣合适的人.
如果您正在尝试构建或扩展您的数据科学团队,那么本指南非常适合您. 在这里, 你会学到一个团队的结构应该是怎样的, 如何使其能力符合组织更广泛的目标, 以及如何分配资源以扩大团队规模.
用一个小而强大的团队实现数据科学的成功
构建数据科学团队没有放之四海而皆准的答案. 然而,成功的数据科学领导者也有一些共同的主题. 在潜入指南之前, 向数据科学领导者学习他们是如何从头开始建立团队的.
为什么你需要团队建设计划
数据科学家有时很难找到他们业务目标的整体视图, 特别是当远程工作或在不同部门的数据科学团队中工作时. 这可能导致过于复杂的过程, 新员工入职缓慢, 低效率的工作流程, 不必要的重复工作.
领导一个富有成效的团队, 数据科学主管需要了解其团队当前的工作量并确定优先级, 选择正确的用例和工具集, 并为团队成员提供足够的系统访问权限. 例如,团队是否可以访问所需的所有数据? 他们是否在数据库和数据仓库中设置了帐户? 他们是否能够访问所需的计算机和工具? 制定计划可以帮助解决这些问题,并有效地分配资源和鼓励协作.
你的团队建设计划应该包括以下内容:
- 你的团队结构是什么样的?ie 中心化还是去中心化)
- 你打算如何将你的团队作为一个整体整合到组织中
- 如何分配资源
- 如何随时间扩展
- 你计划如何雇佣、吸引和留住顶尖人才
此外,这样的计划不应该是僵化的. 数据科学行业正在迅速发展, 你的计划过程应该适应这些变化. 不要害怕偏离计划, 尤其是当你的行业或组织发生重大外部变化时. 确保您的计划能够灵活地适应小的(尝试新工具或框架)和大的(开发CoE)更改.
数据科学是一个角色仍在不断发展的领域,不同公司的技能差异很大. 一个团队建设计划可以帮助你在市场上获得竞争优势,避免顶级人才流失到竞争对手那里. 你的团队建设策略应该定义角色和职责, 新员工培训流程, 继续教育机会和协作技术,使您的员工感到动力和享受他们的工作.
此外, 数据科学团队的成功部分依赖于团队内部的合作. 建立定期会议, 研讨会, 甚至是工程团队的团队建设活动, 业务发展, 或者销售来发展关系. 伙伴关系可以防止工作重复, 鼓励知识共享, 建立技能, 重用过去项目中的工件, 平均分配工作量. 同时, 这样的协作可以帮助团队从一个共同的角度来看待整个业务目标. 你的计划应该包括你将用来促进合作和归属感的工具.
建立一个具有不同专业的数据科学团队通常需要数年时间. 您的计划应该确定哪些领域需要技术技能,以及如何培训新员工或现有员工来填补这些空白. 以这种方式, 你建立和保留知识,并确保团队自给自足,即使在关键资源缺席或离开的情况下.
数据科学家通常是积极进取的人,他们寻找令人兴奋的东西, 尖端技术和项目. 如果你的团队总是在做重复和低技能的任务,那么他们的士气将不可避免地受到影响, 被拉进不同的项目,优先级相互竞争, 或者由于组织和外部因素而无法完成项目. 这将导致关键团队成员离开组织. 你应该, 因此, 计划如何用令人兴奋的项目来激励团队成员, 功的明确定义, 工作与生活的平衡, 绩效考核, 和认可.
白皮书
招聘和入职计划
这个招聘和入职计划模板指导数据科学领导者解决关键问题,帮助您在团队中找到和培训新的数据科学家. 该计划模板包括吸引顶尖人才的关键问题, 招聘过程, 在登机, 保留, 和更多的.
获取模板如何构建数据科学团队
建立数据科学团队没有正确的方法. 什么最适合你取决于你的业务处于哪个发展阶段, 可用预算, 以及企业文化, 除其他因素外.
虽然没有什么严格的规定要遵守, 你应该考虑的关键领域包括决定团队结构, 将数据科学融入组织, 分配资源, 随时间变化, 雇佣合适的人.
决定团队结构
数据科学团队需要各种各样的技能. 你需要会编程的人, 了解统计学和数据科学技术(从基础到AI/ML), 数据可视化, 数据争用和特性创建, 沟通, 并具有良好的业务理解能力. 不是每个人都需要所有技能,但你应该在整个团队中涵盖这些技能. 一开始,你会有更多的通才,他们能掌握各种各样的技能. 随着时间的推移和团队的扩大,你可能会开始创建不同的角色. 您还希望该团队与数据工程师建立牢固的关系, 质量保证/验证团队, 软件/机器学习工程师IT运营和支持团队.
以下是数据科学团队中的一些典型角色:
-
数据工程师 负责设计和建立数据管理系统. 他们创建数据模型,设计数据管道,并推荐技术. 作为团队的资深成员,他们也会指导其他参与者.
-
机器学习 工程师关注的是围绕模型的部署和基础设施. Their work relies on the tools and frameworks for updating models as well as creating interfaces for end users to easily see what their predictions might mean in real life scenarios; all while working closely with data scientists who deploy these tools at various points across our network.
-
数据科学家是数据科学团队不可或缺的一部分. 然而,对于数据科学家的定义还没有达成共识, 他们通常都使用统计数据, 数学, 帮助企业做出更好决策的工程和技术. 他们对数据的工作原理有深刻的理解,但也知道什么时候不值得分析, 使用他们的直觉和专业知识来指导团队如何最好地投入时间和资源.
-
产品经理 了解客户需求,并能够识别AI和ML用例,以构建解决方案. 他们推动产品开发从开始到发布,目标是坚持预算和时间表.
-
数据科学经理 雇佣数据科学家, 执行评估, 对工作负载进行优先排序和分配, 定义流程和标准, 与业务利益相关者沟通, 并最终, 拥有整个数据科学项目的所有权. 每个数据科学团队都是不同的. 在一个组织中机器学习工程师可以完成的工作可能由另一个组织中的数据工程师完成. 虽然您可能会发现这些典型角色在数据科学团队中一起工作,但它们也可能是数据科学团队结构的一部分,也可能不是.
数据科学在组织中的应用
你的数据科学团队的成功取决于它如何很好地利用数据对组织产生真正的影响. 你能利用数据来增加销售、降低成本或更好地取悦你的客户吗? 你的团队是否了解不同的业务产品, 服务, 以及与其他跨职能干系人团队无缝沟通的过程?
来帮助回答这些问题, 您需要选择哪种类型的数据科学团队结构最适合您的组织. 后, 您将了解企业中最常见的两种团队模型:分散式和集中式. 请注意,一个不一定比另一个好, 组织经常在分散和集中结构之间流动,这两种结构结合了两种模式的优点.
分散的模型
在一个 分散的模型,数据科学资源分布在组织中的不同团队中. 这种模式经常出现在一些公司中,这些公司的各个业务部门已经认识到数据科学的力量,并且已经开始雇佣或培训自己的员工来担任这个角色. 在这个模型中,没有中央数据科学团队.
分散模型的优势在于数据科学家完全集成到业务团队中, 正因为如此, 他们从整体上理解组织的产品和过程. 他们可以使用数据科学来解决问题, 比如削减成本或自动化手工流程, 以及认识到机会, 比如利用客户数据来定位新的人口统计数据,以增加销售额.
然而,分散的结构往往会产生筒仓. 当数据科学家在整个组织中单独工作时, 工作重复和缺乏标准化是很常见的, 分散报告. 如果领导层本身不精通数据科学,那么职业发展和指导可能会成为一项挑战. 另外, 更广泛的组织可能无法获得数据科学的全部好处,因为工作的优先级和重点是业务线而不是企业.
集中式模型
在一个 集中式模型, 数据科学家是一个独立的团队, 为组织中的其他团队提供数据解决方案. 集中式模型经常出现在认真使用数据进行决策的公司中, 分析, 和研究, 并乐于拨出足够的资金和资源.
集中式模式鼓励有经验的员工和初级员工之间进行指导, 提高了标准, 以及集中解决业务问题的方法. 这通常会导致高效的工作流程, 特别是在部署了正确的工具来管理工作负载和访问时.
然而, 数据科学家的部分职责是调查不同业务单元的数据需求,并提出可行的解决方案建议. 对业务和领域理解不足的团队无法提供准确的建议. 集中式团队需要确保他们完全了解业务的不同领域,以便做出明智的决策. 您可以通过培养团队与其他业务部门之间的沟通渠道来克服这一挑战(eg 午餐和学习,实践区域演示和演示会议).
卓越中心模式
集中分析团队, 或库斯, 为业务单位和分析小组提供高级技能和服务. 这个模型有几个好处,特别是对于大型组织. coe允许轻松地进行点对点学习, 交流最佳实践, 以及经验的分享. 除了, 此模型有助于确保所有分析人员都可以访问相同的资源和专业知识. 因此,CoE模型在大型组织中非常有效. 然而,对于资源有限的小型组织来说,它们也是有益的. 通过集中分析功能, 较小的组织仍然可以享受规模经济的好处.
A CoE模型 为了优先考虑数据科学需求,必须更多地通过关系和影响来运作,而不是直接分配或要求. 如果没有章程,跨职能和企业分析的机会可能得不到解决. 当涉及到公司内部的数据科学和机器学习时,CoE应该负责并成为主要的声音,以避免错过任何商业机会. 通过优先分析, CoE可以确保公司做出数据驱动的决策,这将帮助他们在竞争中保持领先地位.
分配资源
除了展示你的数据科学团队的能力, 你可以通过跟踪ROI来证明它们的价值. 例如, UPS的数据科学家 是否能够使用车载远程信息处理和先进的算法来预测车辆维护, 优化路线, 并缩短发动机怠速时间. 他们的投资回报率分析显示,他们节省了超过3900万加仑的燃料,避免了3.64亿英里的行驶.
数据科学团队很容易被拉向不同的方向. 这就是为什么您必须与业务定义优先级,并将您的团队分配给优先级项目的原因. 采用敏捷项目管理方法,确保项目在预算范围内按时交付. 您还需要定义kpi和其他衡量成功的指标. 但是,不要忘记留出一些时间进行实验. 这往往是真正的突破发生的时候.
随时间变化
为了确保可管理的工作量并交付更多的项目,您需要扩展您的团队和流程. 例如, 一开始, 您的数据科学家可能能够同时处理三个项目. 但是,如果在相同的人数下交付两倍的项目和请求,会发生什么呢? 您可以开发流程或工具来自动化这些测试吗? 你是否正在招聘那些理解自动化重要性的前瞻性数据科学家?
招聘过程
其中之一 高级技巧 要领导一个成功的数据科学团队,需要雇佣多样化的技能. 但这并不意味着每个职位都要有一个独特的专业人员. 而不是, 利用现有团队成员的优势,看看谁能承担更多的责任. 例如,您是否可以投资培训机器学习工程师来完成更多的数据科学任务? 你的数据库工程师能晋升为数据工程师吗?
如果使用公司内部的资源还不够,那就创建一个强大的、可重复的 招聘过程 使缩放更容易. 你最不希望看到的就是高离职率. 您应该定义一些流程和步骤,以便将成功的候选人纳入您的团队. 这可以包括被介绍给团队和业务, 举办初步培训课程, 熟悉不同的系统和业务流程, 授予对IT系统和数据仓库的基于角色的访问权限, 设置工作区, 并提供必要的软硬件.
达美乐企业MLOps平台 能否通过提供一个像笔记本电脑一样友好的环境,将新团队成员的入职时间减少75%, 配备了工具, data, 他们需要计算. . 它的中央存储库使搜索、复制和重用所有与数据科学相关的工作变得容易.. 这使得新员工更容易查看过去或当前的项目以进行学习,并开始为新项目重用工件.
结论
在本文中,您了解了为什么制定一个构建数据科学团队的计划是必不可少的. 你还了解了需要招聘哪些重要角色, 如何让数据科学团队融入你的整体业务, 如何有效配置资源, 以及如何随着时间的推移扩大你的团队.
Domino数据实验室 提供了一个企业MLOps平台,可以帮助您构建和扩展数据科学团队. 它为数据科学家提供了一个自助服务基础设施门户,以快速启动开发环境, 快速测试数据科学模型的模型工厂, 和一个 记录制度 这集中了以前项目中的所有工件. 数据科学家可以从过去的工作中找到、重用、复制和构建保存的组件. 版本跟踪可以在重用工作时避免冲突, 随着技术的变化, 您可以轻松地添加或删除新出现的工具.