跳到内容

    数据科学代表了分析驱动企业的下一个时代. 利用其潜力的企业将胜过竞争对手, 提高效率, 并创造新的收入来源. 当今的IT团队面临的挑战是,如何在不限制数据科学家的自由和灵活性的情况下,以一种能够增加治理的方式来集中数据科学基础设施.

    不采取行动将导致孤立的“狂野西部”, 不一致的技术散布在整个企业中, 超出了IT的范围,阻碍了企业从数据科学投资中获得价值的机会.

    成功的首席信息官和IT领导者将数据科学从业务的外围转移到核心,其结构和纪律提供了对最新技术的无限制访问, 可见性和可审核性, 与业务紧密结合.

    实现正确的平台将带来三赢:IT实现更好的治理,同时支持释放新业务价值的创新.数据科学家获得了自助服务和灵活性.该公司在数据科学方面的投资获得了更大的回报.

    什么是数据科学

    总的来说,数据科学将统计学与计算机科学相结合,以发现大数据中的模式,并使用这些模式来预测结果或建议行动或决策.

    数据科学代表了数据驱动业务的下一个前沿领域, 它已经发展了几十年:

    • 数据存储在20世纪80年代和90年代占据主导地位, 数据管理和数据仓库技术, 向公司传授获取和存储数据的价值,以改善业务运营.
    • 在90年代末, 商业智能(BI)技术开始流行, 使数据管理技术捕获的洞察更容易被业务使用.
    • 随着Hadoop等NoSQL技术的兴起,2000年代见证了“大数据”的繁荣, 展示一个开放源码, 低成本的数据处理和存储方法,使其能够保持完整的保真数据, 无限期地.

    数据管理和分析的演变为数据科学铺平了道路, 这个词在2010年左右流行起来, 有时也被称为“定量研究”或“决策科学”.“数据科学包含机器学习(ML)。, 根据数据输入进行预测,并随着数据的变化不断改进预测的计算过程. ML只是数据科学武器库中的一种武器.

    数据科学将区分赢家和输家

    几十年来,组织一直渴望成为数据驱动的. 人们花了数年时间才开发出能够有效捕获碳的技术, 存储和管理来自测量当今世界的系统的数据. 现在数据是可用的, 它可以使整个企业的每个人和每个部门受益, 是什么推动了分析和数据科学的快速普及.

    科学被广泛认为是一门学科,应该成为组织的核心能力, 有可能带来新的收入来源, 自动化决策, 改善产品和提高客户体验,以增加公司的竞争优势. 这种潜力正促使高管们大举投资.

    IT组织有机会通过提供有助于使数据科学成为核心组织能力的基础设施来帮助公司实现这项投资的全部潜力, 而不是一群孤立的人和工具.

    “基于一个简单的事实,即数据量比以往任何时候都要大得多, BOB官方APP下载最大的挑战是理解这些数据,“Salesforce.首席执行官马克·贝尼奥夫在2015年接受《财富》杂志采访时表示. “BOB官方APP下载需要新一代的工具来组织和查看数据. BOB官方APP下载需要懂得如何管理和领导数据的新一代高管. BOB官方APP下载还需要新一代的员工,他们能够帮助BOB官方APP下载围绕这些数据组织和构建业务……BOB官方APP下载需要更多的数据科学.”

    所面临的挑战

    数据科学的不同之处

    前几代数据技术都是集中式的, 单片组件:BI服务器, 数据库服务器, 数据湖平台, 例如. 数据科学工作, 与此形成鲜明对比的是, 涉及几十个较小的工具和技术, 其中许多被设计用于数据科学家的本地工作站.

    根据… KDnuggets于2017年进行的研究, 最流行的数据科学语言是Python和R, 两者都依赖于运行在终端用户机器上的ide和开发工具. 最重要的是, 这些语言有丰富的“包”生态系统,,为更专门的目的提供补充功能. 其中许多包和工具都是开源的,可以在线下载, 数据科学家定期下载数十个或数百个软件包用于日常工作.

    在过去几年里, 围绕这些工具和软件包的开源生态系统已经蓬勃发展, 推动快速创新, 频繁的更新, 每个月都有全新的软件包.

    换句话说, 现代数据科学工作涉及数十个或数百个客户, 而不是在集中式服务器中.

    数据科学的“狂野西部”

    数据科学家, 渴望保持在前沿和利用最新的技术, 自由地尝试各种工具和包. 随着开源生态系统创新的速度越来越快,实验的步伐也在加快. 结合以客户为基础的工作, 大量容易获得的技术, 对快速实验的渴望在大多数组织中创造了数据科学工具的“狂野西部”. 不一致的技术分布在组织的不同部分,没有对它们进行治理或透明.

    更糟糕的是,在许多组织中,“影子IT”突然出现以支持这些系统. 例如, 一个小团队可能会在共享服务器上安装RStudio或Jupyter(两者都是免费下载的)以供他们的团队使用, 不考虑支持需求或与组织其他部分的一致性.

    除了显而易见的问题, 这种孤立的数据科学工作的“狂野西部”带来了其他几个问题:

    • 重要的业务流程变得依赖于不可靠的基础设施. 数据科学家通常会在他们自己的本地机器上设置预定的作业, 或者将共享服务器作为“实验室”或“开发”机器来操作. 一家《财富》(Fortune) 10强银行的一个关键业务流程依赖于一名数据科学家每晚在他的笔记本电脑上运行的一个模型——直到他离开,笔记本电脑退役时才发现这个模型.
    • 高价值知识产权保护不当. 预测模型和分析可以概括竞争优势的关键见解, 这些工作通常分散在网络驱动器中, 维基百科, 或Sharepoint网站.
    • 计算成本可能变得过高且不受控制. 与BI, 数据科学涉及计算密集型技术, 这需要高性能的机器和专门的资源,比如gpu. 尤其是在云环境中, 狂野西部的数据科学家可能会无意中让昂贵的机器不必要地运行,从而每月消耗数千美元.
    • 数据科学家把时间浪费在DevOps工作上. 数据科学家是宝贵的, 高薪人士, 然而,他们经常必须花费25%的时间来处理DevOps任务,比如安装软件包和在机器之间移动文件.
    • 数据科学家把时间浪费在重复工作和重新发明轮子上. 除了单个数据科学家在DevOps上浪费时间, 整个团队可能会把时间浪费在重复工作或不建立在过去组织知识基础上的项目上, 因为过去的工作是孤立的,无法发现的.

    中心张力

    数据科学家会倾向于创新, 他们希望使用最新的技术和最大的机器,以更快的速度开发出比竞争对手更好的机型. 他们不太可能察觉到缺乏标准化和治理的中期和长期后果. 就像河水在岩石周围流动, 他们会找到阻力最小的途径:如果IT没有提供他们所需的东西, 他们会找到变通的办法, 本地安装工具, 从长远来看,这无意中使组织处于危险之中.

    这是很自然的, 但是过于简单化了, 将这种情况视为创新与安全/保障之间的权衡. 这种框架将CIO或IT领导者束缚在阻碍业务进步和竞争力之间, 或者赞同混乱和风险. 但是这种框架是一种错误的二分法,并且错过了将整个业务的利益相关者的目标和激励结合起来的机会.

    的机会

    在上述挑战中存在着一个巨大的机会,可以在实现关键业务转型的同时,使混乱变得有序. 这是许多组织迈向真正的数据驱动的关键, 如果建造正确, 有效的数据科学功能将改变每项业务.

    什么是数据科学平台?

    数据科学平台是所有数据科学工作发生的地方. 它作为预测模型的记录系统. 如果数据库和数据湖是当代人的核心架构组件, 数据科学时代的基础技术是数据科学平台.

    不像数据库, 数据科学平台并不存放你的数据, 它容纳了与数据科学工作流相关的工件和工作产品. 就像销售组织使用CRM来创建成熟度和可伸缩性一样, 工程组织使用版本控制, 企业正在部署数据科学平台,以使数据科学工作更加成熟和规范.

    数据科学平台适合您的基础设施的哪个位置.数据科学平台适合您的基础设施的哪个位置.

    数据科学平台允许IT组织控制数据科学工具的狂野西部, 资产和基础设施遍布整个组织. 而不是在不同的本地环境中工作, 数据科学家在一个中心地方工作. 为了支持数据科学工作中涉及的用例范围, 一个有效的数据科学平台将提供:

    1. 自助服务的基础设施, 因此,数据科学家可以进行探索性数据分析和模型开发,而无需配置和使用自己的计算资源. 数据科学平台包括计算资源和语言, 现代数据科学工作所需的软件包和工具——围绕资源使用情况进行控制和报告,以管理或确定成本.
    2. 部署方式, 生产或操作成品模型, 而不是驱使数据科学家建立影子系统. 这包括在一个地方部署模型,为计划作业、报告、api或仪表板提供动力. 数据科学平台还提供了非功能需求(安全性)的一致基线, HA, 等.)和一个目录,它提供了对整个企业的资产和利用的透明度.
    3. 治理, 围绕上述研究和部署工作过程中创建的所有工件进行协作和知识管理.

    将数据科学工作转移到一个集中的平台将确保:

    • 业务流程中涉及的任何模型或分析都集中持久化和监视, 即使最初的创造者离开了组织.
    • 数据科学家从一致性出发, 标准化的工具, 减少支持负担和操作风险.
    • 所有的数据科学资产都是有权限的,并且这些权限是可审计的.

    现代数据科学平台提供的功能.现代数据科学平台提供的功能.

    与整个企业的利益相关者保持一致

    实现数据科学平台来集中数据科学工作将降低IT组织的风险和支持负担. 但获得组织其他部门的支持——尤其是那些可能不愿谈论“治理”的数据科学家——将是至关重要的. CIO和IT领导者面临的一个关键挑战是高效交付, tailored communications to different stakeholders; rallying the troops to align behind a shared goal for successful data science. 这样做需要同理心,以理解不同组成部分的独特动机和观点. 幸运的是,有各种各样的好处可以沟通,以协调利益.

    给数据科学家, 他们的首要任务是利用自助服务环境中最好和最新的工具,尽快进行创新;

    • 为数据科学推广自助服务环境的好处,使他们能够独立地提供基础设施, 使用他们所选择的工具来旋转工作空间.g. Jupyter, RStudio),并安全地尝试新的包和工具. 他们不会浪费时间做自己的DevOps工作,也不需要IT支持.
    • 他们可以更快地运行实验,并与在同一地方进行开发工作的其他人进行协作, 节省时间,否则会浪费在重新发明轮子上.

    高管, 他们的首要任务是通过快速整合洞察力来改进业务流程,从而从数据科学投资中获得投资回报率;

    • 推广数据科学的“记录系统”概念, 类似于CRM为销售组织实现的功能. 它集中了数据科学家和工程部门其他业务利益相关者之间的所有工作流和通信, IT与法规遵从, 促进更成熟的, 可预测的, 数据科学团队的可扩展方式 交付价值.
    • 更快的实验将导致更多的数据科学项目和研究突破更快完成.
    • 更简单的操作或部署模型的方法将减少从洞察到影响的时间, 以更快的速度将数据科学工作转化为已实现的业务价值.
    • 为数据科学家提供现代工具和技术的灵活性将有助于在竞争激烈的领域招募顶尖人才.
    • 自动维护每个模型开发的完整审计日志将减少算法决策的操作和监管风险.

    给IT组织的其他成员, 谁的首要任务是控制基础设施成本并保持单一, 集成环境:

    • 推广与现有系统和工具集成的基础设施编排平台的想法, 提供实时评分, 批量评分和应用程序托管选项.
    • 可以通过跟踪硬件来主动识别风险和问题, 工具的使用和生产模型的变更.
    • 可以更容易地监视昂贵的计算资源的使用情况(特别是在云环境中), 有限及归属.

    数据科学利益相关者.

    通过成功地引导每个内部利益相关者的关注点并部署数据科学平台, 每个人都是赢家:IT管理通过治理和集中化成功地降低了风险, 同时为数据科学家提供生产力提升. 建立一个数据科学平台可以让IT为成功做好准备, 而且,该业务有能力推动更快的创新.

    构建vs购买

    “build vs”. “购买”可能是一个艰难的决定. 公司开始建立自己的网络通常有两个原因:

    • 成本:“如果BOB官方APP下载建立自己的, BOB官方APP下载不需要投资第三方软件平台,这将花费公司的钱.”
    • 定制:“BOB官方APP下载可以从头开始开发一个数据科学平台,专门为BOB官方APP下载组织的独特需求而构建.”

    在走这条路之前,考虑一下与本地解决方案相关的几个成本:

    1. 机会成本与比较优势. 很有可能你的模型就是你的核心竞争力和差异化, 而不是你用来开发它们的平台. 而不是把工程资源投入到搭建平台上, 你可以用这些资源做什么呢?
    2. 这比人们想象的要难. 数据科学平台结合了基础设施编排, 复杂的工作流程和用户体验, 以及用于生产级部署的功能. 这是一个多样化的工程挑战和广泛的领域. 许多公司花了一年时间试图建立一个平台,但最终什么都没能交付.
    3. 您将对持续的支持和维护做出永久的资源承诺. 这不仅仅是工程资源的前期成本, 它是正在进行的支持和解决方案增强.

    你还没有建立销售团队使用的CRM系统, 或者您的工程师使用的版本控制系统—数据科学平台也不例外.

    随着组织越来越努力成为模型驱动的, 他们认识到数据科学平台的必要性. 根据… 最近的检验报告在美国,86%的模型驱动型公司通过使用数据科学平台来使自己与众不同. 然而,是建房还是买房的问题仍然存在.

    对于大多数组织来说, 从商业战略和项目成本效率的角度来看,购买数据科学平台都是正确的选择. 然而, 许多组织将模型对其长期成功的重要性与自己构建底层平台的需要混为一谈. 在一些特定的情况下,平台本身就是区别因素.

    这些组织具有高度专业化的工作流程(例如, 超级),有良好的内部软件开发记录(例如, Airbnb),以及能够识别模型独特特征的深厚数据科学专业知识(例如, 谷歌).

    对于绝大多数组织来说, 竞争的差异化因素不是平台, 而是整个组织的能力,BOB官方APP下载称之为 模型管理 -包含许多不同的技术、涉众和业务流程. 对大多数人来说,购买这个平台是合乎逻辑的选择.

    你可能会想, 当然是多米诺骨牌, 数据科学平台供应商, 认为每个人都应该购买数据科学平台.“BOB官方APP下载对这个话题确实有自己的看法, 但这种观点源于与世界各地各种形式和规模的组织的数千次互动. 大多数选择建立自己的平台的公司要么停滞不前,要么失败. 那些购买了平台的人正在大规模地实施数据科学.

    这些与组织的互动和工作经验,试图决定他们是否应该建立或购买,引导BOB官方APP下载开发一个 促进决策过程的客观框架. 它包括三个主要因素:

    总拥有成本

    构建、管理和运营数据科学平台的范围需要仔细检查. 许多组织低估了构建方法中的总拥有成本.

    在一个四年的场景中,一个组织建立了一个数据科学平台,最初支持30名数据科学家(随后几年以每年20%的速度增长)。, BOB官方APP下载估计建筑的TCO超过3000万美元,而购买的TCO只是其中的一小部分. 参见下面的图1,这是两种方法tco的年度对比.

    机会成本

    通过投入资源建立一个数据科学平台, 组织不可避免地会选择从其他项目中撤资. 这种选择可能是不明智的,特别是如果组织牺牲了其核心竞争力, 这最终会损害组织的收入.

    风险因素

    数据科学不是一件容易的事情,尽可能地降低风险是明智的. 风险因素,如人才获取和保留, 技能要求改变, 在决定构建之前,需要仔细考虑平台功能需求的变化. 另一方面, 组织在选择从哪个供应商购买产品时也应该非常小心,如果他们这样决定的话.

    最终, 组织需要决定他们与数据科学的区别在哪里:在他们构建的模型和整体组织能力中, 或者在底层的基础设施中? 对于大多数, 是前者, 因此,“买入”策略可能提供最低的TCO和最一致的战略选择.

    数据科学平台的类型

    数据科学平台的前景可能势不可挡. 尽管针对不同类型的用户解决了不同的问题,但仍有数十种产品使用类似的语言描述自己.

    已经结晶的三个部分是:

    1. 自动化工具
    2. 专有(通常是gui驱动的)数据科学平台
    3. 代码优先的数据科学平台

    下表总结了这些部分:

    数据科学平台的类型和用例.

    数据科学平台的类型和用例.

    自动化工具

    这些解决方案通过自动化数据科学中的任务来帮助数据分析师构建模型, 包括培训模型, 选择算法, 创建功能. 这些解决方案主要针对非专业数据科学家或对在构建快速基线模型的过程中简化繁琐步骤感兴趣的数据科学家.

    这些“自动化机器学习”解决方案通过让非专业数据科学家参与到模型构建过程中来帮助扩展数据科学工作, 提供拖放界面. 它们通常包括部署自动训练的模型的功能, 他们越来越多地将这些模型的可解释性和可解释性特征整合在一起, 也. 当数据准备干净且结构一致时,它们工作得最好.

    专有(通常是gui驱动的)数据科学平台

    这些工具支持广泛的用例,包括数据科学, 工程数据, 模型操作. 它们提供了拖放和代码接口,在许多企业中都有很强的立足之地, 甚至可能为特定的微垂直领域提供独特的功能或算法.

    虽然这些解决方案提供了广泛的功能, 用户必须利用专有的用户界面或编程语言来表达他们的逻辑.

    代码优先的数据科学平台

    这组解决方案针对的是代码优先的数据科学家,他们使用统计编程语言,并且每天都在计算笔记本上度过, 木星)或ide(例如, RStudio), 利用开源和商业包和工具的组合来开发复杂的模型. 这些数据科学家需要灵活地使用不断发展的软件和硬件堆栈来优化模型生命周期的每个步骤.

    这些代码优先的数据科学平台编排了必要的基础设施,以加速高级用户的工作流程,并为拥有数百或数千个模型的组织创建记录系统.

    拥有数据科学家团队的企业选择这些解决方案,以加速个人的实验,同时推动组织的协作和治理. 主要特性包括可伸缩的计算, 环境管理, 可审核性, 知识管理, 和再现性.

    阅读更多关于不同类型的数据科学平台的信息.

    在购买数据科学平台之前要问的问题

    数据科学不同于其他技术学科,模型也不像软件或数据. 因此,数据科学平台需要不同类型的技术平台.

    以下是IT领导者应该向数据科学平台提出的十大要求,以确保平台能够处理数据科学工作的独特性.

    1. 平台托管在哪里/如何托管?

    理想的数据科学平台应该与现有的基础设施协同工作. 它提供了在云中托管的灵活性.g. 一个vpc(供应商管理的私有云),内部部署,或者混合. 无论哪种方式,平台都应该基于单一代码库,而不管它托管在哪里. 如果业务需求要求改变基础设施, 理想的平台提供了适应这些变化的灵活性.

    2. 该平台如何帮助我确保数据科学家使用已批准的工具和软件包(开源或专有)?

    数据科学需要免费的实验和访问开源工具的最新革命来实现突破. 然而, 企业需要为实验提供护栏和工具,以防止违规和保护公司的知识产权. So, 数据科学平台必须支持各种本地数据科学工具(JupyterLab), RStudio, 情景应用程序, 等.),以开放和灵活的方式进行, 同时为IT团队提供管理数据科学环境和提供预先批准的环境的能力.

    这种方法将消除数据科学的影子IT挑战,并确保IT基础设施不会暴露在不必要的风险中.

    3. 平台如何处理数据科学工作的动态性?

    数据科学家的工作需要对不同大小的硬件进行不可预测的访问, 包括gpu, 在做像深度学习这样的高强度工作时. 保留闲置的大型硬件实例的成本太高, 因此,数据科学平台应该提供对不同类型的机器和软件包的弹性访问. 只需单击一下,就可以使用这些环境, 将DevOps任务从数据科学家的日常工作中移除.

    IT团队应该能够控制哪些用户可以访问哪些环境, 同时对成本也有完全的了解, time, 以及每种环境的使用情况. 最终, 平台应该在资源配置中提供并行执行(并行运行多个实验)的能力.

    4. 在数据科学家可以访问高度敏感数据的情况下,平台如何处理用户安全和日益复杂的治理需求?

    理想的数据科学平台应该与现有的用户安全实践(如单点登录)配合使用。. 然而,在数据科学中,提供授权和身份验证安全性是不够的. 数据科学是不同的, 一个完整的平台还提供了所有数据科学工作(代码)的审计跟踪, data, 包, 环境, 注释),以确保用户工作的再现性和可审计性.

    伴随着可见性和可审核性, IT应该能够访问灵活的权限模型来管理对模型的访问, 项目, data, 实验, 硬件, 软件包可以支持数百个用户的增长.

    5. 该平台如何帮助降低监管和运营风险,并帮助我应对即将到来的监管障碍?

    在数据科学生命周期中保持全面彻底的记录系统可以显著降低监管和操作风险. 理想的数据科学平台为记录系统保留模型的整个生命周期. 应跟踪项目的所有修订,以便于检索任何实验以进行审核, 风险管理, 合规检查. 例如, 为预测保单持有人风险而开发的模型可能需要根据新的个人隐私法进行审计和调整.

    一个完整的模型起源日志将使人们能够追溯模型创建的每一个步骤, 了解特定的敏感个人数据如何影响模型, 以及这些敏感数据是如何在模型开发中使用的. 另外, 数据科学家可以从模型创建过程中的任何一点开始,分叉并开发更新的模型,而无需从头开始, 加速新模型的开发,同时降低合规风险.

    6. 为什么像Git、JIRA和Jenkins这样的现有工具不能满足数据科学平台的需求?

    数据科学是不同的 than software development; models require 部门, 是实验性的吗, 并且是用很多不同的软件工具制作的. 没有必要对软件代码进行“再培训”, 但生产模型确实需要经常接受再培训. 数据科学平台为模型提供了单一而全面的记录系统(SOR), 这比跟踪代码版本和问题更重要吗.

    数据科学资产包括代码, data, 讨论线程, 硬件层, 软件包版本, 参数, 结果, 和更多的. Git和JIRA不是为实验过程构建的. 此外, 数据科学家会拒绝GIt/Jira/Jenkins构建的系统,因为它们阻碍了他们的工作,而不是加速他们的工作.

    数据科学平台加速了模型的开发和部署, 可以访问弹性计算, 自动实验跟踪, 完整的再现性, 基于模型的协作, 简化模型部署, 以及构建模块的知识库,以实现快速的模型开发.

    7. 平台提供什么数据访问? 以及它如何处理数据科学的数据版本控制需求?

    一个数据科学平台需要提供简单, 快, 以及安全访问所有类型的数据,包括Hadoop, 火花, 平面文件, 和数据库. 这些连接在传输过程中必须加密, 能够处理故障转移, 并设置为模型训练和实验传输大量数据.

    数据科学还涉及大量的数据操作和新“特性”的创建,,这是基于其他数据创建的. 因为每次实验的数据和特征经常发生变化, 需要捕获和修订该数据的快照,以便对模型和数据进行审计, 可再生的, 并符合受监管行业的合规要求.

    8. 平台如何支持用户友好的、企业就绪的模型操作(ModelOps) ??

    模型操作包括将模型部署到生产和监控过程, 部门, 并在生产中更新它们. 模型部署是使模型能够在生产中使用的过程(例如, 将模型部署为一个简单的可视化图表, 图), 交互式应用程序, 或作为API),因此该模型可用于交互式的人类消费或基于机器的消费.

    一个理想的数据科学平台应该允许数据科学家在各种不同的模式下自助和直接部署模型, 与IT批准和监督. 一旦模型被部署, 平台应该监控模型的性能, 提供再培训的能力, 并在生产中对模型进行修正, 为审计记录捕获完整的模型来源.

    最后, 平台应该确保最终用户有一个直接的反馈路径, 从模型到数据科学家, 确保模型的快速迭代.

    9. 该平台如何帮助管理云基础设施成本并规划未来的技术需求?

    数据科学平台应提供弹性和灵活的计算基础设施,以满足数据科学项目对动态资源的需求. 糟糕的资源配置可能导致意外的高硬件使用费用或对额外硬件的不切实际的请求.

    该平台还应提供可见性和控制,以确保计算资源被数据科学团队中的正确用户正确分配和使用. 硬件的可见性和控制非常重要, 但是这个平台也应该暴露用户使用不同软件工具的情况, 也适用于特定项目. 这种级别的细节可以帮助IT领导者计划未来的项目,并调整支出和工具,使其与驱动最大价值的项目相称. 它还使It领导者能够与数据科学领导者就项目ROI进行协作讨论.

    10. 该平台如何与传统的软件开发过程一起工作?

    尽管数据科学平台是为了实现其独特的模型开发生命周期而构建的, 它们应该与当前的软件开发过程集成. 平台应该提供一个工作流,为模型开发的独特方面启用一个开发-测试-生产计划. 该工作流应该确保流程捕获所有模型资产, 包括代码, data, 评论, 工具, 包, 甚至是开发环境. 捕获所有模型资产信息确保可以以无缝和可审计的方式恢复到以前的模型版本,并提升到最新的模型版本.

    设计可持续的数据科学平台

    如果您选择设计和构建自己的数据科学平台, 下面的视频分享了关于如何设计可持续和可扩展的建筑的建议和经验.

     

     
     

    构建或购买一个数据科学平台?

    数据科学的成功在于将其扩展为一个由模型驱动的组织. 对于cio和IT领导者来说, 构建或购买平台的决定最终会影响组织的成功.