随着互联网技术和数字化生存带来的众多商业模式创新,企业不断加速数字化转型,挖掘数据价值、指导业务决策,而高效流畅的协同能力却成为了企业组织管理和数据驱动的瓶颈。
典型场景有如企业数字化团队人员各自为战工作流程难以协调统一、生产资料及最终产成品缺乏管理致使软性资产易流失、业务人员工程能力较弱无法真正参与数据驱动的业务场景、外部人员协助项目而企业内资产安全性得不到保障等等……因此,针对于大数据协同管理难点的产品级解决方案是当前帮助企业走出协同瓶颈,集约化生产管理,释放数据价值,多维度赋能业务的必然选择。
大数据下企业的协同管理可分为三个层级:
1. 数字化团队内部协同:指企业的数字化部门在进行数据分析建模的过程中,对于数据流程、生产要素、资料成果的协作、共享及管理
2. 大数据项目跨部门协同:指企业在数据驱动业务模式下,数字化部门与业务部门在模型构建、业务应用、迭代优化的过程中对于任务拆解、流转路径、协同机制的系统性管理
3. 企业数字化业务外部协同:指企业与外部机构、人员建立业务链接的过程中产生的协同需求,含对外价值输出的渠道与形式,及内外合作时资产公开性与安全性的平衡管理
下文将针对此三个层级下的六项典型场景,通过企业真实需求案例及对应数据科学协同平台 ModelWhale 所提供的解决方案,作深入解析。
目录
数字化团队内部协同
场景一:分析建模全要素的获得与成果复现
场景二:成果结构化整合沉淀
大数据项目跨部门协同
场景三:业务部门协同探索模型开发优化
场景四:模型应用全生命周期管理
企业数字化业务外部协同
场景五:研究成果对外发布应用
场景六:引进外部专家协同工作
***
数字化团队内部协同
大数据时代,企业利用“数据科学+”能力赋能业务决策,在数据研发团队内部建立起横向协同机制,能够大幅提升团队工作效能已是共识。
场景一:分析建模全要素的获得与成果复现
数字化团队所需支持的业务条线众多,且发展目标可能各不相同,因而团队成员经常是专注于各自独立的板块开展工作。然伴随着企业数字化转型的需求更密集也更复杂,很多基础性的工作可以共建,对于数据的要求也不再是相对独立的、单一的数据展示和资源挖掘,需要更多综合性、交叉性的开发利用,越来越多的数字化团队开始寻求突破,以更协同的形态提高整体效率。
以从事量化投资的某金融公司 A 为例。量化投资是指利用计算机技术进行交易的证券投资方法,通过对庞大的历史数据建模分析,海选出能带来超额收益的多种“大概率”事件,持续计算生成定量化的投资信号,自动交易投资。制定量化交易策略的团队即典型的数字化团队。
量化策略具有一定时效性,一旦市场上其他投资者也采取相同的策略或市场环境发生了变化,就可能会导致所带来的超额收益越来越小,因此团队需要持续优化量化投资策略,提高交易速度,使收益最大化。然而目前团队内部存在的一系列“协同问题”给他们造成了困扰。
由于前期各个量化研究员都是独立开展工作,而后续策略的优化,如根据市场信息补充新的数据或使用新的特征等,却需要以之前的工作为基础,这些既有生产资料不仅仅来源于自身,也有可能来源于团队内的其他人。前期形成的“信息孤岛”导致团队成员后期在获取他人的数据和模型时频繁出现数据版本错误或代码版本错误等情况。同时,所使用的编程语言、版本模块不同形成的研究环境差异,也给复现造成了困难。数据、环境、代码,三要素难以同步获得与复现,严重拖缓了投资决策,让 A 公司错过了很多稍纵即逝的市场机会。
解决方案:
ModelWhale 由点及面,帮助量化团队解决了制定策略时全要素的内部协同问题。
首先,每个研究员都可以通过平台自由调取存放在数据库、对象存储以及 NAS 空间的各类数据,或者根据分析需要上传本地的数据集开展策略研究。团队的数据管理员可将各个成员的数据需求与其所在部门或策略小组相结合,将数据定向分发,并灵活设置每个人使用、下载的权限。如果某个研究员在其后续的策略优化过程中为数据集增加了新的特性,可以生成新的数据版本,则团队内部其他成员也能够根据分析需要选择特定的数据版本建模分析。在后期进行策略的持续迭代时,数据版本的选定即可快速统一,减少了成员间的沟通成本,也避免产生数据偏差。
其次,量化研究员除了可以使用平台预置的分析环境外,还可以根据需要,利用表单、Bash 指令等方式构建自定义分析环境。所构建的自定义镜像环境皆可一键分享给团队内的其他成员使用,管理员也可以配置统一的镜像在团队内部共享。ModelWhale 会自动记录每一次代码运行时的镜像环境,当成员需要合作训练模型或在他人的策略之上进行优化时,所使用的分析环境将自动匹配,实现快速复现。
此外,量化研究员在分析建模时,每取得一部分阶段性成果即可将其保存为一个版本,并备注下版本的关键信息,则后续即使再与他人合作编辑,也依然能找回自己已有的历史版本。通过版本间对比,研究者可以快速查阅他人对于代码的“增”、“删”、“改”的情况,或是接受修改,或是文件级退回或 Cell 级回溯实现快速还原,全部修订完成后也可生成新的版本,为后续的工作打下基础。
无论是数据、分析环境还是代码文件,在 ModelWhale 上都可以通过主动分发和申请审核来实现权限控制。生产要素一体化管理,快速获得与复现,让数字化团队分析建模的内部协同过程更便捷,也更自在。
场景二:成果结构化整合沉淀
在数字化团队中,除了各要素的获得与复现外,做好对代码文件、分析报告、算法模型等成果的管理沉淀,也是资源利用最大化,提升团队整体效能的重要机制。由于历史的生产资料都散落在团队成员个人的设备中,随着人员流动经常会出现既往成果流失的情况;同时,由于缺乏成果的复用途径,当遇到相似场景分析时,算法人员仍需要从零开始编写代码,而不是在之前的基础上推进迭代。这些不仅会给团队带来很多不必要的资源浪费,也会对企业的数字资产安全造成威胁。
伴随着电子商务的冲击,以服装零售为主营业务的 B 公司现阶段进入了扩张瓶颈期。为了应对竞品对手和多业态市场的压力,企业希望能结合大数据对客户行为模式与特征建模分析,以更全面地了解客户,指导业务决策。然而,尽管目前企业的数字化团队主要只负责对线下不同地区各个门店的业务数据以及各时间段公司整体的营运数据汇总整合、制作报表,或做一些相对基础的可视化分析的工作,但由于数据来源复杂且数据规模量较大,已经几乎占据了团队全部的工作时间。
要让数字化团队投入时间挖掘更多数据价值,就需要整体提高团队的效率。就 B 公司而言,尽管线下门店众多,但其产生的数据几乎都是同类型的,且以指导业务为目的数据分析过程也会比较雷同。横向来说,只要对一家门店的数据形成标准化分析流程,其他门店也能同样适用;纵向来看,未来的数据分析也可以在现有分析流程之上进行迭代。导致数字化团队重复造轮子的原因正是因为过往的分析流程没有被提取出来,已解决的问题、已产生的成果也没有进行很好的结构化沉淀。
解决方案:
ModelWhale 为分析建模过程中产生的数据、分析流程、模型成果等提供了多重管理路径。
接入线下各门店的多来源数据后,数据人员可将各类销售、营运、库存数据制作成数据集进行分类,便于灵活调用。使用平台内置的算法代码片段,团队可快速开展数据清洗、可视化分析等数据处理工作;对于常用的代码片段,分析人员也可一键收藏,方便后续复用。
此外,ModelWhale Canvas 拖拽式编程为 B 公司搭建起业务标准化分析流程提供了更敏捷的开发模式。数字化部门可以在 Canvas 里面基于可视化手段预构模型组件、封装常用分析工作流,然后再转化为 Notebook 进行更精细化的建模工作。基于这种形式,建模工作通常可以快速地推进,在修改部分业务逻辑后,模型服务就能很快上线。同时,低代码开发的模型服务采用参数配置的方式实现,因此后续开发人员只需要修改参数或调整某些模块,便可快速响应其他类似业务指标的开发需求。
完成算法模型的训练后,团队成员可将模型保存到团队的算法库中,并备注好算法说明和适用场景,方便他人后续调取使用。算法团队还可以部署离线预测式的模型服务,定期获取数据库中的新数据,生成对应的分析结果。最后,所有的数据、算法,以及分析过程中产出的代码、数据、文档、视频等,都可以沉淀在团队的知识库中,统一整合、统一授权。成果的结构化整理也可形成持续监测效果,为企业长期的业务决策提供更多支持。
通过 ModelWhale ,数字化团队可以在分析建模的同时自然地实现数字资产的结构化整合沉淀,从生产机制上提高了团队内部整体工作和协同效率。
大数据项目跨部门协同
业务问题的解决有时是从一处痛点开始突破,比如针对于某个产品的销售业绩建立预测模型;有时则需要按照体系化的方法持续进行解决,比如提升客户的整体满意度。数字化部门的工作应该在具体的业务背景下展开,并随着业务场景的发展与时俱进。
场景三:业务部门协同探索模型开发优化
当算法人员针对业务部门提出的具体需求分析建模、优化迭代时,业务部门也需要同时根据实际应用场景提出相应反馈,把人的经验、观察、思考转化为可被执行的流程化程序,从而让模型更好地赋能业务。然而目前,大多数企业的业务人员工程能力都相对有限,无法真正参与模型探索优化的过程,跨部门协作难度高、效率低,使得大多数企业都忽略或放弃了这一环节。
随着工业4.0推动制造业的数字化转型,企业 C 在广泛采用智能生产设备的基础上,希望能构建起对整体生产过程的智能化控制,现阶段致力于将云计算平台与物联网相结合,实现生产设备性能和健康情况的远程实时监测。企业希望通过算法部门对历史数据建模分析,了解设备故障发生的机理及前期预兆,从而指导一线生产人员在有类似情况时提前关闭设备或对设备采取保养维修,避免非计划停机带来的损失。然而算法部门在建立模型时却遇到了困难。
工业大数据规模庞大,类目众多,需要进行多重关联分析,但相关数据包括监测设备的操作运行状态、操作情况、周围的环境数据等,都具有较强的专业属性,甚至部分概念是晦涩难懂的。许多数据的异常值及变化到底意味着什么,经常需要请业务专家来帮忙解释,但间断性的询问不仅效率低、沟通成本高,还会给双方造成一定心理负担。因此,C 企业希望能在模型开发优化时构建起一套业务专家和数据工程师的协同探索机制。
解决方案:
ModelWhale 为业务人员和算法人员共同探索模型开发优化提供了沟通的桥梁。
低代码的范式能同时满足不同工程能力的人员使用,可视化的模型是业务和技术共享的视觉语言。通过图形连接,业务人员可以向算法人员直观地展示业务观点,包括各类数据指标的特征及应用场景——比如从业务视角看,某两项数据之间可能会有强相关性,或者某个指标可能会产生较多极端值等等,便于开发人员熟悉和理解业务逻辑,大幅降低建模工作的难度,也让模型本身更具有业务导向性。开发人员也可快速将模型组件转化为代码,优化完善的同时与业务人员进行二次确认。
其次,算法部门可以将优化过后的分析过程在 Canvas 中封装成组件给到业务人员使用。也就是说,当开发人员做出一套成型的可出报告的 Canvas 组件后,一线的业务人员只需要将数据替换,即可生成相对应的分析报告,真正实现算法成果的投入应用。业务人员在使用过程中也能根据使用情况持续给予反馈,形成双向合作流。
此外,算法人员和业务人员可以围绕 Notebook 的文学性编程进行合作,算法部门专门负责代码调整,业务部门负责文字的润色和说明。项目支持有选择性地展示各个 Cell,隐藏复杂或重要的代码,生成交互式报告,在线以 Notebook、PPT 等多种形式即时与他人分享。若相关人员在阅读过程中产生疑问,可具体到 Cell 发表评论直接交流,在算法人员修改后也能即时看到修改结果。
另外,C 企业需要的不仅仅是一个业务人员也能低门槛使用的平台,而是希望整个企业内部能统一数字化意识。数字化人才决定了数字化技术在企业生产过程中能否实现数据资产的衍生价值。对此,和鲸同时联合旗下和鲸社区以及和鲸科赛,通过不同活动和实践探索形式,如支持其内训、举办数据竞赛等,帮助 C 企业真正构建起数字业务跨部门协作的生态。
ModelWhale 从工具层面打破工程能力的隔阂,跨部门整合人员能力,简化模型开发优化流程,同时也能帮助企业培养更多自驱式数据人才。
场景四:模型应用全生命周期管理
从开发训练到部署应用再到优化迭代,这是一个算法模型最简易的生命周期。密切关注模型在业务中的表现,持续跟踪落地效果进而调整模型,如果将其称之为是算法模型的“运维”,这种特殊的运维与传统的针对软件工程所设计的运维又不相同。
首先,算法模型的应用天生就是需要与数据进行关联的,模型无法脱离数据产生效果;其次,算法模型的应用天生就是需要优化迭代的,这个迭代并不是主要围绕 bug 的修复,而是依赖实际应用场景的数据反馈,围绕模型效果优化的迭代。因此,算法模型的“运维”过程是与数据强关联的、是必要的、是势必要囊括多个部门参与其中,且分别提供不同支持的。
以数字金融公司 D 为例,近期,D 正在探索用大数据解决企业中的风控问题。风险控制直接影响着企业的盈利水平,传统的风控工作十分依赖业务员,在操作风险和信息实时性上都有较大弊端,而大数据风控则可以将用户的各种信息度量化,提前进行风险预警,并部署在系统平台上全自动实施执行。然而 D 公司在搭建风控模型时目前存在着两个问题:
首先,风控模型从内部数据和三方数据的收集到模型开发,需要多个部门与算法部门进行合作,但各部门间缺乏系统化的跨部门工作流,协作效率低下,推进困难;其次,生成的模型需要根据业务端的使用情况不断调整优化,模型迭代周期的要求极短,但由于上下游基础设施建设混乱,缺乏链式更新机制,非常依赖下游的主观能动性去了解更新的内容以及主动配合更新,因此容易造成信息滞后。尽管公司各方都投入了很多时间精力,但缺乏对模型应用全生命周期管理导致成果仍不尽人意。
解决方案:
ModelWhale 协助 D 公司打通了模型产出、应用、迭代、管理的全链路。
在模型产出阶段,数字化团队可基于平台完成数据分析及算法开发的全部流程。由于风控模型的数据来源于多个部门,需要多方合作参与,各部门成员可以通过项目的任务看板实时查看进展情况,并落实各自的职责。在多源数据分别接入后,数据管理团队即可生成新的数据版本及数据描述性统计文档;算法部门在建模的过程中也可以通过发布离线训练任务以及进行模型训练可视化对比,提升计算效率,挑选出最合适的模型。
待模型开发完成后,源代码、数据、建模环境等可以被打包后进行自动化部署并发布为应用,这个过程可以由算法部门自己完成,而不用再麻烦专业工程人员。部署完成后,相关业务部门就可以直接通过 API 即时启动调用,或通过模型应用的链接快捷调用,无需复杂的下载、传输,有效简化了模型从开发到应用的复杂度。
对于 D 公司模型快速迭代的需求,算法部门可以在后台查看模型被调用的次数以及调用的历史,平台所记录下的部署后模型使用过程信息皆可为模型优化提供方向;同时业务部门也可以持续通过任务看板反馈模型的应用情况。ModelWhale 支持保留迭代版本源码,因此算法人员可从任意阶段开始模型优化调整。自动化部署和自动记录反馈,给模型提供了持续有序的迭代机制。
ModelWhale 用短时间、低成本实现了模型各个节点的无缝跳转,有效提高了模型应用的效率,并降低优化迭代的难度,使模型具备持久的生命力。
企业数字化业务外部协同
除了内部协同外,企业也需要借势、借力于外部力量,统筹外部合作利益关系,构建数字生态圈。建立良好的外部协同机制,既要确保边界柔软——利于技术渗透,又要边界清晰——确保资产安全。
场景五:研究成果对外发布应用
数字化转型成功的企业可以真正释放数字潜力,将成果转变为切实可得的经济效益,数字技术的对外应用无疑是变现最有利的途径。要达成这一目标,企业需要借助一定的载体向自己的目标客户群持续输出自身的能力创造价值,这是与客户建立起链接的起点。另外,企业也要为合作搭建快速通道,尽可能消除中间壁垒,降低合作的成本。
以医疗企业 E 为例,E 借助其临床研究项目产出的大量预测模型,推出了全新的医学检测服务方案,医生可以通过将患者身体的各项机能数据代入模型,快速获得相关检测的预测结果。基于此,E 公司希望能同更多医院或相关生物健康型公司合作,实现医学价值的最大化。然现有两个问题亟待解决。
首先,在临床预测模型的应用上,传统情况下需要通过第三方软件,重新输入数据后在本地运行模型的代码文件,才能获取输出结果,整个过程效率低速度慢,对临床医生来说可能有着比较高的使用成本;其次,E 公司希望可以后期计算出模型的预测精度,便于进行优化迭代,同时也为自己对外建立起“精准预测”的口碑提供事实依据,这就需要在模型应用时记录下每次模型输出的结果,再与实际情况进行比对来获取。此外,公司还在思考如何加强外界对于自身数据驱动创新的形象认知。
解决方案:
ModelWhale 构建了灵活的对外基础设施框架,让模型资产得到更高效的利用。
对于已经训练完成的模型,企业可以一键进行部署,若某些临床预测的应用场景含有多个模型,也可以将其组合在一起发布。将部署的临床预测模型发布成应用时,算法人员可以根据模型应用计算需要,将输入的数据类型自定义设置为文件或表单,并为发布成表单的应用添加不同格式的字段,如性别、年龄、心率、血压等各类临床诊断常用指标。
发布完成后,外部应用者——企业的目标合作对象即可前往模型应用界面,根据模型应用需要输入数据字段或上传符合要求的文件,实时在线获得基于模型和数据的预测结果。无缝跳转的链接更有利于企业达成对外合作,实现经济效益的落地。
对于模型预测精度的追踪,算法人员可以在后台查看详细记录的模型调用信息,包括模型调用的用时、反馈的结果以及调用中问题点的记录,这些记录和结果都可以直接转换为分析用数据集,评估模型在实际场景下的使用情况,并用于后续的模型训练和调优。
此外,ModelWhale 还为 E 企业提供了自定义配置门户页面功能,企业可将内部优质医疗数据集和优质医学研究项目分享至门户页,面向社会公开,以实现数字化成果的展示与分享。
ModelWhale 帮助企业构建起开放共享的数据生态,通过成果的便捷化应用和可视化展示,最大化数字资产价值,获得尽可能多的经济效益。
场景六:引进外部专家协同工作
开放式创新为企业提高学习能力带来机遇,使企业的探索性学习和挖掘性学习得到更多外部资源的支持。跨越组织边界与外部的研发实验室或研究机构合作,这在科技密集型和数据密集型行业中已经成为企业业务拓展深化的极佳途径。然而大数据项目中,当引进外部专家协同开展工作时,对于内部生产资料公开性与安全性的平衡管理是需要特别注意的关键事项。
据了解,某医院 F 在医疗过程中生成了大规模的临床数据,可用于众多重大医疗难题研究,具有宝贵的临床诊疗与科研意义。然而,团队目前的工程能力相对较弱,尚无法支持开展数据分析建模工作,倘若让这些数据白白流失,将会造成巨大的资源浪费。针对此种情况,医院拟引入来自国外的数据科学家团队共同研究,由医院方提供数据和研究思路,外部团队专门提供算法和模型支持。
然而,医院的临床数据几乎都来源于就诊患者的个人医疗信息,因涉及到患者的隐私问题不可随意外泄,但若是进行建模分析,数据又是最关键的要素,对此医院始终没有找到一个两端平衡的解决办法;其次,外部合作团队由于地理条件限制难以长时间直接在院内进行工作,双方需要在线远程合作,这也给二者的分工协同造成了困难。
解决方案:
针对内外协同场景,ModelWhale 的云端环境在实现协作便捷性的同时也能保证数字资产的安全。
在云端组织上,外部成员可以进入组织成为项目成员共同开展工作,不受时间和距离的限制;专家可以就数据分析过程中的产出进行评价,让信息交互和团队协作更加直观高效。
组织内设有完整严谨的权限管理系统,针对数据、代码、模型成果等资产提供了多重安全防护措施。首先,管理员可以控制和分配数据库的访问权限,每个数据集都有独立的使用、下载权限管理,也就是说一旦医院方关闭了外部建模分析团队成员的数据下载权限,则其只能在云端环境调用数据集,无法将数据下载至本地。其次,组织管理员可以随时查看数据的读取、选用和产出情况,进行持续监控。另外,ModelWhale 对于不同用户的资源使用还进行了多租户隔离、存储计算分离,防止非项目组用户访问到该相关数据产生数据泄露问题。
在组织或企业自身的工程能力较弱时,寻求外部专家解决方案不失为是一个高效的策略。基于 ModelWhale ,和鲸科技还为合作伙伴提供了赛训众包的业务,企业可以通过发起数据竞赛吸引更多社会各界的数据人才,群策群力解决现有业务中的难点问题。
ModelWhale 保障组织全权掌握自己的数据应用范围,在安全可控的情况下,通过外部协作挖掘更多数据价值。
结束语
数字技术的确在重构着这个世界,互联互通的程度更高、更快、也更复杂,建立完善的协同机制是深度挖掘数据价值的核心利器,也是企业应对变化的生存选择。本文将企业在数字化转型中产生的协同诉求拆解至三个层级并提供了对应解决方案。
- 数字化团队内部协同:实现以生产要素和数字资产为核心的互联互通、高效复用,形成资源聚集的规模效应;
- 大数据项目跨部门协同:连接数字技术与业务智慧,增强信息流动性,完善上下游反馈链路,促进模型成果持续赋能;
- 企业数字化业务外部协同:高效率价值传递、信息安全开放,吸纳更多参与主体,打造广阔数字价值生态圈。
ModelWhale 提供即开即用的云端分析环境,将数字资产管理、Notebook 交互式 & Canvas 拖拽式编程、建模分析、模型服务、任务及权限管理等功能深度整合,一体化解决企业大数据分析的多种协同问题,使数据驱动的决策更加便捷高效。过去5年来,来自气象、医药、制造、金融、新零售等多个领域的先进企业都与 ModelWhale 进行深入合作。ModelWhale 综合各类业务场景,持续升级产品功能,完善全方位服务体系,欢迎更多组织共同交流沟通。
ModelWhale 数据科学协同平台将帮助企业突破瓶颈,为数字化转型提供高效协同最佳实践。