新基建的浪潮掀起了新一轮“大数据+”人才需求,很多高校都陆续开设了数据科学、人工智能类专业和课程。和鲸总结了高校培养数据人才过程中的重难点,再基于 ModelWhale 建设了聚焦教学场景的云端数据科学教学实训平台以提供全面解决方案,最后分享暨南大学经管中心的真实教学实践作为案例参考。
目录
“大数据+”人才培养的重难点
赛训一体的云端数据科学教学实训平台
- 低门槛、易上手的数据分析建模教学实践环境
- 赛训一体化的人才培养方案
- 算力弹性调度管理 · 免运维
暨南大学 · 经管中心大数据教学实训平台
结束语
“大数据+”人才培养的重难点
近几年来,很多高校都陆续开设了数据科学、人工智能类专业和课程,相较于传统教学,“大数据+”人才所需要的培养环境更加复杂,存在着许多特质化的重难点。为此,我们调研了清华、上海交大、华师大、中国石油大学、协和医学院等各类高校,得出以下总结。
教学期待:学生能真正上手数据分析
实际情况:繁复的环境准备
相信每一位授课老师都有直观感受,即使代码类课程课时紧张,老师仍不得不花费至少一课时,从“装包装环境”开始教学,但某些课程还是会存在有学生在多节课后依然没有完成环境安装的情况。
环境安装麻烦可能会让学生在一开始就降低学习兴趣,并且一旦学生与老师环境不统一,学生就很难复现老师提供的案例代码进行自主学习或课后复习,老师批阅也会比较困难。
教学期待:赛训一体化的人才培养
实际情况:数据集、案例、实战机会有限
院校对于“大数据+”人才培养的目标,不仅是希望学生能掌握编程、统计、机器学习等方面的技能,更希望学生能有对领域业务需求的理解,那就要将学生放在真正的实战环境中。
但在学科建设初期,老师其实很难找到大量产业项目案例和数据集让学生练习,同样,外部搜集的案例也会产生原代码环境与学生本地环境不统一、缺乏数据、难以复现等问题,演练效果不好。
学生在校内与企业进行直接接触的机会很少,本就缺乏实战演练,若让学生参加社会数据竞赛,由于经验不足,参赛积极性也不会高。
教学期待:教学过程中算力高效精准调度
实际情况:资源闲置、运维困难、教研割裂
许多院校都存在这样一种矛盾场景:一方面校内服务器分散,有很多服务器闲置需要被更好利用起来;另一方面数据科学、人工智能类的课程又存在着学生多而机器有限的情况。
这是因为其中的运维工作十分繁琐且专业性强,将会占据老师过多精力。也正因如此,校内的传统算力都“明码”标记着用途,要么用于教学要么用于科研,二者之间无法弹性调度,实现算力的灵活分配。
赛训一体的云端数据科学教学实训平台
针对上述重难点,和鲸已经有了完备的、经过国内众高校验证的解决方案。
在和鲸完整的数据科学生态下,功能强大的数据科学平台 ModelWhale ,集合了社区内丰富的数据集资源与实战案例资源,以及科赛多年办赛经验与赛事模块,打造出赛训一体的云端数据科学教学实训平台,可作为专业级数据科学与 AI 教学实训工具支撑。下文将从三个方面介绍平台能力,分别为:
- 低门槛、易上手的数据分析建模教学实践环境
- 赛训一体化的人才培养方案
- 算力弹性调度管理 · 免运维
低门槛、易上手的数据分析建模教学实践环境
这一节主要讲最核心的教学管理过程。
教学管理,我们可以将其拆分为“教学”和“管理”两个部分。
教学:可复现、可实践、可考核
想让学生能真正上手数据分析,首要解决的就是环境问题。作为云端数据分析平台,ModelWhale 内配备了数百种 Python、R 语言工具包和深度学习框架,师生网页登录就可以进行使用,同时,老师还能根据课程需要自定义配置环境,再同步给学生。
我们来对比一下前后教学流程:之前老师需要单独耗费课时“保姆级”教学如何装包、装环境,学生稀里糊涂一通操作,成功的顺利过关,没有成功就可能被进度落下;而现在老师只要提前定义好环境,在课程开始前花5分钟让学生注册登录,然后一键共享即可,这样不仅对学生来说上手门槛更低,也让老师更加省时省力。
定义好环境即可开展教学。平台为老师提供了两种教学方式:Notebook 交互式编程以及 Canvas 拖拉拽建模,二者各有优势,老师可以根据学科特性选择。前者既能编写、运行代码,又能输入文本,详述知识点,几乎是能将所有课程内容归于一处,对于学生来说也更容易"试错"和验证结果,而后者的低代码形式对于零基础来说更为友好。
确定好教学方式后则需上传教学资料。传统的课件格式如 ppt、pdf、视频等都可以直接上传,此外平台也支持老师上传本地 Jupyter Notebook 文件和数据集,让学生在云端统一环境下在线运行,复现思路。可复现是数据科学类课程中大家普遍关注的问题,在 ModelWhale 上,数据、镜像环境、代码、项目、版本,甚至是研究思路都有着各自的复现途径。另外, 课程界面已与和鲸社区完全打通,这意味着社区丰富的项目资源和 4000+ 经典数据集,都可以直接作为教学材料,供学生拓展学习。
最后便是作业和测评,这是大多数老师比较关心的问题,也是平台的特色之一。老师可以在平台上发布多种类型的作业并在线上完成整个收发批阅过程,其中,对于数据科学特有的,如建模准确率等类型的作业,老师除了自定义脚本评估外,也可以使用平台提供的几类常见的模型评测指标自动评估、自动出分,从而节省时间。
另外,平台特设的提交列表、排行榜等板块,可以让老师直观地观察到学生的提交作业情况,了解他们在实操的过程中遇到了哪些问题、哪些又得到了解决。
管理:精细化管理,更高效、更安全
鉴于这部分能力并不包括在本次我们所主要讨论的重难点范围之内,因此就只做简要说明。针对教学的管理,我们可以将其分为四项要素:人员、权限、算力和课程。
- 人员与权限:一个课程涉及到的人员包括但不限于老师、助教和可能来自不同专业/班级的学生。在平台上老师可以通过划分群组实现对各方人员的统一管理,一方面可以给大家设置不同权限,比如课程操作的权限、数据下载的权限,另一方面也便于监督特定群体学生的学习情况。
- 算力:关于算力的管理,将在下方"算力弹性调度管理 · 免运维"一节着重介绍。
- 课程:对于每年都需要开设的课程,或者一次需要开设多个班级的课程,老师在平台上创建课程的时候就可以直接复用已有的课程内容,包括课件、作业、公告等,提高教学效率的同时也便于对课程材料做持续性迭代。
赛训一体化的人才培养方案
在越来越注重实操能力的今天,以赛促教已经是高校实训教学的重要环节。
和鲸在 2015 年就开展了数据科学竞赛业务,甚至可以说是国内的数据竞赛开拓者,现在将工具、社区、竞赛打通以后,不仅能提供成体系化的比赛模块支持院校和老师自主办赛,社区内丰富的训练营和各项赛事也可以直接用于学生实训。
比赛模块:"以赛促教"的教学实践
在 ModelWhale 的"比赛专区",老师可以自定义创建赛事作为教学实践,在班内、院内发布。
如果有老师觉得"办赛"很复杂可以不用担心,平台考虑到大多数老师可能没有太多经验,因此平台内已经将赛事的各个模块流程化处理,老师只需要在每个细分模块下做好信息配置即可顺利创赛,此后便可以通过管理界面,设置赛事运营过程中的各项需求,并实时查看报名情况及学生结果提交的情况。
"以赛促教"最根本的目的在于验证学生的实操能力,过程比结果更重要。在平台上,老师一方面可以通过客观评审设置考察指标,对学生开发的算法模型推理效果进行更高效的自动评估,另一方面也可以通过主观评审,直接查看并复现运行学生编写的代码,了解学生的算法思路,验证能否真正跑通,并进行打分、留下评语,指导学生改进。另外,若在评审过程中发现了学生某个出彩的创新点,也可以提取出来复用或展示。
更多赛事运营过程中的细节这里就不多赘述了,ModelWhale“比赛模块”的最大优势是,即使老师举办规模再小的比赛,平台对于赛事过程的质量管理以及最终的评审、排名机制都是与前沿的数据竞赛高度对齐的,所以每一次竞赛训练,都可以视为学生日后参加更高级别数据竞赛的提前热身。
内置经典企业问题练习赛
老师除了可以自主办赛外,也可以根据已有比赛创建。过去,和鲸举办了 200+ 辐射各行业的多类型数据赛事,若筛选出背景相适配的内置到竞赛系统中,那么这些高品质赛事便是给学生布置大作业、课后实践的最佳素材。
同样,社区内大量真实的开源商业数据和丰富的商业案例皆可作为学生的课后实践材料。社区经常会邀请各界优秀的数据科学家,通过开办专区和主题训练营的方式,无偿带来行业最佳实践和学习方法,帮助学生打透课上学习的知识点。学生也可以通过参加社区自主举办的练习赛,获取个人能力提升,将所学的知识应用起来。
最后,对于社区内举办的企业级赛事和各行业赛事,我们也十分鼓励学生尝试报名,不仅能近距离接触产业需求,有机会获得企业实训资源和机会,更是能将自己放在更大的环境中验证能力。
算力弹性调度管理 · 免运维
在教学过程中,算力的需求方可以按照角色分为最基础的 院校 - 老师 - 学生 三个层级。ModelWhale 在算力这块的能力可以说是自上而下地解决了各个层级之间的现存瓶颈。
院校 - 老师:算力集成,灵活调度
我们在前文讲到过院校服务器由于没有专人运维,算力分散闲置的情况,ModelWhale 可以很好地解决这个问题。归功于云原生的架构,平台对于基础设施有着高度兼容性,再通过私有化部署,就能够与校内现有的本地设备、软件融合起来,在算力需求增加的时候接入新的服务器,并且后期学校也不用再请人维护这些机器。
解决了算力集成的问题后,接着需要思考的就是如何调度,也就是怎么把这部分闲置资源更方便地利用起来。过去由于"异源",算力都有着明码用途,现在"同源"后,调度的方式就能更加灵活了。
在平台上,算力可以根据核数与内存大小进行拆分,再按照不同使用需求分配给不同群体,比方说可以把基础算力分配给老师和学生用于课程教学,把高规格算力分配给研究团队用于科研。另外,平台还提供了资源申用机制,资源不够用时老师可以直接通过发起申请,及时获得算力补给,随时应对教研需求。
无论是私有云还是各主流云厂商提供的云服务,ModelWhale 都可以灵活对接,也能跨云调度。除了私有化独立部署外,老师和学校还可以选择 SaaS 解决方案,由 ModelWhale 直接提供各级算力、产品更新和后续运维服务。
老师 - 学生:高并发、精管控
云资源的弹性调度能力在教学场景下也有着独有优势。我们知道代码类课程的教学属于“高并发”场景,也就是说首先需要满足的是如何让有限的机器、有限的算力能给到这么多学生去用。
和上面一样,老师也可以简单地通过点选式操作,完成远程资源的分配和管控,精细到“每个学生”——包括配置能用的资源类型和时长。云端教学+算力上云后,教学场景也会发生改变,比如说某些实操课,师生就不用特地去到机房了,直接用自己的电脑云端跑就行,学生课后也可以随时随地实践。
老师能控制每个学生算力使用,除了便于管控资源层面的教学成本外,也能从侧面督促学生提高编程能力。在相同、有限的计算资源下,学生会更加重视算法层面的规范和设计。
最后,在算力紧缺时,老师可以为课程和学生配置资源使用优先级,依次合理安排满足教学需求;而在算力空闲的时候,通过弹性调度机制,用于教学的算力也可以给到老师科研使用,实现教学研究一体化。
暨南大学 · 经管中心大数据教学实训平台
目前,国内众多高校都已经对 ModelWhale 有了深度应用,比如清华大学、同济大学、暨南大学、吉林师范大学、中国石油大学等。这里也简单介绍一下“暨南大学 · 经管中心”的教学实践案例,作为对上述产品、服务能力的补充和具体展示。
需求:搭建“教-训”一体教学培养体系,“人人都能”数据分析
暨南大学经管学院的需求可以分为宏观和微观两个层面。
宏观层面上,学院希望能打造一套完备的商业数据分析课程体系,并搭建起教学管理与课程资源一体化平台,专注于商科教学,同时提升课程品质和课程管理效率。
微观层面上,希望院内各个专业的商科学生,无论背景如何,都能上手做一些数据分析,普遍提高学生的数据能力和创新应用能力。
应用方案:商科大数据教学实训平台
针对学院的需求,我们为其部署了商科大数据教学实训平台,平台能力主要包含以下三个方面:
- 从学到训全流程:告别费时的教学管理工作,解放教师生产力
教学场景迁移到云端后,在线的“课程+作业”,让老师的教学和学生的实践,二者更加紧密结合了。
老师通过平台可以一体化处理学生管理、课件管理、数据管理、算力管理等多项教学管理工作,课件可以分享给学生复现,作业可以在线收发批阅,彻底解放生产力。
另外,平台内还设有多种师生互动机制,比如公告板、讨论区、作业评价,也能帮助老师了解学生的学习情况,获得即时反馈,从而打造更加贴合学生实际应用的课程体系和方案,提升课程品质。
2. 契合新商科学生的工程力,低门槛快速上手进行数据科学工作
不同专业的商科学生对于数据分析学习和应用的需求也各不相同,统计类会要求较高,工商管理类则相对来说要求低一些。
平台即开即用的云端教学环境,除了能让所有学生都低门槛上手做数据分析外,也能提供不同程度的教学支持,比如对于需要写代码的学生,Notebook 内提供了常见的代码片段,而对于注重分析流程,需要快速建模出结果的,则可以直接使用 Canvas 的组件和模板。
3. 配合课程内容,围绕热点话题举办院内赛,激发学生兴趣及创新应用能力
以赛促教,借助平台内的比赛模块,学院还以“疫情”热点话题和真实的疫情数据,结合商业大数据分析课程的知识点,举办了院内赛。
在此过程中,和鲸提供了赛事指导,通过赛题的针对性解读和培训,降低赛事门槛,引导学生报名,让不同能力水平的学生都能参与到比赛创新应用探索中来。最终优质赛事成果还在国赛中获得奖项,极大地提高了同学们的信心和积极性。
结束语
近一年来,我们还陆续与苏州经贸职业技术学院、深圳信息职业技术学院等院校开展了合作,很高兴能参与到大家的数据人才建设工作中。可以看到,和鲸赛训一体的云端数据科学教学实践平台,已经逐渐从头部高校的最佳实践变成了普遍选择。
但我们深知,建设平台并不是难点,如何使用平台、真正发挥出平台能力,才是关键。我们希望能用我们积累下来的经验和方法论,帮助大家一起梳理使用场景,进行全生命周期建设跟踪,给大家带来实质性的帮助。
另外,ModelWhale 不仅可以用于教学实训管理工作,还可以用于数据、算力、模型一体化工作流管理以及科研协同创新。
如果你想更深入地了解 ModelWhale 教学实训、科研协同相关各项功能、应用案例,欢迎进入 ModelWhale 官网 注册体验,也可致电:021-8037 0235(转8) 了解更多详情。