和鲸101计划:助力上海外国语大学人文社科专业数据分析
随着新一轮科技革命与产业变革的加速演进,学科间的交叉融合不断升级,由数据驱动的系列交叉学科备受瞩目,然而,在实际教学与学科建设的过程中,对于数据科学引入至相关学科,高校教师还是普遍面临着比较多的问题。和鲸科技以协助解决此类问题为初衷,推出了《高校数据科学教学经验系列分享交流会》,5月18日,交流会第一场《青椒分享:人文社科专业的数据分析课怎么教?》顺利落幕。
本次分享活动,和鲸邀请到了上海外国语大学国际关系与公共事务学院的“青椒”王凯老师——作为青年讲师、硕导,王老师的研究议题主要在族群政治、国际安全、选举和大数据预测,持续探索使用大数据方法,尤其是自然语言处理方法分析区域国别问题的同时,也教授多门面向本科生、硕士生的统计学及研究方法课程,教学经验丰富。
分享中,王老师主要从“教学过程”、“教学挑战”、“教学教训”三个层面为我们带来他在多年传道授业解惑过程中沉淀下来的心得体会,以期与同样教授数据科学交叉学科,尤其是人文社科的教师同仁们进行交流讨论。
01 教学过程:课堂教学、作业实训、鼓励运用
对于教学过程,王凯老师以他教授的两门课程举例:首先是《统计学概论》,这门课程面向的学生主要是政治学相关专业、通常没有高数基础的的低年级本科生,属于必修课,从基础知识讲起,至回归分析结束;另一门是《政治学定量分析》,主要面向政治学相关专业的高年级本科生,属于选修课,教学范围从回归分析涵盖至常见的因果推断方法。
即使两门课程面向的学生基础不同、课程类型与规模不同、教授内容范围不同,但相同的是在教学过程中对于“实操”的重视程度——无论是《统计学概论》或是《政治学定量分析》,王老师对于教学的设计都是将课堂时间一分为二,讲解重要知识点后,直接安排学生直接进行 RStudio 等软件的实际操作。
王老师结合自己作为学生的经历,认为若在课堂上只进行理论教学,将实操放在课后或不进行实操,那么一门课程结束了就是结束了,学生很快就会忘却相关知识点,即使不忘却,也不会在之后的学术或职业生涯中真正将这些知识运用于实际。因此,王老师将软件的实际操作放在了很高的位置、愿意为此花费大量课堂时间,同时穿插与学生专业背景相符的案例,如美国人的维和维稳行动是否在阿富汗取得民心、美国国会两党种族意识形态与经济意识形态的差异化变迁等,学生可以基于这些案例真正动手,通过 RStudio 代码操作自行绘制频数表、散点图。王老师指出,只有经过亲身实操,学生才能真正化书本上的“文字”为自己所用,这也正是他进行相关课程教学的初心。
基于以上理念,王老师在教材的选择上也别出心裁,例如对于《统计学概论》,王老师推荐 Kosuke Imai 的《Quantitative Social Science: An Introduction》与吕小康的《R 语言统计学基础》,这两本教材的共通点是都会在知识点讲解后提供 R 代码与数据方便学生进行操作,同时前者还会结合社会科学领域最新的真实研究案例进行教学。
当然,课堂时间对于学生掌握一门课程而言是远不够的,教师往往需要以作业实训为途径帮助学生巩固知识点、检验知识点的掌握程度,而作业问题正是许多相关高校教师的困惑点:学生并非传统数据科学专业出身,且本专业的课业已经非常繁忙,面对他们,作业量应以多少为宜?深度该如何?作业批改、讲解又该如何处理?
王老师建议,考虑到学生的实际情况,包括时间精力与感性认知,作业实训的数量与深度都不应过重,以班级中知识掌握水平较好学生 20-30 分钟的工作量为宜;而对于作业批改、讲解,王老师会邀请上一年度班级中成绩较好的学生担任本年度的课程助教,一般 15-25 位学生配备一位助教,按时批改作业、给予教师反馈,同时每周安排一次一个半小时左右的额外答疑时间。
最后,王老师指出,由于教学的目的是知识的实际运用,因此教学过程的终点便不应是课堂或作业亦或是考试,而是要鼓励学生将课堂知识与实际研究问题真正相连,换言之,应以学生真正感兴趣的一些小研究、小实践作为教学成果的出口,真正培养所谓研究型人才。在王老师的学生中,有人在结课后调研老年人智能手机的使用情况,有人观察微博女权大 V 的粉丝构成,过程中,或许会遇到超出课堂范围的部分,比如社会网络分析的操作等,但此时,学生是具备一定数据思维的、对于数据分析的原理是理解的、对于自己的研究是有思路的,只是缺乏一些技术上的经验,那么一方面王老师会鼓励学生搜索资源进行自学,一方面也会提供一些技术上的指导,最终帮助他们完成一份真正意义上的小型数据研究,我们可以将这份研究视作从学生到研究型人才的重要过渡。
课堂教学、作业实训、鼓励运用,这就是王凯老师在进行数据科学交叉学科教学时的整体思路与过程。
02 教学挑战:学生畏难情绪严重?基础差异较大?
在多年教学过程中,王凯老师也曾遇到不少难题、挑战,对此进行总结,大致可分为两类,一方面是如何消除学生的畏难情绪、调动学生学习的积极性,另一方面是面对基础差异特别大的学生群体应如何开展教学工作。
对于相当一部分教授数据科学交叉学科,尤其是人文社科的教师而言,学生的畏难情绪都是令人头痛的一大问题,虽然只是感性上的偏见,却会大大削弱学习热情,教学效果也因此变差,对此,王老师从三个方面提出改善措施。
首先,在面向人文社科专业教授数据分析时,应强调不需要高数基础,打破学生的刻板印象,与之对应的,在讲解具体知识点时应弱化其数学属性。例如在教授多元线性回归 OLS 方法时,只将重点放在思路与逻辑,可以在坐标轴中向学生展示什么是残差、什么是残差平方和,也可以介绍之所以进行残差平方和最小化是为了更好地拟合直线,但是没必要向学生说明如何用微积分的方法计算残差,因为这一步通过代码操作 RStudio 可以自行完成,当然,对于软件操作的讲解更应细致,通过注释标注等方法,向学生阐明每一个符号、每一行命令的意义。
另一方面,要向学生强调数据分析的实际作用。比如王老师在课堂上会向学生展示下图,图片表明了在政治学、国际关系领域的主流顶刊中,使用某些数据分析方法作为研究手段的比例逐年上升,千禧年前后已分别达到约 75%、45%,之后预计会更高,如果相关专业的学生在本科学习过程中没有掌握一些数据思维,那么随着年级升高,他们将没有能力看懂本专业主流顶刊中的研究论文。此外,每每讲解数据分析知识点,王老师会将其与学生的专业问题直接相连,如条件概率、条件均值可以用于思考国家之间的核威慑问题,而某方法又可以用于研究国际政治中的某问题,让学生认识到学习数据分析绝不是形式主义任务,而是真正能帮助到自身成长,这一点非常重要。
最后,还是要鼓励学生多多操作。万事开头难,但一旦产生成果,比如学生第一次用 RStudio 编写出一段可运行的代码,这种成就感是由内而外的,并且能够自然消解原先的畏难情绪。
而当面对基础差异较大的学生群体开展教学工作时,需要明确对于大学课程尤其是专业必修来说,课程规模一般不会小,因此对每个学生都进行因材施教的难度会很高,尽量还是寻求一些普适的教学手段解决问题。王老师认为,首先还是要多多鼓励,对学习动机较弱的学生保持关怀而非批评;其次要将课程难度控制在合理的范围内,不求讲解尽可能多的知识点,能让学生理解少而精的教学内容已然足够;最后就是前文提及的助教制度,及时批改、反馈作业实训 + 固定的课后答疑时间,降低学生学习出现问题时寻求帮助的难度。
以上两大难题、挑战也正是许多相关领域教师所面临并感到困扰的方面,王凯老师给予了详尽的解答。
03 教学教训:良好心态、兴趣导向、难度控制
教学的过程同样也是探索的过程,结合所构建出的教学过程与曾面临的教学挑战,王凯老师总结了三点教学教训,分享给同领域的教师同仁,希望能为各位带来一些启发。
首先是要在教学过程中保持良好的心态,即使是碰到学习动机弱、相对桀骜的学生也应该控制住情绪,师生之间不应站在对立面上,还是要以鼓励、关怀、感化为主。
其次对于教学内容,应以学生的兴趣为导向,就像前文提及的,不追求知识点灌输的最大化,对于非传统理科出身的本科生而言,能够掌握最基础的数据分析操作就很不错。
最后对于考试内容,需要明确此类课程开展考试的目的是为了检验学生知识水平的掌握程度,而非对学生进行选拔或其他,因此考试内容不应太难、不应闭卷,学生只要能够证明自己确实具备了数据分析的实操能力即可。
从教学过程到教学挑战,再到教学教训,以上便是王凯老师对于《人文社科专业的数据分析课怎么教?》议题的分享内容。
04 Q&A 环节及一些补充
本次交流活动的报名阶段,通过设计报名表,我们向各位与会者搜集了对于数据科学交叉学科相关领域感兴趣的一些问题,王凯老师在分享后都给予了详尽的解答,此处,特精选两个问题作为分享内容的补充,供同样关心此方面的读者学习参考,完整 Q&A 环节可见上方活动录屏。
Q1: 如何将一些新的算法、模型(如 ChatGPT 等)与数字人文分析进行深度结合?
王凯老师:关于运用目前时新的一些算法、模型研究人文社科,我认为要把握一个尺度,拿 ChatGPT 来说,你不能将你的研究全部直接丢给一个模型。在进行一项研究前,你首先要对相关专业领域有一个透彻的了解,该领域目前在关注哪些议题?对于这项议题,研究人员都在使用哪些研究方法?进展如何?全部了解透彻、真正开始研究后,还需要彻底了解你所选用的新算法、模型,考虑如何将这些新型手段与你的研究做最好的结合。
在完全了解清楚这两个问题之后,我觉得才能很好地将一些算法模型与数字人文分析深度结合,拿我自己的学生举例,他们之前在研究越南对于中国南海在国家利益主张方面的认知。基于这项课题,首先要明确研究思路,那么第一步,他们会针对越南官方媒体的一些输出,进行新闻的搜索与爬取;等找到几千篇新闻后,首先会通过人工的方式对涉及南海利益的文章进行数据标记;随后借助机器学习的方法,运用神经网络模型,通过测试集对该模型进行训练;最终整理出究竟哪些文章涉及中国南海利益、他们被输出的时间点是什么;基于以上可以将越南对于中国南海在国家利益主张方面的认知随时间变化进行可视化,依据这份图片输出我们可以再探寻背后的原因。
那么以上就是一个很好的算法模型与数字人文分析深度结合的例子,这当中,我们会有人工操作、人工干预,也会有算法模型的介入,代替我们做一些重复繁琐的底层工作。所以我的观点是,时新算法模型是一定能够在很大程度上解放人工的,但要注意尺度,把握究竟什么该让计算机做,什么时候又该进行人工干预。
Q2:对于数据分析,人文社科专业的学生应该掌握到何种程度?
王凯老师:对于人文社科的学生应该掌握到何种程度,主要取决于你究竟想做什么样的研究。数据分析只是你做研究、解决实际问题的手段,可以类比于实证主义者的工具箱,工具箱里的工具越多,也就是你掌握的数据分析方法越多,那么你可以解决的实际问题也越多。数据分析方法本身如同其他知识一样,是学无止尽的,关键在于你想要解决怎样的问题,以目标为导向思考此类问题,学习的效率就会很高。
05 结束语
再次感谢王凯老师接受和鲸邀请,利用自己的个人时间为大家准备如此精彩的分享。
总结来看,王老师在经验分享中尤其强调了实践教学的重要性,于课堂穿插与专业背景相符案例的同时,让学生真正动手进行软件实操,同时鼓励学生以实际研究、作品为出口进行技能的延拓与展示——以上思路其实与和鲸助力高校培养更契合社会需求的应用型数据科学人才的人才培养理念不谋而合。
和鲸基于全国高等教育新愿景,致力于推动高校教改、课改,依据 OBE 成果导向教育模式,集成功能强大的数据科学协同平台 ModelWhale,拥有丰富实战案例资源的和鲸社区,及和鲸科赛多年的办赛经验与比赛模块,构建出了最完备的产品 + 资源 + 服务体系,并已落地应用于众高校数据科学交叉学科专业(课程)体系建设的工作中——协助中国人民大学信息学院搭建“交叉学科教研一体化新型数据分析平台”、协助四川大学公共管理学院搭建“大数据应用实训系统”、协助暨南大学经济管理实验教学中心搭建“商科大数据教学实训平台”…——获得从双一流到普通高校客户的广泛好评。
和鲸团队同样关注教师成长:线上社群资源、定期圆桌分享……和鲸以多种服务形式赋能高校教师,共享教育实践资源、助力“育人者”的能力提升。
7月,山东青岛,和鲸将联合人邮教师发展中心(人民邮电出版社下设)共同发起一次线下三日教学培训研讨会,特邀南开大学赵宏教授、华东师范大学刘艳教授、天津科技大学赵奇老师担任讲师,面向全国高等学校经管类学院教师,以推动课堂教学新模式、加快开设经管大数据分析相关课程为目标,系统化提升教师数据科学、数据分析的教学实操能力。
和鲸社区聚集 50万+ 数据从业者与爱好者,具备丰富且实时更新的真实数据、开源代码、项目案例及实训活动资源,覆盖商科经管、地球科学、人文社科、生物医学等广泛的学科领域,您可点此链接免费注册使用。
本次活动属于和鲸发起的和鲸社区“101数智领航计划”系列活动,旨在积极贯彻教育部基础学科系列“101计划”工作。2024 年,和鲸社区结合近十年在数据科学人工智能的开源资源积累和专业共建经验积累,将与 20 个头部高校共创共建高质量课程、高质量数据集、高质量实践项目以及学科大模型等,同时开放有限学院名额,助力建立 AI 创新虚拟实验室。
若您对这一计划感兴趣,也欢迎点此链接与我们取得联系(添加时请备注“101”)。