近年来,国内语言学科专业的语料库呈现快速发展的趋势,愈来愈广泛地应用于人文科学、社会科学和自然科学之中,具体包括语言学、文学、翻译学、舆情研究、国别与区域研究、医学和人工智能等领域。
去年11月中旬,国内首家语料库研究院在上海外国语大学正式揭牌,同时与和鲸科技签署了联合建设语言智能实验室协议。
为促进交叉领域的高校合作,推动上外语料库的建设效率,推动语料库的落地建设,提升语料库的应用价值,上海外国语大学语料库研究院与和鲸科技共同推出了第一批开放科研众包任务,希望借助和鲸社区这一平台,汇聚数据分析的人才,运营数据分析与挖掘方法。为了云端生产和协作更加便捷,和鲸将全程开放数据科学协同平台——K-Lab作为此次数据分析任务的工具,希望在语料库乃至语言学领域促成数据、算力、人才云端化协同的高水平研发与探索。
语料库是语料构成的集合,是经科学取样和加工的大规模电子文本库。在面对着海量的语料库进行语料的检索、分析和处理的过程中,仅用人工处理将会耗费巨量的时间与精力,因此与计算机科学相融合的语料库工具是语料库研究当中必不可少的条件。
随着大数据与人工智能的不断发展,大数据和AI技术也成为了语言研究及语言教学的重要手段,能够有效改进语言研究方法,使语言研究更具规范性和科学性,加快语言研究的步伐。同时,大数据与人工智能技术也能够丰富语言教学方法和教学手段,提供生动的语言环境,提高语言学习的效率。上外语料库研究院正是以语料库建设与应用为核心,在推进语言学、文学、翻译学、区域与国别研究、外交学和法学等领域的跨学科研究的基础上,开展了数字人文、人工智能等交叉学科研究。
在上外语料库研究院曾展开的一期“语料库与跨学科研究”为主题的讲坛中,也详细说明了如何借助Python、R等编程语言或SPSS、KH Coder等现有工具,快速地提取特征词汇、分析热点话题,对包括文学作品在内的不同类型文本进行定量分析。语料库同时也是一块“验金石”,语言理论是否正确,到语料库中验证一下便知。
自动化、信息化和智能化的不断融合,势必对外语教育和研究产生深刻的影响,语料库数据的影响力也将涉及更多领域。和鲸科技作为上外语料库研究院的合作伙伴,还将持续推进此类开放式创新活动,共同推进上外语料库研究院对接国家战略需求和国际学术研究前沿,开展多语种协同合作,推动产学研纵深发展的战略达成。