你不可错过的NLP赛事经验

2018年4月由百度和科赛网共同举办的百度NLP智能问答大赛与汽车大师产业问答大赛,在经历了初赛复赛和决赛的重重选拔后,最终在六月底落下帷幕。来自清华大学的lijiancheng团队和来自上海理工的iioiio分别以43.77、36.36的高分获得冠军。

比赛背景

自然语言处理NLP(Natural Language Processing)作为人工智能(AI)的一个子领域,是人工智能领域内最为困难的问题之一,是充满魅力和挑战。自然语言的文法通常是模棱两可的,例如地方口音、拼写的误差等等,机器算法识别达到人类语言理解的程度还有待优化。此次百度NLP大赛为参赛者提供了一个激动人心的平台,使用PaddlePaddle 作为框架,赛事会为选手提供百度云CPU 与GPU计算资源。通过对人工智能回答实际问题的模型训练,未来可能出现为用户节省大量时间,无需打开网页手动筛选答案就能提供全套解决方案的应用, 能够代替市面上大部分人工智能助手。

而汽车大师作为一款为车主答疑解决用车问题的APP,致力于做车主身边靠谱的用车顾问,在线为用户自动匹配相关技师进行解答。 目前机车大师APP上已有13万名通过认证的4S店专修技师,帮助解决各类用车问题,覆盖几乎市场上各个品牌车型,已提供近2000万次的车主问题解答服务。汽车大师产业问答大赛的重要意义之一,在于数据科学与行业真实问题结合的尝试,不仅有望加速用车业务场景的垂直智能方案自动生成工具的研发,同时应用汽车资讯平台、网上汽车商城售后智能助手或汽修店智能客服等场景内,亦将大幅提高业务效率。此次汽车大师产业赛也采用PaddlePaddle作为赛事框架,百度提供共10万元的奖金池供参赛优秀选手分享,并且在第二比赛阶段免费提供强大的GPU计算资源——英伟达深度学习开发卡。

赛题回顾

百度NLP 智能问答大赛使用了BROAD(Baidu Research Open-Access Dataset) 中全球最大中文阅读理解开放数据集 DuReader,该数据集基于真实应用需求,所有问题均来源于百度搜索用户的真实问题,文档来自全网真实采样的网页文档和百度知道 UGC 文档,答案基于问题与文档由人工撰写生成要求选手们根据数据建立基于文本语文题。比赛选手需要输出正确答案的模型,考验选手模型的归纳总结与改述能力。

汽车大师联合百度PaddlePaddle、科赛网,同广大深度学习开发者一起针对垂直领域问答系统智能化做更深的探索。选手在此次AI竞赛中,需要利用机器学习对平台积累的大量历史问题问答数据进行模型训练,基于历史多轮问答文本,输出完整的建议报告和回答,让用户在线通过AI 语义识别及时获得全套解决方案。

赛况展示

百度NLP智能问答大赛一共吸引到了来自全世界各地,包括香港城市大学、香港科技大学、上海交通大学、南加州大学、悉尼大学、新加坡国立大学、清华大学、北京大学、IBM、腾讯、KPMG、Splunk(机器数据引擎,base在硅谷)、华大基因、拍拍贷、京东交易平台、百度在线、支付宝、今日头条、360、携程、众安科技、饿了么、宜信的数据爱好者和工作者。参赛队伍数221个,人数385人,模型答案提交数567次。

百度汽车大师产业应用赛同样吸引到各行各业的数据建模爱好者和工作者,包括复旦大学、南京大学、清华大学、中国科学院、香港城市大学、哥伦比亚大学、中兴通讯、天云大数据、新浪新热点、汽车之家、美团点评、科大讯飞、雀巢、HTC、安盛天平。参赛队伍有118支、人数达到196人、模型答案提交数470次。

选手精彩分享:

对于这两次比赛获得较好成绩的几位选手,小科有幸和他们进行深入讨论对比赛的看法和经历反馈。

“本次比赛最大的收获和挑战在哪里?”

选手蜀山青队长:“主办的很好,非常感谢提供学习环境,但还是NLP环境要求太高,导致了比如长时间运行不能间断,存储空间少了点,GPU不能集群并行处理、上传有限制等,但还是非常感谢。”

选手小李:“提升了自身设计网络,代码实现,调整参数等各方面的能力,挑战是对于PaddlePaddle这个框架还不太熟悉,并没有能实现自己最想实现的模型。”

选手小黎:“学习到智能问答的相关方法,以及PaddlePaddle训练和测试模型的经验。

比赛中遇到最大的挑战是把在TensorFlow上实现的方法在PaddlePaddle上复现。”

对于人工智能领域中自然语言处理的学习和发展,参赛选手们也分享了自己的看法:

“感兴趣。因为在校期间进行自然语言处理、计算机视觉等人工智能应用领域的相关研究,自己对这方面比较感兴趣,也希望能继续从事相关的工作或研究。科技发展所需。近年来,人工智能在人们日常生活中出现的频率越来越高了,而随着科技的发展,不少应用对人工智能的要求也越来越高,例如自动驾驶等一些应用需要达到较高的准确率或者得到较好的效果。人工智能相关应用依然有很大的研究空间,也需要我们不断努力研究。”

——从事相关领域研究的黎同学

“因为想能学习到后能应用到实际工作当中来,能真正的解决实际问题。主要现在可能还是兴趣驱动和一些工作上的一点点驱动,其实在这个领域中一些交流学习的氛围其实还是很好的,但在具体工作和生活环境中,这个现在还是阳春白雪,曲高和寡的状态,有时自己搞懂一点点,不是核心算法,就是数据处理都能欣喜一阵,有时有疑问周围都没有解决的(现在是竞赛中,不方便询问),导致很是郁闷,就工作来说,每天接告警电话处理告警,有些很机械重复性的工作,我想能通过AI能智能学习,人教一遍,就能根据相关的数据日志等自动处理自动回复,这样能更好的投入到感兴趣的,当然这个只是很好的理想。”

——致力于将NLP应用到每日工作中的蜀青山队长