范向伟 GAIDC 2023 演讲全文:数据浪潮下的 AI 创业的思考

2月26日,和鲸科技创始人 & CEO 范向伟先生受邀出席 2023 全球人工智能开发者先锋大会(GAIDC)。
本次大会由世界人工智能大会组委会等单位指导,上海市人工智能行业协会、上海临港经济发展(集团)有限公司共同主办,联合超过 20 家国内外开源组织、开发者社区,力邀全球领先者与AI开发者共同线下参与。
在上午9点开始的“AI人才成长论坛”上,范向伟先生发表了题为《数据浪潮下的AI创业的思考》的主旨演讲。围绕 AI 创业面对的机会与挑战,他从现象到本质,在历史发展、行业现状中总结经验与规律,并结合自身创业经历,给未来即将步入 AI 行业的年轻人予以鼓励与建议。
“期待在接下来这样一个中国举全国之力发展 AI 的时代,大家能够找到自己创新的想法和方向。”
以下为本次演讲全文:
今天很荣幸受到邀请,前面几位的分享让我也有很大收获。
我的背景跟子豪有点像。我本科学的是财务,后来去了投资机构。2012年,我在投资机构工作时,感觉投资行业可能马上就要被消灭了,因为当时也有个类似于 ChatGPT 这样的技术,就是 IBM 做的 Watson ,也是基于语言、基于问答。当初它的出现对我冲击很大,后面我就转到了统计方向。再后来,因为做过投资人,我大概知道创业往什么方向可能是比较靠谱的。
从15年到现在,我创业已经第八年了,那时候还在读研究生就开始了和鲸的项目。所以很多思考是对于问题和挑战的反思。
01 数据飞轮
AI 作为趋势其实已经没有什么值得讨论的了,这个趋势一定是越来越快的。不管是政府、企业、科研、部队、工业,都把它当做更好的优先级来考虑。很多单位的一把手开始在推动大家做 AI 。
但这件事情,其实它在落地的时候,基本上是操作不了的。为什么?因为一个 AI 的项目要能顺利地创造价值存在一个基本假设,叫做数据飞轮。因为有了更多数据、更强的算力、更好的算法,所以可能会去做一个数据产品。它可能是一个模型、一个报表,也可能是一个指标。因为我们显而易见能够看到计算在变强、数据在变多,所以我们自然地推理这个事是行得通的。
但到去年为止,全球在人工智能领域的投资加在一起有 5000 亿美金左右,这些很多都是亏掉的,其中比较典型的案例就是软银,去年账面反映出来亏了 150 亿美金。
02 两个问题
这里其实存在两个比较基本的问题,一个在成本侧,一个在收益侧。
2.1 成本侧
首先成本大家都能够感受得到。无论是人才教育的成本,还是工程上需要去应对的从计算基础设施到数据治理,到数据仓库、数据湖,再到后面的模型训练这一系列的成本,都很高。

这张图是比较经典的一张 Google 总结的图,说的是人们 95% 的时间都在做跟 AI 没实质关系,但又会影响 AI 模型性能的事。这些成本是很难提前预估的,你不知道一个 AI 项目到底要做多久,也不知道一个课题到什么程度才能做完。
在调参层面,AI 现在是概率模型。概率模型有个很头疼的问题,就是事后才能知道发生了什么。比如你虽然做了很多训练,但效果还是不好,这是因为你很难提前判断会有什么坑。随着模型变得更大,要躺坑的次数也会变得更多。躺坑的成本与获得效果的概率是不成比例的。
所以现在为什么只有 OpenAI 能把 ChatGPT 做出来?因为它拿的钱多。它前前后后拿了 20 亿美金的投资,招了那么多顶尖人才来干这件事。其实他们干的过程跟国内、跟谷歌、跟 Facebook 相比没有本质区别,但是它招了更多人才、做了更多的标注、做了更多训练,这个成本已经是普通公司很难承担的了。
除了工程上的成本外,人工智能项目还有很大一块管理成本。今天 Russell(AAAI会士、ACM会士、加利福尼亚大学伯克利分校计算机科学系教授) 提到, AI 会满足一个人的Objective。 Russell 也提到这个 Objective 是不确定的。人不知道自己要干嘛,这个人可能是公司的 CEO ,可能是业务部门的 CMO ,可能是某个领导……他其实不知道人工智能能帮他干什么。他对人工智能有个预期,但是到底要利用人工智能干什么,他描述不出来。
所以在互联网公司,产品经理这个岗位很重要,因为他是在描述需求是什么。需求总的来说是一开始描述不出来的,要反复发现、做排除法。中间可能会发现,有很多路走不通,即使有一条大概可行,也很难知道为什么可行。
所以在数据变成价值这个问题上,数据没什么问题,算法也没什么问题,算力这个问题迟早会被解决,但人与人之间的沟通,尤其是算法的工程团队与 AI 的需求团队之间的沟通,是个很难解决的问题。甚至于当一家公司的所有部门都是 AI 的需求团队时,算法的工程团队等于要和公司的所有团队沟通。
这张图讲的是数据的基础设施。因为现在 Machine Learning 总体来说是在数据上提取信息,所以随着数据越来越多,数据基础设施也变得更加复杂。这个图大概要看一个小时才能知道其中各个板块到底在说什么。比如当要处理规模化的数据的时候,就要做数据管道;数据管道怎么搭,又有很多的取舍;这个取舍又跟模型的设计、跟需求的分析耦合在一起……所以它的成本会爆炸性增长。投资人可能也很难理解,为什么有些 AI 团队投了那么多钱,但性能还是不好,因为这些挑战在事后才能被发现。
2.2 需求侧
第二个挑战是在需求侧。刚才提到,人其实不太知道自己要用 AI 干嘛,他大致知道 AI 在变得更强,但是一个更强的东西能用来解决什么问题,却并不知道。
首先,数据来源于各个地方,所有东西都在变成数据,同时,所有有问题的场景都可以用数据回答问题。但是你看这张图,左边是一块面积,右边也是一块面积,中间是开发管道;但左边可能是平方的面积,右边可能是立方的面积,而中间你的时间、精力,可能是线性的。所以说大部分数据其实用不到业务上,不知道到底哪些数据是有用的。现在的 AI 创业公司很难,甚至我感觉所有公司的 AI 团队都像创业一样难,因为他们都面临着要向老板汇报自己干了什么、要获取业务部门的支持、要招人、要每天处理各种事情。

另外,需求不确定反映在好像各种各样的问题都可以使用 AI 解决。这是和鲸社区里的两个比赛,左边是数字电网领域,当初客户提出了上百个问题,后面我们一起梳理好长时间总结出来了 7 个我们共同认为更有可行性的;右边是我们跟地方政府一起办的一个智慧城市的比赛,也是列出了很多的需求,但不少需求或是没有数据,或是数据的质量还不够用来做机器学习。这些情况很常见,公司里开的跟 AI 相关的会很多就是类似这种情况——什么都能做,但不知道到底做什么。

这里面其实有一个很头疼的问题:虽然我们能看到 AI 的机会很大,但绝大多数机会从客观上来说,是被极少数团队拿走的。这个规律叫“Power Law”,幂律分布,它在 AI 行业几乎没有例外。其中原因在于 AI 是一个耦合系统,只有当数据、算法、算力、资本等很多东西耦合在一起之后,它才能够运转起来。
一个比较头疼的问题就是,当行业中有一个人看上去跑在前面,其他人就会去支持那个跑在前面的人。比如大家认为 OpenAI 跑在前面了,所有的资源就会往 OpenAI 走。传统行业的企业想转型 AI ,都会面临这样一个时间点:当大家公认有一个人要跑到前面时,其他人会拿不到资源。因为这个东西很烧钱,它的马太效应非常厉害。
03 创业无解?

这张图总结了我这些年发现 AI 创业挑战很大的一个原因,但是我比较晚才发现这件事。 AI 总的来说是云计算、大数据等各种各样 IT 技术叠加出来的一个能力平台。因为摩尔定律、因为一系列信息化的能力,导致现在有一种能力叫“Data&AI”。
这种能力面对的是所有需求。原本 IT 再怎么发展也只是社会的一小部分,但今天的 IT 能力已经可以应对社会上所有潜在的问题与机会。所以业务场景与业务机会是永远大于 IT 能力的,这就会导致你总会发现自己做得不够好,有人做得比你更好,以及总有人提出额外的修改需求、提出各种各样的问题。这个矛盾基本上是无解的。
所以当 ChatGPT 出来的时候,大家非常震撼,因为很多团队都在这方面吃过苦头。当发现 OpenAI 仍然能够聚集这么多人才、资源,把 AI 的应用再向前推一步的时候,大家是非常振奋的。前两年以软银为代表,大家经历了从过度乐观到过度悲观,不是说 AI 技术不行 ,而是 AI 的商业化世界实在太有挑战了。一旦 AI 能运转起来后, AI 的程序从理论上来说是可以打败传统程序的,因为传统程序没有这种成长性。
我一开始觉得 AI 创业很难,一直在想要不要坚持下去,后面发现有一个行业更难,就是药物研发行业。药物研发行业基本是 10 亿美金起步,再前前后后投入十年左右时间,但是药物行业仍然增长非常快、非常庞大。

一个能够经过审批的药物上市之前,要有一万个化合物作为实验的出发点,中间再不断地花钱、不断地投入,直到能通过所有测试——安全性测试、有效性测试,包括潜在的毒性测试等等。这个过程我觉得跟 AI 的创业过程特别像,就是你在做一件可能对整个人类社会都很有帮助的事情,但是它的风险、挑战、成本再怎么高估也是合理的。而这又是大势所趋,所以各行各业总会有一个人走到最终环节,这没有什么悬念。
04 从历史找答案
AI 创造的价值很大,到底有多大?世界知名投资机构 Ark Capital 做了一个简单估计:未来的十年, AI 创造的价值,特指深度神经网络创作的价值,是过去 20 年所有互联网公司所创造的价值总和。这是一个非常过分的估计,因为我们都知道中国最大的公司、美国最大的公司都是互联网公司,而这个投资机构认为接下来十年 AI 创作的价值比他们所有加起来都还要大,这是非常反直觉的推理。
4.1 基本问题
为什么会有这些价值?因为对于所有行业、所有企业、所有部门,只要有数据就能上算法,只要上了算法它早晚都会有用。所以这里就会产生一个很基本的问题。

左边是越来越强大的 IT 能力:我们AI开发者和研究人员,花这么多力气学编程、学算法、学数学,一旦研究生、博士毕业,这些基本上是 OK 的,因为绝大多数老板、客户都没有你这么懂 AI 。但是我们真正要去应对的其实是右边:巨大的挑战和巨大的机会。应该如何应对这些挑战,如何消化这些机会?
到了今天,大多数人会认为 AI 是个挑战,因为觉得 AI 会替代自己的工作。即使在 AI 行业,很多人也觉得挑战是大于机会的,因为刚才说的马太效应、幂律分布。这也是为什么我国现在这么重视 AI ,一定不能落后,因为我们是制造大国,如果 AI 可以自动化制造,中国会有很多工人失业,这是个一定要解决的问题。
4.2 电脑行业的发展史
其实历史上每一次技术革命,无论是计算机的出现、互联网的出现,大家都是很懵的。一开始炒作的机会特别大,然后马上就发现是非常大的泡沫,像 99 年互联网大家亏了好多钱,也差不多亏了 80% 。
那如何消化这些挑战跟机会?我个人这些年的思考是你不能自己去想这件事,自己想永远找不到答案,还是要到历史中找类似的经验与教训。比如我们公司做的是云端的机器学习协同平台,做这个产品的过程中我经常会去看电脑行业的发展史。

这个海报当初对我启发特别大。图上这个电脑是苹果的 Apple II ,它是1980年上市的。其实电脑行业在 80 年代已经发展有二三十年了,50 年代就已经有了军用的、政府、金融、财务行业用的电脑。对我来说,当初让我特别有启发的是它的标题:它说苹果接下来要推出 Macintosh ,但是是给那些对电脑感到恐惧的人用的。
当时电脑行业已经发展了 30 年,但苹果还是会认为电脑太难用了,所以他们做了很多图形交互界面,想要让电脑能服务更多人。那个时候电脑产业已经很大了,IBM 当初就有将近 1000 亿美金的市值,在当时的美国相当于是工行加中石油的体量。但是在 80 年的时候,苹果从一个全新的角度定义了,电脑应该怎么被使用。
这是个很有意思的事情。其实之前也是一直有各种各样电脑的。但苹果定义了图形很重要,人的体验很重要。在图形交互界面上,大家是 80 年之后才把它正式当做是个问题。
我们这家公司做的事情就是让 AI 整个基础设施变得简单、直观。现在做机器学习、做数据可视化,有很多工具,大部分也都很难用,所以我们做的就是尽量让它简化。我们的客户更多是那些要用 AI 但是又不太懂 AI 的领域,包括了医生、警察、石油、化工等等。
4.3 关键阶段
那现在 AI 大概发展到了哪个阶段?其实是在中间这个阶段,已经到了一个非常关键的位置。人工智能、机器学习的技术已经发展了 70 年,它没有那么突然,总的来说它是在一条一脉相承的技术路线上变得更便宜,能力上的工程成本、各方面的成本不断下降。

从历史上看,类似发展 70 年才成熟的行业有很多,汽车、电脑、互联网都发展了很多年。 AI 其实现在也还在很早的阶段,类比电脑行业,可能就是处于 80 年代乔布斯把苹果这样一个机型推出来的时候。但再往后看,电脑的核心技术其实没有变,还是冯·诺依曼架构,还是图灵设计的这些东西。但是到了 2010 年之后,笔记本电脑就比台式机要多了,大概是台式机的十倍;手机(iphone)的数量是笔记本电脑的十倍。这些机会可以说是换了个角度来看电脑这件事——什么是好的电脑,它的形态是一直在发生变化的。
关于苹果和施乐,大家都说苹果抄施乐,但其实不能算抄。虽然苹果模仿了施乐的交互逻辑,但是苹果的价格是当初施乐的 1/10 。苹果只用了 4000 美金,而以前的电脑要 4 万美金,更过分的还有 10 万美金。大部分普通人是不需要电脑有那么强性能的。
这其实是未来很多学 AI 的同学可以切入的一个角度。技术发展到一定程度,一定会遇到瓶颈,就是技术过剩。技术是被普通人消化不了的,而怎么降低消化的成本,事实上是一个设计问题。比如乔布斯,他就是一个设计大师,主要站在人的角度去考虑一个技术的局限性,以及技术不好的地方。
05 再谈创业
这些年创业很困难,AI 行业其实大家都在亏钱。所以我总在反思行业的机会在哪里,坚持的意义是什么。

这本书给我蛮大鼓励的。创业这件事,心态很重要,千万不要想着马上成功,对你来说最重要的就是你能够活着,并且能够学到新的东西。创业的门槛比较高,对人的心理素质、精神状态,包括自信心等各方面要求都很高,但只要你可以接受失败,你就不用害怕失败。因为每一次失败的过程,其实你都在成长。

我自己认为创业最大的收获,其实不是有机会赚钱,或是有机会做很厉害的事情;我觉得最重要的价值是它能给自己提供一个反馈。这张图是第一届奥林匹克竞赛运动员准备跑 100 米,很奇怪的一点是难道 1920 年人们还不知道跑步的姿势是什么吗。那时候还没有全世界最会跑步的人被聚在一起跑步,只有第二赛道的运动员用了相对科学的跑步姿势;然后第二年所有人都用了这个姿势。
所以创业的核心价值是告诉你哪里不对,因为你总在碰壁、总在被挑战、总在失败,大的失败、小的失败……但是你能得到反馈,而这些反馈来自于所有地方,包括你的团队内部、你的客户、你的投资人。
这种反馈其实是很有价值的,因为我们现在需要适应 AI 这个新的挑战。我们在跟别的会用 AI 的团队比、跟别的会用 AI 的国家比、甚至于跟 AI 本身比,而姿势能不能够调整正确并不是一开始能想出来的。每个人当初都觉得自己是正确的,就像这张图里,每个人跑步的姿势都很自信,都势在必得,但是还是需要跟别人学,因为你自己能学到的东西事实上很有限。
所以期待在接下来这样一个中国举全国之力发展 AI 的时代,大家能够找到自己创新的想法和方向。这可以说是十年一遇的机会了,跟大家一起共勉。