AI大模型洞察系列之一:百度文心一言,繁花未开冬已至

新经济IPOIPO君2024-01-18 12:15 数字产业
2023年,对国产大模型而言,是一个激情澎湃,充满壮志豪言,但唯独缺乏现象级产品诞生的年头;在海外ChatGPT为代表的大模型不断进化的推动下,国产大模型匆匆冲入了2024年,也就是所谓的“大模型应用落地元年”。

2023年,对国产大模型而言,是一个激情澎湃,充满壮志豪言,但唯独缺乏现象级产品诞生的年头;在海外ChatGPT为代表的大模型不断进化的推动下,国产大模型匆匆冲入了2024年,也就是所谓的“大模型应用落地元年”。

在这场代表更高生产力的技术革命浪潮中,国产大模型将扮演什么角色?从百度到三六零,从科大讯飞到后起之秀百川智能,从字节跳动的“豆包”到阿里巴巴的“通义千问”,谁会成为最先进技术与应用的破壁者或涅槃者,谁又是在技术与资本的喧嚣中“赶时髦”的泡沫?

百度大模型成色不足

第一个接受考验的当然是国产大模型排头兵“文心一言”。

没人怀疑百度对AI的热情。早在2016年,李彦宏就曾公开宣布ALL IN AI,并由此吸引了大佬陆奇2017年初加盟;但仅仅一年后(2018年5月),陆奇便挂冠而去;而几乎就在同时,在地球的另一侧,OpenAI研发小组静悄悄地发布了GPT-1的初始模型。

那时候,李彦宏尚没意识到,百度错过了成为AI先驱的历史机遇。等到2022年末,ChatGPT爆火出圈后,李彦宏突然回过神,再次掉头捡起ALL IN AI战略。

问题是,在战略问题上摇摆不定的百度,这一次是真的ALL IN大模型还是说说而已?

具体到产品层面,从2023年初紧急推出“文心一言”,到目前已进化至4.0版本,尽管百度声称“文心4.0版本综合水平与GPT相比毫不逊色”,但是否能够媲美GPT仍然存疑,就连李彦宏自己也承认,文心一言也许永远也追不上ChatGPT。

让百度更为胆寒的是,元旦后GPT应用商店正式上线,不仅将重塑AI服务与应用格局,也会拉开Agent浪潮的帷幕,有极大概率会诞生李彦宏口中的“杀手级应用”。

李彦宏曾多次表示,进入AI时代的标志是产生很多的AI原生应用,而不是很多的大模型。他质疑国内大模型太多了,AI原生应用却非常少,国外则正好相反,“仅有几十个基础大模型,AI原生应用已经上千个”,这令人“焦虑且慌张”。

显然,“文心一言”希望成为能够诞生“杀手级应用”的那个底座,但OpenAI凭借其用户创建的超300万个GPTs构建了初步的Agent生态,率先完成了从模型提供商向平台的转变。而百度大模型,则面临着繁花未开冬已至的境况。

尽管不断有国内机构测评称,文心一言已超越GPT-4(附加词“中文语境”),但认真讲,文心一言远未完成从追随者向引领者的角色转变。

作为首批通过官方“大模型标准符合性测试”的文心一言4.0去年刚上线时,文生图曾闹出很多笑话,一度被质疑“套壳”国外大模型。不过,在过去一年的快速迭代下,文心一言还是有了一些进步。

例如,去年文心一言画“胸有成竹的男人”、“起重机”时都曾闹过笑话。用户要求画起重机时,文心一言直接画了一幅仙鹤图;用户要求画 “土耳其”,文心一言却画成了“火鸡”。这些错误让很多人质疑文心一言文生图涉嫌套壳国外英文大模型,因为起重机在英文里对应的是CRANE,后者也有仙鹤的意思;土耳其和火鸡的英文都是turkey。文心一言在作画时显然是先把中文指令转化成英文,然后再生成图像,极可能调用了国外的英文大模型。

新经济IPO今年元旦后对文心一言图像生成能力再次进行测试,发现这次无论是“胸有成竹的男人”还是“起重机”,文心一言已不再犯去年的错误。

图片

2023年和2024年初文心一言文生图实测结果对比。

此外,新经济IPO基于理解、生成、逻辑、记忆四个维度对文心一言各方面能力进行了测评。

记者分别输入“画一袋鸡精、画一个驴肉火烧、画一张唐伯虎点秋香、夫妻肺片”等关键词,发现给出的答案依然一言难尽,鱼香肉丝、夫妻肺片等图像勉强过关,但“一袋鸡精”、“大头娃娃菜”的画像有的很诡异,有的看上去不伦不类。

图片

图片

2024年1月初,文心一言文生图实测结果。

当然,过去这一年,文心一言的跨模态理解与生成能力的确有了较大提升,并形成了初步的情感分析能力,可以识别文本中的情感倾向和情感表达,并能够生成具有情感色彩的绘图。

图片

此外,文心一言还拥有了更丰富的知识库,并能够根据用户的问题进行常规性的回答和解释。但在逻辑能力上,文心一言依然无法令人满意。如询问“秋冬穿搭街拍”,文心一言并没有生成图片,而是输出了一大堆文字;但输入“春夏穿搭街拍”,生成的就是风格迥异的图片。

这说明,在相同属性的关键词下,文心一言的逻辑导向并不一致,仍然有待于优化提高。

图片

2024年1月初,文心一言实测结果。

当记者询问“明天去深圳,应该穿什么衣服”时,文心一言并没有主动搜集天气信息(不具备互联网查询能力),而是给出了以下模糊信息。从答案看,文心一言在语言理解能力及精准回复上还存在较大缺陷,和ChatGPT的语义理解及解答能力相比,文心一言落后的远不止李彦宏所说的“两个月”。

图片

2024年1月初,文心一言实测结果。

去年11月,百度开始面向C端收费,在国内算是第一家,很多应用如百度文库也都基于C端进行了重构。但从评测结果看,文心一言4.0的C端收费用户数量可能并不理想。如果文心一言被大量付费用户高频使用,拥有自我学习能力的大模型会在海量用户数据基础上,快速弥补之前的缺陷。Chatgpt之所以迭代越来越快,越来越精准,最重要的原因就是全球数十亿用户在不断向其提供免费训练数据。

而文心一言在产品尚未成熟时就急匆匆收费,反而阻碍了其获取更为宝贵的用户使用数据,可以说“因小失大”;李彦宏对文心一言快速商业化赚钱的急切心态,可能也会让文心一言与国外竞争对手的差距越来越大。李彦宏对Office365推出的30美元/月的Copilot套餐羡慕不已,但他忽略了一个至关重要的细节:2019年以来,微软向OpenAI投资了110亿美元。反观百度和李彦宏在文心一言上又投了多少呢?OpenAI推出大模型花费了数年时间,但百度文心一言推出不到一年就宣称赶超ChatGPT,可信度有多少?

对于中文大模型,目前业内有一些比较权威的评测标准,如SuperCLUE、C-Eval、MMLU等。有业内人士曾从基础知识、信息搜集能力、总结归纳能力、创作能力四个方面对包括ChatGPT 4、通义千问、文心一言、豆包、百川等十几个大模型进行评测,结果文心一言败给ChatGPT 4,在全部测评模型中也仅排中上水平。

当然这一比较不代表最终结果,实际上这些也都不重要。核心问题在于,在大模型发展方向上,百度在目前为止更像是一个追随者,距离真正的创新还有较远的距离?

应用生态落后于人

谈到大模型时,李彦宏喜欢强调“文心大模型一家的API调用量,比其他200多家大模型的调用量加起来还要多”,它们即使“上了这个榜单、进了那个排名”,也是在浪费社会资源。

然而,百度大模型未来面临的最大竞争是海外竞争对手在应用层面的降维打击,这是继搜索引擎时代后的又一次“全球性”竞争,它并将直接决定百度这些传统互联网巨头的生死存亡。

在这场竞争中,AI应用生态将成为互联网巨头的争夺焦点。

李彦宏曾多次提及,“因为大模型本身并不直接产生价值,基于基础大模型开发出来的AI原生应用才是模型存在的意义”。AI原生应用有三个特点:第一,能用自然语言交互;第二,能充分利用理解、生成、推理、记忆等;第三,每个应用的交互都不超过两级菜单。第三个特点,其实就是 Agent的典型技术特性——能够跨应用程序完成任务。作为一个AI“新主体”,Agent不仅可以独立完成工作,也可以去寻找其他 Agent合作,组成新的工作流程,共同完成复杂工作。

钉钉总裁叶军曾把这一技术特性解释为“一键拉起所有AI应用”。

百度目前的软肋在于,文心一言尚停留在写报告、做计划、文生图等文本处理层面,这只是AIGC的第一阶段,在这个层面,全球大模型第一梯队的各家实力差距都不大。

真正拉开差距的是第二阶段,譬如图生文、文生视频;以及第三阶段—大一统模态(人工智能体),即用一个模型链接一切,能够自由地串联表达。

需要指出的是,虽然目前GPTs还不是完全自动的智能体,但它已经向人们展示了一个AI智能体可以触及的未来—有能力串联起任何产品与服务,因此GPTs被认为最有希望引领下一波AI浪潮。

国内类似的产品包括钉钉最近发布的“AI超级助理”以及百度的“文心大模型智能体平台”。后者于去年9月上线,目前能查到的公开资料显示,截至2023年12月18日,超2000个智能体上线。而去年11月官宣的GPT商店,由用户创建的“定制”ChatGPT已经超过300万个。两者完全不在一个数量级上。

百度大模型生态与海外巨头差距悬殊,背后原因很多,但过于“实用主义”、营销思维过重无疑阻碍了百度技术生态的成长。

在百度多位AI技术主管的公开演讲或受访中,付费率、成本、投放效率成为关键词,帮助某某集团实现转化量提升多少,ROI提升多少的案例也不鲜见,听上去受访者不是技术主管,而是营销总监。

这或许是百度广告基因决定的,但沿着旧地图,如何能找到新大陆?更为关键的是,去年12月Pika的出现,代表AIGC迈入了第二阶段。在Pika的官方宣传片中,仅凭一句话,就生成了动画版的马斯克,不但神形兼备,背景和动作都合理连贯,面部一致性也惊人得完美。


图片

随着大模型从单一文本迈向多模态,视频就像之前文字、图像生成一样,成为大模型身上长出来的一项功能,一旦成为生产力,AI应用落地的商业化困境便迎刃而解。为此,谷歌、阿里、字节、腾讯都竞相下场,多模态也将成为大模型的标配。

更令人激动的是,第二阶段的到来,意味着第三阶段的Agent也触手可及,在这场“超级入口”之争的关键节点上,百度似乎又没跟上创新的步伐。

新入口之争

Agent将是最佳AI应用入口已然成为业界共识,但为何是“超级入口”呢?

在传统互联网时代,搜索引擎几乎是唯一的垄断性入口。到了移动互联网时代,苹果借助“iOS+App Store”,重新定义了入口形式,人机交互不再通过搜索引擎进行,取而代之的是以微信、抖音、Uber为代表的众多独立App载体,对应着如新闻、社交、办公、网购等不同的内容。

在大模型时代,取代它们的则是AI原生应用—Agent,并且一个终端可能只需要一个就够了,因为Agent可以连接一切。

自然语言会成为Agent的使用界面,Agent调出功能后会拦截SaaS界面,包括很多其他APP也会被拦截掉,只保留交互层,所以Agent才会被称为“超级入口”。

“新入口之争”早已展开。Open AI大张旗鼓地公布GPTs,姗姗来迟的Google将Gemini Nano塞进手机,苹果开发新版Siri引入Ajax,阿里布局AI助理试图连接B端所有生态;为了“新入口”,华为、小米、vivo、OPPO相续发布了“端侧大模型”,甚至腾讯开发的Agent已经可以模仿人类在手机上操作APP。

曾经错过移动互联网时代的百度似乎还沉浸在昔日的信息流广告逻辑中,文心一言APP迄今也没有给出现象级的迭代更新。、

多年来,百度一直在寻找除搜索以外的第二增长曲线,从汽车到电商到直播到教育到外卖,但至今没有一款产品能扛起大旗,简直成了“魔咒”。百度也曾试图追赶自动驾驶的风口,但始终没找到突破点。这一次,百度能乘上大模型的东风吗?从目前的发展看,前景并不乐观。

百度打赢应用之战、建设AI生态的前提是,“文心一言”自身要足够强大、足够创新,而不是亦步亦趋,随人起舞。只有这样,才有机会在大模型淘汰赛中赢得一线生机。

本文为派财经原创,网页转载须在文首注明来源派财经及作者名字。微信转载可发邮件至paicaijing314@126.com联系授权,并在文首注明来源派财经(微信公众号ID:paicj314)及作者名字。如不遵守,派财经将向其追究法律责任。免责声明:本网站所有文章仅作为资讯传播使用,既不代表任何观点导向,也不构成任何投资建议。

猜你喜欢