?对标GPT-4的智谱AI实战能力堪忧:一道数学题算错七次后宕机,强行解读《红楼梦》闹笑话
1月16日,明星大模型创业公司智谱AI发布了基座大模型GLM-4,同时发布的还有GLM-4 All Tools,以及智谱AI版的“GPTs”—GLMs,实现了与OpenAI全模型产品线的对标。智谱CEO张鹏甚至表示,从标准大模型评测角度看,GLM-4性能整体上已经逼近GPT-4。
不过,在新经济IPO的实际试用过程中,GLM-4不仅没有表现出与“测评分数”一致的高水准,反而闹出了不少笑话。
成立于2019年的智谱AI,由清华大学知识工程实验室(KEG)技术成果转化而来,是目前国内唯一全内资、全自研的大模型企业,早在2020年开始GLM预训练架构的研发,并训练了100亿参数模型GLM-10B;2022年公布1300亿级超大规模预训练通用模型GLM-130B。
2022年底,大模型浪潮席卷全球,由于提前部署研发,智谱 AI成为资本眼中的宠儿。2023年7月至9月间,智谱AI拿下5轮融资,估值达到100亿元。11月,有媒体报道智普AI“正以200亿元估值进行新一轮融资”,但有多位股东对“翻倍”的高估值表示质疑。
时至今日已过去近4个月,未有融资的进一步消息传出。反而在GLM-4发布两天后,智谱AI的创始股东中科创星又将手中股份减持了25%,其已于2022年减持了同比例股份,目前实际持股比例或不到1%。
而“技术理想主义”者张鹏,2024年的新愿景是让大模型真正落下来。这也说明,即便是被投资圈视为“有人、有技术、有客户”的智谱AI,同样面临大模型落地难题,这恐怕也是所有国产大模型2024年必须面对的巨大挑战。
一道数学题算错七次后宕机
张鹏认为,如果你沿着前人的脚印去走,顶多追到屁股后面。如果想在短时间内超越前人,就一定要做创新。为此,智谱AI没有采取目前最主流的三种模型训练路径:GPT来自OpenAI,BERT和T5来自谷歌,而是提出了全新的GLM(通用语言模型)路径。
若GPT的原理可以比作“根据上文做完形填空”,那么GLM完形填空的依据则从上文扩充到上下文。理论上,GLM的训练效率会比GPT更高,也能理解更复杂场景——GLM发展也确实迅猛,从去年3月份开源第一代,目前已经迭代到第四代。
在GLM-4的发布日上,张鹏在多项能力上将其与GPT4进行了对比,其中GLM-4的中文对齐能力总分超过了GPT-4,此外在MMLU理解评测、GSM8K数学逻辑和代码水平上都有大幅提升。
下图是DataLearner综合评测分别按照HumanEval与MMLU排序的结果。可以看到,不论哪个对比,GLM-4和GPT-4、Gemini Ultra的测评分数都差不多。特别是阅读理解方面,GLM-4只比GPT-4低5分,这是已知国产大模型取得的最好分数。
为了验证GLM-4的能力是否真的实现了较大提升,新经济IPO对其进行了简单测试,但结果不如人意。
在首轮测试中,新经济IPO在对话中输入“林黛玉为何倒拔垂杨柳”这一网络梗,不过,GLM4竟然回答称,这个故事出自曹雪芹名著《红楼梦》,还试图很认真地用林黛玉与贾宝玉的情感纠葛来解释林黛玉“倒拔垂杨柳”的行为。
一个2022年就宣布拥有1300亿参数的双语(英文和中文)预训练语言模型,却连中国古典名著之一的具体内容情节都没掌握,实在说不过去。
接下来,新经济IPO尝试让 GLM4计算一道数学题,以测试其逻辑推理能力。然而,一道非常简单的数学题,GLM4连续回答了7次都错了,最后更是直接宕机。需要指出的是,这道题去年曾经有媒体在GLM3上做过测试,回答也是错的。
为了对比,新经济IPO拿这道数学题考验了一下“文心一言”,后者很快给出了正确答案。
在中文语义语料和数学逻辑推理能力测试之后,新经济IPO又测试了GLM4的多模态图片理解能力,这次,智谱AI终于过关了。
在文生图能力上,GLM4表现得也不算令人失望,虽然它将“一个卡通柯基”画成了“一堆卡通柯基”。
当被要求“画一个西兰花下的斑马”时,文心一言和GLM4分别给出了如下作品,GLM4的画风还是有点怪异。
从上述有限的测试看,GLM4在中文语义语料和数理逻辑上的能力尚有欠缺,但在文生图及图片理解能力上表现尚可。从综合能力看,GLM4与GPT4还存在明显差距。
大模型商业化路漫漫
实际上,抛开于国外大模型的技术差距不谈,国内大模型商业化如何落地,可能是摆在所有创业公司面前的更大挑战。
和苹果系统一样,大模型也是一个庞大的生态,而流量则是一切商业模式的源头。对比ChatGPT早就突破1.1亿次的全球安装量,国产大模型如何商业化?如果说2023年,投资人、应用企业还在关注技术差距的话,那么新的一年,所有人的焦点都已经转移到了大模型商业化的落地上。
智谱AI当然早就意识到了,落地才是未来最大的挑战。从发展路径上看,智谱AI也是国内最早推进大模型商业化的企业之一,率先提出了“模型即服务(MaaS)”的落地路径,给出了面向B端开放API、云端私有化以及本地私有化等多种商业解决方案。
智谱AI官网显示,其云端私有化部署最低档位ChatGLM-12B,报价25万元/年,最高ChatGLM-130B,120万/年;本地私有化部署的最低参数ChatGLM-12B,报价180万/年,最高ChatGLM-130B,3960万元/年。
张鹏认为,B端的付费意愿比C端好很多,尤其是行业头部企业,在大模型方面普遍投入多,动作快。所以,智谱AI从一开始就瞄准B端。智谱AI对外披露信息显示,目前已有2000多家合作伙伴。
那么,智谱AI目前营收状况如何呢?据张鹏透露,2023年下半年智谱签单客户约几百家,2023年整体有亿级签单额。根据上述报价计算,智谱AI的销售情况显然不算太好。这样的签单额肯定无法支撑大模型的“烧钱”研发,要知道,年营收超10亿美元的OpenAI目前也还未实现盈利。
作为中国估值最高的大模型创业公司,智谱AI收获几百家签单客户是一件可喜的事情,但并不算乐观。商汤科技在2021年上市之前,曾公布过截至2021年6月30日的商业客户数量“超过2400家”。可以对比的是,近期OpenAI刚刚公布了自己的付费企业客户数量是260家,可见即便是全球顶尖大模型,B端市场的拓展速度也并不是很快。
与此前任何大规模技术革命一样,大模型的商业化也注定是一场漫长的旅程。IDC去年11月开展的一次全球AI应用调研显示,中国的100家受调企业中,已经大规模投入的企业只占24%。这说明,虽然产业端对大模型的热情很高,但真到落地阶段,愿意“真金白银”拥抱大模型的依然较少。
老难题需要新答案
受多重因素影响,国内资本目前对大模型更多采取了“观望”态度。即便2023年大模型热贯穿全年,整个AI融资市场都没有出现前几年互联网浪潮时的活跃状态。
有的资本或许还在观察与等待,寻找一个合适的时机再涌入,但有的资本的耐心与期待已然不多。
有媒体报道称,智谱 AI发起股东中科创星连续卖掉了其持有的部分股份,减持比例超过50%,累计退出金额约1.2亿元。同时,中科创星创始合伙人米磊已退出智谱 AI 董事职位。对此智谱回应称,本次中科创星减持的股份,已被君联资本、boss直聘等老股东接手;中科创星则表示,长期坚定的看好AI,看好智谱,退出是因为份额不够,新进战略投资者要求购买老股。
话虽如此,但正值大模型发展方兴未艾之际,中科创星的清仓式减持还是令人疑惑。有知情人士透露,虽然中科创星对外声称看好AI,但高层其实并不看好,原因在于AI企业很难上市,2021年更是撤掉了AI投资组,现在的AI项目都是2021年之前投的。
实际上,即使是仍在坚守的资方,也对没有业绩但估值一路高涨的智谱AI看不懂。有媒体报道称,去年11月,有消息传出智谱AI拟以200亿估值挑选下一轮投资机构方,随即就有多位老股东对“翻倍”估值表示质疑。对老股东来说,并不是创投公司的估值越高越好,没有业绩支撑的高估值只会吓跑后来的投资人,如此一来,此前入局的投资人又该如何退出呢?
当然,作为史上最烧钱的技术革命,大模型要进步,就只能依靠不断融资。智谱AI2023年累计融资超过25亿元,看起来不少,但远不及商汤科技2017年获得的40亿元融资,而商汤科技在IPO前总融资金额高达52亿美金。智谱AI的烧钱速度显然比商汤科技更快。那么,假若智谱AI下一轮融资迟迟不出现,25亿元能支撑一个400人的高薪大模型团队工作多久?这虽然是AI创业老难题,但目前迫切需要一个新答案。
张鹏一直想“做真正厉害的事情”,即智谱AI能够往下且深入地撼动当前模型框架的研究技术。这固然是一件好事,但在考虑是否能活得够长之前,还是应该先解决“活下来”的难题。没有靠谱的实战能力以及“自我造血”能力,没有切实可行的商业化路径,智谱AI的动人故事将很难继续讲下去。
免责声明:本网站所有文章仅作为资讯传播使用,既不代表任何观点导向,也不构成任何投资建议。】
猜你喜欢
李彦宏:不是要一个“超级应用”,是要打造数百万“超级有用”的应用
百度创始人李彦宏在百度世界2024大会上,发表了主题为《应用来了》的演讲,发布两大赋能应用的AI技术:检索增强的文生图技术(iRAG)和无代码工具“秒哒”。蚂蚁数科发布新一代融合AI风控引擎 十月底将开源核心框架
6 月 25 日,蚂蚁数科旗下蚁盾发布新一代融合AI风控引擎“AIR Engine(AI FUSE Risk Engine)”,在原有的决策式AI架构上通过引入生成式AI,进一步提升风控智能化水平。独家|三星中国市场这一承诺生变,Galaxy S24部分AI功能将收费
今年年初,三星发布的Galaxy S24系列产品引入了“Galaxy AI”,既包含了端侧AI功能,同时也提供云端AI综合体验。