?对标GPT-4的智谱AI实战能力堪忧：一道数学题算错七次后宕机，强行解读《红楼梦》闹笑话

新经济IPOIPO君2024-02-19 15:11 数字产业

明星大模型创业公司智谱AI发布了基座大模型GLM-4，同时发布的还有GLM-4 All Tools，以及智谱AI版的“GPTs”—GLMs。智谱CEO张鹏甚至表示，2024年的新愿景是让大模型真正落下来。

1月16日，明星大模型创业公司智谱AI发布了基座大模型GLM-4，同时发布的还有GLM-4 All Tools，以及智谱AI版的“GPTs”—GLMs，实现了与OpenAI全模型产品线的对标。智谱CEO张鹏甚至表示，从标准大模型评测角度看，GLM-4性能整体上已经逼近GPT-4。

不过，在新经济IPO的实际试用过程中，GLM-4不仅没有表现出与“测评分数”一致的高水准，反而闹出了不少笑话。

成立于2019年的智谱AI，由清华大学知识工程实验室（KEG）技术成果转化而来，是目前国内唯一全内资、全自研的大模型企业，早在2020年开始GLM预训练架构的研发，并训练了100亿参数模型GLM-10B；2022年公布1300亿级超大规模预训练通用模型GLM-130B。

2022年底，大模型浪潮席卷全球，由于提前部署研发，智谱 AI成为资本眼中的宠儿。2023年7月至9月间，智谱AI拿下5轮融资，估值达到100亿元。11月，有媒体报道智普AI“正以200亿元估值进行新一轮融资”，但有多位股东对“翻倍”的高估值表示质疑。

时至今日已过去近4个月，未有融资的进一步消息传出。反而在GLM-4发布两天后，智谱AI的创始股东中科创星又将手中股份减持了25%，其已于2022年减持了同比例股份，目前实际持股比例或不到1%。

而“技术理想主义”者张鹏，2024年的新愿景是让大模型真正落下来。这也说明，即便是被投资圈视为“有人、有技术、有客户”的智谱AI，同样面临大模型落地难题，这恐怕也是所有国产大模型2024年必须面对的巨大挑战。

一道数学题算错七次后宕机

张鹏认为，如果你沿着前人的脚印去走，顶多追到屁股后面。如果想在短时间内超越前人，就一定要做创新。为此，智谱AI没有采取目前最主流的三种模型训练路径：GPT来自OpenAI，BERT和T5来自谷歌，而是提出了全新的GLM（通用语言模型）路径。

若GPT的原理可以比作“根据上文做完形填空”，那么GLM完形填空的依据则从上文扩充到上下文。理论上，GLM的训练效率会比GPT更高，也能理解更复杂场景——GLM发展也确实迅猛，从去年3月份开源第一代，目前已经迭代到第四代。

在GLM-4的发布日上，张鹏在多项能力上将其与GPT4进行了对比，其中GLM-4的中文对齐能力总分超过了GPT-4，此外在MMLU理解评测、GSM8K数学逻辑和代码水平上都有大幅提升。

下图是DataLearner综合评测分别按照HumanEval与MMLU排序的结果。可以看到，不论哪个对比，GLM-4和GPT-4、Gemini Ultra的测评分数都差不多。特别是阅读理解方面，GLM-4只比GPT-4低5分，这是已知国产大模型取得的最好分数。

为了验证GLM-4的能力是否真的实现了较大提升，新经济IPO对其进行了简单测试，但结果不如人意。

在首轮测试中，新经济IPO在对话中输入“林黛玉为何倒拔垂杨柳”这一网络梗，不过，GLM4竟然回答称，这个故事出自曹雪芹名著《红楼梦》，还试图很认真地用林黛玉与贾宝玉的情感纠葛来解释林黛玉“倒拔垂杨柳”的行为。

一个2022年就宣布拥有1300亿参数的双语（英文和中文）预训练语言模型，却连中国古典名著之一的具体内容情节都没掌握，实在说不过去。

接下来，新经济IPO尝试让 GLM4计算一道数学题，以测试其逻辑推理能力。然而，一道非常简单的数学题，GLM4连续回答了7次都错了，最后更是直接宕机。需要指出的是，这道题去年曾经有媒体在GLM3上做过测试，回答也是错的。

为了对比，新经济IPO拿这道数学题考验了一下“文心一言”，后者很快给出了正确答案。

在中文语义语料和数学逻辑推理能力测试之后，新经济IPO又测试了GLM4的多模态图片理解能力，这次，智谱AI终于过关了。

在文生图能力上，GLM4表现得也不算令人失望，虽然它将“一个卡通柯基”画成了“一堆卡通柯基”。

当被要求“画一个西兰花下的斑马”时，文心一言和GLM4分别给出了如下作品，GLM4的画风还是有点怪异。

从上述有限的测试看，GLM4在中文语义语料和数理逻辑上的能力尚有欠缺，但在文生图及图片理解能力上表现尚可。从综合能力看，GLM4与GPT4还存在明显差距。

大模型商业化路漫漫

实际上，抛开于国外大模型的技术差距不谈，国内大模型商业化如何落地，可能是摆在所有创业公司面前的更大挑战。

和苹果系统一样，大模型也是一个庞大的生态，而流量则是一切商业模式的源头。对比ChatGPT早就突破1.1亿次的全球安装量，国产大模型如何商业化？如果说2023年，投资人、应用企业还在关注技术差距的话，那么新的一年，所有人的焦点都已经转移到了大模型商业化的落地上。

智谱AI当然早就意识到了，落地才是未来最大的挑战。从发展路径上看，智谱AI也是国内最早推进大模型商业化的企业之一，率先提出了“模型即服务（MaaS）”的落地路径，给出了面向B端开放API、云端私有化以及本地私有化等多种商业解决方案。

智谱AI官网显示，其云端私有化部署最低档位ChatGLM-12B，报价25万元/年，最高ChatGLM-130B，120万/年；本地私有化部署的最低参数ChatGLM-12B，报价180万/年，最高ChatGLM-130B，3960万元/年。

张鹏认为，B端的付费意愿比C端好很多，尤其是行业头部企业，在大模型方面普遍投入多，动作快。所以，智谱AI从一开始就瞄准B端。智谱AI对外披露信息显示，目前已有2000多家合作伙伴。

那么，智谱AI目前营收状况如何呢？据张鹏透露，2023年下半年智谱签单客户约几百家，2023年整体有亿级签单额。根据上述报价计算，智谱AI的销售情况显然不算太好。这样的签单额肯定无法支撑大模型的“烧钱”研发，要知道，年营收超10亿美元的OpenAI目前也还未实现盈利。

作为中国估值最高的大模型创业公司，智谱AI收获几百家签单客户是一件可喜的事情，但并不算乐观。商汤科技在2021年上市之前，曾公布过截至2021年6月30日的商业客户数量“超过2400家”。可以对比的是，近期OpenAI刚刚公布了自己的付费企业客户数量是260家，可见即便是全球顶尖大模型，B端市场的拓展速度也并不是很快。

与此前任何大规模技术革命一样，大模型的商业化也注定是一场漫长的旅程。IDC去年11月开展的一次全球AI应用调研显示，中国的100家受调企业中，已经大规模投入的企业只占24%。这说明，虽然产业端对大模型的热情很高，但真到落地阶段，愿意“真金白银”拥抱大模型的依然较少。

老难题需要新答案

受多重因素影响，国内资本目前对大模型更多采取了“观望”态度。即便2023年大模型热贯穿全年，整个AI融资市场都没有出现前几年互联网浪潮时的活跃状态。

有的资本或许还在观察与等待，寻找一个合适的时机再涌入，但有的资本的耐心与期待已然不多。

有媒体报道称，智谱 AI发起股东中科创星连续卖掉了其持有的部分股份，减持比例超过50%，累计退出金额约1.2亿元。同时，中科创星创始合伙人米磊已退出智谱 AI 董事职位。对此智谱回应称，本次中科创星减持的股份，已被君联资本、boss直聘等老股东接手；中科创星则表示，长期坚定的看好AI，看好智谱，退出是因为份额不够，新进战略投资者要求购买老股。

话虽如此，但正值大模型发展方兴未艾之际，中科创星的清仓式减持还是令人疑惑。有知情人士透露，虽然中科创星对外声称看好AI，但高层其实并不看好，原因在于AI企业很难上市，2021年更是撤掉了AI投资组，现在的AI项目都是2021年之前投的。

实际上，即使是仍在坚守的资方，也对没有业绩但估值一路高涨的智谱AI看不懂。有媒体报道称，去年11月，有消息传出智谱AI拟以200亿估值挑选下一轮投资机构方，随即就有多位老股东对“翻倍”估值表示质疑。对老股东来说，并不是创投公司的估值越高越好，没有业绩支撑的高估值只会吓跑后来的投资人，如此一来，此前入局的投资人又该如何退出呢？

当然，作为史上最烧钱的技术革命，大模型要进步，就只能依靠不断融资。智谱AI2023年累计融资超过25亿元，看起来不少，但远不及商汤科技2017年获得的40亿元融资，而商汤科技在IPO前总融资金额高达52亿美金。智谱AI的烧钱速度显然比商汤科技更快。那么，假若智谱AI下一轮融资迟迟不出现，25亿元能支撑一个400人的高薪大模型团队工作多久？这虽然是AI创业老难题，但目前迫切需要一个新答案。

张鹏一直想“做真正厉害的事情”，即智谱AI能够往下且深入地撼动当前模型框架的研究技术。这固然是一件好事，但在考虑是否能活得够长之前，还是应该先解决“活下来”的难题。没有靠谱的实战能力以及“自我造血”能力，没有切实可行的商业化路径，智谱AI的动人故事将很难继续讲下去。

【本文为合作媒体授权派财经转载，文章版权归原作者及原出处所有。文章系作者个人观点，不代表派财经立场，转载请联系原作者及原出处获得授权。有任何疑问都请联系（paicaijing314@126.com）。
免责声明：本网站所有文章仅作为资讯传播使用，既不代表任何观点导向，也不构成任何投资建议。】