跨越山海的云知声，迎来了自己的GPT时刻|世界时讯

2023-05-29 09:33:01来源：DoNews

文｜光锥智能，作者｜郝鑫，编辑｜王一粟

“世界上最高的山是什么山？”

(资料图片仅供参考)

云知声创始人兼CEO黄伟仍清楚地记得，十年前他用语音提出的第一个问题。答案播放出来的那一刻，黄伟第一次体会到创业的成就感。

今年2月底，山海大模型雏形初现，用同样的问题测试，黄伟一瞬间感觉好像穿越回了十年前，那座“最高的山”正在招手呼唤他。

“去年12月第一次看到ChatGPT，正是我创业十年最灰暗的时刻。而现在站在发布会舞台上，剩下的只有紧张、兴奋和自豪。”黄伟庆幸，自己再次搭上了AI下个十年的快车。

5月24日，云知声正式发布“山海大模型”，现场实测十大核心能力，具体包括：语言生成、语言理解、知识问答、逻辑推理、代码能力、数学能力、安全合规等7项通用能力，以及插件扩展、领域增强、企业定制等3项行业落地能力。

值得一提的是，除了通用能力的演示，一向重视“工程化”的云知声也比较明确地提出了落地能力的实现路径。这让大模型的落地更加实际，不是空中楼阁。

而在更重要的行业应用层面，云知声则仍然坚持此前提出的“U+X战略”，赋能医疗、智慧物联、销售、知识管理、教育等千行百业。

在云知声最为重要的落地场景之一——医疗领域，黄伟透露，山海大模型在临床执业医师医学考试中拿到了511分，满分600分，考生平均分为365。“在医疗领域，山海大模型已经超越了GPT-4的中文水平。”

得益于此前在Ttransformer模型方向的发力，以及从2016年对医疗领域的深耕，云知声从去年12月开始组建AGI团队，“闭门修炼”5个月后，就拿出了一个在通用能力方面与国内大公司打平，在行业大模型超越GPT-4中文水平的成绩。

黄伟并不满足这样的成绩，给云知声定下了年内的目标，“年内通用能力比肩ChatGPT，并在医疗、物联、教育等多个垂直领域能力超越GPT-4。”

虽然2个月近20个大模型发布中“有李逵也有李鬼”，但一流AI公司的技术水平可以靠时间接近GPT-4成为了行业共识。当技术拉齐后，大模型正在打响一场“行业”争夺战。

01 把通用能力用起来

在通用能力上，云知声山海大模型顺利通过了语言理解、推理能力等一系列测试。

首先，在对中文的理解方面，山海大模型更接近“中国人的体质”，可以精准地理解中文6级水平的绕口令“行的人，干一行行行行，行行都行”中每个“行”的意思，还能给出单独的解释。知道八大山人是画家的名号，孙悟空和齐天大圣是同一个人。可以说，山海大模型对中文的理解达到了百科字典的水平。

不仅如此，山海大模型还具备逻辑判断和计算推理能力。例如，可以识破“所有猫都爱吃鱼，所以爱吃鱼的动物都是猫”这类伪三段论逻辑，以及“小明爸爸姓王，问小明姓什么”这类基本常识问题。

而在计算能力中，山海大模型可以立即给出鸡兔同笼这类简单问题的答案和解题过程，也能够根据指令当场编写代码。在涉及开根号等复杂的数学运算上，山海模型也没有拉胯，过程清楚、答案正确。

总体来看，与国内各家大模型相比，山海大模型虽然没有展现图文生成等多模态的能力，但关键的NLP（自然语言处理）表现仍在头部水平。

光锥智能盘点了已发布大模型的公司发现，随着技术的不断更新迭代，各家公司在文本生成、知识问答、语言理解、逻辑推理等各项通用能力上的差距正在变得越来越小，甚至有了同质化的趋势。

所以，攻克大模型的技术难关只是第一步，如何用起来才是接下来的关键。

ChatGPT惊艳全球后，OpenAI随即抛出的一颗惊雷，就是宣布向所有ChatGPT Plus用户开放联网功能和70多个第三方插件，插件覆盖了衣食住行、社交、工作以及学习等方方面面。

面对千行百业，没有一家公司能够独立吃下所有场景。民生证券报告称：“OpenAI正沿着类苹果模式的‘终端+平台＋生态’，迈向高于操作系统的战略地位。”

云知声也有同样的思考路径，但不同的是，更希望利用插件，将合作伙伴的能力集成进来。用了计算器插件，山海大模型就实现了复杂计算的能力；用了搜索引擎插件，就能帮用户实时查天气、查球赛结果。与ChatGPT一样，给大模型按上了插件就装上了“外挂”。

黄伟表示：“大模型的通用能力并不能解决所有问题，还有说胡话的风险。特别是在医疗、汽车、物联一些容错率低的专业场景中，通用能力就显得不那么够用，所以才要引入大量的插件来推动应用落地，做大模型的黄金搭档。”

云知声也给AI公司做大生态提供了借鉴思路，面对很多垂类的行业场景，AI公司一方面可以自己做一些插件去开放给行业客户，集成到产品里。另一方面，也可以让客户自己做插件开发，共同深入场景。

02 成为行业专家

通用能力的提升，在行业场景的实际落地方面，还远远不够。这就要求大模型们，不仅成为AI领域的“本科全才”，更要成为特定领域中的“博士生”甚至“博导”。

即使通用能力强如ChatGPT，在医疗等特定领域的专业度也远远未达到可用的水平。例如，对一手术过程的描述，ChatGPT给出了一个完全错误的答案。可以说，一旦涉及到核心的诊疗过程，ChatGPT目前只是一个“庸医”。

“如果把GPT-4比作一个不偏科，每门都能考到80分的学生；我们要做的，则是一个可以在某一两门学科，考到95分甚至更高的学生。”黄伟在采访中说道。

而这恰恰是众多行业大模型的机会。从实际问题和产业应用出发，沉淀垂直行业经验，AI公司就能建立自己在特定领域的壁垒。

从这个角度而言，在AI 1.0时代积累下行业能力的AI公司，拥有更大的机会。

2016年，医疗+AI行业还犹如一片空白地带，彼时，AI企业们还在找寻合适的降落姿势。

以语音技术起家的云知声，抓住了医生病历记录效率低下这个痛点，以语音电子病历录入打开了医疗赛道的突破口。

为了能够做到精准识别，云知声为医院做了深度定制服务，根据不同科室、不同病种整理病历资料，运算出关键词句语料，为40多个临床和医技科室提供分场景支持，以适应医院不同科室实际的使用需求。

经过专业数据优化后，云知声在医疗领域的优势十分明确，其语音识别准确率超95%，个别科室的语音识别率超98%。医生减负效果明显，可以使医生的录入效率提升40%，每天节省1.5-2个小时时间。

然而，仅从一个单一效率工具切入并不够。

三年磨一剑，2019年，云知声公布了“医疗+AI”的战略，从电子病历场景出发构建起了医疗产品体系。除“医疗语音交互解决方案”外，针对诊疗过程的诊前、诊中、诊后不同场景，云知声还推出了导医机器人、智能病历生成系统、智能病历质控系统以及智能院后管理解决方案等产品。

此外，基于对场景的理解，云知声在医疗垂直领域建立起了知识图谱，图谱覆盖了症状、体征、疾病、手术，检查检验，药品等七大类实体，共计132万个，对应医学术语334万；包含十大类实体关系，共计757万实体关系。2017年建立至今，该知识图谱仍在更新迭代中，这成为云知声核心壁垒之一。

黄伟介绍知识图谱在大模型训练中发挥了重要的作用，“行业大模型训练有三个主要的数据来源，一是云知声多年沉淀下来的优质医疗数据，预训练阶段可以加强大模型的知识和语言能力；二是在医疗行业积累的问题解决数据，这部分可以拿来做微调；三是知识图谱，靠它严谨的知识来校验数据和训练结果。”

在高质量知识图谱数据之上，实现了数据到场景的全链条打通，云知声旗下的医疗产品从语言电子病历、语音助手这类效率工具，进化为了病历文书质控、医保支付审核一类的决策支持工具。

在大模型的加持下，云知声也完成了从AI助手到AI专家，再到AI导师的角色升级。对比从前，所能抵达的场景更加厚重，能触及的核心技术更多，行业know-how的经验再次更新沉淀下来。

如果说，云知声在医疗行业的扎深是一家AI公司如何深入到行业的典型，那么其在物联网领域的拓展，则证明了一家AI公司如何能把技术变成靠标准化的产品，从而打开行业广度的生意经。

2015年，云知声启动了AI语音芯片项目，并提出“云-端-芯”一体战略。一方面把在垂直行业积累的AI技能放在云端，一方面通过芯片去赋能设备端的边缘计算能力，进而把云端的算法能力向设备端进行输出。

通过自研芯片的方式将算法集成在芯片模组中，这不仅形成了相对标准化的产品，还让云知声实现了产品成本的降低。“标准化+降本”，才能大规模应用到智慧家居、车联网等场景。

同时，云知声这些年还搭建了厚重的中台能力。物联中台发挥集中调配、汇总信息的功能，实时管理设备、人员、服务等各项因素，最终通过语音交互输出指令反馈。

而到了大模型时代，面向智慧物联场景，会有什么样的进阶呢？

ChatGPT已经让业界看到，人人都能拥有一个AI助手即将成为现实。“未来将全线升级智慧物联核心产品，与山海大模型深度结合，塑造出一个真正的随身管家：从只能进行指令交互升级为类人对话，真正联动IoT生态和服务。”黄伟在发布会上表示。

“与全场景自然语言交互相比，搜索引擎的市场就非常小了。”一位曾在语音等AI领域深耕20年的创始人曾对光锥智能表示，万物智联的自然交互，才是更广阔的市场。

“大模型发布后，无论是汽车、智能家居、酒店等各个潜在客户，已经迫不及待地在跟我们要方案了。”黄伟透露。

十年间，云知声AI实现了三级跳，从第一阶段的AI三驾马车、“云端芯”战略，到第二阶段的以超算中心、知识图谱等构成的规模化AI技术战略，和开放平台+智慧物联/智慧医疗的“U+X”市场战略，每一个阶段都紧跟技术和市场的变化。

再到如今的AGI时代，云知声也迎来了自己的GPT时刻。在技术上，不仅拥抱基础大模型，也在工程化上利用指令调优+反馈强化，让大模型不断迭代提升；另外，也在多知识/多模态，以及跨语言/模态方面积极布局，为增量需求拓展能力。在市场策略上，依然坚持“U+X”，实现AGI+Industry生态加速。

在此次发布会上，除智慧医疗、物联场景外，云知声亦在教育、销售场景、知识管理等场景上储备下了能力，准备迎接更多行业的升级需求。

03 行业争夺战打响，云知声如何比拼？

自3月以来，国内已有20多个玩家狂奔入局。从文心大模型到山海大模型，国产大模型之战迎来中场战事，从比拼“通用”进阶到了比拼“行业”。

据不完全统计，在国内发布的大模型中，行业大模型占比超过60%，各家AI公司大模型已经开始向工业、金融、医疗、营销、智慧物联等多个领域渗透。比如，百度在发布文心一言后，在全国各地陆续举办了多场行业大模型的推介会，涉及工业、能源、媒体、金融等领域；而阿里云虽然没有发布单独的行业大模型，但也强调维度更垂类的企业大模型。“未来每一个企业在阿里云上既可以调用通义千问的全部能力，也可以结合企业自己的行业知识和应用场景，训练自己的企业大模型。”

相比巨头在技术上拼参数，在市场上拼生态，云知声这样的小巨头，也有自己从本质出发的思考。

“ChatGPT将人工智能研究的核心带回到语言本身，而语言其实是人类智能的一个核心载体。”云知声董事长梁家恩认为，这是一个从专用AI转向通用AI（AGI）的突破口。”

但转向通用AI，并不能盲目的扩大训练参数。这是因为，虽然在优质数据规模足够大情况下，模型越大效果越好，但训练成本也越高。

基于AI 1.0时代在专用AI方面的积累，云知声计划先将模型做到六七百亿参数，做出涌现效果，然后以这个参数规模，提升优质数据规模和大模型效果，再做千亿以上参数来提高大模型性能。

云知声坚信，通往AGI的路不只有一条。

“除了用大力出奇迹去做大模型，也可以用更高质量的‘数据+规模’当适当的数据参数，做行业‘中模型’。”黄伟表示，云知声目前正在两条腿一起走路。今年Q3云知声会发布对标GPT-3.5的“山海2.0”，数据参数也将达到千亿级。而在Q3，云知声的“中模型”也即将发布。

既然要做中模型，在行业争夺战中，又回到了上个阶段中对行业深耕的过程。

纵观整个中国市场的行业大模型玩家，首先基于1.0阶段积累的行业经验不同，各家深扎的场景也不同。现阶段，想要横跨多个行业不太现实，无论是头部大厂还是中小公司都可以有自己的壁垒。

其次，即使是进入同一行业，每家公司瞄准的方向也不同，细分领域竞争更具多样化。如同样在医疗领域，云知声将语义识别的优势运用在了门诊病历撰写、手术报告生成上，而商汤则将重点放在了线上问诊、咨询上。

而在真正的行业应用落地时，还要考虑实际成本。

在AI 1.0阶段，被调侃“有多少人工就有多少智能”的数据标注情况，将被自动化标注逐步替代。相对于GPT训练中需要的45T数据，以前的AI训练数据量如同九牛一毛。在数据量较小的情况下，还能做到分离标注，而现在数据训练过程完全自动化，根本无法标注。于是，需要通过人类生成反馈的技术，替代传统数据标注。

另外，则是数据训练成本。云知声认为，大模型训练成功后，以目前的算力成本，可能需要把大模型参数量通过蒸馏技术压缩10倍才能满足实时性和规模化应用要求，这要视具体应用场景而定。云知声在做BERT模型时，就通过模型蒸馏提速近百倍，而实际性能损失很小。“就像打击索马里海盗，不能每次都开着航母过去。”梁家恩称。

04 技术撬动行业价值

纵观国产大模型，目前整个行业依然在非常早期，即使如马斯克所言，中美技术的差距有12个月，但放眼到未来20年的长期竞争中，这开头的100米或许并没有那么重要。

回顾1.0阶段，AI公司花费了6年的时间实现了价值跨越。

科大讯飞营收从2017年的54.45亿，一跃增长至2022年的188.20亿，对应28.15%的复合增速；商汤的营收从2018年的18.5亿，增长至2022年的38.09亿，收入也实现了翻倍。

上个阶段，AI技术实现了旧业务的提效、新业务的增长，最终达成AI公司营收、市值的双增。进入2.0时代，这个逻辑依然成立，只不过2.0阶段可能释放的价值会更大，用的时间也会更短。

黄伟判断，在新时代有两件事目前是已经确定的。首先，AI公司具备了更强的技术能力后，就能更好地满足客户需求，继而也能更容易地推动商业化落地。其次，客户强烈的需求会拉动整个市场空间增长，但高准入门槛又会将一部分公司拒之门外，最后能在市场分蛋糕的是那些实力过硬的玩家。

回顾云知声11年的创业历程，保持技术的领先性和符合时代的市场战略都同等重要。“勤劳勇敢”的中国AI公司，面对新技术和新市场的热忱，会趟平所有可见的困难。

正如黄伟所信仰的，“所爱隔山海，山海皆可平”。

特别声明：本文为合作媒体授权DoNews专栏转载，文章版权归原作者及原出处所有。文章系作者个人观点，不代表DoNews专栏的立场，转载请联系原作者及原出处获取授权。(有任何疑问都请联系idonews@donews.com)

标签：