
当前AI技术正经历从模仿到探索的关键跃迁,大模型、智能体、空间智能、物理AI等概念持续升温,行业发展方向备受关注。作为云基地孵化企业、由“中国宽带之父”田溯宁投资组建的科技企业,天云数据在数据智能赛道深耕多年,创始人雷涛兼具学术与工业界经验,曾带领团队打造深交所AI核心监管模块、工业检测系统等标杆产品。近日,田溯宁与雷涛展开深度对话,围绕AI技术演进、后训练核心方法、行业落地路径等话题深入探讨,雷涛提出核心判断:阶段性上智能体会成为语言模型之后的一波工程潮流,同时将涌现更多细分数据基模,二者并非替代关系,而是如同发动机与整车的协同共生,共同推动AI向更高阶发展。
AI技术跃迁:从鹦鹉式模仿到乌鸦式探索田溯宁:当前行业内普遍将AI的学习方式分为鹦鹉式和乌鸦式,结合天云这些年在数据智能领域的实践,你能否具体解读二者的核心区别?
雷涛:这一比喻十分贴合AI技术的演进阶段。鹦鹉式AI的核心是通过大量重复训练实现概率归纳,本质契合培根的实验主义,早期大语言模型及传统深度学习均处于这一阶段。此类AI的显著局限是缺乏真正的推理与泛化能力,面对未接触过的场景往往无法有效响应,例如部分机器人需经过海量重复训练才能掌握基础技能,难以应对复杂多变的传统任务,这也是我们早期布局大数据服务时,发现的行业核心痛点之一。
展开剩余90%田溯宁:相较于鹦鹉式AI,乌鸦式AI是否更贴近人类智能模式?结合你对技术趋势的判断,它的核心优势体现在哪里?
雷涛:确实如此。乌鸦式AI的核心特征是通过少量试错实现自主探索,正如乌鸦可借助不同长度的石块、树枝获取瓶中食物,通过数次试错便能找到最优方法。这一特征对应的正是后训练优化阶段的具身智能,特斯拉FSD就属于这一范畴。其中,强化学习是关键技术转折点,它让模型摆脱了单纯的模仿式学习,真正具备了自主探索、自主优化的能力,这也是天云数据近年来重点投入研发的方向。
田溯宁:这是否意味着当前大模型已完成从鹦鹉时代到乌鸦时代的跨越?它的核心逻辑,是否仍以早期的概率归纳为主?
雷涛:早期大模型的核心逻辑确实是概率归纳,多数基础模型均基于这一逻辑构建,但如果仅停留在这一阶段,便不会有当前AI技术的突破性发展。当前大模型的核心变化,是从概率归纳转向因果推理与自主探索,这背后是AI智能演进路径的升级——从计算主义到表示主义,再到深度学习与启迪阶段,而启迪阶段的核心正是自主探索与逻辑推理。
数据范式革新:从显性数据到浅空间表示的跨越田溯宁:你提到了表示主义,这让我联想到这些年数据范式的跃迁。据悉数据表达已从显性数据发展到浅空间表示,你能否具体解读这一演进过程?
雷涛:数据范式的跃迁是AI技术升级的核心支撑。最早的信息化阶段,数据以显性形式存在,通过原数据、标签及知识图谱实现索引与表达,属于人类可直接理解的规则驱动模式,数据库、搜索引擎等都是这一阶段的典型产物。进入AI化阶段后,数据实现了向量化、权重化、奖励化转型,即嵌入表示,大模型权重、强化学习奖励机制均属于此类,这便是浅空间表示——一种机器可理解的概率驱动模式,实现了知识的凝练与泛化。
田溯宁:浅空间表示这一概念较为抽象,能否用通俗的方式为我们解读?
雷涛:浅空间本质是机器学习的隐性表达形式。以一篇文章为例,人类通过逐字逐句阅读实现理解,而在大模型中,文章会被转化为向量形式,类似由五千个词汇构成的“刺猬”,向量指向不同维度,通过欧拉距离、余弦夹角等方式量化向量间的关联,进而转化为数据的权重与关联关系。简单来说,传统方式通过标签、文件名描述数据,而浅空间表示则将这些显性信息转化为模型可识别、可运算的权重与向量,二者的差异如同电力驱动与机械驱动的本质区别,效率与能力不在同一维度。
田溯宁:这种数据表示方式的转变,为AI技术发展带来了哪些具体优势?
雷涛:其核心优势体现在知识的高度压缩与跨模态统一表达两个方面。大模型本质上是通过权重实现的高度压缩的知识结构,而非传统意义上的原始数据,例如一个千亿参数的模型,可将人类三分之一的显性知识压缩至20GB的空间内。在实现知识去冗余的同时,还能统一处理语言、视觉、空间等多模态信息。进入高级阶段后,结合合成数据与奖励机制,可通过仿真生成多样化样本,覆盖现实世界中罕见的“角落案例”,进一步提升模型的知识迁移与泛化能力。
下一代大模型:空间智能与物理AI的核心价值田溯宁:聊完数据范式,我们来探讨下一代大模型的关键发展方向。空间智能作为核心方向之一,其核心突破点是什么,与传统几何空间表示有何区别?
雷涛:空间智能的核心突破是构建了统一表示体系,将语言、视觉、空间信息编码至同一神经网络框架中,实现多模态的通识理解。它彻底抛弃了传统几何空间表示方式,例如特斯拉FSD的3D占据网络,通过序列化建模动态空间关系,如同大模型预测下一个词汇一般,精准预测物体的下一位置与运动状态;再如Nerve SARA的时空Patch技术,可通过多视角信息实现三维场景的隐性重建与生成,具备强大的2D到3D推理能力。正如我此前所说,语言大模型是二维革命,视觉大模型是2.5维突破,空间计算将开启三维智能时代。
田溯宁:那么物理AI(即世界模型)在行业发展中,具有哪些独特的价值与意义?
雷涛:物理AI的核心价值在于将物理规律嵌入模型架构,将重力、运动等现实世界的约束条件编码至模型中,确保模型的推理与生成过程符合现实物理规则。同时,物理AI具备强大的多模态融合能力,遥感数据、文本知识、视觉信息等可在同一模型中实现统一处理与响应,应用前景极为广阔。在低空经济、智能制造、自动驾驶、火箭设计等高端To B场景中,物理AI将成为核心驱动力,推动行业实现效率与质量的双重提升。
田溯宁:您此前提到Sora模型能实现咖啡旋转的精准模拟,却也会出现轮子倒转的错误,这一现象是否与物理AI的核心逻辑相关?
雷涛:这一现象的本质正是物理AI的核心逻辑体现。Sora模型的核心优势,是在编码器阶段便实现了文本、视觉、空间信息的统一表达,通过多头注意力机制识别每一帧画面的核心信息,将帧与帧之间的关联抽象为类似文本Token的基础单元,而这些单元的权重逻辑,便对应着传统符号主义所抽象的物理定律。咖啡旋转模拟的准确性,正是因为模型处理Patch时的逻辑概率分布符合现实物理规律;而轮子倒转的问题,则属于采样周期与人眼视觉延迟的技术层面问题,与物理AI的核心逻辑无关。
田溯宁:空间智能与数字孪生、具身智能之间,存在怎样的关联?
雷涛:三者的核心关联在于空间信息的表达与应用方式。数字孪生的核心是通过信息化系统描述空间状态,再叠加语义层实现解读,传统模式下需通过TTS等技术实现不同模态的桥接;而当前的技术突破的是,在编码层便实现了语言、视觉、空间信息的统一表示,例如将遥感数据与维基百科嵌入信息融合,可直接通过自然语言回答空间相关问题,如密云水库面积变化等。这种通识化的空间表示结构,正是具身智能所必需的,例如具身智能可通过观察书架,结合文本信息实现书籍的精准空间定位。
后训练技术解析:从已知学习到未知探索的突破田溯宁:当前行业内频繁提及后训练技术,它与预训练的核心区别是什么,后训练的核心作用体现在哪里?
雷涛:预训练模型相当于封装了全量人类知识的“知识包”,核心作用是将语言序列转化为模型可解读的关联关系,构建基础知识连接体系。后训练是在这一“知识包”的基础上实现能力升级,其核心目标是让模型从学习已知知识,转向探索未知领域,这也是后训练与预训练的核心区别——预训练构建知识基础,后训练实现能力突破。随着DeepSeek等模型的出现,大模型预训练时代已逐步结束,后训练时代正式开启。
田溯宁:当前后训练的主要方法有哪些,各自的优劣是什么?
雷涛:目前主流的后训练方法主要有两种。第一种是人类反馈强化学习(RLHF),通过人工标注偏好引导模型优化,早期应用效果显著,能够较好地契合人类价值观,但存在成本高昂、易陷入主观偏差的局限。第二种是直接偏好优化(DPO),通过大数据标注稀疏点调整概率分布,工程化效率较高,更适合大厂落地,但存在模型绑架风险与安全隐患,因此在西方也引发了相关争议——垄断企业掌握更多数据资源,可能会挤压中小企业的发展空间,阻碍行业创新。
田溯宁:除了这两种方法,是否存在更优的后训练方案?
雷涛:目前已有一些更具潜力的优化方案。其一的是投票机制类方法,如GRPO,通过模型自投票结合合成数据评价实现优化,具备去中心化特征,可提升模型多样性、防止过拟合,但目前机制设计仍需完善。其二是合成数据奖励网络,通过仿真生成数据训练评价网络,能够有效覆盖未知场景,提升模型泛化能力,但性能表现高度依赖仿真质量与评价网络的可靠性,这也是当前需要重点突破的方向。
田溯宁:这些后训练方法背后,是否存在统一的核心原则?
雷涛:核心原则主要有三点。第一,评价成本低于训练成本,强化学习的关键是构建高效的评价机制,如同快速判断一道题的对错仅需十几秒,而完整求解可能需要二十分钟,高效评价能够大幅提升后训练效率,降低研发成本,这对我们聚焦细分场景的研发布局至关重要。第二,多样性驱动性能提升,模型性能的优化并非依赖绝对正确的答案,而是足够多样的可能性,只要数据与现有样本存在差异,便予以保存,不简单判定对错,以此避免过拟合,这能让我们的模型更好地适配不同行业的细分需求。第三,从学习已知到探索未知,这是后训练的核心目标,即让模型具备在未知环境中自主试错、自主推理的能力,这也是我们天云数据实现技术突破、打造核心竞争力的关键。
田溯宁:后训练与微调、提示工程之间,存在哪些本质区别?
雷涛:二者的核心区别在于,提示工程、RAG及外挂智能体工作流组合,本质上是“从知识包中提取信息”的方法,侧重高效调用已有知识,适合快速适配简单场景。而后训练的核心是让模型具备自主探索能力,并非单纯的模仿或微调,适合我们天云所服务的复杂To B场景。需要注意的是,微调垂类模型往往会强化模型的记忆能力,但会弱化其泛化能力,导致通用性能下降。若要实现“保持通用能力、强化专项优势”的目标,强化学习是唯一可行的路径。目前,强化学习后训练已发展至第六代,相较于早期方法,成熟度大幅提升,能够更好地平衡通用能力与专项性能。
行业落地展望:智能体与细分基模协同共生田溯宁:聊完技术层面,我们关注行业应用。当前行业模型是热点话题,结合你对行业趋势的判断,你认为未来行业模型会被何种形态取代?
雷涛:未来垂直行业模型将逐步被智能体工作流取代,核心原因在于智能体具备更灵活的适配能力与快速组合能力。基础模型(如GPT、千问等)将作为知识底座,智能体则作为行业适配与执行的工具层,实现知识与场景的高效衔接。从发展趋势来看,短期内智能体会快速渗透各个行业,长期来看,部分智能体能力可能会被基模逐步吸收,但新场景的不断涌现,仍会持续催生新的智能体。目前西方行业内已很少提及“模型”,“智能体”已成为行业讨论的核心焦点。
田溯宁:特斯拉FSD作为行业标杆,能否被归类为行业模型?
雷涛:特斯拉FSD并不属于传统行业模型,其核心是空间计算中的3D占据网络,虽然与语言模型的方法体系一致,但摒弃了传统行业模型依赖的实际路测数据与几何空间表示方式。FSD大量运用合成数据,模拟极端事故、恶劣天气等罕见“角落案例”,无需预先构建地图,而是如同语言模型理解文本般解读空间信息,每秒通过百帧数据分析空间内所有物体的关联关系,如同预测下一个词汇般预测物体的下一位置,其核心逻辑更贴近智能体,而非传统行业模型。
田溯宁:你提到的语言+视觉、空间+语义等多模态融合场景,具体会落地在哪些行业领域?
雷涛:不同融合场景的行业落地路径已较为清晰。语言+视觉的融合,将重点应用于工业自检、安防监控、内容生成等领域;空间+语义的融合,将聚焦低空经济(如无人机运营、低空管理)、自动驾驶、数字孪生等领域,推动场景智能化升级。而高级知识+概率模型的融合,则将应用于科研发现、工程设计、复杂系统优化等高端领域,例如偏微分方程求解、火箭发动机设计、蛋白质设计等,AlphaFold 3在蛋白质设计领域的突破,便印证了这一融合方向的巨大潜力。
田溯宁:当前空间智能、物理AI为何备受行业关注,其商业模式与大语言模型有何本质区别?
雷涛:核心原因在于,空间智能与物理AI能够真正解决To B领域的核心痛点,深刻改变制造、交通、科研等核心行业的发展模式,推动产业数字化、智能化转型。而当前大语言模型的商业模式,主要集中在Chat交互、代码生成等领域,虽然具备陪伴服务等商业价值,但难以深度渗透行业核心场景,无法从根本上改变行业发展逻辑。未来,空间与语义、视觉与语言的多模态融合,将催生更大规模的商业浪潮,成为AI行业新的增长引擎。
哲学视角:三大思想支撑AI技术演进田溯宁:我一直认为,任何技术的长远发展,都离不开哲学思想的支撑。结合你对AI技术的研究,你认为哪些哲学理念,支撑着AI技术的演进?
雷涛:确实如此,AI技术的演进,始终与三大哲学思想深度契合。第一,波普尔的“猜想与反驳”,对应合成数据的猜想与批判性选择反驳,这是强化学习的核心哲学基础,也是模型实现自主探索的逻辑支撑。第二,维特根斯坦的“语言是世界的边界”,而表示系统的突破,例如浅空间表示,正在不断拓展机器理解世界的边界,让机器能够解读更多非语言类知识。第三,哥德尔的智能三阶段理论——计算、表示、启迪,这与AI技术的演进路径高度契合,正好对应AI从统计归纳到逻辑推理,再到自主探索的三个核心阶段。
总结:AI发展趋势与行业落地路径田溯宁:最后,结合当前AI行业的发展现状,总结一下当前AI的发展趋势,以及未来的行业落地路径?
雷涛:总结来看,当前AI正处于从鹦鹉时代向乌鸦时代跨越的关键阶段,核心变革是从概率归纳转向因果推理与自主探索。其中,空间智能与物理AI是下一代大模型的关键突破方向,将推动AI从对话交互、代码生成,走向真正改变物理世界的新阶段。而合成数据、强化学习、统一表示,构成了支撑AI向更高阶智能演进的技术三角,是未来技术突破的核心重点。
从行业落地路径来看,核心逻辑是以基模为底座、智能体为触手,逐步渗透制造、交通、科研等核心产业。需要强调的是,阶段性上智能体会成为语言模型之后的一波工程潮流,但同时会涌现更多细分数据基模——并非更大、更完备的通用基模,而是聚焦细分场景、依托细分数据的专用基模,语言并非唯一的知识容器,基因序列的虚拟细胞模型、工业细分传感物联数据基模等,都将成为重要的发展方向。
归根结底,智能体与大模型并非替代关系,准确来说,语言模型如同发动机,为AI提供核心动力;智能体则如同具备就绪执行能力的整车,实现技术与场景的高效衔接。未来,随着更多细分基模的涌现与智能体的普及,AI将深度改变我们的生产与生活方式,同时也将催生更多新兴岗位与人才需求,需要大量掌握提示词工程、工作流编排等技能的人机协同型人才。
【结语】作为天云数据的投资人与孵化者,田溯宁与创始人雷涛的对话,不仅清晰勾勒出AI技术的演进脉络与行业发展蓝图——从鹦鹉式模仿到乌鸦式探索,从通用大模型到细分基模网上配资网站,从技术突破到场景落地,更展现了一家孵化企业在技术驱动下的成长路径。AI正逐步摆脱“工具属性”,成为推动产业升级、社会进步的核心力量。未来,在田溯宁的支持与天云数据团队的努力下,依托智能体与细分基模的协同发展,天云数据有望在数据智能领域实现更大突破,同时也将为行业发展提供更多可借鉴的实践经验,推动AI技术更好地赋能实体经济。
发布于:北京市同花配资提示:文章来自网络,不代表本站观点。