网上配资网站 AI跃迁：从“鹦鹉模仿”到“乌鸦探索”，细分数据基模为核、智能体为翼赋能产业落地

当前AI技术正经历从模仿到探索的关键跃迁，大模型、智能体、空间智能、物理AI等概念持续升温，行业发展方向备受关注。作为云基地孵化企业、由“中国宽带之父”田溯宁投资组建的科技企业，天云数据在数据智能赛道深耕多年，创始人雷涛兼具学术与工业界经验，曾带领团队打造深交所AI核心监管模块、工业检测系统等标杆产品。近日，田溯宁与雷涛展开深度对话，围绕AI技术演进、后训练核心方法、行业落地路径等话题深入探讨，雷涛提出核心判断：阶段性上智能体会成为语言模型之后的一波工程潮流，同时将涌现更多细分数据基模，二者并非替代关系，而是如同发动机与整车的协同共生，共同推动AI向更高阶发展。

AI技术跃迁：从鹦鹉式模仿到乌鸦式探索

田溯宁：当前行业内普遍将AI的学习方式分为鹦鹉式和乌鸦式，结合天云这些年在数据智能领域的实践，你能否具体解读二者的核心区别？

雷涛：这一比喻十分贴合AI技术的演进阶段。鹦鹉式AI的核心是通过大量重复训练实现概率归纳，本质契合培根的实验主义，早期大语言模型及传统深度学习均处于这一阶段。此类AI的显著局限是缺乏真正的推理与泛化能力，面对未接触过的场景往往无法有效响应，例如部分机器人需经过海量重复训练才能掌握基础技能，难以应对复杂多变的传统任务，这也是我们早期布局大数据服务时，发现的行业核心痛点之一。

展开剩余90%

田溯宁：相较于鹦鹉式AI，乌鸦式AI是否更贴近人类智能模式？结合你对技术趋势的判断，它的核心优势体现在哪里？

雷涛：确实如此。乌鸦式AI的核心特征是通过少量试错实现自主探索，正如乌鸦可借助不同长度的石块、树枝获取瓶中食物，通过数次试错便能找到最优方法。这一特征对应的正是后训练优化阶段的具身智能，特斯拉FSD就属于这一范畴。其中，强化学习是关键技术转折点，它让模型摆脱了单纯的模仿式学习，真正具备了自主探索、自主优化的能力，这也是天云数据近年来重点投入研发的方向。

田溯宁：这是否意味着当前大模型已完成从鹦鹉时代到乌鸦时代的跨越？它的核心逻辑，是否仍以早期的概率归纳为主？

雷涛：早期大模型的核心逻辑确实是概率归纳，多数基础模型均基于这一逻辑构建，但如果仅停留在这一阶段，便不会有当前AI技术的突破性发展。当前大模型的核心变化，是从概率归纳转向因果推理与自主探索，这背后是AI智能演进路径的升级——从计算主义到表示主义，再到深度学习与启迪阶段，而启迪阶段的核心正是自主探索与逻辑推理。

数据范式革新：从显性数据到浅空间表示的跨越

田溯宁：你提到了表示主义，这让我联想到这些年数据范式的跃迁。据悉数据表达已从显性数据发展到浅空间表示，你能否具体解读这一演进过程？

雷涛：数据范式的跃迁是AI技术升级的核心支撑。最早的信息化阶段，数据以显性形式存在，通过原数据、标签及知识图谱实现索引与表达，属于人类可直接理解的规则驱动模式，数据库、搜索引擎等都是这一阶段的典型产物。进入AI化阶段后，数据实现了向量化、权重化、奖励化转型，即嵌入表示，大模型权重、强化学习奖励机制均属于此类，这便是浅空间表示——一种机器可理解的概率驱动模式，实现了知识的凝练与泛化。

田溯宁：浅空间表示这一概念较为抽象，能否用通俗的方式为我们解读？

雷涛：浅空间本质是机器学习的隐性表达形式。以一篇文章为例，人类通过逐字逐句阅读实现理解，而在大模型中，文章会被转化为向量形式，类似由五千个词汇构成的“刺猬”，向量指向不同维度，通过欧拉距离、余弦夹角等方式量化向量间的关联，进而转化为数据的权重与关联关系。简单来说，传统方式通过标签、文件名描述数据，而浅空间表示则将这些显性信息转化为模型可识别、可运算的权重与向量，二者的差异如同电力驱动与机械驱动的本质区别，效率与能力不在同一维度。

田溯宁：这种数据表示方式的转变，为AI技术发展带来了哪些具体优势？

雷涛：其核心优势体现在知识的高度压缩与跨模态统一表达两个方面。大模型本质上是通过权重实现的高度压缩的知识结构，而非传统意义上的原始数据，例如一个千亿参数的模型，可将人类三分之一的显性知识压缩至20GB的空间内。在实现知识去冗余的同时，还能统一处理语言、视觉、空间等多模态信息。进入高级阶段后，结合合成数据与奖励机制，可通过仿真生成多样化样本，覆盖现实世界中罕见的“角落案例”，进一步提升模型的知识迁移与泛化能力。

下一代大模型：空间智能与物理AI的核心价值

田溯宁：聊完数据范式，我们来探讨下一代大模型的关键发展方向。空间智能作为核心方向之一，其核心突破点是什么，与传统几何空间表示有何区别？

雷涛：空间智能的核心突破是构建了统一表示体系，将语言、视觉、空间信息编码至同一神经网络框架中，实现多模态的通识理解。它彻底抛弃了传统几何空间表示方式，例如特斯拉FSD的3D占据网络，通过序列化建模动态空间关系，如同大模型预测下一个词汇一般，精准预测物体的下一位置与运动状态；再如Nerve SARA的时空Patch技术，可通过多视角信息实现三维场景的隐性重建与生成，具备强大的2D到3D推理能力。正如我此前所说，语言大模型是二维革命，视觉大模型是2.5维突破，空间计算将开启三维智能时代。

田溯宁：那么物理AI（即世界模型）在行业发展中，具有哪些独特的价值与意义？

雷涛：物理AI的核心价值在于将物理规律嵌入模型架构，将重力、运动等现实世界的约束条件编码至模型中，确保模型的推理与生成过程符合现实物理规则。同时，物理AI具备强大的多模态融合能力，遥感数据、文本知识、视觉信息等可在同一模型中实现统一处理与响应，应用前景极为广阔。在低空经济、智能制造、自动驾驶、火箭设计等高端To B场景中，物理AI将成为核心驱动力，推动行业实现效率与质量的双重提升。

田溯宁：您此前提到Sora模型能实现咖啡旋转的精准模拟，却也会出现轮子倒转的错误，这一现象是否与物理AI的核心逻辑相关？

雷涛：这一现象的本质正是物理AI的核心逻辑体现。Sora模型的核心优势，是在编码器阶段便实现了文本、视觉、空间信息的统一表达，通过多头注意力机制识别每一帧画面的核心信息，将帧与帧之间的关联抽象为类似文本Token的基础单元，而这些单元的权重逻辑，便对应着传统符号主义所抽象的物理定律。咖啡旋转模拟的准确性，正是因为模型处理Patch时的逻辑概率分布符合现实物理规律；而轮子倒转的问题，则属于采样周期与人眼视觉延迟的技术层面问题，与物理AI的核心逻辑无关。

田溯宁：空间智能与数字孪生、具身智能之间，存在怎样的关联？

雷涛：三者的核心关联在于空间信息的表达与应用方式。数字孪生的核心是通过信息化系统描述空间状态，再叠加语义层实现解读，传统模式下需通过TTS等技术实现不同模态的桥接；而当前的技术突破的是，在编码层便实现了语言、视觉、空间信息的统一表示，例如将遥感数据与维基百科嵌入信息融合，可直接通过自然语言回答空间相关问题，如密云水库面积变化等。这种通识化的空间表示结构，正是具身智能所必需的，例如具身智能可通过观察书架，结合文本信息实现书籍的精准空间定位。

后训练技术解析：从已知学习到未知探索的突破

田溯宁：当前行业内频繁提及后训练技术，它与预训练的核心区别是什么，后训练的核心作用体现在哪里？

雷涛：预训练模型相当于封装了全量人类知识的“知识包”，核心作用是将语言序列转化为模型可解读的关联关系，构建基础知识连接体系。后训练是在这一“知识包”的基础上实现能力升级，其核心目标是让模型从学习已知知识，转向探索未知领域，这也是后训练与预训练的核心区别——预训练构建知识基础，后训练实现能力突破。随着DeepSeek等模型的出现，大模型预训练时代已逐步结束，后训练时代正式开启。

田溯宁：当前后训练的主要方法有哪些，各自的优劣是什么？

雷涛：目前主流的后训练方法主要有两种。第一种是人类反馈强化学习（RLHF），通过人工标注偏好引导模型优化，早期应用效果显著，能够较好地契合人类价值观，但存在成本高昂、易陷入主观偏差的局限。第二种是直接偏好优化（DPO），通过大数据标注稀疏点调整概率分布，工程化效率较高，更适合大厂落地，但存在模型绑架风险与安全隐患，因此在西方也引发了相关争议——垄断企业掌握更多数据资源，可能会挤压中小企业的发展空间，阻碍行业创新。

田溯宁：除了这两种方法，是否存在更优的后训练方案？

雷涛：目前已有一些更具潜力的优化方案。其一的是投票机制类方法，如GRPO，通过模型自投票结合合成数据评价实现优化，具备去中心化特征，可提升模型多样性、防止过拟合，但目前机制设计仍需完善。其二是合成数据奖励网络，通过仿真生成数据训练评价网络，能够有效覆盖未知场景，提升模型泛化能力，但性能表现高度依赖仿真质量与评价网络的可靠性，这也是当前需要重点突破的方向。

田溯宁：这些后训练方法背后，是否存在统一的核心原则？

雷涛：核心原则主要有三点。第一，评价成本低于训练成本，强化学习的关键是构建高效的评价机制，如同快速判断一道题的对错仅需十几秒，而完整求解可能需要二十分钟，高效评价能够大幅提升后训练效率，降低研发成本，这对我们聚焦细分场景的研发布局至关重要。第二，多样性驱动性能提升，模型性能的优化并非依赖绝对正确的答案，而是足够多样的可能性，只要数据与现有样本存在差异，便予以保存，不简单判定对错，以此避免过拟合，这能让我们的模型更好地适配不同行业的细分需求。第三，从学习已知到探索未知，这是后训练的核心目标，即让模型具备在未知环境中自主试错、自主推理的能力，这也是我们天云数据实现技术突破、打造核心竞争力的关键。

田溯宁：后训练与微调、提示工程之间，存在哪些本质区别？

雷涛：二者的核心区别在于，提示工程、RAG及外挂智能体工作流组合，本质上是“从知识包中提取信息”的方法，侧重高效调用已有知识，适合快速适配简单场景。而后训练的核心是让模型具备自主探索能力，并非单纯的模仿或微调，适合我们天云所服务的复杂To B场景。需要注意的是，微调垂类模型往往会强化模型的记忆能力，但会弱化其泛化能力，导致通用性能下降。若要实现“保持通用能力、强化专项优势”的目标，强化学习是唯一可行的路径。目前，强化学习后训练已发展至第六代，相较于早期方法，成熟度大幅提升，能够更好地平衡通用能力与专项性能。

行业落地展望：智能体与细分基模协同共生

田溯宁：聊完技术层面，我们关注行业应用。当前行业模型是热点话题，结合你对行业趋势的判断，你认为未来行业模型会被何种形态取代？

雷涛：未来垂直行业模型将逐步被智能体工作流取代，核心原因在于智能体具备更灵活的适配能力与快速组合能力。基础模型（如GPT、千问等）将作为知识底座，智能体则作为行业适配与执行的工具层，实现知识与场景的高效衔接。从发展趋势来看，短期内智能体会快速渗透各个行业，长期来看，部分智能体能力可能会被基模逐步吸收，但新场景的不断涌现，仍会持续催生新的智能体。目前西方行业内已很少提及“模型”，“智能体”已成为行业讨论的核心焦点。

田溯宁：特斯拉FSD作为行业标杆，能否被归类为行业模型？

雷涛：特斯拉FSD并不属于传统行业模型，其核心是空间计算中的3D占据网络，虽然与语言模型的方法体系一致，但摒弃了传统行业模型依赖的实际路测数据与几何空间表示方式。FSD大量运用合成数据，模拟极端事故、恶劣天气等罕见“角落案例”，无需预先构建地图，而是如同语言模型理解文本般解读空间信息，每秒通过百帧数据分析空间内所有物体的关联关系，如同预测下一个词汇般预测物体的下一位置，其核心逻辑更贴近智能体，而非传统行业模型。

田溯宁：你提到的语言+视觉、空间+语义等多模态融合场景，具体会落地在哪些行业领域？

雷涛：不同融合场景的行业落地路径已较为清晰。语言+视觉的融合，将重点应用于工业自检、安防监控、内容生成等领域；空间+语义的融合，将聚焦低空经济（如无人机运营、低空管理）、自动驾驶、数字孪生等领域，推动场景智能化升级。而高级知识+概率模型的融合，则将应用于科研发现、工程设计、复杂系统优化等高端领域，例如偏微分方程求解、火箭发动机设计、蛋白质设计等，AlphaFold 3在蛋白质设计领域的突破，便印证了这一融合方向的巨大潜力。

田溯宁：当前空间智能、物理AI为何备受行业关注，其商业模式与大语言模型有何本质区别？

雷涛：核心原因在于，空间智能与物理AI能够真正解决To B领域的核心痛点，深刻改变制造、交通、科研等核心行业的发展模式，推动产业数字化、智能化转型。而当前大语言模型的商业模式，主要集中在Chat交互、代码生成等领域，虽然具备陪伴服务等商业价值，但难以深度渗透行业核心场景，无法从根本上改变行业发展逻辑。未来，空间与语义、视觉与语言的多模态融合，将催生更大规模的商业浪潮，成为AI行业新的增长引擎。

哲学视角：三大思想支撑AI技术演进

田溯宁：我一直认为，任何技术的长远发展，都离不开哲学思想的支撑。结合你对AI技术的研究，你认为哪些哲学理念，支撑着AI技术的演进？

雷涛：确实如此，AI技术的演进，始终与三大哲学思想深度契合。第一，波普尔的“猜想与反驳”，对应合成数据的猜想与批判性选择反驳，这是强化学习的核心哲学基础，也是模型实现自主探索的逻辑支撑。第二，维特根斯坦的“语言是世界的边界”，而表示系统的突破，例如浅空间表示，正在不断拓展机器理解世界的边界，让机器能够解读更多非语言类知识。第三，哥德尔的智能三阶段理论——计算、表示、启迪，这与AI技术的演进路径高度契合，正好对应AI从统计归纳到逻辑推理，再到自主探索的三个核心阶段。

总结：AI发展趋势与行业落地路径

田溯宁：最后，结合当前AI行业的发展现状，总结一下当前AI的发展趋势，以及未来的行业落地路径？

雷涛：总结来看，当前AI正处于从鹦鹉时代向乌鸦时代跨越的关键阶段，核心变革是从概率归纳转向因果推理与自主探索。其中，空间智能与物理AI是下一代大模型的关键突破方向，将推动AI从对话交互、代码生成，走向真正改变物理世界的新阶段。而合成数据、强化学习、统一表示，构成了支撑AI向更高阶智能演进的技术三角，是未来技术突破的核心重点。

从行业落地路径来看，核心逻辑是以基模为底座、智能体为触手，逐步渗透制造、交通、科研等核心产业。需要强调的是，阶段性上智能体会成为语言模型之后的一波工程潮流，但同时会涌现更多细分数据基模——并非更大、更完备的通用基模，而是聚焦细分场景、依托细分数据的专用基模，语言并非唯一的知识容器，基因序列的虚拟细胞模型、工业细分传感物联数据基模等，都将成为重要的发展方向。

归根结底，智能体与大模型并非替代关系，准确来说，语言模型如同发动机，为AI提供核心动力；智能体则如同具备就绪执行能力的整车，实现技术与场景的高效衔接。未来，随着更多细分基模的涌现与智能体的普及，AI将深度改变我们的生产与生活方式，同时也将催生更多新兴岗位与人才需求，需要大量掌握提示词工程、工作流编排等技能的人机协同型人才。

【结语】

作为天云数据的投资人与孵化者，田溯宁与创始人雷涛的对话，不仅清晰勾勒出AI技术的演进脉络与行业发展蓝图——从鹦鹉式模仿到乌鸦式探索，从通用大模型到细分基模网上配资网站，从技术突破到场景落地，更展现了一家孵化企业在技术驱动下的成长路径。AI正逐步摆脱“工具属性”，成为推动产业升级、社会进步的核心力量。未来，在田溯宁的支持与天云数据团队的努力下，依托智能体与细分基模的协同发展，天云数据有望在数据智能领域实现更大突破，同时也将为行业发展提供更多可借鉴的实践经验，推动AI技术更好地赋能实体经济。

发布于：北京市

同花配资提示：文章来自网络，不代表本站观点。