Hi,欢迎来到DML。
如果你是数据库领域的从业者,你一定知道DML是Data Manipulation Language的简称,DML意味着数据的生成和消费。
一种种数据库的DML定义,一次次的DML调用,支撑了几十年来数据库领域的变化,诞生了一个个社会和商业的奇迹。我们人类的生产效率发生了翻天覆地的变化。如果回到几十年前给你描述2026年的一切,你一定会认为这不过是一部分有着巨大愿景的畅想家的异想天开。
你会相信随时触手可及的社交通信工具么?她连接了你和你社交中的一切。
你会相信随时可以召唤的出行工具么?她连接了你和你物理移动的一切。
那在这个过程中,如果我们将数据库和存储领域统一称为数据存储领域的话,数据存储领域里面都发生了什么样的范式转移呢?最开始我们用纸带来存储信息,后来我们通过文件系统来存储信息,再后面我们通过关系型数据库来存储信息,接着我们通过缓存型数据库来缓存数据。
我们见证了这里一波波数据存储系统的演变。这背后的驱动力是什么?是我们数据存储领域的同事有创造力地发明了各种各样的存储么?不是的。我们不过是随着计算平台的变化而适配了对应的存储系统而已。存储系统的本质不过是存放了计算系统的状态信息——这些状态信息有冷热的区别、有完整性的区分、有访问时延的区别。这一切就催生了对象存储、文件存储、MySQL、Redis、MongoDB、InfluxDB等一系列的数据库和存储系统。
ChatGPT的发布让AI这个看似遥不可及的技术快速地在人类中进行了普及。最开始我们当做聊天机器去使用它,当做翻译工具使用它。它更多还是一个无状态的工具存在,帮人类做了提效,但具体影响全人类还是非常有限的。
随着OpenAI o1模型的诞生,特别是DeepSeek R1模型的发布,推理时扩展、深度思考下的问题处理能力、解决实际物理世界的能力大踏步地继续推动了我们围绕着AI进行狂欢。随之而来的工具调用能力的提升、代码编写能力的提升,让Agentic这个模式找到了在vibe coding这样非常好的场景落地。通过Agentic我们可以非常简单地用自然语言完成复杂的项目级别的编程落地,而不再是局部的代码补全。相信AI的或者不相信AI的,都被Agentic模式带来的实际任务解决可能性所影响。AI不再是未来,AI可能会改变你身边的一切。
那在高呼AI万岁的时候,我们数据存储领域的从业者可以冷静地想一下:这里会发生类似过去发生过多次的范式转移么?
AI万岁背后的技术第一性究竟是什么?
这个第一性我们认为是:AI技术驱动了人类从CPU为核心的计算平台迁移到了以GPU为核心的计算平台。
那这个迁移又意味着什么呢?
让我们先看看这两种计算平台如何在商业环境中去提供客户价值并且构造护城河。
在CPU为核心的时代:最前端是用户的需求驱动,产品经理洞察需求、积累knowhow、定义问题,将这些问题转化为需求稿。程序员们编写一行行确定性的代码,通过海量技术支撑庞大的客户群体。这里的knowhow和代码是企业护城河。
在GPU为核心的时代:最前端的商业逻辑还是服务客户,产品经理洞察需求、积累knowhow,但这些knowhow的转化路径变化了。这些knowhow将以评测集的方式定义问题,这些被定义好的评测集代表了客户存在需求但没有被满足的地方。基于这些评测集,我们的研究员会基于预训练技术和后训练技术去生产。生产目标是模型,而生产要素是匹配这些商业场景的数据,也可能是这个商业场景的思维链示例,也可能是这些商业场景的工具选择示例,也可能是这些商业场景对应的验证环境。最终,生产出来的模型需要完成这些评测集的benchmark。
训练过程积累的数据和平台、训练完成后的模型参数,将代替之前的代码成为企业未来的护城河。
这个趋势已经来势汹汹。以规则体系的CPU只会慢慢走向幕后,以模型参数体系的GPU只会越来越大地影响这个世界。
到这里,敏感的数据存储领域的技术人应该有似曾相识的感觉了。过去几十年,我们从晶体管计算、大型机、PC计算、移动计算,经历过那么多次的计算平台演进。这次跨度可能更大了,直接从CPU计算转移到了GPU计算。
计算平台的演进必然伴随着数据存储平台的演进。最近几年的RAG、向量数据库、智能体长期记忆等面向AI时代的数据存储平台的讨论此起彼伏,都是对这个趋势的呼应。
为了迎接这个演进,我们是否还是继续编写更多的更匹配AI时代的存储代码,设计更合适的存储引擎?
我们觉得答案会比简单的是否更复杂。一方面我们需要去打造更匹配AI时代的存储能力;同时在达成路径上,我们基于模型或者Agentic去设计和研发这里的数据库系统。只有做到服务于AI、同时也借力于AI,智能化的存储系统本身的内核也是智能化驱动的,这才是唯一可行的解法。
在这个趋势之下,我们坚信能够拥抱和掌握GPU时代的护城河方法论是最关键的因素。这个方法论具象起来应该包含:团队是否可以准确地定义领域内的关键问题,是否可以通过这个定义好的关键问题打造一个研究性的模型训练团队。这个护城河将是GPU时代团队的第一竞争力。
到此,我们正式给大家介绍DML。DML=Data Model Lab,不再是传统数据库时代的变更语义,而是面向未来的数据模型实验室。
DML的核心使命是打造数据领域最领先的模型,解决AGI路上计算平台的状态数据的存储和使用问题。
当然罗马不是一天建成的。我们希望从简单到复杂,先解决数据存储领域自己的提效问题,从而进步到智能化存储系统。我们会一步步打造领域知识库模型、SQL诊断模型、实例诊断模型、智能体记忆Agentic模型、DataInsight Agentic模型等等。
可预期的,我们未来的几年想打造三个Agentic的模型或者AI系统,实现当前数据存储领域管理智能化的Agentic Model,实现未来智能化数据存储和检索的Agentic Model,实现未来智能化数据分析和数据洞察的Agentic Model。
随着这些模型的成功,DML团队的问题定义能力、训练数据的生产能力、训练环境的构造能力、训练算法的定义能力都会自然而然地变强。
未来会怎样?我们能让这个世界好一些么?我们是否能引领或者开创一些事情?欢迎来DML,我们一起试试!
DML团队 Cloud 于成都 2026.1