“LLM”席卷大数据行业，独角兽Databricks收购以 AI 为中心的大数据平台Okera

2,040 0

由chat GPT带起的AI浪潮正在席卷全球，影响着所有的行业，也包括数据库领域。

据TechCrunch报道，数据库领域独角兽Databricks 宣布收购了专注于 AI 的数据治理平台 Okera。虽然两家公司均未透露收购价格，从Crunchbase 的数据来看，Okera 此前筹集了近 3000 万美元，投资者包括 Felicis、Bessemer Venture Partners、Cyber Mentor Fund、ClearSky 和 Emergent Ventures。

Databricks 在今天的公告中指出，数据治理已经是一个热门话题，但最近对 AI 的关注凸显了以前处理它的方法的一些缺点。 “从历史上看，数据治理技术，无论其复杂程度如何，都依赖于在一些狭窄的腰层实施控制，并要求工作负载适应这一层的‘围墙花园’，”该公司在一篇博文中解释道。这种方法在大型语言模型 (LLM) 时代不再适用，因为资产数量增长太快（部分原因是其中大部分是机器生成的）并且因为整体 AI 格局变化如此之快，标准访问控制无法足够快地捕获这些更改。

由于行业的垂直，Databricks的产品和核心业务，仍然只有一小部分的VC、数据科学家有所了解。事实上，数据库市场是一个千亿美元、年同比增长达两位数的吸金兽。

该如何理解Databricks？

在互联网风靡之前，我们的大部分数据还保存在 Excel 电子表格中时，这并不难：写几个VBScript就足够了。现在，我们的每一个YouTube视频观看事件——开始、暂停、跳过广告等，都被收集、解析、聚合，最终变成某个高管屏幕前的柱状图。而这一切，很可能时刻都在发生。

每家拥有数据的公司，希望实现的一个终极目标是：搭建一个自动化系统，将原始数据集源源不断地转化为业务价值。换句话说，一个自动将“数据变现”的系统。

从本质上讲，Databricks是一家计算公司，通过解决两个关键问题：如何使用数据；如何把数据从源头向下游汇集和转化，提出了一种搭建数据流水线的低代码解决方案。

归根究底，Databricks 是一家提供“计算”的公司。与该类别的其他公司一样，它通过租出服务器的计算资源来赚钱。

AI的出现凸显了以前一些数据处理方法的缺点，正如 Databricks 团队强调的那样，这是该公司有兴趣收购 Okera 的原因之一，但另一个原因是该服务的隔离技术，它可以在没有任何重大开销的情况下对任意工作负载实施治理控制。这项技术仍处于私人预览阶段，但可能是 Databricks 收购该公司的主要原因之一。

Databricks 几周前推出了自己的 LLM，计划将 Okera 的技术整合到其现有的数据和 AI 资产治理解决方案 Unity Catalog 中。该公司还指出，此次收购将使 Databricks 能够公开额外的 API，其自己的数据治理合作伙伴将能够使用这些 API 为其客户提供解决方案。

通过此次收购，Databricks 还邀请了 Okera 联合创始人兼首席执行官李农。 Li 创建了 Apache Parquet 数据存储格式，在 Cloudera 工作和创办 Okera 之前，他实际上曾在 Databricks 短暂担任工程师，他是 Okera 的创始首席技术官，并于 2022 年 2 月成为首席执行官。