当前位置:首页 > 最新资讯 > 行业资讯

为实时人工智能做好准备

不断缩小的决策窗口和更快的数据生成使得实时分析成为一种新兴的热门产品类别。Rockset首席执行官兼联合创始人Venkat Venkataramani表示,现在,随着大型语言模型(LLM)和矢量数据库为企业人工智能铺平了道路,我们突然进入了实时人工智能系统的时代。

到目前为止,Rockset一直在开发一个关系数据库,使用户能够对大量新输入的数据连续运行SQL查询。从传统数据仓库供应商到实时流处理器,许多大数据开发人员一直难以做到这一点。

Rockset通过在其开放的RocksDB的关键价值商店上构建的一系列功能来满足实时分析需求。Rockset首席技术官兼联合创始人Dhruba Borthakur在Facebook帮助下创建了关键价值商店。这包括Rockset强大的聚合索引功能,但也包括其非结构数据的接收、时间序列优化、查询规划和基于云的架构。

到目前为止,目标是让实时应用程序能够访问通过Kafka管道到达的最新数据。与其他追逐实时分析梦想的数据库公司(Imply、Clickhouse和StarTree)一样,没有任何一项出色的功能可以让你突然成功地在大量传入数据上运行每秒数万次SQL查询。相反,这是一种通过不懈的工程实现的能力。

但在4月份发生了变化,Rockset推出了对数据库中矢量搜索功能的初步支持。新功能使Rockset不仅可以在其数据库中存储和索引向量嵌入,还可以将这些向量嵌入与元数据过滤、关键字搜索和向量相似性得分相结合。

Venkataramani表示,这些新的矢量相关功能将为客户解锁实时人工智能应用,特别关注产品推荐、个性化和欺诈检测。

他说:“这方面以前称为预测分析。能够预测即将发生的事情。但如今,这都是实时人工智能。”

自去年年底ChatGPT出现以来,公司开始重新思考如何以及在哪里应用人工智能。Venkataramani表示,基于神经网络和向量嵌入的新技术和技术正在颠覆五年前被认为是前沿的机器学习方法。

以产品推荐为例,这是一个经过时间考验的数据科学家应用程序。与识别最具预测性的特征和属性、构建自动提取它们的管道,然后在运行时仔细构建机器学习模型来推断消费者偏好的艰苦过程不同,随着LLM的出现,公司现在基本上可以将所有这些数据放入文本文档中,并由神经网络进行分类。

他说:“以前,机器学习模型会试图提取关于你的产品、产品颜色、制造商、产品类别等的属性。”“但现在,你可以给这些人工智能模型和神经网络一个BLOB(表示二进制类型的大对象)的文本。你可以给每个产品一个图像目录,你不需要告诉它‘去标记这些图像,说这是蓝色的,属于同一类。’”

“现在你可以提供用户正在观看的所有产品,人工智能模型可以理解用户的喜好和厌恶,而不必根据特定的属性和规则进行编码。”“因此,你可以为用户提供并构建一个向量,该向量代表了他们有更高机会喜欢或购买的所有潜在产品。”

这大大降低了在生产中使用人工智能的门槛,并使公司能够利用人工智能做更多的事情。他说,理论上,这可以使一家公司对其目录中的10万件商品进行预测分析,而不是将其限制在前1000件商品。

有了人工智能,就好像一些机器人在观察用户的所有行为,并更深入地了解每一种产品,然后在用户出现在网站上时实时构建推荐,而不是一小时后、一天后或一周后。可以个性化的程度已经达到了顶峰,因为现在可以将所有这些自动化。

Rockset不创建矢量嵌入(矢量嵌入是大量非结构化文本或图像数据的浓缩表示)。但它确实允许用户将向量嵌入基本上视为数据库中的另一种数据类型,并对其执行操作,例如相似性搜索。

Venkataramani说: “我们不在乎你用什么模型来获取非结构化数据并将其转化为向量。” “把它想象成另一种数据类型,你的表中的另一列。你现在需要对它们进行相似性搜索。你需要说,给定一个向量,给我找到所有其他更接近我正在搜索的向量。”

假设客户希望识别传入数据流中所有类似雏菊的图像(如果应用在公共安全而不是花园游览,则可以将“雏菊”替换为“枪”或“刀”)。

Venkataramani解释道:“我正在寻找的矢量是一朵雏菊,但这里是用矢量表示的所有其他图像。” “现在你需要一个索引。如果你对整个库进行强力搜索,这个问题需要10天才能得到答案。我希望在100毫秒内完成。你是怎么做到的?”

根据向量嵌入的索引运行机器学习算法,如K-最近邻(KNN)或近似最近邻(ANN),显著加快了对输入数据中雏菊和雏菊相邻图像的识别。

没有人在数据库中寻找这个确切的向量。他们在寻找所有更接近或最接近的向量,这就是索引在数学上比根据数字、字符串、日期或时间构建索引复杂得多的地方。这就是为什么矢量搜索是一种非常不同的功能,这也是Rockset所增加应对实时需求的有力功能。

猜你喜欢

微信公众号

微信公众号