Cloudflare 推出最完整的平台,大规模部署快速、安全、合规的 AI 推理
推出 Workers AI,用于端到端基础设施,以高效、经济地扩展和部署 AI 模型,以适应下一个 AI 应用时代
加利福尼亚州旧金山,2023年7月2日 – 领先的连接云公司 Cloudflare, Inc.(纽约证券交易所代码:NET)今天宣布,开发人员现在可以在 Cloudflare 的网络上构建全栈 AI 应用程序。Cloudflare 的开发人员平台将为构建 AI 应用程序的开发人员提供最佳的端到端体验,无需管理基础设施即可实现快速且经济实惠的推理。从初创公司到大型企业,每个企业都希望通过人工智能来增强他们的服务,Cloudflare 的平台正在为开发人员提供快速交付生产就绪型应用程序的速度,并内置安全性、合规性和速度。
从希望利用 AI 增强服务的财富 1000 强公司,到致力于构建下一个文化定义应用程序的 AI 初创公司,商业领导者都希望交付生产规模的 AI 驱动的应用程序。组织正试图快速行动以快速实现价值。然而,他们面临着一些挑战,例如部署人工智能的成本迅速膨胀和不透明,并确保客户数据保持私密并遵守法规。开发人员正面临着大量新供应商,要求他们快速了解新工具,并将许多复杂、不同的服务连接在一起。C 级企业领导者希望在昂贵的技术、工具和人员配备中优化成本。
“Cloudflare 拥有开发人员构建可扩展的 AI 驱动应用程序所需的所有基础设施,现在可以提供尽可能接近用户的 AI 推理。我们正在投资,让每个开发人员都能轻松获得功能强大、价格合理的工具来构建未来,“Cloudflare 首席执行官兼联合创始人 Matthew Prince 说。“Workers AI 将使开发人员能够在几天内高效、经济地构建生产就绪的 AI 体验,而不是通常需要整个团队数周甚至数月才能完成的工作。”
“随着企业希望最大限度地提高运营速度,越来越多的企业正在转向人工智能,”RedMonk首席分析师Stephen O'Grady说。“但是,围绕人工智能提供高质量的开发人员体验至关重要,通过抽象来简化界面和控制来监控成本。这正是 Cloudflare 优化其 Workers 平台的目的。
Workers AI 简介:业界首个大规模无服务器 AI
如今,Workers AI 为开发人员提供了一种简单、经济的方式,可以在 Cloudflare 的全球网络上运行 AI 模型。通过重要的合作伙伴关系,Cloudflare 现在将提供对在 Cloudflare 庞大的全球网络上运行的 GPU 的访问,以确保 AI 推理可以在用户附近进行,从而获得低延迟的最终用户体验。当与我们的数据本地化套件相结合以帮助控制数据的检查位置时,Workers AI 还将帮助客户预测政府围绕 AI 使用制定政策时可能出现的潜在合规性和监管要求。Cloudflare 以隐私为先的应用程序开发方法可以帮助公司兑现对客户的承诺,确保用于推理的数据不用于训练 LLM。 Cloudflare 目前支持模型目录,以帮助开发人员快速入门,用例包括 LLM、语音转文本、图像分类、情感分析等。
隆重推出 Vectorize:加速 AI 工作流程的矢量数据库
Cloudflare 的新矢量数据库 Vectorize 使开发人员能够完全在 Cloudflare 上构建全栈 AI 应用程序:从使用 Workers AI 中的内置模型生成嵌入并在 Vectorize 中对其进行索引,到查询它们并将源数据存储在 R2 中。借助 Workers AI 和 Vectorize,开发人员不再需要将多个部分粘合在一起,即可通过 AI 和机器学习为其应用提供支持,他们可以在一个平台上完成所有操作。
Vectorize 还受益于 Cloudflare 的全球网络,允许向量查询在更靠近用户的地方进行,从而减少延迟和整体推理时间。它还与更广泛的 AI 生态系统集成,允许开发人员存储使用 OpenAI 和 Cohere 生成的嵌入,以便团队可以带来他们已经拥有的嵌入,并在将 AI 应用程序扩展到生产时仍然受益于 Vectorize。
AI 网关简介:AI 的可观测性和可扩展性
今天,Cloudflare 正在推出 AI Gateway,使 AI 应用程序更加可靠、可观察和可扩展。根据 IDC 的最新预测,预计今年人工智能支出将激增至 154 亿美元,到 300 年将增加到 2026 亿美元以上。然而,开发人员和最高管理层无法了解整个 AI 基础设施中的资金是如何花费的,或者有多少以及从哪里进行查询。
开发人员应该能够专注于他们正在构建的内容,而不是其背后的基础设施、扩展、成本或可观测性部分。AI Gateway 将为开发人员提供可观察性功能,以了解 AI 流量,例如请求数量、用户数量、运行应用程序的成本和请求的持续时间。此外,开发人员可以通过缓存和速率限制来管理成本。通过缓存,客户将能够缓存重复问题的答案,从而减少不断对昂贵的 API 进行多次调用的需要。速率限制将有助于管理恶意行为者和大量流量,以管理增长和成本,使开发人员能够更好地控制他们如何扩展应用程序。