生成式人工智能和操作机器学习在现代数据领域中发挥着关键作用,使组织能够利用其数据来推动新产品的发展并提高客户满意度。这些技术用于虚拟助手、推荐系统、内容生成等。它们通过数据驱动的决策、自动化、增强的业务流程和客户体验帮助组织建立竞争优势。
Apache Airflow是许多团队机器学习运营的核心,通过与大型语言模型(LLMs)的新集成,Airflow使这些团队能够使用最新的ML和AI进展构建生产质量的应用程序。
简化ML开发
机器学习模型和预测分析往往在与生产系统和应用程序相距甚远的孤立环境中创建。组织面临着将孤立的数据科学家笔记本转化为具有稳定性、扩展性、合规性等的生产就绪应用程序的持续挑战。
然而,那些将数据运营和机器学习运营工作流程都标准化在一个平台上的组织,不仅能够减少端到端开发的摩擦,还能降低基础设施成本和IT扩张。虽然这似乎是违反直觉的,但这些团队也从更多的选择中受益。当集中的编排平台(如Apache Airflow)是开源的,并且包含几乎每个数据工具和平台的集成时,数据和机器学习团队可以选择最适合他们需求的工具,同时享受标准化、治理、简化故障排除和可重用性的好处。
Apache Airflow和Astro(Astronomer的完全托管Airflow编排平台)是数据工程师和机器学习工程师相遇创造业务价值的地方。随着每天在各个行业和领域运行的大量数据工程流水线,它是现代数据运营的工作马,机器学习团队可以在此基础上进行模型推理、训练、评估和监控。
优化Airflow以增强ML应用程序
随着组织继续寻找利用大型语言模型的方法,Airflow在处理非结构化数据处理、检索增强生成(RAG)、反馈处理和基础模型微调等方面越来越重要。为了支持这些新的用例,并为Airflow用户提供一个起点,Astronomer与Airflow社区合作创建了Ask Astro,作为使用Airflow进行会话式AI的公共参考实现。
更广泛地说,Astronomer还领导了与向量数据库和LLM提供商的新集成的开发,以支持这一新型应用程序和所需的流水线的安全、新鲜和可管理性。
连接到最广泛使用的LLM服务和向量数据库
Apache Airflow与一些最广泛使用的向量数据库(Weaviate、Pinecone、OpenSearch、pgvector)和自然语言处理(NLP)提供商(OpenAI、Cohere)结合使用,通过最新的开源开发提供可扩展性。它们共同为RAG开发提供了一流的体验,用于会话式AI、聊天机器人、欺诈分析等应用程序。
OpenAI
OpenAI是一家提供访问GPT-4和DALL·E 3等最先进模型的API的AI研究和部署公司。OpenAI Airflow提供程序提供了与Airflow轻松集成OpenAI的模块。用户可以为数据生成嵌入向量,这是NLP与LLM驱动的应用程序的基础步骤。
查看教程 → 使用Apache Airflow编排OpenAI操作
Cohere
Cohere是一个提供访问尖端LLM的NLP平台的API。Cohere Airflow提供程序提供了与Airflow轻松集成Cohere的模块。用户可以利用这些面向企业的LLM轻松创建使用自己的数据的NLP应用程序。
查看教程 → 使用Apache Airflow编排Cohere LLM
Weaviate
Weaviate是一个开源的向量数据库,用于存储文本、图像、音频或视频等对象的高维嵌入向量。Weaviate Airflow提供程序提供了与Airflow轻松集成Weaviate的模块。用户可以使用开源向量数据库处理高维向量嵌入,该数据库提供丰富的功能、卓越的可扩展性和可靠性。
查看教程 → 使用Apache Airflow编排Weaviate操作
pgvector
pgvector是用于PostgreSQL数据库的开源扩展,它增加了存储和查询高维对象嵌入的能力。pgvector Airflow提供程序提供了与Airflow轻松集成pgvector的模块。用户可以使用这个开源扩展解锁在高维空间中处理向量的强大功能,用于他们的PostgreSQL数据库。
查看教程 → 使用Apache Airflow编排pgvector操作
Pinecone
Pinecone是一个专有的向量数据库平台,专为处理大规模基于向量的AI应用程序而设计。Pinecone Airflow提供程序提供了与Airflow轻松集成Pinecone的模块。
查看教程 → 使用Apache Airflow编排Pinecone操作
OpenSearch
OpenSearch是一个基于Apache Lucene的开源分布式搜索和分析引擎,它提供了强大的机器学习插件的高级搜索功能。OpenSearch Airflow提供程序提供了与Airflow轻松集成OpenSearch的模块。
查看教程 → 使用Apache Airflow编排OpenSearch操作
其他信息
通过使以数据为中心的团队更容易将数据流水线和数据处理与ML工作流程集成,组织可以简化操作AI的开发,并在操作环境中实现AI和自然语言处理的潜力。准备深入研究吗?发现为易于集成而设计的可用模块-访问Astro注册表以查看最新的AI/ML示例DAG。