‘Ivo Everts, Databricks: 增强开源AI和改善数据治理’

在AI与大数据博览会欧洲展会之前,AI新闻与Databricks的高级解决方案架构师Ivo Everts进行了交流,讨论了几项将塑造开源AI和数据治理未来的关键发展。

Databricks的一项显著成就是DBRX模型,它为开放的大型语言模型(LLMs)设定了新的标准。

“在发布时,DBRX在标准基准测试中超越了所有其他领先的开放模型,其推理速度比Llama2-70B等模型快了多达2倍,”Everts解释道。“由于多种技术进步,它的训练效率更高。”

“从质量的角度来看,我们认为DBRX是目前最好的开源模型之一,当我们提到‘最好’时,这意味着在广泛的行业基准测试中,包括语言理解(MMLU)、编程(HumanEval)和数学(GSM8K)。”

该开源AI模型旨在“使定制LLM的训练民主化,超越少数模型提供商,并向组织展示他们可以以具有成本效益的方式在自己的数据上训练世界级的LLM。”

与其对开放生态系统的承诺一致,Databricks还开源了Unity Catalog

“开源Unity Catalog增强了其在云平台(例如AWS、Azure)和本地基础设施上的采用,”Everts指出。“这种灵活性使组织能够统一应用数据治理政策,无论数据存储或处理在哪里。”

Unity Catalog通过多种功能解决了数据分散和不一致访问控制的挑战:

  1. 集中数据访问管理:“Unity Catalog集中管理数据资产的治理,使组织能够以统一的方式管理访问控制,”Everts表示。
  2. 基于角色的访问控制(RBAC):根据Everts的说法,Unity Catalog“实施基于角色的访问控制(RBAC),允许组织根据用户档案分配角色和权限。”
  3. 数据血缘和审计:此功能“帮助组织监控数据使用和依赖关系,使识别和消除冗余或过时数据变得更容易,”Everts解释道。他补充说,它还“记录所有数据访问和更改,提供详细的审计跟踪,以确保遵守数据安全政策。”
  4. 跨云和混合支持:Everts指出,Unity Catalog“旨在管理多云和混合环境中的数据治理”,并“确保数据无论存储在哪里都能统一治理。”

该公司推出了Databricks AI/BI,这是一款利用生成AI增强数据探索和可视化的新商业智能产品。Everts认为,“真正智能的BI解决方案需要理解业务的独特语义和细微差别,以有效回答业务用户的问题。”

AI/BI系统包括两个关键组件:

  1. 仪表板:Everts将其描述为“一个AI驱动的低代码界面,用于创建和分发快速、互动的仪表板。”这些包括“标准BI功能,如可视化、交叉过滤和定期报告,而无需额外的管理服务。”
  2. Genie:Everts解释道,这是“一个通过自然语言处理临时和后续问题的对话界面。”他补充说,它“从基础数据中学习,以生成自适应可视化和建议,以响应用户查询,随着时间的推移通过反馈不断改进,并为分析师提供工具以优化其输出。”

Everts表示,Databricks AI/BI旨在提供“对数据语义的深刻理解,使组织中的每个人都能进行自助数据分析。”他指出,它由“一个复合AI系统驱动,该系统不断从组织整个数据堆栈的使用中学习,包括ETL管道、血缘和其他查询。”

Databricks还推出了Mosaic AI,Everts将其描述为“一个全面的平台,用于构建、部署和管理机器学习和生成AI应用,集成企业数据以增强性能和治理。”

Mosaic AI提供了几个关键组件,Everts概述如下:

  1. 统一工具:提供“构建、部署、评估和治理AI和ML解决方案的工具,支持预测模型和生成AI应用。”
  2. 生成AI模式:“支持提示工程、检索增强生成(RAG)、微调和预训练,提供灵活性以适应业务需求的变化。”
  3. 集中模型管理:“模型服务允许集中部署、治理和查询AI模型,包括自定义ML模型和基础模型。”
  4. 监控和治理:“Lakehouse监控和Unity Catalog确保在AI生命周期内的全面监控、治理和血缘跟踪。”
  5. 具有成本效益的自定义LLM:“使以显著较低的成本训练和服务自定义大型语言模型成为可能,针对特定组织领域量身定制。”

Everts强调,Mosaic AI在微调和定制基础模型方面的方法包括独特的功能,如“快速启动时间”,通过“利用集群内基础模型缓存”,“实时提示评估”,用户可以“跟踪模型响应在训练过程中的变化”,以及对“自定义预训练检查点”的支持。

这些创新的核心是数据智能平台,Everts表示,“通过使用AI模型深入洞察企业数据的语义,改变了数据管理。”该平台结合了数据湖和数据仓库的功能,利用Delta Lake技术进行实时数据处理,并结合Delta Sharing实现跨组织边界的安全数据交换。

Everts解释说,数据智能平台在支持新的AI和数据共享倡议方面发挥着关键作用,提供:

  1. 统一的数据和AI平台,“将数据湖和数据仓库的功能结合到一个单一架构中。”
  2. Delta Lake进行实时数据处理,确保“可靠的数据治理、ACID事务和实时数据处理。”
  3. 通过Delta Sharing实现协作和数据共享,使“跨组织边界的安全和开放数据共享成为可能。”
  4. 与流行库(如MLflow、PyTorch和TensorFlow)集成的机器学习和AI模型开发支持。
  5. 通过其云原生架构和Photon引擎提供的可扩展性和性能,“这是一个优化的查询执行引擎。”

作为AI与大数据博览会欧洲展会的主要赞助商,Databricks计划在活动期间展示他们的开源AI和数据治理解决方案。

“在我们的展位上,我们还将展示如何使用Lakehouse应用程序,从头开始创建和部署一个自定义的GenAI应用,使用Hugging Face的开源模型和来自Unity Catalog的数据,”Everts说。

“通过我们的GenAI应用,您可以生成自己的卡通图片,所有这些都在数据智能平台上运行。”

Databricks将在今年的AI与大数据博览会欧洲展会上分享更多他们的专业知识。 欢迎光临Databricks的展位#280,了解更多关于开源AI和改善数据治理的信息。

在这里探索其他即将举行的企业技术活动和网络研讨会,均由TechForge提供支持

标签: , , , , , , , , , , , ,