‘
想象一种工具,它可以让您比SQL、Microsoft Excel或类似工具更轻松地访问、清理、测试、合并、分析和输出数据…
‘
现在,停止想象。Alteryx就是那个工具。
具体来说,Alteryx是一个强大的数据分析和ETL工具,可以使团队以可重复、较少出错和较低风险的方式高效构建数据处理流程。
在本教程中,我们将了解Alteryx是什么,然后深入介绍如何使用它的实践方法。
让我们首先正确定义Alteryx是什么。
什么是Alteryx?
我们有一份完整的指南,介绍了Alteryx是什么。 简而言之,Alteryx是一个数据分析和可视化工具,旨在简化高级分析自动化,并使其对所有数据专业人员都可访问。
更具体地说,Alteryx是一种工具,它使用户能够在不需要广泛的编码知识作为先决条件的情况下,准备、混合和分析来自各种来源的数据。利用拖放界面,用户可以集成来自各种来源的数据,清洁和转换数据,然后进行高级分析和可视化,创建复杂的工作流程。
采用Alteryx创建工作流程的主要好处是可以通过自动化数据分析流程来减少手动工作量。这些工作流程可以保存并在以后重复使用,这样可以更容易地复制数据处理和分析任务等任务。它还有助于减少手动数据操作中的人为错误风险。
在接下来的教程中,我们将进行实际操作;跟着一起来帮助加深学习。
安装 Alteryx
安装过程非常简单;按照以下步骤将 Alteryx 安装到您的桌面上。
步骤1
导航到Alteryx网站。从菜单中选择“产品”,并在“平台概述”部分导航到“Alteryx Analytics Cloud Platform”。点击进入下一个屏幕。
第二步
选择“开始免费试用”选项。这将打开一个页面,您可以选择开始“桌面试用”或“云试用”。对于我们的教程,我们将使用“桌面试用”,所以选择该选项。请注意,免费试用有效期为30天。
Alteryx Analytics Cloud平台的免费试用页面
第三步
在下一页上填写关于自己的详细信息,然后选择“提交”。这将开始下载。
第四步
下载完成后,打开.exe文件开始安装设置。屏幕上会出现两个选项:选择典型下载并点击下一步。这将完成设置并开始安装。您将被提示接受用户许可证 – 在此之前请仔细阅读 – 并选择您希望将程序保存在系统的位置。选择最适合您的选项。
Alteryx的设置页面
步骤5
运行Alteryx打开平台。打开后,会弹出一个提示框要求您激活Alteryx Designer。选择“开始免费试用”并输入您的电子邮件。
AlteryX Designer平台和激活弹窗。
步骤6
您将被要求提供您的详细信息以获取试用激活码。填写完毕后,选择“激活”,然后就完成了!
试用激活表格
你现在已经准备好开始解决问题了。
工作流画布
Alteryx工作流程画布以红色标记
工作流程是在工作流程画布区域中构建的。为了清晰起见,工作流程定义了一系列用于处理数据的工具。各种数据源的相对路径可以保存在工作流程中,从而使得可以通过共享或将其保存在共享驱动器中与其他团队成员共享工作流程。
注意:每个工作流都保存为YXMD文件类型。
构建您的第一个Alteryx工作流程
当您打开Alteryx Designer界面时,默认情况下会启动一个工作流程,但假设对您来说没有发生这种情况。要构建一个新的工作流程,请导航到左上角的“文件”并选择“新工作流程”。这将在工作流程画布中为您的新工作流程创建一个选项卡。
创建新工作流程
如上所述,工作流程是一系列连接的工具,执行不同的数据处理功能。
要开始构建您的工作流程,请从调色板中拖动您想执行的操作,并将其放置在画布上。
选择输入数据工具
要将工具连接到现有的工作流程中,从调色板上将其拖动到画布上,并将其放置在另一个工具的输出锚点附近。还可以将现有工具的输出锚点拖动到最近添加的工具上,选择最自然的方式。
连接一个工具;请注意,这会导致输入数据工具出现错误,因为没有定义输入数据。
连接以下游方向移动,可以从左到右,也可以从上到下。这完全取决于您在工作流配置窗口中选择的工作流布局。
有些工具可以接受多个输入,如果一个工具有一个灰色的输入锚点,那么它有一个可选的输入。最后,所有带有输出锚点的工具都可以输出到多个流。
Alteryx中的数据准备
数据准备,有时也称为预处理,是将原始数据转换为可以方便准确地分析或用作机器学习模型输入的形式的行为。
人们很少庆祝数据专业人员的这一方面。然而,这占据了大量的时间,是成功的数据分析和机器学习的关键组成部分之一。
Alteryx使数据准备变得非常简单。只需点击几下,您就可以获取数据,清洗数据,执行连接操作并实施转换。
让我们逐步了解每个步骤的过程。
数据采集
在我们开始准备数据之前,我们必须首先获取数据 – 这可以来自各种来源,如云数据仓库或数据湖。
在我们的示例中,我们将使用AlteryX上的一个样本数据集。为此,我们必须首先从调色板中拖动“输入数据”工具。这将在左侧打开一个配置栏。
选择设置连接 > 文件 > Alteryx数据库 (.yxdb) > TutorialData.yxdb
从Alteryx数据库获取数据
一旦数据被导入Alteryx,分析师和数据科学家通常会开始对数据进行检查和数据分析,以更好地了解他们手头的数据。我们可以通过将“浏览”工具拖动到画布中,将其连接到输入数据的锚点,然后运行工作流来实现这一点。
现在,您可以从预览窗口中选择不同的列来查看该列中的数据质量。
浏览输入数据
请注意,我们的数据中“Last”名列中有一个带有尾随空格的值。
我们数据中“Last”列的长度统计。
我们可以通过一些数据清洗来处理这个问题。
数据清洗
数据清洗是清理结构混乱的数据以提高其质量的行为。它涉及以下过程:
- 纠正输入错误
- 处理缺失数据
- 屏蔽敏感或机密信息
- 处理重复项或异常值
要在Alteryx中执行数据清洗,从工具栏中拖动“数据清洗”工具,并将其连接到输入数据的输出锚点。
在配置区域中,除了“最后”和“前导和尾随空格”之外,取消选择所有其他选项,这些选项位于“删除不需要的字符”标题下。
接下来,运行工作流以执行命令。
数据清洗工具的配置
要检查清洁是否正确执行,请点击“浏览”工具,并从预览窗口中选择“Last”列。
执行后检查带有尾随空格的值
注意“带有尾随空格的值”参数显示为“0”,表示操作成功。
Alteryx中的数据转换
数据可以有各种形状、大小和结构。有时,它可能已经准备好进行分析,但这通常是在数据竞赛中。现实世界中的数据往往是混乱的,作为数据专业人员,您有责任对其进行格式化,以便可以查询并得出有意义的见解。
常见的数据转换包括:
- 数据透视
- 设置数据类型
- 聚合
我们要进行的转换是将用户的出生日期(DOB)转换为他们的实际年龄。在Alteryx中,拖动“公式”工具到画板上,并将其连接到“数据清洗”工具的输出锚点。
在配置面板中,你会被告知“选择一列”。从下拉列表中选择“添加一列”,并将其命名为“年龄”。
要计算一个人的年龄,我们必须将当前日期减去他们的出生日期。为了做到这一点,在“输入表达式”的位置输入“DateTimeDiff”。
将“dt1”替换为“DateTimeToday()”,将“dt2”替换为“[出生日期]”。表达式中的“u”代表单位;在这个例子中,我们使用的单位是“年”,所以将“u”替换为它。
你必须做的最后一件事是将数据类型更改为“Int16。”
你的配置框应该是这样的
太棒了!现在你知道如何在Alteryx中设置基本的工作流程了。
使用Alteryx自动化工作流程
工作流程自动化是使用软件完成任务而无需人工输入的方法。这是业务中经常使用的工具,可以加快流程速度,减少手动工作和重复任务的需求。
我们可以使用Alteryx中的批处理宏和调度来自动化工作流程。
批处理宏
批处理是计算机定期完成大量重复数据任务的一种方法,通常在计算资源需求较低时进行。我们可以使用Alteryx中的批处理宏来执行批处理。
批处理宏是一种在工作流中多次运行并在每次运行后创建输出的工具。该宏针对数据中的每个记录(或选定的一组记录)运行一次,输入可以配置为在每个工作流执行中使用,或者仅在特定运行中使用。
创建批处理宏很简单。导航到工作流配置选项卡,选择“工作流”。在工作流标题下,您将看到一个“类型”子标题 – 将选择更改为宏,并从下拉列表中选择“批处理宏”。
设置批处理宏
一旦工作流程保存为批处理宏,工作流程中的每个工具都将获得一个闪电锚点,只有界面工具可以连接到它们。
调度工作流程
在Alteryx中,还可以对工作流程、应用程序或软件包进行调度。请注意,调度是指在指定的频率、日期和时间自动分配资源来执行任务的行为。
用户可以决定他们希望在哪里运行他们的计划工作流,但通常是基于他们公司的配置。两个选项是:
- Alteryx Server:安排到您公司的服务器或控制器。
- Designer plus Desktop Automation (Scheduler):安排到您的计算机。
在Alteryx中安排工作流程非常简单。只需打开您想要安排的工作流程,然后在画布顶部的“运行”图标旁边选择“将工作流程添加到计划中”图标。
“添加工作流程到日程安排”图标
您还可以通过导航到“选项”并选择“计划工作流程”来安排工作流程。
Alteryx最佳实践
像任何工具一样,Alteryx有一套最佳实践,以确保您获得最佳结果。我们将介绍五个实践,但如果您想了解更多信息,可以查看包含24个最佳实践的PDF,这些实践是在Alteryx社区中共享的。
1. 移除所有浏览工具
浏览工具在开发阶段非常有帮助,因为它使用户能够从连接的工具中查看/审查整个数据集。然而,一旦完成工作流程,它们有两个原因不再有用:
- 它们扭曲了工作流程的概览
- 它们创建了临时的yxdb(Alteryx数据库),这会延迟处理。
2. 选择正确的数据类型和变量名称
当您实施这个最佳实践时,您将对变量有一个很好的概览,并且您将节省时间,因为您不会尝试执行无效的转换;例如,您不会尝试在字符串上执行数值操作。
3. 使用描述性标题进行文档编写
请注意使用描述性标题来记录您的工作流程。这样做有很多原因;例如,这样可以更容易地向客户或同事交接工作,并在以后返回到之前的工作。
如果工作流程有依赖关系,枚举它们会有很大的价值。通过使用编号标题,可以更容易地解码工作流程的依赖关系,并在不需要打开每个工作流程的情况下清楚地了解正在发生的事情。
4. 立即处理错误和警告
在错误和警告发生时立即处理是Alteryx的最佳实践。之所以如此重要,是因为它可以让您在逻辑错误破坏工作流之前及早发现错误。
请注意,Alteryx通过在发生错误的工具下方添加一个感叹号来显示错误。然而,可以通过观察结果窗格中工具名称后面显示的工具引用中的括号来找到转换错误和警告。
5. 使用子样本调查数据
在最初构建工作流程时,限制您使用的记录数量非常重要。这是因为它可以加快处理速度,从而节省宝贵的时间 – 尤其是在处理大型数据集时。
要设置记录限制,请导航到“输入数据”工具中的配置窗口,并指定一个值。
在输入数据工具中指定记录限制的位置
这将帮助您更快地达到您的目标。
结论
Alteryx是一款数据分析和可视化工具,旨在简化高级分析自动化,并提高数据专业人员的可访问性。用户可以利用Alteryx准备、混合和分析来自各种来源的数据,无需编码知识。该工具的主要优势在于用户可以通过创建工作流程来自动化他们的分析过程,从而轻松减少手动工作量。
在这个实践教程中,我们涵盖了以下内容:
- 如何安装Alteryx
- 数据准备
- 构建你的第一个工作流程
- 自动化你的工作流程
- 最佳实践
查看以下资源以继续学习:
感谢阅读!
抱歉,我无法翻译视频和图片标签,也无法保留代码块。以下是我对文本的翻译:
“你是一个翻译员。”