关联分析是数据分析领域中的重要技术之一,它可以揭示事物之间的相互依赖和关联性。通过关联分析,我们可以发现在同一事件中出现频率较高并具有相关性的事物,从而能够预测其中一个事物通过其他事物的出现。一个经常用到关联分析的例子就是购物篮分析。通过观察哪些商品经常同时被顾客购买,商店能够更好地了解用户的购买行为,从而做出针对性的商品搭配和营销策略。
关联分析的流程通常包括数据接入、设置角色和建立模型等步骤。首先,我们需要接入结构化数据,并确保自变量的数据类型为字符型,因为关联算法要求自变量为离散型数据。如果接入的自变量数据不符合关联分析的要求,我们可以通过属性变化节点进行数据类型转换或重新接入数据,以满足关联分析的需求。
接下来,我们需要设置角色节点来确定关联分析的自变量。关联算法中必须设置自变量,并且自变量必须为离散型数据,不支持设定因变量。在设置角色节点之前,我们可以根据实际业务和数据情况进行数据的预处理工作,包括数据的清洗、集成、转换、离散、归约、特征选择和提取等,以使数据符合挖掘建模的标准。
在完成数据接入和角色设置后,我们可以根据数据分析方案和预处理后的业务数据来构建关联模型。平台内置了三种关联算法,包拽使用,并且可以配置相应的模型参数,包括Apriori算法、FPGrowth算法和序列算法。这些算法能够帮助我们找出属性之间的关联规则,并提供结果的可视化。
当流程构建完成并成功执行后,我们可以进入洞察页面,点击【Apriori】来查看分析结果。
我们可以指定关联规则的前项和后项,系统会输出给定规则的结果。同时,我们还能通过网络图来观察属性之间的相关性。网络图中的连线代表两个属性之间的关联关系,线的粗细则表示关系的强弱程度。
通过以上的关联分析流程和分析结果,我们能够揭示事物之间的关联性和依赖性。这些发现有助于我们深入了解数据,并为业务决策提供有力的支持。关联分析的应用不仅局限于购物篮分析,在市场研究、推荐系统、风险分析等领域也有广泛的应用。