当前位置：首页 > news >正文

网站不收录是什么原因/鞍山做网站的公司

news 2025/8/8 6:15:33

网站不收录是什么原因,鞍山做网站的公司,蚌埠网站制作哪家好,网站突然打不开的原因是定义：顾名思义就是整个聚类过程分为前后两个大的板块来完成。第一步对所有记录进行距离考察，构建CF分类特征树，同一个树节点内的记录相似度高，相似度差的记录则会生成新的节点。第二步，在分类树的基础上，使…

定义：顾名思义就是整个聚类过程分为前后两个大的板块来完成。

第一步对所有记录进行距离考察，构建CF分类特征树，同一个树节点内的记录相似度高，相似度差的记录则会生成新的节点。第二步，在分类树的基础上，使用凝聚法对节点进行分类，每一个聚类结果使用BIC或者AIC进行判断，得出最终的聚类结果。

背景：样本数据聚类效果的好与坏，参与聚类的变量在其中的作用至关重要。而现实中，聚类变量可能是连续数据，也可能是类别数据，所以诸如层次聚类和K均值聚类这样的统计方法，它们在类别变量数据面前就显得不足够实用了。

二阶聚类法，则可以完美解决这个问题。它的优势至少表现在以下几个方面：

可同时基于类别变量和连续变量进行聚类；
可自动确定最终的分类个数；
可处理大型数据集；

前提假设：其实稍微违反假设条件其实也不要紧，结果很稳健，其会自动剔除异常值

变量间彼此独立
分类变量服从多项分布，连续变量服从正态分布

特点：

处理对象：分类变量和连续变量
自动决定最佳分类数
快速处理大数据集

1.问题描述：

汽车生产厂商需要有效的方法评价当前市场情况，了解市场需要，找到受市场欢迎的，有市场竞争力的车型配置。案例将采用种类、价格、引擎型号、马力、轴距、宽度、长度、限重、储油量、用油功效共10个变量对152条有效记录进行自动聚类。

2.假设检验

变量独立性和连续变量服从正态分布检验这里不做赘述

3.SPSS操作

将唯一一个类别型变量“种类”移入分类变量框，并将“价格”、“引擎型号”、“马力”、“用油功效”等9个连续型变量移入连续变量框内

【距离测量】：确定计算两个变量之间的相似性，对数相似值系统使用对数似然距离计算，而欧式距离是以全体变量为连续性变量为前提的，由于我们的数据中存在分类型变量，因此这里选择对数相似值。
【聚类数量】：允许指定如何确定聚类数。如果自动确定将会使用聚类准则中指定的准则[BIC 或者 AIC]，自动确定最佳的聚类数，或者设置最大值。也可以指定一个固定值，不过一般来说就自动确定OK了。
【连续变量计数】：对一个变量是否进行标准化的设置。系统自动计算。

【选项】按钮

离群值处理：这里主要是针对CF填满后，如何对离群值的处理。

“如果选择噪声处理且 CF树填满，则在将稀疏叶子中的个案放到“噪声”叶子中后，树将重新生长。如果某个叶子包含的个案数占最大叶大小的百分比小于指定的百分比，则将该叶子视为稀疏的。树重新生长之后，如有可能，离群值将放置在 CF 树中。否则，将放弃离群值。如果不选择噪声处理且 CF树填满，则它将使用较大的距离更改阈值来重新生长。最终聚类之后，不能分配到聚类的变量标记为离群值。离群值聚类被赋予标识号–1，并且不包含在聚类数的计数中。”

关于噪声处理，此处默认不选即可。

内存分配：指定聚类算法应使用的最大的内存量。如果该过程超过了此最大值，则将使用磁盘存储内存中放不下的信息。此项默认就行了。

连续变量的标准化：聚类算法处理标准化连续变量。软件自动将9个连续型聚类变量纳入框内，表示软件将对这些变量自动进行标准化处理，以统一测量尺度。

【输出】按钮

1.透视表。输出的结果主要出现在结果查看器（主要是表格形式）；

2.图表和表。显示模型相关的输出，包括表和图表。模型视图中的表包括模型摘要和聚类-特征网格。模型视图中的图形输出包括聚类质量图表、聚类大小、变量重要性、聚类比较网格和单元格信息。

重要。输出的结果出现在模型查看器（可视化程度高）

重要：勾选“创建聚类成员变量”，这是整个聚类的最终结果，要求软件为每一行记录输出对应的类；

3.评估字段。这可为未在聚类创建中使用的变量计算聚类数据。通过在子对话框中选择评估字段，可以在模型查看器中将其与输入特征一起显示。带有缺失值的字段将被忽略。可以不用理。

本案例暂不演示“XML模型导出”（便于模型更新，十分有用）；

4.结果解读

BIC自动聚类表。重要结果之一。此表主要用于了解软件是如何根据BIC值自动判断最终聚类个数，主要参考依据包括“BIC值”、“BIC变化量”、“BIC变化率”、“距离测量比率”四个指标，SPSS软件综合四个判据，最后自动确定最佳聚类个数。此处可不必完全掌握具体如何判断，接受SPSS软件智能化给出的聚类个数即可