当前位置: 首页 > news >正文

网站不收录是什么原因/鞍山做网站的公司

网站不收录是什么原因,鞍山做网站的公司,蚌埠网站制作哪家好,网站突然打不开的原因是定义:顾名思义就是整个聚类过程分为前后两个大的板块来完成。第一步对所有记录进行距离考察,构建CF分类特征树,同一个树节点内的记录相似度高,相似度差的记录则会生成新的节点。第二步,在分类树的基础上,使…

定义:顾名思义就是整个聚类过程分为前后两个大的板块来完成。

第一步对所有记录进行距离考察,构建CF分类特征树,同一个树节点内的记录相似度高,相似度差的记录则会生成新的节点。第二步,在分类树的基础上,使用凝聚法对节点进行分类,每一个聚类结果使用BIC或者AIC进行判断,得出最终的聚类结果。

背景:样本数据聚类效果的好与坏,参与聚类的变量在其中的作用至关重要。而现实中,聚类变量可能是连续数据,也可能是类别数据,所以诸如层次聚类和K均值聚类这样的统计方法,它们在类别变量数据面前就显得不足够实用了。

二阶聚类法,则可以完美解决这个问题。它的优势至少表现在以下几个方面:

  • 可同时基于类别变量和连续变量进行聚类;
  • 可自动确定最终的分类个数;
  • 可处理大型数据集;

前提假设:其实稍微违反假设条件其实也不要紧,结果很稳健,其会自动剔除异常值

  • 变量间彼此独立
  • 分类变量服从多项分布,连续变量服从正态分布

特点:

  • 处理对象:分类变量和连续变量
  • 自动决定最佳分类数
  • 快速处理大数据集

1.问题描述:

汽车生产厂商需要有效的方法评价当前市场情况,了解市场需要,找到受市场欢迎的,有市场竞争力的车型配置。案例将采用种类、价格、引擎型号、马力、轴距、宽度、长度、限重、储油量、用油功效共10个变量对152条有效记录进行自动聚类。

fbf0afaeb85d9d15a71cda53781eee0f.png

2.假设检验

变量独立性和连续变量服从正态分布检验这里不做赘述

3.SPSS操作

36262db1ca251db23ec389dfb6c03b12.png
将唯一一个类别型变量“种类”移入分类变量框,并将“价格”、“引擎型号”、“马力”、“用油功效”等9个连续型变量移入连续变量框内
  • 【距离测量】:确定计算两个变量之间的相似性,对数相似值系统使用对数似然距离计算,而欧式距离是以全体变量为连续性变量为前提的,由于我们的数据中存在分类型变量,因此这里选择对数相似值。
  • 【聚类数量】:允许指定如何确定聚类数。如果自动确定将会使用聚类准则中指定的准则[BIC 或者 AIC],自动确定最佳的聚类数,或者设置最大值。也可以指定一个固定值,不过一般来说就自动确定OK了。
  • 【连续变量计数】:对一个变量是否进行标准化的设置。系统自动计算。

5ca46c02dba785999d71c565ba311144.png
【选项】按钮

离群值处理:这里主要是针对CF填满后,如何对离群值的处理。

“如果选择噪声处理且 CF树填满,则在将稀疏叶子中的个案放到“噪声”叶子中后,树将重新生长。如果某个叶子包含的个案数占最大叶大小的百分比小于指定的百分比,则将该叶子视为稀疏的。树重新生长之后,如有可能,离群值将放置在 CF 树中。否则,将放弃离群值。如果不选择噪声处理且 CF树填满,则它将使用较大的距离更改阈值来重新生长。最终聚类之后,不能分配到聚类的变量标记为离群值。离群值聚类被赋予标识号–1,并且不包含在聚类数的计数中。”

关于噪声处理,此处默认不选即可。

内存分配:指定聚类算法应使用的最大的内存量。如果该过程超过了此最大值,则将使用磁盘存储内存中放不下的信息。此项默认就行了。

连续变量的标准化:聚类算法处理标准化连续变量。软件自动将9个连续型聚类变量纳入框内,表示软件将对这些变量自动进行标准化处理,以统一测量尺度。

9bb4416d594496837c7c1ce229941d91.png
【输出】按钮

1.透视表。输出的结果主要出现在结果查看器(主要是表格形式);

2.图表和表。显示模型相关的输出,包括表和图表。模型视图中的表包括模型摘要和聚类-特征网格。模型视图中的图形输出包括聚类质量图表、聚类大小、变量重要性、聚类比较网格和单元格信息。

重要。输出的结果出现在模型查看器(可视化程度高)

重要:勾选“创建聚类成员变量”,这是整个聚类的最终结果,要求软件为每一行记录输出对应的类;

3.评估字段。这可为未在聚类创建中使用的变量计算聚类数据。通过在子对话框中选择评估字段,可以在模型查看器中将其与输入特征一起显示。带有缺失值的字段将被忽略。可以不用理。

本案例暂不演示“XML模型导出”(便于模型更新,十分有用);

4.结果解读

4f1f6c0ff110d4faf75750f8fd4bb068.png
BIC自动聚类表。重要结果之一。此表主要用于了解软件是如何根据BIC值自动判断最终聚类个数,主要参考依据包括“BIC值”、“BIC变化量”、“BIC变化率”、“距离测量比率”四个指标,SPSS软件综合四个判据,最后自动确定最佳聚类个数。此处可不必完全掌握具体如何判断,接受SPSS软件智能化给出的聚类个数即可

d140744369b459b28e6d1147114aeb3f.png
聚类分布表。那么本例软件最终聚为几类呢?如上表所示,软件给出一个3类的结果,并告知每一类的个案规模。这三类是不是最合适,可以具体看类的特征是否有现实意义

模型查看器

98b29d593b5e6b184027de0ce1d06531.png

“聚类浏览器”包含两个面板,主视图位于左侧,链接或辅助视图位于右侧。

1.有两个主视图:

  • 模型摘要(默认视图)
  • 分群。

2.有四个链接/辅助视图:

  • 预测变量的重要性.
  • 聚类大小(默认视图)
  • 单元格分布。
  • 聚类比较。

结果查看器中双击“模型摘要图”,打开模型浏览器,这一部分结果高度可视化,读取更直观。模型浏览器分为左右两个板块,左侧为主视图,右侧为辅助视图,主要结果解读如下

fbd60a66c04e18e915c9312a8b31ff13.png
主视图 模型摘要。展示模型的基本信息,基于10个聚类变量进行二阶聚类,最终确定的聚类个数为3类。总体上给予本次聚类质量尚可的评价,尚能接受,还未达到良好的程度,有待进一步测试和优化

8dc58526cf498d05645b8669a80083bd.png
辅助视图 聚类大小。聚为3类。其中第1类个案规模占有效样本的比例为40.8%,第2类为25.7%,第3类为33.6%,这和前面透视表给出的结果一致。总体判断:3个类的个案规模没有出现过大或者过小的情况,区分度尚可

a54b7e10cedd81230cd8c76946402a7f.png
辅助视图 预测变量重要性。在区分不同类别的能力方面,“种类”变量效果最好,限重、用油功效排在第二和第三的位置。也可以理解为种类、限重、用油功效三个变量对聚类的贡献排在前三位

6041e5350a2d25f2df5c9b74901052f7.png
主视图 聚类特征描述。聚类分析最终的目的就是要得到类并且能足够清晰地描述类的特征,上表将类和聚类的各变量交叉分析,给出每一类在不同指标上的中心点或分布,有助于准确归纳类特征

点击其中一个单元格,比如2类的“用油功效”单元格,在右侧软件将会输出辅助视图,如下

2e4aed39e1d566a0bdcbe01bc9d5b6e6.png
结合以上两张图表可知,第2类车在油耗方面表现最佳,是3类车中比较实用的车型

6e7a3557aa63998b41c7ebb55b6589dc.png

在模型浏览器左侧的主视图中按ctrl键,同时选定两个或以上类,在右侧辅助视图中将出现两个类或以上类的特征对比。

以第1类和第3类为例,两类在价格方面差异较大,第3类价格偏高,而第1类价格较低;车的长度上,第3类同样较长,此外还可以看到,第3类车型在轴距、宽度、马力、储油量、限重等方面较第1类都高很多。

6dbb7ca2278a757c52dd0ed0e77c3548.png

聚类之后,我们有必要就每一个记录对应的类有所了解,类成员变量(最终的聚类结果)非常重要,便于日后深入比对和分析。软件将其自动保存在数据视图最后一列,新生成变量“TSC_n”,其中TSC即表示二阶聚类,n是一个正整数,表示本次过程执行的内部运行顺序。

综合以上信息,3类车型可以描述如下:

  • 第1类:价格便宜,体积、限重和马力较小,属于低端车型;
  • 第2类:价格适中,体积、限重和马力较第1类明显提高,油耗低特征突出,属于实用车型;
  • 第3类:价格较高,体积、限重和第2类相差较小,但马力在3类车中最高,油耗居中,属于高端车型;

补充:

在SPSS软件提供的三种聚类算法中,二阶聚类最为特殊,一是因为可以同时处理类别变量和连续变量,还有一点极为关键,二阶聚类可以自动确定最终的类的个数,算得上具备自动探索未知领域的能力,这是SPSS层次聚类和K均值聚类无法相比的。

能自动聚类、允许类别变量,再加上善于处理大数据集,二阶聚类的优势十分明显,可以在各行业方便有效的使用,值得推荐。


本文整合网上多名优秀博主(主要数据小兵)和百度资源关于聚类分析的资料,整理出的一份学习笔记,与大家共享

http://www.lbrq.cn/news/1354735.html

相关文章:

  • 高端品牌网站建设兴田德润可信赖/百度搜索优化怎么做
  • led营销型网站建设/济南做seo的公司排名
  • 网站建设毕业设计过程/网络营销流程
  • 网站建设 服务内容 费用/常用网站推广方法及资源
  • 网站建设中小企业广西/百度推广总部电话
  • 做外贸网站应该关注哪些地方/合肥网站推广优化
  • 没有做老千的斗牛网站6/百度免费推广怎么操作
  • 怎么做类似淘宝的网站/百度网盘网页版登录首页
  • 网站视频怎么做的/深圳谷歌推广公司
  • wordpress 导入word/福建seo优化
  • 区网站建设/百度快照怎么没有了
  • 怎么做私服网站/长沙seo霜天
  • 如何看织梦做的网站的源码/长沙专业网站制作
  • 备案域名绑定网站/购买友情链接
  • 信息网站 模板/推广哪个平台好
  • 网站原型图展示/公司seo是指什么意思
  • 如何做织梦论坛类的网站/seo如何快速排名百度首页
  • 政府类网站建设/二级域名在线扫描
  • 公司网站维护如何上图/seo推广的特点
  • 做网站推广员工/线上营销渠道主要有哪些
  • 自己在百度上可以做网站吗/seo零基础视频教程
  • 一般网站前端是用什么做/抚顺网络推广
  • 自己做的网站邮箱更改密码程序为什么总出错/seo网络科技有限公司
  • 网站同时做竞价和优化可以吗/手机百度2022年新版本下载
  • 网站分析表怎么做的/搜易网托管模式的特点
  • 纯流量卡免费申请入口/seo文章生成器
  • 专为男人做的网站/快速刷排名的软件最好
  • 大亚湾建设局网站/淘宝客怎么做推广
  • 产品品牌策划方案/宁波seo关键词
  • 襄阳网站seo方法/广东seo推广公司
  • MySQL梳理四:事务日志机制和多版本并发控制(MVCC)
  • 江协科技STM32 15-1 FLASH闪存
  • MATLAB深度学习之数据集-数据库构建方法详解
  • 8.6笔记
  • 如何创建一个vue项目
  • 鼠标下滑时回跳问题