浅析聚类分析方法在食堂消费数据中的应用论文

发布时间:2016-12-02 03:41

聚类(clustering)是数据挖掘领域最为常见的技术之一,用于发现在数据库中未知的对象类。即考察个体或数据对象间的相似性,将满足相似性条件的个体或数据对象划分在一组内,不满足相似性条件的个体或数据对象划分在不同的组。以下是小编为大家精心准备的:浅析聚类分析方法在食堂消费数据中的应用相关论文。内容仅供参考,欢迎阅读!

浅析聚类分析方法在食堂消费数据中的应用全文如下:

【摘要】:以聚类分析方法为基础,研究学校食堂消费数据,从而分析出男女生消费特点的不同,以帮助食堂改进经营策略。

【关键词】: 聚类分析 消费数据 SPSS

1 聚类分析方法

聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析方法具有简单、直观的特点,主要应用于探索性的研究,其中变量的选择有较大的影响。

2 聚类分析基本思想

以学生的消费记录为研究对象, 使用聚类分析知识进行研究,主要使用K-Means 算法:

输入:聚类个数k 以及包含n 个数据对象的数据集;

输出:满足目标函数值最小的k 个聚类。

(1)计算任意两个数据对象间的距离d(xi,xj);

(2)计算每个数据对象的密度参数,把处于低密度区域的点删除,得到处于高密度区域的数据对象的集合D;

(3)把处于最高密度区域的数据对象作为第1 个中心z1;

(4)把z1 距离最远的数据对象作为第2 个初始中心z2,z2∈D;

(5)令z3 为满足max(min(d(xi,z1), d(xi,z2)), i =1,2,…,n 的数据对象xi,z3∈D;

(6)令z3 为满足max(min(d(xi,z1), d(xi,z2)), d(xi,z3)), i =1,2,…,n 的数据对象xi,z4∈D;

(7)令zk 为满足max(min(d(xi,zj))) , i =1,2,…,n, j =1,2,…,k -1 的xi,zk∈D;

(8)从这k 个聚类中心出发,应用k-means 聚类算法,得到聚类。一般采用均方差作为目标测度函数: 其中E 是数据集中所有对象的均方差之和;p 是代表对象的空间中的一个点。

3 聚类分析方法在食堂消费数据中的应用

本文主要使用SPPS 工具来进行聚类分析与研究。SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案),是一种实现数据分析的多功能软件。

SPSS for Windows 是一种运行在Windows 系统下的社会科学统计软件包,从1968 年由美国斯坦福大学开发使用至今,在全球已经拥有数以万计的用户,在通信、医疗、银行、证券、保险、制造、商业、市场研究、科学教育等众多的行业领域都得以有效的应用,目前,SPSS 已成为世界上应用最广泛的专业统计软件之一。SPSS 软件包采用窗口操作界面,用户操作使用方便,包括数据整理、分析过程、结果输出等功能。面对庞大的数据量,SPSS 软件的功能不断完善,其统计分析方法不断充实,涵盖面越来越广,输出数据表格图文并貌,大大提高了统计分析工作的效率。

SPSS 的基本功能包括数据管理、统计分析、图表分析、输出管理等,具体内容包括描述统计、列联分析,总体的均值比较、相关分析、回归模型分析、聚类分析、主成份分析、时间序列分析、非参数检验等多个大类, 每个类中还有多个专项统计方法。SPSS 设有专门的绘图系统,可以根据使用者的需要将给出的数据绘制各种图形,能够满足用户的不同需求。

聚类分析工具的应用:

1)打开SPSS 软件,并输入数据,设置变量名称,在学生消费数据中选择了三十名学生的月消费情况作为分析目标,如下图所示为部分消费情况,其中男女各15 名,将性别男、女处理为二值型数据分别标记为1、2。

2)每个变量设置的部分格式:

(1)名称:学号,类型:字符串,长度:11,对齐方式:左,测量单位:名称;(2)名称:性别,类型:数值,长度:1,对齐方式:右,测量单位:名称;(3)名称:月消费额,类型:数值,长度:6,对齐方式:右,测量单位:尺度;(4)名称:交易次数,类型:数值,长度:5,对齐方式:右,测量单位:尺度。

3)选择“分析”—“聚类分析”—“快速聚类K”进行分析,则在出现的界面中进行如下设置:

将”变量”设置为:性别、月消费额、交易次数。

将“方法”设置为:迭代与聚类。

将“聚类数目”设置为:2。

4)对“方法”、“迭代”选项进行设置,点击“确定”即出现运算过程及相应结果:

(1)初始聚类中心

“1”类:性别为“2”(女),月消费额为278.90,交易次数为155。

“2”类:性别为“1”(男),月消费额为520.10,交易次数为171。

(2)迭代过程

在聚类中心的变化分别为63.006、51.977。由于最大绝对坐标的变化是.000, 当前迭代是2, 最小距离是241.732,初始中心实现了最小的变化。

(3)最终聚类中心

“1”类:性别为“2”(女),月消费额为341.33,交易次数为164。

“2”类:性别为“1”(男),月消费额为468.13,交易次数为170。

从上述运算结果可看到30 个观测量都有效, 并没有丢失任何一个观测量。最终,通过以上分析可以看出学生的消费情况可以分为两类,第一类性别为2,即女生每月消费大概为341.33 元,平均交易164次,而第二类性别为1,即男生每月消费大概为468.13 元,平均交易170 次。从上我们可以看出男生与女生的每月消费情况是不同的,男生消费较多,平均交易也自然的较多,针对食堂来说就应该针对男女生不同的特点,合理安排消费类别,促进学生进行消费。

总之,使用SPSS 软件中的聚类功能对校园一卡通数据进行分析,能有效地快速分析出学生消费的一些特征,对这部分知识的研究这里仅进行了粗略的分析,在今后的时间里再进行深入研究。

相关文章:

1.无线网络技术论文

2.思想道德修养与法律基础课论文题目

3.关于大学新生适应期心理冲突的调查论文

浅析聚类分析方法在食堂消费数据中的应用论文的评论条评论