厦门大学博硕士论文摘要库 - COnnecting REpositories · 2016-06-18 ·...

17
学校编码:10384 分类号 密级 学号:22120051302315 UDC 硕士 基于密度的分布式聚类算法研究 Research of Distributed Clustering Algorithm Based on Density 卓义宝 指导教师姓名:冯少荣 副教授 业 名 称:计算机软件与理论 论文提交日期:2008 年 4 月 论文答辩时间:2008 年 学位授予日期:2008 年 答辩委员会主席人: 2008 5 厦门大学博硕士论文摘要库

Transcript of 厦门大学博硕士论文摘要库 - COnnecting REpositories · 2016-06-18 ·...

Page 1: 厦门大学博硕士论文摘要库 - COnnecting REpositories · 2016-06-18 · dcucd算法能够有效地处理局部站点的噪声数据,能够处理分布不规则的 数据点,核心对象居于聚类中心,时间效率很高并且聚类质量较好。实验也充分

学校编码:10384 分类号 密级

学号:22120051302315 UDC

硕士 学 位 论 文

基于密度的分布式聚类算法研究

Research of Distributed Clustering Algorithm Based on

Density

卓义宝

指导教师姓名:冯少荣 副教授

专 业 名 称:计算机软件与理论

论文提交日期:2008 年 4 月

论文答辩时间:2008 年 月

学位授予日期:2008 年 月

答辩委员会主席:

评 阅 人:

2008 年 5 月

厦门大学博硕士论文摘要库

Page 2: 厦门大学博硕士论文摘要库 - COnnecting REpositories · 2016-06-18 · dcucd算法能够有效地处理局部站点的噪声数据,能够处理分布不规则的 数据点,核心对象居于聚类中心,时间效率很高并且聚类质量较好。实验也充分

厦门大学学位论文原创性声明

兹呈交的学位论文,是本人在导师指导下独立完成的研究成

果。本人在论文写作中参考的其它个人或集体的研究成果,均在

文中以明确方式标明。本人依法享有和承担由此论文产生的权利

和责任。

声明人(签名):

年 月 日

厦门大学博硕士论文摘要库

Page 3: 厦门大学博硕士论文摘要库 - COnnecting REpositories · 2016-06-18 · dcucd算法能够有效地处理局部站点的噪声数据,能够处理分布不规则的 数据点,核心对象居于聚类中心,时间效率很高并且聚类质量较好。实验也充分

厦门大学学位论文著作权使用声明

本人完全了解厦门大学有关保留、使用学位论文的规定。厦门大

学有权保留并向国家主管部门或其指定机构送交论文的纸质版和电

子版,有权将学位论文用于非赢利目的的少量复制并允许论文进入学

校图书馆被查阅,有权将学位论文的内容编入有关数据库进行检索,

有权将学位论文的标题和摘要汇编出版。保密的学位论文在解密后适

用本规定。

本学位论文属于

1、保密( ),在 年解密后适用本授权书。

2、不保密( )

(请在以上相应括号内打“√”)

作者签名: 日期: 年 月 日

导师签名: 日期: 年 月 日

厦门大学博硕士论文摘要库

Page 4: 厦门大学博硕士论文摘要库 - COnnecting REpositories · 2016-06-18 · dcucd算法能够有效地处理局部站点的噪声数据,能够处理分布不规则的 数据点,核心对象居于聚类中心,时间效率很高并且聚类质量较好。实验也充分

摘 要

数据挖掘(知识发现)是从大量的数据中提取隐含的、事先未知的但又潜在有

用的信息的过程。聚类是数据挖掘一类重要的技术。基于密度的聚类是一类已经

被证明非常有效的聚类方法。现今,大量异构、复杂的数据分布于网络上各个站

点,如何进行分布式聚类已经成为处理海量数据的一个重要应用领域。

本文主要研究基于密度的分布式聚类算法。首先介绍已有的 DBDC、SDBDC

分布式聚类算法。其次,提出一种聚类算法 CUCD。该算法基于中心点以及密度

实现,其核心对象是根据数据分布计算出来的虚拟的点,并且核心对象的代表性

随程序的执行次数而提高。聚类即是对所有核心对象分类的过程。CUCD 可以得

到近似线性的时间复杂度。在 CUCD 的基础上,提出分布式聚类算法 DCUCD。

DCUCD 包含以下步骤:生成局部模型、主站点根据局部模型进行聚类并生成全

局模型、各个子站点对输入数据进行聚类标识。局部模型包括在该站点生成的核

心对象集合以及对应局部半径;全局模型包括在主站点生成的全局核心对象集合

以及对应全局半径。主要算法来自 CUCD。

DCUCD 算法能够有效地处理局部站点的噪声数据,能够处理分布不规则的

数据点,核心对象居于聚类中心,时间效率很高并且聚类质量较好。实验也充分

证明了 DCUCD 算法的有效性。

关键词:数据挖掘;分布式聚类;中心点; 噪声

厦门大学博硕士论文摘要库

Page 5: 厦门大学博硕士论文摘要库 - COnnecting REpositories · 2016-06-18 · dcucd算法能够有效地处理局部站点的噪声数据,能够处理分布不规则的 数据点,核心对象居于聚类中心,时间效率很高并且聚类质量较好。实验也充分

Abstract

Generally, data mining (sometimes called knowledge discovery in database) is the

process of extraction of implicit, previously unknown and potentially useful

information from large amounts of data. Clustering is an important task in the data

mining and the clustering based on density has been proved to be a very efficient

method. Nowadays, large amounts of heterogeneous, complex data reside on different,

independently working computers which are connected to each other via local or wide

area networks. Distributed clustering has become an important application domain of

processing of huge volumes of data.

This paper research on the distributed clustering problem based on density. First

we introduced the DBDC algorithm and the SDBDC algorithm. Then, we propose a

clustering algorithm called CUCD (Clustering Using Centers and Density). It works

based on the centers and the density. The virtual core objects are generated from the

distributed data and the quality is better if the algorithm runs more times. Clustering is

the same as the process to classify all of the core objects. CUCD algorithm runs in

linear time. Based on the CUCD algorithm, we carry on a new distributed clustering

algorithm called DCUCD (Distributed Clustering Using Centers and Density). It

comprise of three steps: generate local model, global clustering based on the local

models, update local clustering labels. A local model includes a local core objects set

with a local radius and the global model includes a global core objects set with a

global radius. The detailed steps are similar with CUCD algorithm.

To sum up, our DCUCD algorithm is very efficient and effective as follows:

We deal effectively with the problem of local noise.

DCUCD can discover clusters of arbitrary shape.

Our core objects reflect dense areas tending to be in the middle of clusters.

DCUCD can generate high quality clusters and cost a little time.

Keywords: data mining; distributed clustering; centers; noise

厦门大学博硕士论文摘要库

Page 6: 厦门大学博硕士论文摘要库 - COnnecting REpositories · 2016-06-18 · dcucd算法能够有效地处理局部站点的噪声数据,能够处理分布不规则的 数据点,核心对象居于聚类中心,时间效率很高并且聚类质量较好。实验也充分

目 录

第一章 绪论.............................................................................................................1

1.1. 研究背景 ......................................................................................................1

1.2. 研究目的及意义 ..........................................................................................2

1.3. 本文主要内容及组织结构 ..........................................................................5

第二章 数据挖掘与聚类 .....................................................................................7

2.1. 数据挖掘 ......................................................................................................7

2.1.1. 数据挖掘的产生背景......................................................................7

2.1.2. 数据挖掘及其运行过程..................................................................8

2.1.3. 数据挖掘的分类 ..............................................................................9

2.2. 聚类分析 ....................................................................................................11

2.2.1. 聚类基本理论 ................................................................................ 11

2.2.2. 聚类方法综述 ................................................................................14

2.2.3. 基于密度的聚类算法介绍............................................................15

2.3.小结 .............................................................................................................19

第三章 分布式聚类.............................................................................................20

3.1.分布式聚类产生背景 .................................................................................20

3.2.分布式聚类应用领域 .................................................................................21

3.3.分布式聚类算法综述 .................................................................................22

3.4.分布式聚类算法面临的挑战 .....................................................................26

3.5.小结 .............................................................................................................28

第四章 基于密度的分布式聚类算法研究 ..................................................29

4.1. DBDC 算法 ...................................................................................................29

4.2. SDBDC 算法 .................................................................................................30

4.3. 基于中心点和密度的聚类算法(CUCD) ....................................................35

4.3.1. 相关定义 ........................................................................................35

4.3.2. 生成核心对象 ................................................................................35

4.3.3. 核心对象聚类 ................................................................................38

厦门大学博硕士论文摘要库

Page 7: 厦门大学博硕士论文摘要库 - COnnecting REpositories · 2016-06-18 · dcucd算法能够有效地处理局部站点的噪声数据,能够处理分布不规则的 数据点,核心对象居于聚类中心,时间效率很高并且聚类质量较好。实验也充分

4.3.4. 算法效率分析 ................................................................................40

4.3.5. 实验 ................................................................................................40

4.3.6. 小结 ................................................................................................43

4.4. 基于中心点与密度的分布式聚类算法(DCUCD) ......................................43

4.4.1. 算法框架 ........................................................................................43

4.4.2. 局部聚类 ........................................................................................44

4.4.3. 全局聚类 ........................................................................................45

4.4.4. 算法分析 ........................................................................................47

4.4.5. 实验 ................................................................................................48

4.4.6. 小结 ................................................................................................52

第五章 总结...........................................................................................................53

参考文献 ...................................................................................................................54

致谢 ....................................................................................................................58

研究生期间个人研究成果 ..................................................................................59

厦门大学博硕士论文摘要库

Page 8: 厦门大学博硕士论文摘要库 - COnnecting REpositories · 2016-06-18 · dcucd算法能够有效地处理局部站点的噪声数据,能够处理分布不规则的 数据点,核心对象居于聚类中心,时间效率很高并且聚类质量较好。实验也充分

CONTENT

1 Introduction..............................................................................................1

1.1. research background.....................................................................................1

1.2. research goals and significance....................................................................2

1.3. research content and the chaptor arrange....................................................5

2 Data Mining and Clustering................................................................7

2.1. Data Mining ..................................................................................................7

2.1.1. data mining production ....................................................................7

2.1.2. what is data mining ..........................................................................8

2.1.3. data mining classification ................................................................9

2.2. Clustering.................................................................................................... 11

2.2.1. basic concept .................................................................................. 11

2.2.2. clustering classification..................................................................14

2.2.3. introduction of clustering based on density....................................15

2.3. Conclusion ....................................................................................................19

3 Distributed Clustering .........................................................................20

3.1. background....................................................................................................20

3.2. applications...................................................................................................21

3.3. introduction of distributed clustering algorithms .......................................22

3.4. challenges ...................................................................................................26

3.5. conclusion .....................................................................................................28

4 Research Of Distributed Clustering Algorithm Based On

Density ....................................................................................................................29

4.1. DBDC..........................................................................................................29

4.2. SDBDC........................................................................................................30

4.3. Clustering Using Centers and Density(CUCD)..........................................35

4.3.1. related definitions...........................................................................35

4.3.2. generate core objects......................................................................35

厦门大学博硕士论文摘要库

Page 9: 厦门大学博硕士论文摘要库 - COnnecting REpositories · 2016-06-18 · dcucd算法能够有效地处理局部站点的噪声数据,能够处理分布不规则的 数据点,核心对象居于聚类中心,时间效率很高并且聚类质量较好。实验也充分

4.3.3. clustering on core objects...............................................................38

4.3.4. algorithm analyse ...........................................................................40

4.3.5. experiments.....................................................................................40

4.3.6. conclusion.......................................................................................43

4.4. Distributed Clustering Using Centers and Density(DCUCD)....................43

4.4.1. framework.......................................................................................43

4.4.2. local clustering ...............................................................................44

4.4.3. global clustering.............................................................................45

4.4.4. analyse............................................................................................47

4.4.5. experiments.....................................................................................48

4.4.6. conclusion.......................................................................................52

5 Summarizes ..........................................................................................53

References ................................................................................................................54

Acknowledges ..........................................................................................................58

Personal Reserches .................................................................................. 59

厦门大学博硕士论文摘要库

Page 10: 厦门大学博硕士论文摘要库 - COnnecting REpositories · 2016-06-18 · dcucd算法能够有效地处理局部站点的噪声数据,能够处理分布不规则的 数据点,核心对象居于聚类中心,时间效率很高并且聚类质量较好。实验也充分

厦门大学博硕士论文摘要库

Page 11: 厦门大学博硕士论文摘要库 - COnnecting REpositories · 2016-06-18 · dcucd算法能够有效地处理局部站点的噪声数据,能够处理分布不规则的 数据点,核心对象居于聚类中心,时间效率很高并且聚类质量较好。实验也充分

第一章 绪论

1

第一章 绪论

1.1. 研究背景

随着计算机软、硬件的快速发展,计算机越来越多的应用于信息管理领域中。

近年来,随着气象预测、生物工程等技术的发展,海量的数据、资料以不同的形

式存储到数据库中。传统的数据分析方法一般是对数据的组织、划分、查询。与

传统的数据分析不同,数据挖掘(data mining)技术是在没有明确假设的前提下

去挖掘信息,从大量的各种类型的数据中发现能够为人们决策提供支持的、更富

有价值的信息或知识。但目前的数据处理技术的发展却相对落后,人们正逐步陷

入“被数据淹没,却饥渴于知识”[1]的尴尬境地。数据挖掘就是在这样的背景下

提出的,数据挖掘将是今后几年全球范围内重点投资研究的十大新技术之一,它

引起了学术界和工业界的广泛关注,成为当今数据库系统研究和应用领域内的一

个热点问题。

数据挖掘[2-5]就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,

提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

人们把原始数据看作是形成知识的矿场,而数据挖掘过程就像从矿场中采矿一

样,原始数据可以是结构化的、半结构化的,甚至是分布在网络上的异构型数据。

挖掘知识的方法可以是数学的、非数学的、演绎的和归纳的,挖掘出的模型可以

被用于信息管理查询、决策支持、过程控制等方面。因此数据挖掘是一门交叉学

科,涉及人工智能、机器学习、统计技术、数据库技术、可视化和信息科学等。

聚类(Clustering)是数据挖掘中重要的研究课题之一,是按照属性值把一组对

象划分成一系列有意义的子集的描述性任务[6]。聚类分析应用于许多研究领域,

包括:数据挖掘、统计学、市场营销、机器学习及空间数据库技术。聚类分析的

算法也有很多,且各有所长。当前,聚类分析面向的是大规模的数据库或数据仓

库,要处理的数据量通常非常巨大,往往达到 GB 甚至 TB 数量级。由于业务跨

地域分布,常常导致数据库也跨地域分布,多个数据库通过网络连接在一起,因

此聚类分析有时需要同时处理多个数据库。另外,有些聚类分析方法本身的计算

复杂度比较高,需要计算机具有强大的计算能力。其中,基于密度的聚类算法是

通过不断生长足够高密度区域来进行聚类,可以发现任意形状的簇,成功的处理

厦门大学博硕士论文摘要库

Page 12: 厦门大学博硕士论文摘要库 - COnnecting REpositories · 2016-06-18 · dcucd算法能够有效地处理局部站点的噪声数据,能够处理分布不规则的 数据点,核心对象居于聚类中心,时间效率很高并且聚类质量较好。实验也充分

基于密度的分布式聚类算法研究

2

噪声点,并且对于输入的顺序不敏感,是常用的一类聚类方法。

随着计算机、网络和通讯技术的迅速发展和普及,传统的商务模式发生了巨

大转变,带宽的不断增加使企业通过网络开展业务成为可能,许多企业的结构逐

渐呈现出一种分布式特征。各类企业、个人应用产生了大量自治的、分布式的数

据。由于有限的带宽,如无线网络,隐私保护和分布式的计算机结点等的约束,

分析分布式环境下的数据不是一个平凡的问题,而是一个富有挑战性的问题。如

何从大量的分布数据源中进行有效的挖掘以抽取知识,已经成为一个重要的研究

课题[7]。

为了从数量巨大或分布存储的数据中抽取新的知识, 近研究者提出分布式

数据挖掘(Distributed Data Mining)技术,该技术从分布的数据集中提取有趣的模

式,是使用分布式计算从分布的数据中发现知识的过程。大量分布存储的数据使

得数据挖掘系统必须具有分布式挖掘的能力,同时也需要我们根据分布式数据挖

掘的特点设计出新的分布式数据挖掘算法,提出新的分布式数据挖掘系统的体系

结构。

分布式数据挖掘的研究和应用已经取得了一定的成绩。在研究方面,Hans、

Peter 等人提出的 DBDC(Density-Based Distributed Clustering )[8]算法能够很好的

挖掘出分布式数据集中的知识,同年 Hans 等人还提出用于处理空间数据的分布

式数据挖掘算法 SDBDC(Scalable Density-Based Distributed Clustering)[9]。Pee

Kroger 等人利用 EM[10]算法的思想来选择各个场地的代表数据集,提出了一种分

布式模型聚类算法 DMBC(Distributed Model-Based Clustering)[11]。

1.2. 研究目的及意义

聚类是计算机科学中一个经典问题,对它的研究已有相当长的历史,可以追

溯到几个时代以前,已经吸引了无数的研究者为之努力,他们来自于许多研究领

域,包括:数据挖掘、模式识别、统计学、生物学以及机器学习。由于其十分广

泛的应用前景,聚类分析是当前模式识别和数据挖掘领域研究的热点。

聚类是一个非常难的问题,因为在一个 d 维的样本空间数据可以以不同的形

状和大小揭示类,并证明聚类问题是一个 NP 问题。目前大多数聚类算法需要一

次性读入所有数据,且计算量非常大,特别是需要划分大数据集的时候,需要高

厦门大学博硕士论文摘要库

Page 13: 厦门大学博硕士论文摘要库 - COnnecting REpositories · 2016-06-18 · dcucd算法能够有效地处理局部站点的噪声数据,能够处理分布不规则的 数据点,核心对象居于聚类中心,时间效率很高并且聚类质量较好。实验也充分

第一章 绪论

3

性能的机器才能在可接受的时间内得到结果。对聚类算法的实验花费一个星期甚

至 20 天的计算时间并不是罕见的。并且在某些情况下,数据分布在不同的站点,

这使得现有的聚类方法是不可行或不可能的。

必须注意到,现有大多数聚类方法在小数据量是非常有效,对大数据量的响

应效率很低,甚至无法适用。而客观现实往往都是超大规模的数据,为 GB 级乃

至 TB 级数据,如天文数据,DNA 数据等都是海量数据。在大型冶金等流程工

业中,大量的生产数据被保存下来,从这些数据中发现有用的规则和模式,是当

前过程工业数据分析的研究热点。因此,研究分布式环境的聚类是十分必要的。

在无线和有线网络中,计算和通信的发展已经导致了在很多领域中非常广泛

存在的分布式计算环境,大型流程工业也不例外。这些环境经常伴随着不同分布

的、异构的数据源和计算。在这样的环境下挖掘,自然需要这些分布式资源的合

理利用。并且,在一些隐私敏感的应用中,从不同站点收集来的、不同的并可能

是多方参与的数据集必须以分布的方式处理,而不能收集所有到单一中心站点。

然而,绝大多数聚类算法在单一中心系统执行,它们通常下载数据到中心地点,

然后执行聚类操作。由于分布资源的不足利用、高通信负荷、高能消耗和许多其

它原因,这种中心化方法在很多新兴分布和普适的应用中并不能很好的工作。

分布式聚类提供可替代的,通常具有更好伸缩性的方法来分析分布式环境下

的数据。分布式聚类特别关注数据、计算、通信和人的隐私等分布式资源,以

优的方式使用这些资源。即使数据能够没有显著的负荷并免费和高效地从一个结

点传递到另一个结点,通过:l)以不同划分中合理重新分布这些数据;2)分布计

算;和 3)两者的组合,分布式聚类算法可提供更好的伸缩性和响应时间。这些算

法通常依靠参与结点的快速通信。当数据源是分布的,由于隐私或带宽限制或伸

缩性问题,不能在网络上自由传输,分布式聚类算法能避免或 小化原始数据的

通信。

在高速网络连接的多计算机结点网格环境下,分布式聚类也是非常有用的。

即使数据用相应的快速网络能够中心化,结点集群间计算负载的合理平衡可能需

要分布式方法。并且,分布式环境需要其它分布式资源如数据、隐私和协同用户

交互的合理管理。

在大型企业环境中对聚类分析提出三类伸缩性要求[12]:l)数据集非常大;2)

厦门大学博硕士论文摘要库

Page 14: 厦门大学博硕士论文摘要库 - COnnecting REpositories · 2016-06-18 · dcucd算法能够有效地处理局部站点的噪声数据,能够处理分布不规则的 数据点,核心对象居于聚类中心,时间效率很高并且聚类质量较好。实验也充分

基于密度的分布式聚类算法研究

4

由于历史原因和存储限制,数据本身是分布的;3)多用户需要存取数据和分析结

果。另外,出于安全性、容错性、商业竞争以及法律约束等多方面因素的考虑,

在很多情况下,将所有数据集中在一起进行分析往往是不可行的。分布式数据挖

掘系统则可以充分利用分布式计算的能力对相关的数据进行分析与综合,为大量

分布的数据提供了良好的解决方案,还具有伸缩性和鲁棒性等特点。

除了数据本身具有分布式性质的情况以外,也可以考虑对集中数据采用分布

式聚类算法。例如,将集中数据分割成若干个子数据集,将子数据集视为分布式

聚类的子站点,分布式算法便可加以应用。往往这种策略将会得到较高的时间效

率,在特定需求的环境下,分布式聚类算法完全可以作为集中式聚类的一种补充

策略。

分布式聚类是当前聚类分析研究的主要发展方向之一。分布式环境下,聚类

分析主要存在以下一些关键问题:

l)算法易实现性。目前已经提出了数种不同的分布式聚类算法,如 DMC、

DBDC 等,这些算法各有所长,对于不同的对象,不同的方法会表现出优于其它

方法的特性。但是,这些方法存在着待定参数或模型结构难以确定等问题,因此,

其应用效果很大程度上取决于使用者的经验,即使采用同样的方法解决同样的问

题,由于操作者不同其结果也很可能大相径庭,特别是所关心的对象越复杂,数

据量越大,这种依赖性越强。

2)集成伸缩性。大多数分布式聚类算法需要将所有局部结果集中到一个中心

站点,而中心站点的内存和计算能力常常不能满足效率要求。为此,提出了增量

优化集成算法解决中心站点的问题,但是当站点数量十分庞大时,通讯开销大,

且由于其串行集成,执行效率也大大降低。因此集成伸缩性问题是大数量站点分

布式挖掘十分重要的研究课题。

3)集成有效性。如何基于局部挖掘得到的知识,集成为有效的全局知识,这

是所有分布式算法 基本的问题。由于数据分布,每个站点的信息是有限的且由

于独立聚类使一些结构不能有效的揭示,使局部知识存在不一致性。当局部结果

之间的不一致性显著时,如何得到有效的全局知识。这个问题,称为集成有效性

问题。如何利用其它站点的信息来改善挖掘质量也是分布式挖掘的重要问题,并

日益成为关注的重点。

厦门大学博硕士论文摘要库

Page 15: 厦门大学博硕士论文摘要库 - COnnecting REpositories · 2016-06-18 · dcucd算法能够有效地处理局部站点的噪声数据,能够处理分布不规则的 数据点,核心对象居于聚类中心,时间效率很高并且聚类质量较好。实验也充分

第一章 绪论

5

4)动态数据聚类问题。在金融、工业、气象、医学、交通乃至计算机网络等

众多领域,大量的数据都是以时间序列形式存在的,时间序列聚类已经成为序列

挖掘中一个重要的研究课题。对于分布式大规模时间序列数据,如何进行有效的

聚类来分析时间序列相似性结构是众多实际应用面临的问题。

5)分布式应用。分布式应用是一个分布式聚类乃至分布式数据挖掘的开放问

题,也是分布式聚类研究的目的。

由于大量分布的应用环境,要求我们去开发高效的分布式聚类方法,可以利

用强大的网络资源和有限的单机计算资源来处理大规模分布式数据集。分布式聚

类,是聚类分析中近几年才提出的新的研究领域,由于其诱人的应用前景,引起

许多研究者和团体的重视,是当今数据挖掘领域的 前沿和 重要的研究课题之

一,也是数据挖掘中 具有挑战性的课题之一。

分布式聚类的研究虽获得了不断的发展,但该领域作为一个新兴领域,其研

究还很初步,作为基础性的数据挖掘技术,远不能满足实际需要,还有很多急待

解决的问题,这是本文研究的重点和目标。“直接面向实际问题,解决实际问题”

是分布式数据挖掘研究的基本指导思想,是推动这一领域不断前进的动力,也是

本文以此为研究目标的原因之一。

基于密度的聚类算法已经被证明是优秀的一类聚类方法,在分布式环境也能

有良好的表现。研究基于密度的分布式聚类算法不仅有深刻的理论意义,也有广

阔的应用前景。

1.3. 本文主要内容及组织结构

本文第一章介绍本文的研究背景以及研究意义。

第二章介绍数据挖掘以及聚类的基本理论。以 DBSCAN 与 OPTICS 算法为

例,着重介绍了基于密度的聚类算法。

第三章介绍分布式聚类算法的背景、应用领域、研究现状以及当前算法存在

的一些问题。

第四章首先对已经提出的分布式聚类算法 DBDC 和 SDBDC 做较详细的介

绍。然后提出一种基于中心点与密度的聚类算法 CUCD,并且在此基础上提出分

布式聚类算法 DCUCD。详细介绍了 CUCD 以及 DCUCD 算法的相关实验,并且

厦门大学博硕士论文摘要库

Page 16: 厦门大学博硕士论文摘要库 - COnnecting REpositories · 2016-06-18 · dcucd算法能够有效地处理局部站点的噪声数据,能够处理分布不规则的 数据点,核心对象居于聚类中心,时间效率很高并且聚类质量较好。实验也充分

基于密度的分布式聚类算法研究

6

做了详尽的分析。结果证明:CUCD 算法以及 DCUCD 算法都是相当有效的。

第五章对本文研究做总结。

厦门大学博硕士论文摘要库

Page 17: 厦门大学博硕士论文摘要库 - COnnecting REpositories · 2016-06-18 · dcucd算法能够有效地处理局部站点的噪声数据,能够处理分布不规则的 数据点,核心对象居于聚类中心,时间效率很高并且聚类质量较好。实验也充分

Degree papers are in the “Xiamen University Electronic Theses and Dissertations Database”. Fulltexts are available in the following ways: 1. If your library is a CALIS member libraries, please log on http://etd.calis.edu.cn/ and submitrequests online, or consult the interlibrary loan department in your library. 2. For users of non-CALIS member libraries, please mail to [email protected] for delivery details.

厦门大学博硕士论文摘要库