模型漫谈 | 模糊C-均值聚类算法以及环境污染源模糊分类伪案例研究

文摘 2024-10-24 10:00 新加坡

点击订阅公众号 | 前沿学术成果每日更新

模糊C-均值聚类算法简介
模糊C-均值聚类算法的原理
算法的执行步骤
FCM伪案例研究：环境污染源模糊分类

收集环境污染数据
FCM算法参数设置
FCM算法应用
结果分析

模糊C-均值聚类算法简介

传统的聚类方法，如K-均值（K-means）聚类算法，将每个数据点明确地划分到某一个簇中，这种硬聚类方式在处理边界清晰的数据时效果显著。然而，现实世界中的数据往往充满模糊性和重叠性，硬聚类方法可能无法准确捕捉数据的复杂结构。模糊聚类通过引入隶属度的概念，提供了一种更灵活的替代方案，允许数据点部分地属于多个簇，从而更深入地挖掘数据的潜在信息。

模糊C-均值聚类（Fuzzy C-Means，FCM）是基于模糊集合论的一种软聚类方法。与K-均值算法不同，FCM引入了隶属度函数的概念，用于描述数据点属于某个簇的程度。具体而言，FCM为每个数据点分配一个隶属度向量，其元素表示该数据点对每个簇的隶属程度，取值范围在0到1之间，且所有隶属度之和为1。

这种方法的核心在于承认数据的模糊性，允许数据点部分地属于多个簇，从而更加准确地捕捉数据的内在结构。模糊集合论的引入，使得FCM在处理复杂和模糊的数据集时，比传统的硬聚类方法更具优势。

模糊C-均值聚类算法的原理

模糊C-均值聚类算法基于模糊集合论，通过最小化目标函数，将数据点聚类到多个簇中。其目标函数定义为：

其中：

：数据点的总数。
：簇的数量。
：数据点对簇的隶属度，。
：模糊系数，控制隶属度的模糊程度，通常取。
：第个数据点。
：第个簇的中心。
：数据点与簇中心的欧式距离。

通过迭代更新隶属度和簇中心，算法不断逼近目标函数的最小值，实现对数据的模糊聚类。

注意，簇的数量是需要我们进行定义的。

隶属度的概念

隶属度是衡量数据点属于某簇程度的一个指标。与硬聚类不同，在软聚类中，一个数据点可以有不同程度地属于多个簇。例如，一个数据点可能80%属于A簇，同时20%属于B簇。隶属度表示数据点属于簇的程度，其计算公式为：

与传统硬聚类（如K-均值）不同，模糊聚类允许数据点以不同的隶属度同时属于多个簇。这种方式更贴近现实数据的特性，能够更准确地反映数据点与簇之间的关系。

算法的执行步骤

模型初始化

**选择聚类数量 **：根据数据特征或先验知识确定簇的数量。
**设置模糊系数 **：一般取值在之间，常用。
**初始化隶属度矩阵 **：随机生成满足的隶属度矩阵:

模型迭代过程

计算簇中心 ：
更新隶属度 ：
检查收敛条件：如果隶属度矩阵的变化小于预设的阈值或达到最大迭代次数，则停止迭代；否则，返回步骤1。

通过上述步骤，FCM算法逐步调整簇中心和隶属度矩阵，最终获得稳定的聚类结果。

参数设置小提示

模糊系数（m）：模糊系数 m 控制了隶属度的模糊程度，通常取值范围为[1.5,2.5]。较小的 m 值会使隶属度趋向于0或1，接近于硬聚类；较大的 m 值则增加了模糊性。一般情况下，m = 2是一个常用的选择。
初始隶属度矩阵：初始隶属度矩阵的选择会影响算法的收敛速度和结果的稳定性。常见的初始化方法包括随机赋值和基于数据分布的赋值。为提高算法的鲁棒性，可以多次运行算法并取平均结果。
簇数（ c）：簇数的选择需要结合实际问题和数据特征。可以使用指标函数，如轮廓系数、Davies-Bouldin指数等，评估不同簇数下的聚类效果，从而选择最优的簇数。

算法的优势与挑战

优势

处理模糊性和重叠数据：允许数据点部分地属于多个簇，更适合现实数据的复杂性。
信息丰富：提供隶属度信息，便于进一步的分析和决策。
广泛适用：在图像处理、市场营销、生物医学等领域都有成功应用。

挑战

簇数量的选择：需要预先指定簇的数量，错误的选择可能影响聚类效果。
对初始值敏感：初始隶属度矩阵的设定可能影响算法的收敛速度和结果，需要谨慎处理。
噪声和异常值：对噪声数据较为敏感，可能需要预处理或结合其他方法提升鲁棒性。

FCM伪案例研究：环境污染源模糊分类

指只是从场景以及原理分析，可以怎么用FCM

在环境研究领域，准确识别和分类环境污染源对于制定有效的污染治理策略至关重要。由于污染源类型多样，不同源可能释放相似的污染物，传统的硬聚类方法（如K-均值）在处理这类复杂、模糊的数据时可能效果不佳。模糊C-均值聚类算法（FCM）通过引入隶属度的概念，能够更灵活地对污染源进行分类，反映污染源之间的模糊性和重叠性。

收集环境污染数据：

监测点选择：在研究区域内选取多个环境监测点，确保覆盖不同类型的污染源区域，如工业区、交通干道、居民区和自然保护区等。
污染物指标：收集各监测点的多种污染物浓度数据，包括但不限于：

空气污染物：PM2.5、PM10、SO₂、NOₓ、CO、O₃、挥发性有机化合物（VOCs）等。
水污染物：化学需氧量（COD）、生化需氧量（BOD₅）、氨氮、重金属离子等。

特征向量构建：将每个监测点的污染物浓度组成一个特征向量，形成数据集。

FCM算法参数设置

确定聚类数量：

根据先验知识和研究目的，假设主要的污染源可分为四类：

工业污染源
交通污染源
生活污染源
自然背景源

设置模糊系数：

选择模糊系数，平衡隶属度的模糊程度。

设定停止条件：

最大迭代次数，设为 100。
最小误差阈值，用于判断算法收敛。

FCM算法应用

步骤1：随机生成一个的隶属度矩阵，满足以下条件：
步骤2：迭代更新:重复以下步骤，直到满足停止条件：
如果，或达到最大迭代次数，停止迭代。

检查收敛条件：

计算目标函数：

计算簇中心：
更新隶属度：

步骤3：结果获取

最终簇中心 ：代表每类污染源的特征污染物浓度水平。

隶属度矩阵 ：每个监测点对各污染源类别的隶属度。

结果分析

隶属度解释

单个监测点分析：

工业污染源：
交通污染源：
生活污染源：
自然背景源：
示例：监测点A的隶属度为：
解释：监测点A的污染主要来源于工业污染源，可能位于工业区附近。

区域整体分析：

高隶属度区域：识别对某一污染源类别隶属度较高的区域，定位主要污染区域。
混合污染区域：对于多个污染源隶属度接近的区域，可能存在多种污染源的叠加影响。

簇中心解读

污染源特征识别：

工业污染源簇中心：可能表现出高浓度的SO₂、重金属等。
交通污染源簇中心：可能具有高浓度的NOₓ、CO、PM2.5等。
生活污染源簇中心：可能在BOD₅、COD方面数值较高。
自然背景源簇中心：污染物浓度整体较低，接近自然背景值。

可视化展示

污染源分布图：

绘制各监测点在地图上的位置，使用颜色深浅或大小表示对特定污染源类别的隶属度。

隶属度曲线图：

展示各监测点对不同污染源类别的隶属度，直观比较污染源影响程度。

声明：本公众号分享的前沿学术成果来源于各学术网站，不依法享有其所有权。若原作者发现本次分享中的文字及图片涉及侵权，请立刻联系公众号后台或发送邮件，我们将及时修改或删除！

邮箱：environmodel@sina.com

若您认为有用，欢迎
将Environmodel设为星标，或
点击“在看”或“分享”给他人

http://mp.weixin.qq.com/s?__biz=MzkzMzYzNDYyOQ==&mid=2247489257&idx=1&sn=19808faf092d15780881f801d4503a28

Environmodel

Environmodel（环境模型）专注于环境科学与工程领域的建模及模型研究进展，并分享涵盖机器学习、深度学习以及人工智能等相关领域的理论知识、主流工具和Python编程技巧。

最新文章

科研绘图教程 06 | 有代码！学会rcParams让你的底蕴更加深厚！

ES&T观点文章 | 环境机器学习、基线报告和综合评估：EMBRACE清单

资讯分享 | 2024年度博后基金第76批面上资助拟资助人员名单和简单统计分析

ES&T | 微生物群落预测微生物燃料电池的功能稳定性

深度学习入门到放弃系列教程 06 | 深入浅出的理解L2正则化的数学原理与应用

Nat. Water | 人工智能在水系统中的回报、风险与如何负责任地部署

科研绘图教程 05 | 有代码！默念Catppuccin口诀，手里的Matplotlib竟变得更加光鲜亮丽！

ES&T water | 增强对污水处理厂出水预测的洞察力：基于 SHAP 的全面深度学习模型解释

模型漫谈 05 | 双向RNN模型: 不仅从历史中学习，还可以从未来学习

通过机理模型和机器学习预测全尺寸活性污泥系统中的 N2O排放量：通用模型结构开发

深度学习入门到放弃系列教程 05 | 解析Softmax函数的原理与应用

WR | 从数据中心的角度推进基于深度学习的声学泄漏检测方法在供水系统中的应用

科研绘图教程4 | 有代码！功法多不压身，绘制线条的7种实用方法！

WR | 使用基于深度学习的图注意多元时间序列预测模型来确定混凝剂剂量

模型漫谈 | transformer模型: 每一个成功的大模型的背后都有一位美丽的transformer

基于模型识别全尺寸活性污泥系统中主要的N2O排放途径

深度学习从入门到放弃 | 深入理解链式法则：数学原理与在高效误差反向传播中的应用

确定单原子M–N–C催化剂上过硫酸盐活化的关键因素：密度泛函理论与机器学习相结合的研究

每日一词 | 成对排序（Pairwise Ranking）

科研绘图教程3 | 有代码！绘制一张优雅的散点图竟然使我突破了练气第三层！

ES&T | 瞬态光和氮条件下微藻生长和脂质产生的动态建模

模型漫谈 | 模糊C-均值聚类算法以及环境污染源模糊分类伪案例研究

J. Clean. Prod. | 基于新型多目标蚁狮优化和深度学习算法的污水处理过程动态优化

每日一词 | 蚁狮优化算法

深度学习从入门到放弃 | 有代码！今天就掌握深度学习超人气组件 —— 残差块（Residual Block）

CEJ | 基于数据驱动的深度学习模型检测具有时滞特点的污水处理厂进水水质指标

python科研绘图教程2:从熟悉cbook模块和Matplotlib示例数据集开始练气第一层

WR | 强化脱氮除磷（EBPR）活性污泥在不同碳源和电子受体下的N2O产生过程模拟

模型漫谈：时间序列分析中常用的四种自回归模型

WR | 利用基于边的图神经网络构建可迁移的供水系统元模型

深度学习从入门到放弃：时间序列分析中的自相关函数（ACF）和（PACF）

转载自UQ水中心|昆士兰大学郭建华教授、香港理工大学刘涛助理教授Nature Water综述：通过氮循环微生物实现可持续污水管理

Nat. Water综述（普林斯顿任智勇教授团队）| 污水处理行业的碳净零排放的定义和实现

WR | 使用深度学习模型对微塑料和天然有机物混合物自动分类

python科研绘图教程 1| 恭喜宿主获得了matplotlib的炼气期功法

诺贝尔化学奖颁发给蛋白质结构预测专家又一次说明了AI不仅是顶流，还将是主流

Nat. Water | 综述：水质预测中的深度学习

模型漫谈：获得2024年诺贝尔物理学奖的AI教父和他的人工神经网络

模型漫谈：图神经网络（GNN）是什么样的存在

ES&T | 整合了首要原则模型和深度学习模型的污水处理厂氧化亚氮排放建模方法

深度学习从入门到放弃：从掌握梯度的概念开始，征服深度学习

周一到周六更新内容，周末只happy

Nature Water | 全球高分辨率总水储量异常：使用深度学习算法的自监督数据同化

Python从入门到放弃必看：用PyCharm新建Python文件其实一点不简单，好吗!

基于拥挤距离的动态多目标粒子群优化实现污水处理过程的最优控制

深度学习入门教程：国庆花半个小时在windows平台上搭建起深度学习环境！

喜迎盛世华诞，用CHATGPT生成的庆典海报点亮你的国庆

一种改善污水处理厂实时出水质量预测的混合深度学习方法

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉