线代应用¶
总览¶
一段话总结¶
文档主要介绍线性代数在潜在语义分析(LSA)、推荐系统和谱聚类中的应用。潜在语义分析通过单词-文本矩阵的截断奇异值分解(SVD)挖掘文本与单词的话题关系,解决一词多义与多词一义问题;推荐系统利用矩阵分解(如Funk-SVD、BiasSVD)预测用户评分,结合用户/物品偏置提升精度;谱聚类基于图论构建邻接矩阵和拉普拉斯矩阵,通过特征值分解实现非凸数据聚类,对比K-means更灵活。
思维导图¶
¶
详细总结¶
一、潜在语义分析(LSA)¶
目标:通过矩阵分解发现文本与单词的潜在话题关系,提升语义相似度准确性。
1. 单词向量空间模型
- 表示方法:单词-文本矩阵 \(X_{m×n}\),元素为TF-IDF值,反映单词在文本中的重要性:
[
\text{TF-IDF}{ij} = \frac{\text{tf}
]}}{\text{tf}_{\cdot j}} \log\frac{\text{df}}{\text{df}_i
- \(\text{tf}_{ij}\):单词\(i\)在文本\(j\)中的频数;\(\text{df}_i\):含单词\(i\)的文本数。
- 缺陷:无法处理一词多义(如“apple”)和多词一义(如“airplane”与“aircraft”)。
- 话题向量空间模型
-
核心思想:将文本表示为话题向量的线性组合,通过截断奇异值分解(SVD)实现:
[ X \approx U_k \Sigma_k V_k^T ]- \(U_k\):话题向量空间(左奇异向量),每列表示一个话题。
- \(\Sigma_k V_k^T\):文本在话题空间的表示,每列对应一个文本的话题权重。
-
示例
- 输入:11×9单词-文本矩阵(含9个文本、11个单词的频数)。
-
截断SVD(\(k=3\)):
- 左矩阵\(U_3\):3个话题向量(如“investing”在话题1的权重为0.74)。
- 对角矩阵\(\Sigma_3\):奇异值为3.91、2.61、2.00(重要性递减)。
- 右矩阵\(V_3^T\):9个文本的话题权重(如文本T1在话题1的权重为0.35)。
-
非负矩阵分解(补充)
- 形式:\(X≈WH\),\(W\)为话题向量,\(H\)为文本话题表示,均为非负矩阵。
- 优化:平方损失函数+梯度下降求解。
二、推荐系统¶
目标:通过用户-物品交互矩阵预测评分,实现个性化推荐。
1. 协同过滤
- 基于用户(UserCF):寻找相似用户,推荐其喜欢的物品。
- 基于物品(ItemCF):寻找相似物品,推荐给目标用户。
- 相似度计算:余弦相似度、皮尔逊相关系数。
- 矩阵分解方法
- Funk-SVD:
- 分解评分矩阵\(R≈P×Q^T\),\(P\)(用户特征)和\(Q\)(物品特征)。
- 目标函数:\(\min \sum(r_{ui}-p_u^T q_i)^2 + \lambda(\|p_u\|^2+\|q_i\|^2)\)(正则化防止过拟合)。
-
Bias-SVD:
- 引入全局平均分\(u\)、用户偏置\(b_u\)、物品偏置\(b_i\):
[ \hat{r}_{ui} = u + b_u + b_i + p_u^T q_i ] - 目标函数:\(\min \sum(r_{ui}-u-b_u-b_i-p_u^T q_i)^2 + \lambda(\|p_u\|^2+\|q_i\|^2+\|b_u\|^2+\|b_i\|^2)\)。
- 引入全局平均分\(u\)、用户偏置\(b_u\)、物品偏置\(b_i\):
-
示例
- 输入:6用户×12电影的评分矩阵(部分已知评分,如用户1对电影21评1分)。
- 预测:用户1对电影62的评分通过相似用户(如用户3、6)的加权平均计算,结合偏置项优化。
三、谱聚类¶
目标:基于图论将数据点转换为图节点,通过切图实现聚类,适用于非凸分布。
1. 构图方法
- K-近邻法:仅当两点互为K近邻时连边,权重\(w_{ij}=e^{-\frac{\|x_i-x_j\|^2}{2\sigma^2}}\)。
- 全连接法:所有点连边,常用高斯核(RBF):\(w_{ij}=e^{-\frac{\|x_i-x_j\|^2}{2\sigma^2}}\)。
- 关键矩阵
- 度矩阵 \(D\):对角元素为节点度数\(d_i=\sum_j w_{ij}\)。
-
拉普拉斯矩阵 \(L=D-W\),性质:对称半正定,\(f^T L f = \frac{1}{2}\sum_{i,j} w_{ij}(f_i-f_j)^2\)。
-
切图准则
- RatioCut:最小化割边权重和,同时最大化子图节点数:
[ \text{RatioCut} = \sum_i \frac{W(A_i, \bar{A_i})}{|A_i|} ] -
NCut:基于子图权重和\(vol(A_i)\),更鲁棒:
[ \text{NCut} = \sum_i \frac{W(A_i, \bar{A_i})}{vol(A_i)} ] -
算法流程(以NCut为例)
- 构建相似度矩阵\(S\)→邻接矩阵\(W\)和度矩阵\(D\)。
- 计算标准化拉普拉斯矩阵\(D^{-1/2} L D^{-1/2}\)。
- 取前\(k_1\)个最小特征值对应的特征向量,标准化后得到矩阵\(F\)。
- 对\(F\)的行向量进行K-means聚类,得到最终簇划分。
关键问题¶
-
问题:潜在语义分析如何提升文本相似度计算的准确性?
答案:通过截断SVD将文本从单词向量空间转换到话题向量空间,将文本相似度从单词频率比较转为话题权重比较,解决一词多义(如“apple”区分为“水果”和“品牌”话题)和多词一义(如“airplane”与“aircraft”归属同一话题)问题。 -
问题:Bias-SVD相比Funk-SVD的改进点是什么?
答案:Bias-SVD引入用户偏置(如用户评分习惯偏高/低)和物品偏置(如热门物品评分普遍高),公式为\(\hat{r}_{ui}=u+b_u+b_i+p_u^T q_i\),而Funk-SVD仅依赖潜在特征。偏置项能修正用户和物品的固有偏差,提升预测精度。 -
问题:谱聚类为何能处理K-means无法解决的非凸数据?
答案: - K-means基于欧氏距离和簇中心,仅适用于凸形聚类。
- 谱聚类将数据转换为图结构,通过拉普拉斯矩阵特征值分解捕捉数据的全局结构,允许簇间通过“切图”分离,适用于任意形状(如环形、半月形)数据。例如,对“半月形”数据,谱聚类通过邻接矩阵仅连接局部近邻点,避免K-means的错误聚合。
潜在语义分析(LSA)¶
一、核心概念与目标¶
定义:
潜在语义分析(LSA)是一种无监督学习方法,通过矩阵分解挖掘文本与单词之间的潜在话题关系,解决传统单词向量空间模型的语义表示缺陷(如一词多义、多词一义)。
核心目标:
- 将文本从单词向量空间转换到话题向量空间,以话题向量表示文本语义,提升文本相似度计算的准确性。
- 通过截断奇异值分解(SVD)或非负矩阵分解(NMF)实现矩阵降维,发现文本集合中的隐含话题结构。
二、单词向量空间模型的局限性¶
表示方法:
- 单词-文本矩阵(X):元素为单词在文本中的TF-IDF值,反映单词重要性:
[
\text{TF-IDF}{ij} = \frac{\text{tf}
]}}{\text{tf}_{\cdot j}} \log\frac{\text{df}}{\text{df}_i
- \(\text{tf}_{ij}\):单词\(i\)在文本\(j\)中的频数;\(\text{df}_i\):含单词\(i\)的文本数。
- 相似度计算:向量内积或余弦相似度,假设“共同单词越多,语义越相似”。
缺陷:
1. 一词多义:如“apple”可能表示“水果”或“品牌”,单词向量空间无法区分。
2. 多词一义:如“airplane”与“aircraft”视为不同单词,导致相似文本相似度计算偏低。
三、话题向量空间模型与潜在语义分析¶
核心思想:
- 每个文本由多个话题的线性组合表示,每个话题由一组语义相关的单词构成。
- 通过矩阵分解将单词-文本矩阵 \(X \approx T \times Y\),其中:
- \(T\)(单词-话题矩阵):列向量为话题向量,表示单词与话题的关联强度。
- \(Y\)(话题-文本矩阵):列向量为文本的话题权重,表示文本中各话题的重要性。
关键步骤:
1. 矩阵分解:对单词-文本矩阵 \(X\) 进行截断SVD或非负矩阵分解(NMF)。
2. 话题向量空间构建:分解得到的左矩阵(如SVD中的\(U_k\)或NMF中的\(W\))即为话题向量空间。
3. 文本话题表示:右矩阵(如SVD中的\(\Sigma_k V_k^T\)或NMF中的\(H\))表示文本在话题空间中的投影。
四、求解方法:截断奇异值分解(SVD)¶
算法流程:
1. 构造单词-文本矩阵 \(X_{m \times n}\)(\(m\)为单词数,\(n\)为文本数)。
2. 截断SVD分解:
[
X \approx U_k \Sigma_k V_k^T
]
- \(U_k\):\(m \times k\) 矩阵,列向量为话题向量(左奇异向量),表示每个话题中单词的权重。
- \(\Sigma_k\):\(k \times k\) 对角矩阵,奇异值按降序排列,反映话题的重要性。
- \(V_k^T\):\(k \times n\) 矩阵,行向量为文本的话题权重(右奇异向量)。
3. 话题与文本表示:
- 每个话题由\(U_k\)的列向量表示,文本由\(V_k^T\)的行向量表示。
示例:
输入:11×9单词-文本矩阵(9个文本,11个单词的频数,如“investing”在多个文本中高频出现)。
截断SVD(\(k=3\)):
1. 分解结果:
- 左矩阵\(U_3\)(话题向量空间):
| 单词 | 话题1 | 话题2 | 话题3 |
|------------|-------|-------|-------|
| investing | 0.74 | 0.21 | 0.21 |
| book | 0.15 | -0.27 | 0.04 |
| stock | 0.25 | -0.42 | -0.28 |
- 对角矩阵\(\Sigma_3\):奇异值为3.91(话题1)、2.61(话题2)、2.00(话题3)。
- 右矩阵\(V_3^T\)(文本话题权重):
| 文本 | 话题1 | 话题2 | 话题3 |
|--------|-------|-------|-------|
| T1 | 0.35 | -0.32 | -0.41 |
| T6 | 0.49 | 0.55 | -0.51 |
2. 语义解释:
- 话题1(奇异值最大)可能代表“投资”相关话题,包含“investing”“market”等单词。
- 文本T6在话题1和话题2的权重较高,可能同时涉及“投资”和“家庭”话题。
五、求解方法:非负矩阵分解(NMF)¶
算法流程:
1. 构造非负单词-文本矩阵 \(X_{m \times n} \geq 0\)。
2. 分解目标:寻找非负矩阵\(W_{m \times k}\)(话题向量)和\(H_{k \times n}\)(文本话题权重),使得:
[
X \approx W \times H
]
3. 优化目标(平方损失函数):
[
\min_{W,H} \frac{1}{2} | X - W H |^2 \quad \text{s.t.} \quad W \geq 0, H \geq 0
]
4. 梯度下降更新规则:
[
W_{il} \leftarrow W_{il} \cdot \frac{(X H^T){il}}{(W H H^T) \cdot \frac{(W^T X)}}, \quad H_{lj} \leftarrow H_{lj{lj}}{(W^T W H)
] }
示例:
假设单词-文本矩阵\(X\)同SVD示例,分解后得到:
- 话题向量矩阵\(W\):非负元素,如“investing”在话题1的权重为0.8,“book”为0.1。
- 文本话题矩阵\(H\):非负元素,如文本T1在话题1的权重为0.9,话题2为0.1。
六、对比与应用场景¶
| 方法 | 优势 | 局限性 | 应用场景 |
|---|---|---|---|
| 截断SVD | 数学理论完善,支持负权重 | 要求矩阵稠密,需处理稀疏性 | 文本检索、语义分析 |
| NMF | 非负性符合实际语义,可解释性强 | 收敛速度较慢,需调参 | 图像分析、推荐系统 |
典型应用:
- 文本聚类:将相似话题的文本归为一类。
- 信息检索:通过话题向量提升查询与文档的语义匹配精度。
- 词义消歧:区分多义词在不同话题中的含义(如“apple”在“科技”与“食品”话题中的不同权重)。
七、重点总结¶
- 核心价值:通过矩阵分解将“单词-文本”关联转换为“话题-文本”关联,解决传统模型的语义缺陷。
- 关键工具:SVD和NMF均通过降维实现话题挖掘,前者基于正交变换,后者基于非负约束。
- 实施要点:需预处理稀疏矩阵(如TF-IDF加权),合理选择话题数\(k\)(通常通过奇异值累积贡献率或肘部法则确定)。
线性代数与推荐系统¶
一、核心概念与目标¶
定义:
推荐系统通过分析用户与物品的交互数据(如评分、点击),预测用户对物品的偏好,实现个性化推荐。线性代数方法(如矩阵分解、协同过滤)是其核心技术,旨在解决数据稀疏性和高维问题。
核心目标:
- 利用用户-物品交互矩阵(评分矩阵)挖掘潜在特征,预测未知评分,提升推荐精度。
- 解决协同过滤算法在高维稀疏场景下的计算瓶颈和精度问题。
二、协同过滤算法¶
基本思想:
- 基于用户的协同过滤(UserCF):根据用户间的兴趣相似度推荐物品(“人以群分”)。
- 基于物品的协同过滤(ItemCF):根据物品间的特征相似度推荐物品(“物以类聚”)。
关键步骤:
1. 构建评分矩阵:\(R_{m \times n}\)(\(m\)为用户数,\(n\)为物品数),元素\(r_{ui}\)为用户\(u\)对物品\(i\)的评分。
2. 相似度计算:
- 余弦相似度:
[
\text{sim}(x, y) = \frac{x \cdot y}{|x| |y|}
]
- 皮尔逊相关系数:
[
\text{sim}(x, y) = \frac{\sum(x_k - \bar{x})(y_k - \bar{y})}{\sqrt{\sum(x_k - \bar{x})^2 \sum(y_k - \bar{y})^2}}
]
3. 评分预测:通过相似用户/物品的评分加权平均预测未知评分。
示例:用户A的图书推荐
- 用户兴趣:用户A喜欢“侦探小说、科普图书、计算机技术书”,用户B喜欢“数学、机器学习”。
- UserCF步骤:
1. 找到与用户A兴趣相似的用户(如用户C,同喜欢计算机技术)。
2. 推荐用户C喜欢但用户A未读的书(如《数据结构》)。
- ItemCF步骤:
1. 找到与“计算机技术书”相似的物品(如《机器学习》)。
2. 推荐给用户A。
局限性:
- 计算瓶颈:用户/物品数量激增时,相似度矩阵计算复杂度高(\(O(m^2)\)或\(O(n^2)\))。
- 稀疏性问题:评分矩阵稀疏时,相似度计算不准确。
三、矩阵分解方法¶
核心思想:
将评分矩阵分解为用户潜在特征矩阵\(P\)和物品潜在特征矩阵\(Q\),通过低维 latent 空间捕捉用户兴趣和物品属性:
[
R \approx P \times Q^T, \quad \hat{r}{ui} = p_u^T q_i = \sum
]}^K p_{uk} q_{ki
其中,\(K\)为潜在特征数(如“科幻”“悬疑”等话题)。
1. Funk-SVD¶
优化目标:
[
\min_{P, Q} \sum_{(u,i) \in R} (r_{ui} - p_u^T q_i)^2 + \lambda (|p_u|^2 + |q_i|^2)
]
- 第一项为损失函数,衡量预测评分与真实评分的误差;
- 第二项为正则化项,防止过拟合。
求解方法:随机梯度下降(SGD)
1. 初始化:随机初始化\(P\)和\(Q\)。
2. 梯度计算:
[
\frac{\partial L}{\partial p_u} = -2(r_{ui} - p_u^T q_i) q_i + 2\lambda p_u, \quad \frac{\partial L}{\partial q_i} = -2(r_{ui} - p_u^T q_i) p_u + 2\lambda q_i
]
3. 参数更新:
[
p_u \leftarrow p_u + \eta (2(r_{ui} - \hat{r}{ui}) q_i - 2\lambda p_u)
]
[
q_i \leftarrow q_i + \eta (2(r) p_u - 2\lambda q_i)} - \hat{r}_{ui
]
(\(\eta\)为学习率)
示例:电影评分预测
- 输入:6用户×12电影评分矩阵(部分已知,如用户1对电影21评1分,对电影62未评分)。
- 分解过程:
1. 设\(K=2\)(潜在特征为“动作片”“剧情片”)。
2. 迭代更新\(P\)和\(Q\),使预测评分\(\hat{r}_{ui}\)接近真实值。
- 输出:用户1对电影62的预测评分为3.5分(基于潜在特征“动作片”的偏好)。
2. Bias-SVD(带偏置的矩阵分解)¶
改进点:引入全局偏置项,区分用户评分习惯和物品固有属性:
[
\hat{r}_{ui} = \mu + b_u + b_i + p_u^T q_i
]
- \(\mu\):全局平均分;
- \(b_u\):用户偏置(如用户A评分普遍偏高);
- \(b_i\):物品偏置(如热门电影评分普遍较高)。
优化目标:
[
\min_{P, Q, b_u, b_i} \sum_{(u,i) \in R} (r_{ui} - \mu - b_u - b_i - p_u^T q_i)^2 + \lambda (|p_u|^2 + |q_i|^2 + b_u^2 + b_i^2)
]
求解方法:SGD同时更新\(P, Q, b_u, b_i\)
[
b_u \leftarrow b_u + \eta (2(r_{ui} - \hat{r}{ui}) - 2\lambda b_u)
]
[
b_i \leftarrow b_i + \eta (2(r) - 2\lambda b_i)} - \hat{r}_{ui
]
示例:用户评分修正
- 用户1评分普遍偏低(\(b_u = -0.5\)),电影62为热门影片(\(b_i = 0.8\)),全局平均分\(\mu = 3.5\)。
- 预测评分:\(\hat{r}_{ui} = 3.5 - 0.5 + 0.8 + p_u^T q_i = 3.8 + p_u^T q_i\),提升准确性。
四、隐含语义分析(LSA)的应用¶
思路:将用户-物品交互矩阵视为“单词-文本矩阵”,通过截断SVD挖掘潜在特征(类似话题分析):
[
R \approx U_k \Sigma_k V_k^T
]
- \(U_k\):用户潜在特征矩阵;
- \(V_k\):物品潜在特征矩阵;
- \(\Sigma_k\):奇异值矩阵(特征重要性)。
优势:
- 处理高维稀疏矩阵,降低计算复杂度;
- 捕捉用户和物品的隐含关联(如用户对“科幻”话题的偏好)。
示例:视频推荐
- 用户Dave的向量:在隐变量空间中接近《Ocean's 11》(动作片)和《The Lion King》(动画片)的向量。
- 推荐逻辑:根据向量距离排序,推荐《Ocean's 11》(距离更近)和同类影片。
五、方法对比与适用场景¶
| 方法 | 优势 | 局限性 | 适用场景 |
|---|---|---|---|
| 协同过滤 | 可解释性强,实现简单 | 高维稀疏场景效率低 | 小规模数据集,冷启动 |
| Funk-SVD | 降维处理,泛化能力强 | 需填充稀疏矩阵 | 中大规模推荐系统 |
| Bias-SVD | 引入偏置,精度更高 | 参数更多,计算量略增 | 评分存在显著偏置场景 |
| LSA+SVD | 捕捉隐含语义,抗稀疏性 | 依赖矩阵稠密性假设 | 文本/多媒体推荐 |
六、重点总结¶
- 核心问题:推荐系统的关键是处理高维稀疏数据,线性代数方法通过矩阵分解降维,提升推荐效率和精度。
- 求解核心:随机梯度下降优化损失函数,正则化防止过拟合,偏置项修正用户/物品固有偏差。
- 应用要点:根据数据特点选择方法(如协同过滤用于可解释场景,矩阵分解用于大规模数据),合理设置潜在特征数\(K\)(通常10-100)。
谱聚类¶
一、核心概念与背景¶
定义:
谱聚类是一种基于图论的聚类算法,将样本点视为图的节点,通过构建邻接矩阵衡量样本间相似度,再利用拉普拉斯矩阵的特征值分解实现聚类。
核心思想:
- 将聚类问题转化为图切分(Graph Cut)问题,通过最小化割边权重(即样本间差异)实现簇划分。
- 适用于非凸形状数据(如环形、月牙形),克服K-means对凸形数据的依赖。
二、关键步骤与方法¶
1. 构图(构建邻接矩阵 \(W\))¶
目标:量化样本间的相似度,形成图结构。
方法:
- K-近邻法(KNN):
- 对每个样本,连接最近的\(k\)个邻居,权重为高斯核函数值:
[
w_{ij} =
\begin{cases}
\exp\left(-\frac{|x_i - x_j|2}{2\sigma2}\right), & x_i \in KNN(x_j) \text{ 或 } x_j \in KNN(x_i) \
0, & \text{否则}
\end{cases}
]
- 确保对称性(双向近邻)。
- 全连接法(高斯核):
- 所有样本点连边,权重为高斯核值:
[
w_{ij} = \exp\left(-\frac{|x_i - x_j|2}{2\sigma2}\right)
]
- 适用于数据分布密集的场景。
示例:
- 样本集:二维平面上的“月牙形”数据点(紫色和红色点局部接近,全局分离)。
- 邻接矩阵构建:
- 紫色点仅与邻近紫色点连边,红色点同理,跨颜色点距离远则权重为0。
2. 构建度矩阵 \(D\) 与拉普拉斯矩阵 \(L\)¶
- 度矩阵 \(D\):对角矩阵,\(D_{ii} = \sum_j w_{ij}\)(节点\(i\)的边权和)。
- 拉普拉斯矩阵 \(L\):
[ L = D - W ]
性质:对称半正定,\(f^T L f = \frac{1}{2}\sum_{i,j} w_{ij}(f_i - f_j)^2\),衡量向量\(f\)在图上的光滑性。
3. 切图准则与优化目标¶
目标:找到最优切分,使簇内连接紧密,簇间连接稀疏。
- RatioCut(比率切图):
[
\text{RatioCut} = \sum_{i=1}^k \frac{W(A_i, \bar{A_i})}{|A_i|}
]
- 其中,\(W(A_i, \bar{A_i})\)为簇\(A_i\)与其他簇的边权和,\(|A_i|\)为簇内节点数。
- 优化目标:最小化割边权重和,同时最大化簇内节点数,避免划分出孤立小簇。
- NCut(归一化切图):
[
\text{NCut} = \sum_{i=1}^k \frac{W(A_i, \bar{A_i})}{\text{vol}(A_i)}
]
- \(\text{vol}(A_i) = \sum_{v \in A_i} d_v\)(簇内节点度之和),归一化处理使切分更均衡。
4. 特征值分解与聚类¶
理论基础:
- 拉普拉斯矩阵的特征向量对应图的低频信号,最小特征值对应的特征向量可用于簇划分。
- 瑞利商定理:对于对称矩阵\(L\),最小特征值对应瑞利商\(R(L, f) = \frac{f^T L f}{f^T f}\)的最小值,此时\(f\)为最优切分向量。
求解步骤:
1. 标准化拉普拉斯矩阵:
[
L_{\text{norm}} = D^{-1/2} L D^{-1/2}
]
2. 求解前\(k\)个最小特征值对应的特征向量,构成矩阵\(F \in \mathbb{R}^{n \times k}\)。
3. 行标准化:将\(F\)的每行归一化为单位向量。
4. 传统聚类:对标准化后的行向量应用K-means等算法,得到离散簇划分。
三、示例解析:二维月牙形数据聚类¶
输入:二维平面上两类“月牙形”数据点(紫色和红色,共100个样本)。
步骤1:构图(全连接法,\(\sigma=0.5\))
- 计算所有点对的高斯核权重,邻近点权重接近1,远离点权重接近0。
步骤2:构建拉普拉斯矩阵 \(L\)
- 度矩阵\(D\)对角线元素为各点权重和,\(L = D - W\)。
步骤3:特征值分解
- 计算\(L_{\text{norm}}\)的前2个最小特征值(\(\lambda_1 \approx 0\),\(\lambda_2 \approx 0.2\))对应的特征向量\(f_1, f_2\)。
- 标准化特征向量矩阵\(F = [f_1, f_2]\),每行代表样本在二维特征空间的坐标。
步骤4:K-means聚类
- 对\(F\)的行向量应用K-means(\(k=2\)),得到紫色和红色簇的划分,准确率接近100%。
四、对比K-means的优势¶
| 特性 | K-means | 谱聚类 |
|---|---|---|
| 数据形状 | 适用于凸形、球形簇 | 适用于任意形状(如环形、月牙形) |
| 相似度 | 基于欧氏距离 | 基于图权重(可自定义核函数) |
| 计算复杂度 | \(O(nkI)\)(\(I\)为迭代次数) | \(O(n^3)\)(特征分解) |
| 参数敏感 | 对初始中心敏感 | 对核参数\(\sigma\)、\(k\)敏感 |
五、重点总结¶
- 核心流程:构图→构建矩阵→特征分解→聚类,通过图论将非线性聚类转化为线性代数问题。
- 关键优势:处理非凸数据、灵活性高(可自定义相似度核),但需注意参数调优(如\(\sigma\)、\(k\))。
- 应用场景:图像分割、社交网络聚类、高维数据降维聚类等。