聚类效果评价指标
Contents
这周web课布置了个调研作业,记录一下。。。
1. Davies Bouldin Index
常用于聚类效果评价的指标为:Davies Bouldin Index,它的表达式可以写为: $$DB=\frac{1}{N}\sum_{i\neq j}\frac{\rho_i-\rho_j}{d(c_i-c_j)}$$ 其中\(\rho_i,\rho_j\)表示i,j两个分类中的所有对象到中心点点平均距离。分母中的\(c_i, c_j\)分别表示i,j两个分类的中心点之间点距离。整个表达式点含义是:聚类效果越好,两个分类之间距离应该越远,分类内部越密集
2. purity
purity方法是极为简单的一种聚类评价方法,只需计算正确聚类的文档数占总文档数的比例: $$purity(\Omega, C)=\frac{1}{N}\sum_k \max_j \left|\omega_k\cap c_j \right|$$ 其中\(\Omega={\omega_1, \omega_2,…,\omega_k}\)是聚类的集合,\(\omega_k\)表示第k个聚类的集合。\(C={c_1, c_2,…,c_j}\)是文档集合,\(c_j\)表示第j个文档,N表示文档总数。
purity方法的优势是方便计算,值在0~1之间,完全错误的聚类方法值为0,完全正确的方法值为1。同时,purity方法的缺点也很明显它无法对退化的聚类方法给出正确的评价,设想如果聚类算法把每篇文档单独聚成一类,那么算法认为所有文档都被正确分类,那么purity值为1!而这显然不是想要的结果。
3. NMI(normalized mutual information)
$$NMI(\Omega, C)=\frac{I(\Omega;C)}{[H(\Omega)+H(C)]/2}$$ 其中I为互信息,计算公式为: $$I(\Omega;C)=\sum_k\sum_jP(\omega_k\cap c_j)\log\frac{P(\omega_k\cap c_j)}{P(\omega_k)P(c_j)}$$ $$=\sum_k\sum_j\frac{\left|\omega_k\cap c_j\right|}{N}\log\frac{N\left|\omega_k\cap c_j\right|}{\left|\omega_k\right|\left|c_j\right|}$$ 其中,\(P(x)\)为一个文档在x中的概率
H为熵,计算公式如下: $$H(\Omega)=-\sum_kP(\omega_k)\log P(\omega_k)=-\sum_k\frac{\left|\omega_k\right|}{N}\log\frac{\left|\omega_k\right|}{N}$$
4. RI
实际上这是一种用排列组合原理来对聚类进行评价的手段,公式如下: $$RI=\frac{TP+TN}{TP+FP+FN+TN}$$ 其中TP是指被聚在一类的两个文档被正确分类了,TN是只不应该被聚在一类的两个文档被正确分开了,FP只不应该放在一类的文档被错误的放在了一类,FN只不应该分开的文档被错误的分开了。
5. F值
这是基于上述RI方法衍生出的一个方法: $$P=\frac{TP}{TP+FP}$$ $$R=\frac{TP}{TP+FN}$$ $$F_\beta = \frac{(\beta^2+1)PR}{\beta^2P+R}$$ 其中P为聚类的准确率,R为聚类的召回率。
RI方法有个特点就是把准确率和召回率看得同等重要,事实上有时候我们可能需要某一特性更多一点,这时候就适合F值方法
Author xymeow
LastMod 2015-12-17