相似系数 - 知识百科lanqiu.jianghaivc.cn

相似系数

更新时间：2022-11-21 15:19

相似系数是衡量两个实体，或一个实体与一个实体组或两个实体组之间相似程度的数量指标，它是进行数量分类的基础，相似系数根据原始数据计算，实际应用时，又分相似性指标和相异性指标，相似性指标的数值大小直接反映两成员间的相似程度；而相异性指标，其数值大小则反映两成员的差异程度，两种指标都可以衡量相似性，区别仅在于前者数值越大表示越相似，而后者数值越小表示越相似。

简介

相似系数是指衡量全部样本或全部变量中任何两部分相似程度的指标。它主要有匹配系数、内积和概率系数等项指标。由于内积系数是普遍应用于数量数据的相似性指标，因此，这里仅对内积系数作一介绍。对于观测数据矩阵X，一个样本的数据可以认为是h维向量，同样变量的数据也可以认为是多维向量。两个同维向量的各分量依次相乘再相加得到一个数值，称为两向量的内积。

选取原则

相似系数的选取原则一般来说，同一批数据采用不同的相似性尺度，会得到不同的分类结果。产生不同结果的原因主要是由于不同的指标所衡量的相似程度的物理意义不同。也就是说，不同指标代表了不同意义上的相似性。因此，在进行数值分类时，应注意相似性尺度的选择。一般情况下，应遵循下列基本原则：①所选择的相似性尺度在实际应用中应有明确的意义。②如在变量分析中，常用相关系数表示变量之间的亲疏程度。③根据原始数据的性质，选择适当的变换方法，不同的变换方法涉及选用不同的相似系数。

分类

关联系数

按其系数取值在[0，1]和[-1，+1]之内，又分为两类：匹配系数和关联系数。其计算都需要先列出被比较的两实体（或属性）的列联表。

有了列联表中a，b，c，d的数值，这些系数的计算就容易了，列如匹配系数中的0chiai系数

关联系数中的Dagnelie系数V和系数

免责声明

隐私政策

用户协议

目录 22

0{{catalogNumber[index]}}. {{item.title}}