- 点二列相关。点二列相关多用于评价由是非类测验题目组成的测验的内部一致性等问题。
- 四分相关。 两个连续变量,每一个变量变化都被人为的地分为两种类型。
- $\phi$系数。又称列联系数。两变量都是真正的二分变量。
一、点二列相关
计算点二列相关(point-biserial correlation)的公式:
$$r_{pb} =\frac {\overline X_p – \overline X_q}{s_t}\cdot \sqrt {pq}$$
$\overline X_p$是与二分称名变量的一个值对应的连续变量的平均数;
$\overline X_q$是与二分称名变晕的另一个值对应的连续变量的平均数;
$p$与$q$是二分称名变量两个值各自所占的比率, $p+q= 1$;
$s_t$ 是连续变量的标准差。
例:测验总分与题目的相关程度
有一是非式选择测验, 每题选对得2分,共有50题,满分100分。 表中是20名学生在该测验中的总成绩及笫5题的选答情况。 问这道题与测验总分的相关程度如何?
zongfen <- c(84,82,76,60,72,74,76,84,88,90,
78,80,92,94,96,88,90,78,76,74)
diwuti <- c(1,0,0,0,0,0,0,1,1,1,
1,0,1,1,1,1,1,0,0,0) # 1代表对 0代表错
N <- 20
table(diwuti) # 答对答错各10人
p <- 10/N # 答对第五题学生比率
q <- 10/N # 答错第五题学生比率
X_p <- mean(zongfen[diwuti == 1]) # 88.4 答对第五题学生总分平均成绩
X_q <- mean(zongfen[diwuti == 0]) # 74.8答对第五题学生总分平均成绩
s_t <- sd(zongfen) # 所有学生总成绩标准差
r_pb <- (X_p-X_q)/s_t*(p*q)^(1/2) # 0.76
# 第5题与测验总分之间的相关系数为0.76, 相关较高.即第5题的答对答错与总分有一致性。 表明第五题的区分度较高。
二、四分相关
四格表:
计算公式:
$$r_t = cos(\frac {\sqrt bc}{\sqrt ad + \sqrt bc}\pi)$$
例:成绩的相关性
a <- 124
b <- 68
c <- 85
d <- 100
tmp <- sqrt(b*c)/(sqrt(a*d)+sqrt(b*c))
r_t <- cos(tmp*pi) # 0.292
三、$\phi$系数
$$r_\phi = \frac{ad-bc}{\sqrt{(a+b)(a+c)(b+d)(c+d)}}$$
$\phi$负值表示测量中“是”多余另一测量中的“非”,但一般不用来表示相关方向。
例:性别与评价态度是否有关
a <- 66
b <- 106
c <- 28
d <- 158
r <- (a*d-b*c)/sqrt((a+b)*(a+c)*(b+d)*(c+d)) # 0.265