Tau de Kendall (II)
É uma medida não paramétrica de dependência que identifica os pares concordantes e discordantes de duas variáveis. Uma vez identificados, os totais são calculados e o quociente é feito.
Em outras palavras, atribuímos uma classificação às observações de cada variável e estudamos a relação de dependência entre duas variáveis dadas.
Existem duas maneiras de calcular o Tau de Kendall; optamos por calcular a razão de dependência uma vez ordenadas as observações de cada variável. Em nosso exemplo, veremos que ordenamos as classificações na coluna X em ordem crescente.
Correlações ranqueadas são uma alternativa não paramétrica como medida de dependência entre duas variáveis quando não podemos aplicar o coeficiente de correlação de Pearson.
Estes são os resultados a que nos referimos no primeiro artigo –> Kendall’s Tau (I):
estação de esqui ( e ) |
X |
Z |
C | NC | |
UMA |
1 |
1 |
6 |
0 |
|
B. |
dois |
3 |
5 |
0 |
|
C |
3 |
4 |
5 |
1 |
|
D |
4 |
dois |
4 |
0 |
|
E |
5 |
7 |
4 |
1 |
|
F |
6 |
6 |
4 |
1 |
|
G |
7 |
5 |
43 | 3 | TOTAL |
- O par BC-CB é um par discordante. Escrevemos 1 na coluna NC e congelamos o contador na última posição até encontrarmos um par correspondente novamente. Neste caso, bloqueamos o número de pares correspondentes para 5 até a estação D. A estação D só pode formar 4 pares correspondentes: AD-DA, DE-ED, DF-FD, DG-GD.
Outro par chocante seria EF-FE:
- O par EF-FE é um par discordante. Entramos 1 na coluna NC e continuamos arrastando o número 4 de pares correspondentes que podem ser formados. Os pares concordantes da estação E seriam: EA-AE, EB-BE, EC-CE, ED-DE porque EF-FE é discordante.
- O par FG-GF é um par incompatível. Entramos 1 na coluna NC e continuamos arrastando o número 4 de pares correspondentes que podem ser formados. Os pares concordantes da estação F s (não variamos o em vez de a 4. Os pares concordantes que podíamos antes (não variamos seriam: FA-AF, FB-BF, FC-CF, FD- DF porque FG-GF é discordante.
Calculamos o Tau de Kendall
O Tau de Kendall não tem segredo além de ser a razão dos pares concordantes e discordantes de uma amostra de observações.
Interpretação
Nossa pergunta inicial foi: existe uma relação de dependência entre as preferências dos esquiadores alpinos e dos esquiadores cross-country em determinadas estações de esqui?
Neste caso, temos uma dependência entre as duas variáveis de 0,8695. Um resultado muito próximo do limite superior. Este resultado diz-nos que os esquiadores alpinos (X) e os esquiadores nórdicos (Z) classificaram os resorts com classificações semelhantes.
Sem ter que fazer nenhum tipo de cálculo podemos ver que as primeiras estações (A,B,C) recebem as melhores pontuações dos dois grupos. Em outras palavras, as classificações dos esquiadores seguem a mesma direção.
Comparação: Pearson vs. Kendall
Se calcularmos o coeficiente de correlação de Pearson dadas as observações acima e compará-lo com o Tau de Kendall, obteremos:
Nesse caso, o Tau de Kendall nos diz que há uma relação de dependência mais forte entre as variáveis X e Z em comparação com o coeficiente de correlação de Pearson: 0,8695 > 0,75.
Se os outliers tivessem muita influência nos resultados, encontraríamos uma grande diferença entre Pearson e Spearman e, portanto, deveríamos usar Spearman como medida de dependência.