Níveis de significância arbitrária e não arbitrária
Os níveis arbitrários de significância são decididos antes de calcular a estatística de teste e os níveis não arbitrários de significância dependem do valor que a estatística de teste assume, ambos os quais dependem da distribuição seguida pelos dados.
Em outras palavras, os níveis arbitrários de significância serão sempre os mesmos para diferentes valores da estatística de teste, e os níveis de significância não arbitrários serão diferentes para diferentes valores da estatística de teste.
não arbitrário
Quando a característica de ser arbitrário é apontada para algum conceito, significa que o valor desse conceito é escolhido pelo pesquisador a priori (antes) de fazer o experimento sem se basear em nenhuma informação relacionada.
valor p e elefantes
Por exemplo, suponha que queremos testar o número de elefantes em um prado.
Antes de ver o prado e os elefantes que realmente existem, assumimos a priori o número de elefantes. Dizemos que pode haver 10 elefantes. Então, vamos ao prado e contamos o número de elefantes que vemos: 1, 2, 3, 4, 5, 6 e 7.
Nossa hipótese nula era que o número de elefantes na pradaria era igual a 10, e nossa hipótese alternativa era que havia menos de 10. Assim, dado quantos elefantes existem, rejeitaríamos a hipótese nula. Mas… E se houver mais 3 elefantes no prado mas eles estiverem escondidos atrás das árvores? Estaríamos rejeitando nossa hipótese nula quando ela poderia ser verdadeira se, em vez de contar os elefantes, tivéssemos calculado o número máximo de elefantes que a pastagem pode suportar.
Análise
Os 10 elefantes escolhidos no início foram totalmente arbitrários porque não vimos a dimensão do prado e, portanto, não sabemos se 10 elefantes é muito ou pouco.
Por outro lado, se, dado o tamanho do prado, calcularmos o número máximo de elefantes que ele pode abrigar, saberemos qual é o valor máximo para não rejeitar a hipótese nula. Então encontrar o número real será muito mais fácil.
Comparação
O mesmo acontece com os níveis de significância de 1%, 5% e 10% em relação ao p-valor. Em muitos testes, escolhemos o nível de significância sem levar em consideração outras informações além da distribuição. Normalmente 5% é usado como nível de significância (alfa), deixando 95% da amostra dentro do intervalo de confiança.
O problema de atribuir o nível de significância arbitrariamente é o mesmo problema que temos com o exemplo do elefante. Se acreditarmos que é correto aplicar o 5% (nível de significância), podemos rejeitar a hipótese nula quando o mínimo a ser rejeitado for 2% (p-valor). Incorreríamos em resultados errôneos pelo simples fato de estabelecer 5% ao invés do valor mínimo a ser rejeitado (2%).
Por outras palavras, estamos a concluir que na pradaria existem menos de 10 elefantes mas na realidade existem mais 3 elefantes mas estão escondidos. Então, é muito mais rápido calcular qual é o nível máximo ou mínimo de significância para o qual não rejeitaríamos ou rejeitaríamos a hipótese nula.
regra de rejeição
Se valor p < nível de significância => Rejeição H0.
Se valor p > nível de significância => não rejeito H0.