Comando para segunda diferença em forex stata


Bem-vindo ao Instituto de Pesquisa e Educação Digital Notas da classe Stata Contando de n para N Introdução O Stata possui duas variáveis ​​internas chamadas n e N. n é notação de Stata para o número de observação atual. n é 1 na primeira observação, 2 na segunda, 3 na terceira e assim por diante. N é notação de Stata para o número total de observações. Vamos ver como n e N funcionam. Como você pode ver, a variável id contém um número de observação de 1 a 7 e nt é o número total de observações, que é 7. Contando com Usando n e N em conjunto com o comando by pode produzir alguns resultados muito úteis. É claro que, para usar o comando by, devemos primeiro classificar nossos dados na variável by. Agora n1 é o número de observação dentro de cada grupo e n2 é o número total de observações para cada grupo. Para listar a pontuação mais baixa para cada grupo, use o seguinte: Para listar a pontuação mais alta de cada grupo, use o seguinte: Outro uso de n Permite usar n para descobrir se há números de ID duplicados nos seguintes dados: as observações 6 e 7 têm os mesmos números de identificação e diferentes valores de pontuação. Encontrando Duplicatas Agora vamos usar N para encontrar observações duplicadas. Neste exemplo, classificamos as observações por todas as variáveis. Em seguida, usamos toda a variável na instrução by e definimos set n igual ao número total de observações que são idênticas. Finalmente, listamos as observações para as quais N é maior que 1, identificando as observações duplicadas. Se você tiver muitas variáveis ​​no conjunto de dados, poderá levar muito tempo para digitá-las todas duas vezes. Podemos usar o curinga para indicar que desejamos usar todas as variáveis. Além disso, nas versões mais recentes do Stata, podemos combinar ordenar e por meio de uma única instrução. Abaixo está uma versão simplificada do código que produzirá exatamente os mesmos resultados acima. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico pela Universidade da Califórnia. Bem-vindo ao Instituto de Pesquisa Digital e Regressão da Educação com o SAS Capítulo 5: Sistemas de codificação adicionais para categorias categóricas variáveis ​​na análise de regressão Capítulo Outline 5.1 Codificação Simples 5.2 Codificação Forward Diffotting 5.3 Codificação Backward 5.4 Codificação Helmert 5.5 Codificação Helmert Reversa 5.6 Codificação de Desvio 5.7 Codificação Polinomial Ortogonal 5.8 Codificação Definida pelo Usuário 5.9 Resumo Variáveis ​​categóricas requerem atenção especial na análise de regressão porque, diferentemente da dicotomia ou variáveis ​​contínuas, eles não podem entrar na equação de regressão exatamente como eles são. Por exemplo, se você tiver uma variável chamada race que é codificada como 1 hispânico, 2 asiático 3 preto 4 branco, a corrida para sua regressão analisará o efeito linear da corrida, que provavelmente não é o que você pretendia. Em vez disso, variáveis ​​categóricas como essa precisam ser recodificadas em uma série de variáveis ​​que podem ser inseridas no modelo de regressão. Há uma variedade de sistemas de codificação que podem ser usados ​​ao codificar variáveis ​​categóricas. Idealmente, você escolheria um sistema de codificação que refletisse as comparações que você deseja fazer. No Capítulo 3 da Regressão com o SAS Web Book, abordamos o uso de variáveis ​​categóricas na análise de regressão com foco no uso de variáveis ​​dummy, mas esse não é o único esquema de codificação que você pode usar. Por exemplo, você pode querer comparar cada nível com o próximo nível superior, caso em que você gostaria de usar a codificação de diferença entre aspas, ou você pode querer comparar cada nível com a média dos níveis subseqüentes da variável, caso em que você gostaria de usar a codificação "Homelert". Ao escolher deliberadamente um sistema de codificação, você pode obter comparações que sejam mais significativas para testar suas hipóteses. Independentemente do sistema de codificação escolhido, o teste do efeito geral da variável categórica (ou seja, o efeito geral da corrida) permanecerá o mesmo. Abaixo está uma tabela listando vários tipos de contrastes e a comparação que eles fazem. Nome do contraste Compara cada nível de uma variável com o nível de referência Níveis adjacentes de uma variável (cada nível menos o próximo nível) Níveis adjacentes de uma variável (cada nível menos o nível anterior) Compare os níveis de uma variável com a média da subseqüente Níveis da variável Compara os níveis de uma variável com a média dos níveis anteriores da variável Compara os desvios da grande média Contratos polinomiais ortogonais Há algumas notas a serem feitas sobre os sistemas de codificação listados acima. A primeira é que eles representam comparações planejadas e não comparações post hoc. Em outras palavras, são comparações que você planeja fazer antes de começar a analisar seus dados, e não comparações nas quais você pensa depois de ter visto os resultados das análises preliminares. Além disso, algumas formas de codificação fazem mais sentido com variáveis ​​categóricas ordinais do que com variáveis ​​categóricas nominais. Abaixo, mostraremos exemplos usando race como variável categórica, que é uma variável nominal. Como codificação de efeito simples compara a média da variável dependente para cada nível da variável categórica com a média da variável dependente para o nível de referência, faz sentido com uma variável nominal. No entanto, pode não fazer tanto sentido usar um esquema de codificação que testa o efeito linear da corrida. Como descrevemos cada tipo de sistema de codificação, notamos os sistemas de codificação com os quais não faz tanto sentido usar uma variável nominal. Além disso, você pode perceber que seguimos várias regras ao criar os esquemas de codificação de contraste. Para obter mais informações sobre essas regras, consulte a seção sobre codificação definida pelo usuário. Esta página ilustrará duas maneiras pelas quais você pode conduzir análises usando esses esquemas de codificação: 1) usando proc glm com instruções de estimativa para definir coeficientes quotcontrastquot que especificam níveis da variável categórica que devem ser comparados, e 2) usando proc reg. Ao usar proc reg para fazer contrastes, primeiro você precisa criar novas variáveis ​​k-1 (onde k é o número de níveis da variável categórica) e usar essas novas variáveis ​​como preditores em seu modelo de regressão. O método 1 usa um tipo de codificação que chamaremos de codificação porcontraste, enquanto o método 2 usa um tipo de codificação que chamaremos de codificação por regressão. O arquivo de dados de exemplo Os exemplos nesta página usarão o conjunto de dados chamado hsb2.sas7bdat e focaremos na variável variável categórica. que tem quatro níveis (1 hispânico, 2 asiático, 3 afro-americanos e 4 brancos) e usaremos a escrita como nossa variável dependente. Embora nosso exemplo use uma variável com quatro níveis, esses sistemas de codificação trabalham com variáveis ​​que têm mais ou menos categorias. Não importa qual sistema de codificação você selecione, você sempre terá menos uma variável recodificada do que os níveis da variável original. Em nosso exemplo, nossa variável categórica tem quatro níveis, portanto, teremos três novas variáveis ​​(uma variável correspondente ao nível final das variáveis ​​categóricas seria redundante e, portanto, desnecessária). Antes de considerar qualquer análise, vamos ver a média da variável dependente, escreva. para cada nível de corrida. Isso ajudará na interpretação da saída de análises posteriores. Os resultados da codificação simples são muito semelhantes à codificação fictícia, em que cada nível é comparado ao nível de referência. No exemplo abaixo, o nível 4 é o nível de referência e a primeira comparação compara o nível 1 ao nível 4, a segunda compara o nível 2 ao nível 4 e a terceira compara o nível 3 ao nível 4. Método 1: PROC GLM A tabela abaixo mostra a codificação simples fazendo as comparações descritas acima. O primeiro contraste compara o nível 1 ao nível 4, e o nível 1 é codificado como 1 e o nível 4 é codificado como -1. Da mesma forma, o segundo contraste compara o nível 2 ao nível 4, codificando o nível 2 como 1 e o nível 4 como -1. Como você pode ver com a codificação de contraste, você pode discernir o significado das comparações simplesmente inspecionando os coeficientes de contraste. Por exemplo, olhando para os coeficientes de contraste para c3, você pode ver que ele compara o nível 3 ao nível 4. CÓDIGO SIMPLES DE CONTRASTE Nova variável 1 (c1) Nova variável 2 (c2) Abaixo ilustramos como formar essas comparações usando proc glm. Como você vê, uma instrução de estimativa separada é usada para cada contraste. A estimativa de contraste para o primeiro contraste compara a média da variável dependente, write. para os níveis 1 e 4, obtendo -7,597 e é estatisticamente significativa (plt. 000). O valor de t associado a este teste é de -3,82. Os resultados do segundo contraste, comparando a média da escrita para os níveis 2 e 4, não são estatisticamente significativos (t 1,40, p. 1638), enquanto o terceiro contraste é estatisticamente significativo. Observe que, embora tenhamos incluído a saída SAS completa para este exemplo, mostraremos somente a saída relevante em exemplos posteriores para economizar espaço. Método 2: Regressão A codificação de regressão é um pouco mais complexa que a codificação de contraste. Em nosso exemplo abaixo, o nível 4 é o nível de referência e x1 compara o nível 1 ao nível 4, x2 compara o nível 2 ao nível 4 e x3 compara o nível 3 ao nível 4. Para x1, a codificação é 3/4 para o nível 1 e -1/4 para todos os outros níveis. Da mesma forma, para x2, a codificação é 3/4 para o nível 2 e -1/4 para todos os outros níveis, e para x3 a codificação é 3/4 para o nível 3 e -1/4 para todos os outros níveis. Não é intuitivo que este esquema de codificação de regressão produza estas comparações, no entanto, se você desejar comparações simples, você pode seguir esta regra geral para obter estas comparações. Codificação de regressão simples Nova variável 1 (x1) Nova variável 2 (x2) Nova variável 3 (x3) 3 (afro-americana) Abaixo mostramos a regra mais geral para criar este tipo de esquema de codificação usando codificação de regressão, onde k é o número de níveis da variável categórica (neste caso, k 4). Codificação de regressão simples Nova variável 1 (x1) Nova variável 2 (x2) Abaixo ilustramos como criar x1. x2 e x3 e insira essas novas variáveis ​​no modelo de regressão usando proc reg. Você notará que os coeficientes de regressão na tabela abaixo são os mesmos que os coeficientes de contraste que vimos usando proc glm. Tanto o coeficiente de regressão para x1 quanto a estimativa de contraste para c1 são a média de escrita para o nível 1 de raça (hispânico) menos a média de escrita para o nível 4 (branco). Da mesma forma, o coeficiente de regressão para x2 e a estimativa de contraste para c2 são a média de gravação para o nível 2 (asiático) menos a média de gravação para o nível 4 (branco). Você também pode ver que os valores t e os níveis de significância também são os mesmos da saída proc glm. Observe que, embora tenhamos incluído a saída SAS completa para este exemplo, mostraremos somente a saída relevante em exemplos posteriores para economizar espaço. 5.2 Codificação de Diferença Avançada Neste sistema de codificação, a média da variável dependente para um nível da variável categórica é comparada com a média da variável dependente para o próximo nível (adjacente). Em nosso exemplo abaixo, a primeira comparação compara a média de gravação para o nível 1 com a média de gravação para o nível 2 de raça (hispânicos menos asiáticos). A segunda comparação compara a média de gravação para o nível 2 menos o nível 3, e a terceira comparação compara a média de gravação para o nível 3 menos o nível 4. Esse tipo de codificação pode ser útil com uma variável nominal ou ordinal. Método 1: DIFERENÇA PROC GLM FORWARD codificação de contraste Nova variável 1 (c1) Nova variável 2 (c2) Nova variável 3 (c3) Nível 1 v. Nível 2 Nível 2 v. Nível 3 Nível 3 v. Nível 4 3 (afro-americano) Com este sistema de codificação, os níveis adjacentes da variável categórica são comparados. Assim, a média da variável dependente no nível 1 é comparada com a média da variável dependente no nível 2: 46.4583 - 58 -11.542, o que é estatisticamente significativo. Para a comparação entre os níveis 2 e 3, o cálculo do coeficiente de contraste seria 58 - 48,2 9,8, o que também é estatisticamente significativo. Finalmente, comparando os níveis 3 e 4, 48,2 - 54,0552 -5,855, uma diferença estatisticamente significativa. Um concluiria disto que cada nível adjacente de raça é estatisticamente significativamente diferente. Método 2: Regressão Para a primeira comparação, onde o primeiro e o segundo níveis são comparados, x1 é codificado 3/4 para o nível 1 e os outros níveis são codificados -1/4. Para a segunda comparação, onde o nível 2 é comparado com o nível 3, x2 é codificado 1/2 1/2 -1/2 -1/2, e para a terceira comparação, onde o nível 3 é comparado com o nível 4, x3 é codificado 1 / 4 1/4 1/4 -3/4. DIFERENÇA FUTURA regressão codificação Nova variável 1 (x1) Nova variável 2 (x2) Nova variável 3 (x3) Nível 1 v. Nível 2 Nível 2 v. Nível 3 Nível 3 v. Nível 4 3 (Afro-americano) A regra geral para este O esquema de codificação de regressão é mostrado abaixo, onde k é o número de níveis da variável categórica (neste caso k 4). DIFERENÇA FUTURA regressão codificação Nova variável 1 (x1) Nova variável 2 (x2) Você pode ver que o coeficiente de regressão para x1 é a média de gravação para o nível 1 (hispânico) menos a média de escrita para o nível 2 (asiático). Da mesma forma, o coeficiente de regressão para x2 é a média de escrita para o nível 2 (asiático) menos a média de escrita para o nível 3 (afro-americano), e o coeficiente de regressão para x3 é a média de escrita para o nível 3 (afro-americano) menos a média de escrever para o nível 4 (branco). 5.3 Codificação de Diferença Reversa Neste sistema de codificação, a média da variável dependente para um nível da variável categórica é comparada com a média da variável dependente para o nível adjacente anterior. Em nosso exemplo abaixo, a primeira comparação compara a média de gravação para o nível 2 com a média de gravação para o nível 1 de raça (hispânicos menos asiáticos). A segunda comparação compara a média de gravação para o nível 3 menos o nível 2, e a terceira comparação compara a média de gravação para o nível 4 menos o nível 3. Esse tipo de codificação pode ser útil com uma variável nominal ou ordinal. Método 1: PROC GLM DIFERENÇA ANTERIOR codificação de contraste Nova variável 1 (c1) Nova variável 2 (c2) Nova variável 3 (c3) Nível 1 v. Nível 2 Nível 2 v. Nível 3 Nível 3 v. Nível 4 3 (Afro-americano) Com este sistema de codificação, os níveis adjacentes da variável categórica são comparados, com cada nível comparado ao nível anterior. Assim, a média da variável dependente no nível 2 é comparada com a média da variável dependente no nível 1: 58 - 46,4583 11,542, o que é estatisticamente significativo. Para a comparação entre os níveis 3 e 2, o cálculo do coeficiente de contraste é 48,2 - 58 - 9,8, o que também é estatisticamente significativo. Finalmente, comparando os níveis 4 e 3, 54,0552 - 48,2 5,855, uma diferença estatisticamente significante. Um concluiria disto que cada nível adjacente de raça é estatisticamente significativamente diferente. Método 2: Regressão Para a primeira comparação, onde o primeiro e o segundo níveis são comparados, x1 é codificado 3/4 para o nível 1, enquanto os outros níveis são codificados -1/4. Para a segunda comparação, onde o nível 2 é comparado com o nível 3, x2 é codificado 1/2 1/2 -1/2 -1/2, e para a terceira comparação, onde o nível 3 é comparado com o nível 4, x3 é codificado 1 / 4 1/4 1/4 -3/4. DIFERENÇA TRASEIRA regressão codificação Nova variável 1 (x1) Nova variável 2 (x2) Nova variável 3 (x3) Nível 2 v. Nível 1 Nível 3 v. Nível 2 Nível 4 v. Nível 3 3 (Afro-americano) A regra geral para este O esquema de codificação de regressão é mostrado abaixo, onde k é o número de níveis da variável categórica (neste caso, k 4). DIFERENÇA RETORNADA codificação de regressão Nova variável 1 (x1) Nova variável 2 (x2) No exemplo acima, o coeficiente de regressão para x1 é a média de gravação para o nível 2 menos a média de escrita para o nível 1 (58- 46.4583 11.542). Da mesma forma, o coeficiente de regressão para x2 é a média de gravação para nível 3 menos a média de gravação para nível 2, e o coeficiente de regressão para x3 é a média de gravação para nível 4 menos a média de gravação para nível 3. 5.4 Codificação Helmert A codificação de Helmert compara cada nível de uma variável categórica com a média dos níveis subseqüentes. Assim, o primeiro contraste compara a média da variável dependente para o nível 1 de raça com a média de todos os níveis subseqüentes de raça (níveis 2, 3 e 4), o segundo contraste compara a média da variável dependente para nível 2 de raça com a média de todos os níveis subseqüentes de raça (níveis 3 e 4), e o terceiro contraste compara a média da variável dependente para o nível 3 de raça com a média de todos os níveis subseqüentes de raça (nível 4). Enquanto este tipo de sistema de codificação não faz muito sentido com uma variável nominal como a corrida. é útil em situações onde os níveis da variável categórica são ordenados, do menor para o maior, ou menor para maior, etc. Para codificação Helmert, vemos que a primeira comparação comparando o nível 1 com os níveis 2, 3 e 4 é codificada 1, -1/3, -1/3 e -1/3, refletindo a comparação do nível 1 com todos os demais níveis. A segunda comparação é codificada como 0, 1, -1/2 e -1/2, refletindo que compara o nível 2 com os níveis 3 e 4. A terceira comparação é codificada 0, 0, 1 e -1, refletindo que o nível 3 é comparado ao nível 4. Método 1: Codificação de contraste PROC GLM HELMERT Nova variável 1 (c1) Nova variável 2 (c2) Nova variável 3 (c3) Nível 1 v. Mais tarde Nível 2 v. Mais tarde Nível 3 v. Mais tarde 3 (afro-americana ) A seguir ilustramos como formar essas comparações usando proc glm com instruções de estimativa. Observe que na primeira declaração de estimativa, indicamos -.33333 e não apenas -.33. Precisamos usar esta quantidade de decimais para que a soma de todos os coeficientes de contraste (isto é, 1-0,333333-0,333333-0,333333) seja suficientemente próxima de zero, caso contrário o SAS dirá que o termo não pode ser estimado. A estimativa de contraste para a comparação entre nível 1 e os demais níveis é calculada tomando a média da variável dependente para o nível 1 e subtraindo a média da variável dependente para os níveis 2, 3 e 4: 46,4583 - (58 48,2 54,0552) / 3 -6.960, o que é estatisticamente significativo. Isso significa que a média de gravação para o nível 1 de raça é estatisticamente diferente da média de gravação para os níveis de 2 a 4. Como observado acima, essa comparação provavelmente não é significativa porque a variável race é nominal. Esse tipo de comparação seria mais significativo se a variável categórica fosse ordinal. Para calcular o coeficiente de contraste para a comparação entre o nível 2 e os níveis posteriores, você subtrai a média da variável dependente para os níveis 3 e 4 da média da variável dependente para o nível 2: 58 - (48,2 54,0552) / 2 6,872, que é estatisticamente significante. A estimativa de contraste para a comparação entre o nível 3 e o nível 4 é a diferença entre a média da variável dependente para os dois níveis: 48,2 - 54,0552 -5,855, que também é estatisticamente significante. Método 2: Regressão Abaixo, vemos um exemplo de codificação de regressão de Helmert. Para a primeira comparação (comparando o nível 1 com os níveis 2, 3 e 4), os códigos são 3/4 e -1/4 -1/4 -1/4. A segunda comparação compara o nível 2 com os níveis 3 e 4 e é codificada como 0 2/3 -1/3 -1/3. A terceira comparação compara o nível 3 ao nível 4 e está codificada em 0 0 1/2 -1/2. Codificação de regressão de HELMERT Nova variável 1 (x1) Nova variável 2 (x2) Nova variável 3 (x3) Abaixo ilustramos como criar x1. x2 e x3 e insira essas novas variáveis ​​no modelo de regressão usando porc reg. Como você vê abaixo, o coeficiente de regressão para x1 é a média de gravação para o nível 1 (hispânico) versus todos os níveis subseqüentes (níveis 2, 3 e 4). Da mesma forma, o coeficiente de regressão para x2 é a média de gravação para o nível 2 menos a média de gravação para os níveis 3 e 4. Finalmente, o coeficiente de regressão para x3 é a média de gravação para o nível 3 menos a média de gravação para o nível 4. 5.5 Codificação Reversa de Helmert A codificação reversa de Helmert (também conhecida como codificação de diferença) é exatamente o oposto da codificação de Helmert: em vez de comparar cada nível de variável categórica à média do (s) nível (is) subseqüente, cada um é comparado à média do anterior nível (s). Em nosso exemplo, o primeiro contraste codifica a comparação da média da variável dependente para o nível 2 de corrida com a média da variável dependente para o nível 1 de raça. A segunda comparação compara a média da variável dependente nível 3 de raça com os níveis 1 e 2 de raça. e a terceira comparação compara a média da variável dependente para o nível 4 de raça com os níveis 1, 2 e 3. Claramente, este sistema de codificação não faz muito sentido com nosso exemplo de raça porque é uma variável nominal. No entanto, esse sistema é útil quando os níveis da variável categórica são ordenados de maneira significativa. Por exemplo, se tivéssemos uma variável categórica em que o estresse relacionado ao trabalho fosse codificado como baixo, médio ou alto, então, comparar as médias dos níveis anteriores da variável faria mais sentido. Para codificação reversa Helmert, vemos que a primeira comparação comparando os níveis 1 e 2 são codificados -1 e 1 para comparar esses níveis, e 0 caso contrário. A segunda comparação que compara os níveis 1, 2 com o nível 3 é codificada -1/2, -1/2, 1 e 0, e a última comparação que compara os níveis 1, 2 e 3 com o nível 4 é codificada -1/3, -1 / 3, -1/3 e 1. Método 1: Codificação de contraste PROC GLM REVERSE HELMERT Nova variável 1 (c1) Nova variável 2 (c2) Nova variável 3 (c3) Abaixo ilustramos como formar essas comparações usando proc glm com estimativa afirmações. Note que na terceira declaração de estimativa, indicamos -.33333 e não apenas -.33. Precisamos usar esta quantidade de decimais para que a soma de todos os coeficientes de contraste (ou seja, -333333 - .333333 - .333333 1) seja suficientemente próxima de zero, caso contrário o SAS dirá que o termo não pode ser estimado. Uma maneira alternativa, que resolve o problema das casas decimais, é mostrada abaixo. Apenas uma saída é mostrada porque as duas saídas são idênticas. A estimativa de contraste para a primeira comparação mostrada nesta saída foi calculada subtraindo a média da variável dependente para o nível 2 da variável categórica da média da variável dependente para o nível 1: 58 - 46.4583 11.542. Este resultado é estatisticamente significativo. A estimativa de contraste para a segunda comparação (entre o nível 3 e os níveis anteriores) foi calculada subtraindo-se a média da variável dependente para os níveis 1 e 2 daquela do nível 3: 48,2 - (46,4583 58) / 2 -4,029. Este resultado não é estatisticamente significativo, o que significa que não há uma diferença fiável entre a média de escrita para o nível 3 de corrida em comparação com a média de escrita para os níveis 1 e 2 (hispânicos e asiáticos). Como observado acima, esse tipo de sistema de codificação não faz muito sentido para uma variável nominal, como a corrida. Para a comparação do nível 4 e dos níveis anteriores, você pega a média da variável dependente para esses níveis e subtrai da média da variável dependente para o nível 4: 54.0552 - (46.4583 58 48.2) / 3 3.169. Este resultado é estatisticamente significativo. Método 2: Regressão A codificação de regressão para codificação Helmert reversa é mostrada abaixo. Para a primeira comparação, onde o primeiro e o segundo nível são comparados, x1 é codificado -1/2 e 1/2 e 0, caso contrário. Para a segunda comparação, os valores de x2 são codificados -1/3 -1/3 2/3 e 0. Finalmente, para a terceira comparação, os valores de x3 são codificados -1/4 -1/4 - / 14 e 3/4 Codificação de regressão de REVERSE HELMERT Nova variável 1 (x1) Nova variável 2 (x2) Nova variável 3 (x3) Abaixo ilustramos como criar x1. x2 e x3 e insira essas novas variáveis ​​no modelo de regressão usando proc reg. Nos exemplos acima, tanto o coeficiente de regressão para x1 quanto a estimativa de contraste para c1 seria a média de gravação para o nível 1 (hispânico) menos a média de escrita para o nível 2 (asiático). Da mesma forma, o coeficiente de regressão para x2 e a estimativa de contraste para c2 seria a média de escrita para os níveis 1 e 2 combinados menos a média de gravação para o nível 3. Finalmente, o coeficiente de regressão para x3 e a estimativa de contraste para c3 seriam média de gravação para os níveis 1, 2 e 3 combinados menos a média de gravação para o nível 4. 5.6 Codificação de desvio Este sistema de codificação compara a média da variável dependente para um determinado nível com a média geral da variável dependente. No nosso exemplo abaixo, a primeira comparação compara o nível 1 (hispânicos) a todos os níveis de raça. a segunda comparação compara o nível 2 (asiáticos) a todos os níveis de raça. e a terceira comparação compara o nível 3 (afro-americanos) a todos os níveis de raça. Como você pode ver, a lógica da codificação de contraste é bastante direta. A primeira comparação compara o nível 1 aos níveis 2, 3 e 4. Um valor de 3/4 é atribuído ao nível 1 e um valor de -1/4 é atribuído aos níveis 2, 3 e 4. Da mesma forma, a segunda comparação compara o nível 2 para os níveis 1, 3 e 4. Um valor de 3/4 é atribuído ao nível 2 e um valor de -1/4 é atribuído aos níveis 1, 3 e 4. Um padrão semelhante é seguido para atribuir valores para a terceira comparação . Observe que você pode substituir 3 por 3/4 e 1 por 1/4 e obter o mesmo teste de significância, mas o coeficiente de contraste seria diferente. Método 1: Codificação de contraste PROC GLM DEVIATION Nova variável 1 (c1) Nova variável 2 (c2) Nova variável 3 (c3) Abaixo ilustramos como formar essas comparações usando proc glm. A estimativa de contraste é a média para o nível 1 menos a grande média. No entanto, essa grande média não é a média da variável dependente listada na saída do comando de médias acima. Pelo contrário, é a média das médias da variável dependente em cada nível da variável categórica: (46,4583 58 48,2 54,0552) / 4 51,678375. Essa estimativa de contraste é então 46,4583 - 51,678375 -5,220. A diferença entre este valor e zero (a hipótese nula de que o coeficiente de contraste é zero) é estatisticamente significativa (p .0016), e o valor de t para este teste de -3.20. Os resultados para os próximos dois contrastes foram calculados de maneira semelhante. Método 2: Regressão Como você vê no exemplo abaixo, a codificação de regressão é realizada atribuindo 1 ao nível 1 para a primeira comparação (porque o nível 1 é o nível a ser comparado a todos os outros), um 1 ao nível 2 para o segundo comparação (porque o nível 2 deve ser comparado a todos os outros) e 1 ao nível 3 para a terceira comparação (porque o nível 3 deve ser comparado a todos os outros). Note que um -1 é atribuído ao nível 4 para todas as três comparações (porque é o nível que nunca é comparado com os outros níveis) e todos os outros valores são atribuídos a 0. Esse esquema de codificação de regressão produz as comparações descritas acima. DESVIAÇÃO codificação de regressão Nova variável 1 (x1) Nova variável 2 (x2) Nova variável 3 (x3) 3 (afro-americana) A seguir ilustramos como criar x1. x2 e x3 e insira essas novas variáveis ​​no modelo de regressão usando proc reg. Neste exemplo, o coeficiente de regressão para x1 é a média de gravação para o nível 1 (hispânico) menos a grande média de gravação. Da mesma forma, o coeficiente de regressão para x2 é a média escrita para o nível 2 (asiático) menos a grande média de gravação. e assim por diante. Como vimos nas análises anteriores, todos os três contrastes são estatisticamente significativos. 5.7 Codificação Polinomial Ortogonal A codificação polinomial ortogonal é uma forma de análise de tendência na medida em que procura as tendências linear, quadrática e cúbica na variável categórica. Este tipo de sistema de codificação deve ser usado apenas com uma variável ordinal na qual os níveis são igualmente espaçados. Exemplos de tal variável podem ser renda ou educação. A tabela abaixo mostra os coeficientes de contraste para as tendências linear, quadrática e cúbica dos quatro níveis. Estes podem ser obtidos a partir da maioria dos livros de estatísticas sobre modelos lineares. 3 (Afro-americano) Método 1: PROC GLM Para calcular as estimativas de contraste para essas comparações, é necessário multiplicar o código usado na nova variável pela média da variável dependente para cada nível da variável categórica e, em seguida, somar os valores . Por exemplo, o código usado em x1 para o nível 1 da corrida é -671 e a média de gravação para o nível 1 é 46,4583. Portanto, você multiplicaria -.671 e 46.4583 e adicionaria isso ao produto do código para o nível 2 de x1 e sua média, e assim por diante. Para obter a estimativa de contraste para o contraste linear, você faria o seguinte: -.67146.4583 -.22458 .22448.2 .67154.0552 2.905 (com erro de arredondamento). Esse resultado não é estatisticamente significativo no nível alfa de 0,05, mas está próximo. O componente quadrático também não é estatisticamente significativo, mas o cúbico é. Isso sugere que, se a média da variável dependente fosse traçada contra a raça. a linha tenderia a ter duas curvas. Como observado anteriormente, esse tipo de sistema de codificação não faz muito sentido com uma variável nominal como a corrida. Método 2: Regressão A codificação de regressão para codificação polinomial ortogonal é a mesma que a codificação de contraste. Abaixo você pode ver o código SAS para criar x1. x2 e x3 que correspondem às tendências linear, quadrática e cúbica da raça. Os coeficientes de regressão obtidos a partir desta análise são os mesmos que os coeficientes de contraste obtidos usando proc glm. 5.8 Codificação Definida pelo Usuário Você pode usar o SAS para qualquer tipo geral de esquema de codificação. Para o nosso exemplo, gostaríamos de fazer as seguintes três comparações: 1) nível 1 ao nível 3 2) nível 2 aos níveis 1 e 4 3) níveis 1 e 2 aos níveis 3 e 4. Para comparar o nível 1 ao nível 3, usamos os coeficientes de contraste 1 0 -1 0. Para comparar o nível 2 com os níveis 1 e 4, usamos os coeficientes de contraste -1/2 1 0 -1/2. Finalmente, para comparar os níveis 1 e 2 com os níveis 3 e 4, usamos os coeficientes 1/2 1/2 -1/2 -1/2. Antes de prosseguir para o código SAS necessário para conduzir essas análises, vamos levar um momento para explicar mais completamente a lógica por trás da seleção desses coeficientes de contraste. Para o primeiro contraste, estamos comparando o nível 1 ao nível 3, e os coeficientes de contraste são de 1 0 -1. Isso significa que os níveis associados aos coeficientes de contraste com sinais opostos estão sendo comparados. De fato, a média da variável dependente é multiplicada pelo coeficiente de contraste. Assim, os níveis 2 e 4 não estão envolvidos na comparação: eles são multiplicados por zero e "citados". Você também notará que os coeficientes de contraste somam zero. Isso é necessário. Se os coeficientes de contraste não somam zero, o contraste não é estimável e o SAS emitirá uma mensagem de erro. Qual nível da variável categórica é atribuído um valor positivo ou negativo não é terrivelmente importante: 1 0 -1 0 é o mesmo que -1 0 1 0 em que ambas as codificações comparam o primeiro e o terceiro níveis da variável. No entanto, o sinal do coeficiente de regressão mudaria. Agora vamos dar uma olhada nos coeficientes de contraste para a segunda e terceira comparações. Você notará que em ambos os casos usamos frações que somam um (ou menos um). Eles não precisam somar um (ou menos um). Você pode se perguntar por que usaríamos frações como -1/2 1 0 -1/2 em vez de números inteiros como -1 2 0 -1. Enquanto -1/2 1 0 -1/2 e -1 2 0 -1 ambos comparam o nível 2 com os níveis 1 e 4 e ambos fornecem o mesmo valor t e p-valor para o coeficiente de regressão, o contraste estima / os coeficientes de regressão seriam diferentes, assim como sua interpretação. O coeficiente para o contraste -1/2 1 0 -1/2 é a média do nível 2 menos a média das médias para os níveis 1 e 4: 58 - (46,4583 54,0552) / 2 7,74325. (Como alternativa, você pode multiplicar os contrastes pela média da variável dependente para cada nível da variável categórica: -1 / 246.4583 158.00 048.20 -1 / 254.0552 7.74325. Claramente, essas são formas equivalentes de pensar sobre como o coeficiente de contraste é calculado. ) Por comparação, o coeficiente para o contraste -1 2 0 -1 é duas vezes a média do nível 2 menos as médias da variável dependente para os níveis 1 e 4: 258 - (46,4583 54,0552) 15,4865, que é o mesmo que - 146,4583 258 048,20 - 154,0552 15,4865. Observe que o coeficiente de regressão usando os coeficientes de contraste -1 2 0 -1 é o dobro do coeficiente de regressão obtido quando -1/2 1 0 -1/2 é usado. Método 1: PROC GLM Para comparar o nível 1 ao nível 3, usamos os coeficientes de contraste 1 0 -1 0. Para comparar o nível 2 com os níveis 1 e 4 usamos os coeficientes de contraste -1/2 1 0 -1/2 . Finalmente, para comparar os níveis 1 e 2 com os níveis 3 e 4, usamos os coeficientes 1/2 1/2 -1/2 -1/2. Esses coeficientes são usados ​​nas declarações de estimativa abaixo. A estimativa de contraste para a primeira comparação é a média do nível 1 menos a média para o nível 3, e a significância disto é 0,525, isto é, não significativa. A segunda estimativa de contraste é de 7,743, que é a média do nível 2 menos a média do nível 1 e do nível 4, e essa diferença é significativa, p 0,008. The final contrast estimate is 1.1 which is the mean of levels 1 and 2 minus the mean of levels 3 and 4, and this contrast is not statistically significant, p .576. Method 2: Regression As in the prior example, we will make the following three comparisons: 1) level 1 to level 3, 2) level 2 to levels 1 and 4 and 3) levels 1 and 2 to levels 3 and 4. For methods 1 and 2 it was quite easy to translate the comparisons we wanted to make into contrast codings, but it is not as easy to translate the comparisons we want into a regression coding scheme. If we know the contrast coding system, then we can convert that into a regression coding system using the SAS program shown below. As you can see, we place the three contrast codings we want into the matrix c and then perform a set of matrix operations on c, yielding the matrix x . We then display x using the print command. Below we see the output from this program showing the regression coding scheme we would use. This converted the contrast coding into the regression coding that we need for running this analysis with proc reg . Below, we use if-then statements to create x1 . x2 and x3 according to the coding shown above and then enter them into the regression analysis. The first comparison of the mean of the dependent variable for level 1 to level 3 of the categorical variable was not statistically significant, while the comparison of the mean of the dependent variable for level 2 to that of levels 1 and 4 was. The comparison of the mean of the dependent variable for levels 1 and 2 to that of levels 3 and 4 also was not statistically significant. This page has described a number of different coding systems that you could use for categorical data, and two different strategies you could use for performing the analyses. You can choose a coding system that yields comparisons that make the most sense for testing your hypotheses. In general we would recommend using the easiest method that accomplishes your goals. 5.10 Additional Information Here are some additional resources. The content of this web site should not be construed as an endorsement of any particular web site, book, or software product by the University of California. The heroes, villains, and monsters from the Forgotten Realms are returning with DD Icons of the Realms: Monster Menagerie II. Available Now O merc com uma boca traz tudo o que você ama sobre ele para Marvel Dice Masters: Deadpool disponível agora Deadly Foes apresenta amigos e inimigos do mundo de Golarion e é certo para agradar aos fãs de Pathfinder novos e veteranos tanto agora disponíveis em seu FLGS agora Decore o seu castelo, a sala do trono ou os aposentos com esta incrível recriação do Dungeons Dragons Red Dragon - Pré-Encomende Agora Pré-venda Assault of the Giants hoje para comandar um dos seis tipos de gigantes e reivindicar o direito de governar toda a giantkind Colecione todos os 44 DD Icons dos Reinos: Storm Kings Thunder Miniatures - Disponíveis Agora conjure feitiços e compita contra outros magos em uma corrida épica por saque Rock Paper Wizard é um jogo de festa emocionante para 3-6 jogadores - Disponível agora Burkes Gambit disponível agora Prepare-se para uma borda de seu assento Thriller definido no espaço Clique neste banner para saber mais WizKids traz mais divertido Dice-Rolling para o Tabletop com o próximo lançamento, estrelas de dados - Compre Agora Blank Whi te Dice, desenhado por Jonathan Leistiko, é um emocionante novo jogo de dados sobre dados. Disponível Agora Marque as suas camisas, capuzes, merchandise e mais WizKids oficiais Reúna os seus heróis, construa as suas equipas e derrote os seus inimigos nos muitos reinos do mundo HeroClix. Em HeroClix você pode ser o herói que você sonhou ou o vilão de seus pesadelos. Com milhares de personagens para escolher e mapas de terreno de todo o universo, quem sabe onde o HeroClix irá levá-lo. Ataque de ataque é um jogo de miniaturas de combate tático em ritmo acelerado, com figuras colecionáveis ​​baseadas no Universo de Jornada nas Estrelas e os Reinos Esquecidos dos Dragões de Dungeons. Utilizando o sistema de manobras FlightPath, comande seu exército em combate épico para personalizar seu exército com equipamentos, armas, habilidades especiais e mais Dice Masters é uma oferta de marca cruzada de sucesso utilizando a plataforma de jogos de construção de propriedade da WizKids, onde os jogadores colecionam e montam sua equipe. dados de personagem e batalha em jogo cabeça-de-cabeça. Tal como acontece com Quarriors, o jogo que deu início a Dice Building Games, Michael Elliott e Eric M. Lang estão liderando o trabalho de design para o que certamente estará na lista de observação da maioria das pessoas. Jogar em qualquer lugar

Комментарии

Популярные сообщения