Wednesday, 4 October 2017

Delete Missing Data In Stata Forex


Brian Albert Monroe está bastante certo de que qualquer pessoa usando dropmiss (SJ) precisa instalá-lo primeiro. Como há interesse em diferentes maneiras de resolver este problema, vou acrescentar outro. Embora seja um comentário sob Brians resposta, vou adicionar aqui um comentário aqui como (a) este formato é mais adequado para mostrar código (b) o comentário segue do meu código acima. Concordo que unab é um comando útil e muitas vezes elogiou em público. Aqui, no entanto, é desnecessário como Brians loops poderia facilmente iniciar algo como UPDATE setembro de 2015: See statalist. org/forums/forum/general-stata-discussion/general/1308777-missings-now-available-from-ssc-new - Programa-para-gestão-missings para a informação em missings. Considerado pelo autor de ambos para ser uma melhoria em dropmiss. A sintaxe para soltar observações se e somente se todos os valores estiverem ausentes é faltas dropobs. Mais uma maneira de fazer isso o que ajuda você a descobrir como macros locais flexíveis são sem instalar nada extra para Stata. Eu raramente vejo código usando locais armazenando comandos ou condições lógicas, embora muitas vezes seja muito útil. Agora dropmiss pode ser conveniente uma vez youve baixado e instalado, mas se você estiver escrevendo um arquivo do para ser usado por outra pessoa, a menos que eles também têm dropmiss instalado, o seu código não vai funcionar em sua máquina. Com esta abordagem, se você remover as linhas de comentários e os dois comandos de lista desnecessários, este é um bastante esparso 5 linhas de código que será executado com Stata fora da caixa. Respondido 7 de agosto às 22:31 variáveis ​​quotlocal em seu texto deve ler macrosquot local. O limite de Stata39s (12) em caracteres para uma macro é: 8,681 (pequeno), 165,200 (IC) e 1,081,511 (MP / SE). Isso é suficiente para manter alguns nomes de variáveis. Ajuda é a referência aqui. No seu exemplo, r (varlist) detém realmente todos os nomes de variáveis. Você só precisa executar display quotr (varlist) 39quot (observe as aspas). Como uma nota de lado: se você quiser se referir a todas as variáveis ​​no conjunto de dados, você pode usar tudo. Por exemplo, foreach vname de varlist tudo que eu acho que ainda é importante notar que o ponto que eu fiz inicialmente foi que as macros locais podem armazenar condições lógicas. Em muitos conjuntos de dados onde o conjunto de dados é derivado de pesquisas, os dados ausentes são muitas vezes recodificados como -9 ou -99, também uma resposta de quotI don39t knowquot pode ser registrado como um -33. Muitas vezes, é apropriado descartar esses dados para certas análises, caso em que a ausência () é inadequada. O código que eu exibir pode ser facilmente modificado para esta finalidade. Ndash Brian Albert Monroe 8 de agosto às 20: 40Missing MT4 Dados Querendo saber se alguém tem esse problema ou pode sugerir uma solução. Estou tentando backtest alguns EAs em MT4, mas encontraram buracos em meus dados MT4. Eu excluiu todos os arquivos na pasta de histórico (MT4historydownloads) e na pasta MT4historyGoMarkets-Demo e, em seguida, recarregado novamente a partir do Centro de História, mas eu ainda obter os mesmos buracos. Im com Go Austrália (embora eles dizem que os dados vem dos servidores Metatrader). Até agora eu identifiquei Sep08 a 08 de dezembro, além de alguns dias como sendo ausentes para AUDJPY e março 13 a 25 mar 2010 para EURUSD. Obrigado por qualquer ajuda. Bem-vindo ao Instituto de Pesquisa Digital e Educação Stata FAQ: Como posso ver o número de valores faltantes e padrões de valores ausentes no meu arquivo de dados Às vezes, um conjunto de dados pode ter quotholesquot nele, isto é, faltando Valores. Alguns procedimentos estatísticos, como a análise de regressão, não funcionarão tão bem, ou em absoluto, num conjunto de dados com valores em falta. As observações com valores em falta têm de ser eliminadas ou os valores em falta têm de ser substituídos para que um procedimento estatístico produza resultados significativos. A maioria dos programas estatísticos (incluindo SAS, SPSS e Stata) removerá automaticamente esses casos de qualquer análise executada (sem excluir os casos do conjunto de dados). É por isso que o quotnquot muitas vezes varia de análise para análise, mesmo se o conjunto de dados é o mesmo. Diferentes variáveis ​​têm quantidades diferentes de dados em falta e, portanto, a alteração das variáveis ​​num modelo altera o número de casos com dados completos sobre todas as variáveis ​​no modelo. Como o software descarta casos com valores faltantes para nós, é muito fácil quotforgetquot sobre dados ausentes completamente. No entanto, a presença de dados em falta pode influenciar os nossos resultados, especialmente quando um conjunto de dados ou mesmo uma única variável, tem uma elevada percentagem de valores em falta. Assim, é sempre uma boa idéia verificar um conjunto de dados para dados ausentes e pensar sobre como os dados ausentes podem influenciar nossas análises. Esta página mostra alguns métodos de olhar para valores em falta em um conjunto de dados, essas informações podem ser usadas para tomar decisões melhor informadas sobre como lidar com os valores ausentes. Antes de começar, precisamos de alguns dados com valores ausentes, o código abaixo insere um pequeno conjunto de dados no Stata e, em seguida, exibe esses dados. Em um pequeno conjunto de dados, como o abaixo, é muito fácil olhar para os dados brutos e ver onde os valores estão faltando. No entanto, quando os conjuntos de dados são grandes, precisamos de uma maneira mais sistemática para examinar o nosso conjunto de dados para valores em falta. Abaixo mostramos algumas maneiras de fazer isso, usando os dados abaixo como exemplo. 1. Número de valores em falta versus número de valores não faltantes A primeira coisa que vamos fazer é determinar quais variáveis ​​têm muitos valores em falta. Criamos um pequeno programa Stata chamado mdesc que conta o número de valores faltantes em variáveis ​​numéricas e de caractere. Você pode fazer o download do mdesc no Stata digitando findit mdesc (consulte Como usar o comando findit para procurar programas e obter ajuda adicional para obter mais informações sobre o uso do finidit). Em seguida, você pode executar mdesc para uma ou mais variáveis ​​conforme ilustrado abaixo. Agora sabemos o número de valores em falta em cada variável. Por exemplo, salepric variável tem quatro valores em falta e saltoapr tem dois valores em falta. 2. Obtendo o número de valores faltantes por observação Também podemos observar a distribuição de valores faltantes entre as observações. O código abaixo cria uma variável chamada nmis que dá o número de valores em falta para cada observação. A função rmiss2 () usada aqui é uma extensão para a função egen rmiss (). Conta o número de valores ausentes na varlist. Rmiss2 () aceita variáveis ​​de cadeia e numéricas. Você pode fazer o download rmiss2 () através da Internet a partir do Stata digitando findit rmiss2 (veja Como posso usar o comando findit para procurar programas e obter ajuda adicional para obter mais informações sobre como usar o findit ). Abaixo, tabulamos a variável que acabamos de criar. Observando a tabela de frequências, sabemos que existem quatro observações sem valores em falta, nove observações com um em falta, uma observação com dois valores em falta e uma observação com três valores em falta. 3. Padrões de valores em falta Podemos também olhar para os padrões de valores em falta. Você pode fazer o download de mvpatterns através da Internet no Stata digitando findit mvpatterns (consulte Como usar o comando findit para procurar programas e obter ajuda adicional para obter mais informações sobre como usar o findit). O comando mvpatterns produz saída para todas as variáveis ​​no dataset, para padrões de dados ausentes em um subconjunto de variáveis, uma lista de variáveis ​​pode ser incluída, por exemplo, mvpatterns landval improval totval. A saída produzida por mvpatterns é mostrada abaixo. A primeira tabela lista as variáveis, seu tipo de armazenamento (tipo), o número de observações (obs), o número de valores ausentes (mv) eo rótulo da variável se as variáveis ​​tiverem um. A segunda tabela contém as informações sobre o padrão de valores em falta. O primeiro bloco de colunas na saída mostra os padrões de dados em falta. Dentro do bloco, cada variável é representada por uma coluna, uma quotquot indica que os valores dessa variável estão presentes em um determinado padrão de dados faltantes, um quot. quot indica que eles estão faltando. As colunas seguem a mesma ordem que a lista de variáveis ​​na primeira tabela, de modo que a primeira coluna na saída abaixo representa landval. A segunda improv. e assim por diante. Os padrões de dados em falta estão listados em frequência descendente, aqui o padrão de dados em falta mais comum é dados completos (quotquot). A tabela também mostra o número de valores em falta nesse padrão (mv) eo número de casos com esse padrão de dados em falta (freq). Com base nas informações da segunda tabela, sabemos que há quatro observações sem valores faltantes, dois casos faltando apenas na variável salepric. E uma observação com valores faltantes na improvação. Salepric e saltoapr. 4. Quando todas as variáveis ​​de interesse são numéricas Os exemplos acima de tudo funcionam independentemente de as variáveis ​​de interesse (ou seja, as variáveis ​​cujos padrões de dados ausentes você deseja examinar) serem numéricas ou de seqüência de caracteres. Quando todas as variáveis ​​que você deseja verificar os valores em falta são numéricas, podemos usar um programa chamado misschk para simplificar as etapas de examinar os dados em falta no nosso conjunto de dados. (Observação: as variáveis ​​numéricas incluem aqueles com rótulos de valor que são strings, desde que os valores reais das variáveis ​​sejam armazenados como números.) Você pode baixar misschk no Stata digitando findit misschk (consulte Como posso usar o comando findit para Procure programas e obtenha ajuda adicional para obter mais informações sobre como usar o findit). Abaixo está o comando para misschk. Foram listadas todas as cinco variáveis ​​em nosso conjunto de dados na lista de variáveis ​​após o comando misschk. No entanto, nós poderíamos ter deixado a lista de variáveis ​​em branco (ou seja, usamos apenas misschk. Gen (miss) em vez disso), se tivéssemos, misschk teria executado usando todas as variáveis ​​em nosso conjunto de dados. A lista de variáveis ​​só é necessária se quisermos executar misschk apenas em algumas das variáveis ​​do nosso conjunto de dados. A opção gen (miss) diz a misschk que queremos que crie duas novas variáveis, ambas começando com quotmissquot. Essas duas variáveis ​​serão denominadas misspattern e missnumber. A variável misspattern indica qual dos padrões de dados ausentes segue cada caso. A variável missnumber indica o número de valores em falta para cada caso. A saída para misschk consiste em três tabelas. A primeira tabela lista o número de valores em falta, bem como percentagem de falta para cada variável, isto é semelhante à tabela produzida pelo mdesc na parte 1 acima. Esta tabela também contém uma coluna rotulada que atribui a cada variável um número que é usado para identificar a variável mais tarde na saída. A segunda tabela mostra a distribuição dos valores faltantes. O padrão de missingness é descrito usando os números variáveis ​​da primeira tabela, e underscores (). Os números indicam quais variáveis ​​estão faltando nesse padrão, os sublinhados representam observações não faltantes. Por exemplo, a partir da segunda tabela vemos que dois casos faltam valores na variável 1 (landval), mas dados completos sobre todas as outras variáveis, e que um caso está faltando dados nas variáveis ​​2, 4 e 5. A linha inferior mostra Que quatro casos não estão faltando nenhum valor em todos (todos os sublinhados). Esta tabela mostra as mesmas informações geradas na parte três acima, mas em um formato ligeiramente diferente. O padrão de dados em falta para cada caso é descrito na variável misspattern. Finalmente, a terceira tabela mostra a distribuição do número de valores faltantes por caso. Esta é a mesma informação discutida acima na parte 2. O número de variáveis ​​que cada caso está faltando também está contido na variável missnumber. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico pela Universidade da Califórnia.

No comments:

Post a Comment