Ontbrekende gegevens Mechanismen

Zoals bijna elke onderzoeker kan getuigen, ontbrekende gegevens zijn een wijdverbreid probleem. Gegevens uit enquêtes, experimenten, en secundaire bronnen zijn vaak ontbreekt een aantal gegevens. Het effect van de ontbrekende gegevens over de resultaten van de statistische analyse is afhankelijk van het mechanisme dat de oorzaak van de data te ontbreken en de wijze waarop de analist omgaat. Dit is de eerste in een serie van drie artikelen die kwesties rond ontbrekende gegevens bespreekt. Dit artikel schetst de mechanismen van ontbrekende gegevens en een aantal van hun effecten. Daaropvolgende artikelen zullen gemeenschappelijke maar problematisch oplossingen uit te leggen aan ontbrekende gegevens, nieuwe en betere oplossingen, en de software die beschikbaar is voor de implementatie van deze oplossingen.

De gegevens ontbreken om vele redenen. Proefpersonen in longitudinale studies vaak afhaken voordat het onderzoek is afgerond, omdat ze uit het gebied zijn verhuisd, gestorven, niet langer persoonlijk voordeel te zien aan de deelnemende of niet van de effecten van de behandeling. Enquêtes lijden ontbrekende gegevens wanneer de deelnemers te weigeren, of niet weet het antwoord op of een item per ongeluk overslaan. Sommige enquêteonderzoekers ontwerpen zelfs de studie zodat een aantal vragen worden gesteld van slechts een subset van de deelnemers. Experimentele studies hebben ontbrekende gegevens wanneer een onderzoeker is gewoon niet in staat om een ​​observatie te verzamelen. Slechte weersomstandigheden kan observatie onmogelijk veldexperimenten maken. Een onderzoeker ziek of apparatuur uitvalt. Gegevens mag ontbreken in elk type van de studie als gevolg van toevallige of data-entry fout. Een onderzoeker daalt een lade van reageerbuizen. Een data-bestand beschadigd raakt. De meeste onderzoekers zijn zeer vertrouwd met één (of meer) van deze situaties.

Ontbrekende gegevens zijn problematisch omdat de meeste statistische procedures vereisen een waarde voor elke variabele. Wanneer een dataset onvolledig is, de data-analist heeft om te beslissen hoe om te gaan met het. De meest voorkomende beslissing is om complete case analyse (ook wel listwise schrapping) gebruiken - het analyseren van alleen de gevallen met volledige gegevens. Personen met ontbrekende gegevens over alle variabelen zijn gedaald van de analyse. Het heeft voordelen - het is eenvoudig te gebruiken, is zeer eenvoudig en is de standaard in meeste statistische pakketten. Maar heeft beperkingen. Het kan in hoofdzaak steekproefomvang verlagen, wat leidt tot een ernstig gebrek aan macht. Dit geldt vooral als er veel variabelen betrokken zijn bij de analyse, elk met gegevens ontbreken enkele gevallen. Het kan ook leiden tot vertekende resultaten, afhankelijk van de reden waarom de gegevens ontbreken.

Alle oorzaken voor ontbrekende data passen in vier klassen, die gebaseerd zijn op de relatie tussen de ontbrekende data mechanisme en de ontbrekende en geobserveerd waarden. Deze klassen zijn belangrijk om te begrijpen, omdat de problemen die worden veroorzaakt door ontbrekende gegevens en de oplossingen voor deze problemen zijn verschillend voor de vier klassen.

De eerste is volledig Missing op Random (MCAR). MCAR betekent dat de ontbrekende data mechanisme los van de waarden van elke variabele, of ontbrekende of waargenomen. Gegevens die ontbreken, omdat een onderzoeker liet de reageerbuizen of deelnemers aan de enquête per ongeluk overgeslagen vragen zijn waarschijnlijk MCAR zijn. Als de gemeten waarden zijn in wezen een willekeurige steekproef van de volledige dataset, volledige case-analyse geeft dezelfde resultaten als de volledige dataset zou hebben. Helaas zijn de meeste ontbrekende gegevens niet MCAR.

Aan het andere uiteinde van het spectrum is een niet-ignorable (NI). NI betekent dat de ontbrekende data mechanisme heeft betrekking op de ontbrekende waarden. Het komt vaak voor dat mensen niet willen iets heel persoonlijks of impopulaire onthullen over zichzelf. Bijvoorbeeld, als mensen met hogere inkomens hebben minder kans om te laten zien op een enquête zijn dan mensen met lagere inkomens, de ontbrekende gegevens mechanisme voor het inkomen is niet ignorable. Of ontbreekt of waargenomen is gerelateerd aan de waarde van het inkomen. Volledige case analyse kan zeer tendentieuze resultaten voor NI ontbrekende gegevens te geven. Als proportioneel meer lage en matig inkomen individuen worden achtergelaten in de steekproef, omdat een hoog inkomen mensen worden vermist, een schatting van het gemiddelde inkomen lager zal zijn dan de werkelijke populatie betekenen zijn.

Tussen deze twee uitersten zijn Missing bij Random (MAR) en Covariate Dependent (CD). Beide klassen vereisen dat de oorzaak van de ontbrekende data verband houdt met het ontbrekende waarden, maar kan verband houden met de waargenomen waarden van andere variabelen. MAR betekent dat de ontbrekende waarden zijn gerelateerd aan ofwel waargenomen covariaten of responsvariabelen, terwijl CD betekent dat de ontbrekende waarden alleen betrekking op covariaten. Als voorbeeld van CD ontbrekende data kan ontbrekende inkomensgegevens los van de reële inkomenswaarde, maar zijn aan onderwijs. Misschien mensen met meer onderwijs hebben minder kans om hun inkomen dan mensen met minder onderwijs te geven.

Een belangrijk onderscheid is de vraag of het mechanisme is ignorable (dwz MCAR, cd of MAR) of niet-ignorable. Er zijn uitstekende technieken voor het omgaan met ignorable ontbrekende gegevens. Non-ignorable ontbrekende gegevens zijn meer uitdagend en vereisen een andere aanpak
.

business consulting

  1. Hoe een bedrijf te verkopen
  2. Vinyl banners-effectieve manier van adverteren in het beveiligen van Customer Attention
  3. Als Cash is koning, dan Cultuur is Queen
  4. Beperkingen van gemeenschappelijke oplossingen voor Missing Data
  5. Een gids voor het kopen van Secure bifolding deuren in Melbourne
  6. Het maken van de meeste van uw beursstand
  7. Mariene Software
  8. Een succesvol bedrijf door middel van Employee Engagement
  9. Het kiezen van de beste SEO Consultants
  10. Global Warming en industriële groei, Our World is op Stake
  11. De New Performance Evaluation
  12. Je differentiëren over Google plaatsen
  13. 6% van de Andalusiërs zegt verkopen hun ongewenste geschenken deze kerst, volgens een studie
  14. Kunt u gebruik maken Bifold deuren in Melbourne Commercieel?
  15. NCAA Jerseys - De Favoriete Tams College Honkbal Jerseys
  16. Met behulp van de kracht van Direct Mailing Voor de marketing van uw Koophandel - 2113
  17. Punten om te onthouden voor het huren van een elektrische aannemer
  18. Hoe de beste Drupal programmeur voor uw website te vinden?
  19. Rol BPO-dienst Bedrijven spelen in de Telecom sector
  20. Een akte In plaats van afscherming kan helpen huiseigenaren en Pay Investeerders