Odběr Biased
Zaujatý vzorek je statistický vzorek populace, kde je u některých členů populace menší pravděpodobnost, že budou zařazeni, než u ostatních. Extrémní forma zaujatého výběru se vyskytuje, když jsou určití členové populace ze vzorku zcela vyloučeni (to znamená, že mají nulovou pravděpodobnost, že budou vybráni). Například průzkum mezi středoškoláky, který měří užívání nelegálních drog mladistvými, bude zaujatým vzorkem, protože nezahrnuje studenty domácího vzdělávání nebo odpadlíky. Vzorek je také zaujatý, pokud jsou určití členové nedostatečně zastoupeni nebo nadměrně zastoupeni ve srovnání s ostatními v populaci. Například rozhovor s „mužem na ulici“, který vybírá lidi, kteří chodí kolem určitého místa, bude mít nadměrné zastoupení zdravých jedinců, u nichž je větší pravděpodobnost, že budou mimo domov, než u jedinců s chronickým onemocněním.
Problémy způsobené zkresleným vzorkem
Zaujatý vzorek způsobuje problémy, protože jakákoli statistika vypočtená z tohoto vzorku má potenciál být soustavně chybná. Zaujatost může vést k nadměrnému nebo nedostatečnému zastoupení odpovídajícího parametru v souboru. Téměř každý vzorek je v praxi zaujatý, protože je prakticky nemožné zajistit dokonale náhodný vzorek. Pokud je stupeň nedostatečného zastoupení malý, může být vzorek považován za rozumnou aproximaci náhodnému vzorku. Také pokud se skupina, která je nedostatečně zastoupena, výrazně neliší od ostatních skupin v měřeném množství, pak může být náhodný vzorek stále rozumnou aproximací.
Slovo zkreslení v běžném užívání má silnou negativní konotaci a implikuje záměrný záměr klamat. Ve statistickém užívání představuje zkreslení matematickou vlastnost. Zatímco někteří jedinci mohou záměrně používat zkreslený vzorek k vytváření zavádějících výsledků, častěji je zkreslený vzorek jen odrazem obtížnosti získání skutečně reprezentativního vzorku.
Mohlo by vás zajímat: Odběr vzorků (experimentální)
Některé vzorky používají konstrukci, která je záměrně zkreslená. Národní středisko pro zdravotní statistiku USA bude v mnoha svých celostátních průzkumech záměrně nadměrně odebírat vzorky z menšinových populací, aby získalo dostatečnou přesnost pro odhady v rámci těchto skupin (NCHS 2007). Tyto průzkumy vyžadují použití váhy vzorků (viz níže), aby byly vytvořeny správné odhady napříč všemi rasovými a etnickými skupinami.
Příklady zkreslených vzorků
Online a telefonické průzkumy jsou zkreslené vzorky, protože respondenti jsou vybíráni sami. Ti jedinci, kteří jsou vysoce motivováni k odpovědi, typicky jedinci, kteří mají silné názory, jsou nadměrně zastoupeni a jedinci, kteří jsou lhostejní nebo apatičtí, mají menší pravděpodobnost, že odpoví. To často vede k polarizaci odpovědí s tím, že extrémním perspektivám je v souhrnu přisuzována nepřiměřená váha. V důsledku toho jsou tyto typy průzkumů považovány za nevědecké.
Klasický příklad zkresleného vzorku a zavádějících výsledků, které přinesl, se objevil v roce 1936. V prvních dnech průzkumu veřejného mínění shromáždil americký časopis Literary Digest přes dva miliony poštovních průzkumů a předpověděl, že republikánský kandidát v prezidentských volbách v USA Alf Landon porazí stávajícího prezidenta Franklina Roosevelta s velkým náskokem. Výsledek byl přesně opačný. Průzkum Literary Digest představoval vzorek shromážděný od čtenářů časopisu, doplněný záznamy registrovaných majitelů automobilů a uživatelů telefonů. Tento vzorek zahrnoval nadměrné zastoupení jednotlivců, kteří byli bohatí a kteří jako skupina s větší pravděpodobností volili republikánského kandidáta. Naopak průzkum mezi pouhými 50 tisíci občany vybranými organizací George Gallupa úspěšně předpověděl výsledek, což vedlo k popularitě Gallupova průzkumu.
Další klasický příklad se objevil v prezidentských volbách v roce 1948. V den voleb otiskl list Chicago Tribune titulek DEWEY DEFEATS TRUMAN, který se ukázal jako mylný. Ráno byl usměvavý zvolený prezident Harry S. Truman vyfotografován, jak drží noviny s tímto titulkem. Důvodem, proč se deník Tribune zmýlil, je to, že jejich redaktor věřil výsledkům telefonického průzkumu. Průzkumový výzkum byl tehdy v plenkách a jen málo akademiků si uvědomilo, že vzorek uživatelů telefonů není reprezentativní pro běžnou populaci. Telefony ještě nebyly rozšířené a ti, kdo je měli, měli tendenci prosperovat a mít stabilní adresy. (V mnoha městech obsahoval telefonní seznam Bell System stejná jména jako sociální registr.)Navíc průzkum Gallupova ústavu, na kterém Tribune založil svůj titulek, byl v době tisku více než dva týdny starý.
Statistické korekce pro zaujatý vzorek
Pokud jsou z výběru vyloučeny celé segmenty populace, pak neexistují žádné úpravy, které by mohly vést k odhadům, které jsou reprezentativní pro celou populaci. Ale pokud jsou některé skupiny nedostatečně zastoupeny a můžete kvantifikovat míru nedostatečného zastoupení, pak výběrové váhy mohou zkreslení korigovat.
Například hypotetická populace by mohla zahrnovat 10 milionů mužů a 10 milionů žen. Předpokládejme, že zaujatý vzorek 100 pacientů by zahrnoval 20 mužů a 80 žen. Výzkumník by mohl tuto nerovnováhu korigovat tím, že přidělí váhu 2,5 pro každého muže a 0,625 pro každou ženu. Tím by se upravily veškeré odhady tak, aby se dosáhlo stejné očekávané hodnoty jako vzorek, který zahrnoval přesně 50 mužů a 50 žen.
Klam Spotlight je spáchán tehdy, když osoba nekriticky předpokládá, že všichni členové nebo případy určité třídy nebo typu jsou jako ti, kterým se dostává největší pozornosti nebo pozornosti v médiích. Tento směr „uvažování“ má následující podobu:
1. Xům s kvalitou Q se dostává velké pozornosti nebo pozornosti v médiích. 2. Proto všechna Xa mají kvalitu Q.
Tato argumentace je mylná, protože pouhý fakt, že někdo nebo něco přitahuje největší pozornost nebo publicitu v médiích, neznamená, že to automaticky reprezentuje celou populaci. Předpokládejme například, že masovému vrahovi ze Starého Města v Maine se dostalo velké pozornosti v médiích. Těžko by z toho vyplývalo, že všichni z města jsou masoví vrazi.
Klam Spotlight odvozuje svůj název od skutečnosti, že získání velké pozornosti nebo zpravodajství je často označováno jako být v centru pozornosti. Podobá se Hasty Generalization, Biased Sample a Misleading Vividness, protože chyba spočívá v zobecnění o populaci založené na nedostatečném nebo chybném vzorku. Klam Spotlight je velmi častý klam. Tento klam se nejčastěji objevuje, když lidé předpokládají, že ti, kterým se dostává největší mediální pozornosti, ve skutečnosti reprezentují skupiny, ke kterým patří. Někteří lidé například začali věřit, že všichni, kteří jsou proti potratům, jsou ochotni chladnokrevně postřílet lékaře jen proto, že se těmto incidentům dostalo velké mediální pozornosti. Vzhledem k tomu, že zpravodajská média obvykle pokrývají lidi nebo události, které jsou neobvyklé nebo výjimečné, je poněkud zvláštní, když lidé věří, že takoví lidé nebo události jsou reprezentativní.