Vícenásobné srovnání

Ve statistice se problém vícenásobného porovnávání vyskytuje tehdy, když jeden podrobí několik nezávislých pozorování stejnému akceptačnímu kritériu, které by bylo použito při zvažování jedné události.

Kritérium přijatelnosti jedné události má obvykle podobu požadavku, aby sledované údaje byly vysoce nepravděpodobné za standardního předpokladu (nulová hypotéza). Vzhledem k tomu, že počet nezávislých aplikací kritéria přijatelnosti začíná převažovat nad vysokou nepravděpodobností spojenou s každým jednotlivým testem, je stále pravděpodobnější, že údaje, které splňují kritérium přijatelnosti, budeme pozorovat pouze náhodou (i když výchozí předpoklad je ve všech případech pravdivý). Tyto chyby jsou považovány za falešně pozitivní, protože pozitivně identifikují soubor pozorování jako vyhovující kritériu přijatelnosti, zatímco tyto údaje ve skutečnosti představují nulovou hypotézu. Bylo vyvinuto mnoho matematických technik, které mají čelit falešně pozitivní chybovosti spojené s prováděním vícenásobných statistických srovnání.

Například by se dalo prohlásit, že mince byla zaujatá, pokud při 10 hodech padla alespoň 9krát hlava. Pokud by se skutečně předpokládalo, že je mince spravedlivá, pak pravděpodobnost, že by spravedlivá mince padla alespoň 9krát z 10krát hlava, je 11/210=0,0107. To je relativně nepravděpodobné a podle většiny statistických kritérií (jako je hodnota p<0,05) by se dalo prohlásit, že nulová hypotéza by měla být odmítnuta – tj. mince je nespravedlivá.

Mohlo by vás zajímat: Vícenásobné škálování

Problém s vícenásobným porovnáním nastává, pokud by člověk chtěl použít tento test (který je vhodný pro testování férovosti jedné mince), aby otestoval férovost mnoha mincí. Představte si, že by člověk touto metodou otestoval 100 spravedlivých mincí. Vzhledem k tomu, že pravděpodobnost, že spravedlivá mince padne 9 nebo 10 hlav v 10 hodech, je 0,0107, dalo by se očekávat, že při hodu 100 spravedlivých mincí desetkrát za sebou by bylo stále velmi nepravděpodobné, že by určitá (tj. předem vybraná) mince padla 9 nebo 10 hlav, ale vidět, že by se kterákoli z mincí chovala tímto způsobem, by bylo spíše pravděpodobné než nepravděpodobné. Přesně tak, pravděpodobnost, že všech 100 spravedlivých mincí bude tímto kritériem označeno za spravedlivé, je (1-0,0107)100=0,34. Proto by použití našeho kritéria spravedlivosti při jednorázovém testu na vícenásobné porovnávání s větší pravděpodobností než nepravdivě označilo spravedlivou minci za nespravedlivou.

Technicky lze problém vícenásobného porovnávání (také známý jako vícenásobný testovací problém) popsat jako potenciální nárůst chyby typu I, ke kterému dochází při opakovaném použití statistických testů: Pokud se provádí n nezávislých porovnávání, je celoexperimentální hladina významnosti α (alfa) dána

a zvyšuje se, jak se zvyšuje počet srovnání.

Aby byla zachována stejná celková míra falešně pozitivních výsledků (spíše než vyšší míra) v testu zahrnujícím více než jedno srovnání, musí být standardy pro každé srovnání přísnější. Intuitivně, snížení velikosti přípustné chyby (alfa) pro každé srovnání o počet srovnání povede k celkové alfa, která nepřekročí požadovanou mez, a to může být matematicky prokázáno jako pravda. Například pro získání obvyklé alfa 0,05 s deseti srovnáními je třeba alfa 0,005 pro každé srovnání, aby výsledkem byla celková alfa, která nepřekročí 0,05.

Lze však prokázat, že tato technika je příliš konzervativní, tj. ve skutečnosti bude mít za následek skutečnou alfu výrazně nižší než 0,05; čímž se zvýší podíl falešných negativů, nepodaří se identifikovat zbytečně vysoké procento skutečných významných rozdílů v datech.

Nástup počítačových metod převzorkování, jako je bootstrapping a Monte Carlo simulace, dal vzniknout mnoha technikám v druhé kategorii. V některých případech, kdy se provádí vyčerpávající převzorkování permutací, poskytují tyto testy přesnou a silnou kontrolu chybovosti typu I, v jiných případech, jako je bootstrap vzorkování, poskytují pouze přibližnou kontrolu.

Post hoc testování ANOVAs

Po získání významného omnibusového testu se běžně používá více porovnávacích procedur, například ANOVA F-test. Významný výsledek ANOVA naznačuje odmítnutí globální nulové hypotézy H0 = „průměry jsou stejné“. K určení, které průměry se od sebe liší, se pak používá více porovnávacích procedur.

Porovnání K znamená párové porovnání K(K − 1)/2.