Przewodnik po zabiegu benjaminiego-hochberga
Za każdym razem, gdy przeprowadzasz test statystyczny, jest możliwe, że przez czysty przypadek otrzymasz wartość p mniejszą niż 0,05, nawet jeśli twoja hipoteza zerowa jest prawdziwa.
Załóżmy na przykład, że chcesz wiedzieć, czy dana roślina ma średnią wysokość większą niż 10 cali. Twoje hipotezy zerowe i alternatywne do testowania byłyby następujące:
H 0 : μ = 10 cali
H A : μ > 10 cali
Aby przetestować tę hipotezę, możesz wyjść i pobrać losową próbkę 20 roślin do pomiaru. Mimo że rzeczywista średnia wysokość tego gatunku roślin wynosi 10 cali, możliwe jest, że wybrałeś próbkę 20 niezwykle wysokich roślin, co doprowadziło do odrzucenia hipotezy zerowej.
Nawet jeśli hipoteza zerowa była prawdziwa (średnia wysokość tej rośliny wynosiła w rzeczywistości 10 cali), odrzuciłeś ją. W statystykach nazywamy to „fałszywym odkryciem”. Twierdzisz, że dokonałeś odkrycia – „znaczącego wyniku” – ale w rzeczywistości jest to nieprawda.
Teraz wyobraź sobie, że przeprowadzasz 100 testów statystycznych na raz. Przy poziomie alfa 0,05 prawdopodobieństwo dokonania fałszywego odkrycia w pojedynczym teście wynosi tylko 5%, ale ponieważ przeprowadza się tak dużą liczbę testów, można się spodziewać, że tylko około 5 na 100 doprowadzi do fałszywych odkryć.
We współczesnym świecie fałszywe odkrycia mogą być częstym problemem, ponieważ technologia umożliwiła badaczom przeprowadzanie setek, a nawet tysięcy testów statystycznych jednocześnie.
Na przykład badacze medyczni mogą przeprowadzać testy statystyczne na dziesiątkach tysięcy genów jednocześnie. Nawet przy wskaźniku fałszywych odkryć wynoszącym zaledwie 5% oznacza to, że setki testów mogą skutkować fałszywymi odkryciami.
Jednym ze sposobów kontrolowania współczynnika fałszywych odkryć jest zastosowanie tak zwanej procedury Benjaminiego-Hochberga.
Procedura Benjaminiego-Hochberga
Procedura Benjaminiego-Hochberga działa w następujący sposób:
Krok 1: Wykonaj wszystkie testy statystyczne i znajdź wartość p dla każdego testu.
Krok 2: Uszereguj wartości p w kolejności malejącej, przypisując każdemu rangę: najmniejsza wartość ma rangę 1, kolejna najmniejsza ma rangę 2 itd.
Krok 3: Oblicz krytyczną wartość Benjaminiego-Hochberga dla każdej wartości p, korzystając ze wzoru (i/m)*Q
Złoto:
i = ranga wartości p
m = całkowita liczba testów
Q = wybrany współczynnik fałszywych odkryć
Krok 4: Znajdź największą wartość p mniejszą niż wartość krytyczna. Oznacz każdą wartość p mniejszą niż ta wartość p jako znaczącą.
Poniższy przykład ilustruje sposób przeprowadzenia tej procedury z konkretnymi wartościami.
Przykład
Załóżmy, że badacze chcą ustalić, czy 20 różnych zmiennych ma związek z chorobami serca. Wykonują jednocześnie 20 indywidualnych testów statystycznych i otrzymują wartość p dla każdego testu. Poniższa tabela przedstawia wartości p dla każdego testu, wymienione w kolejności malejącej.
Załóżmy, że badacze są skłonni zaakceptować odsetek fałszywych odkryć wynoszący 20%. Zatem, aby obliczyć krytyczną wartość Benjaminiego-Hochberga dla każdej wartości p, możemy użyć następującego wzoru: (i/20)*0,2 gdzie i = ranga wartości p.
Poniższa tabela przedstawia krytyczną wartość Benjaminiego-Hochberga dla każdej indywidualnej wartości p:
Testem o największej wartości p poniżej wartości krytycznej Benjaminiego-Hochberga jest zmienna nr 11, która ma wartość p 0,039 i wartość krytyczną BH 0,040.
Zatem ten test i wszystkie testy z mniejszą wartością p zostaną uznane za istotne.
Należy zauważyć, że chociaż zmienne #17 i #3 nie miały wartości p mniejszych niż ich wartości krytyczne BH, nadal są uważane za istotne, ponieważ mają mniejsze wartości p niż zmienna #11.
Jak wybrać współczynnik fałszywych odkryć
Jednym z najważniejszych etapów procedury Benjaminiego-Hochberga jest wybór współczynnika fałszywych odkryć. Powinieneś wybrać współczynnik fałszywych odkryć przed zebraniem danych lub wykonaniem testów statystycznych.
Zazwyczaj w fazie eksploracyjnej analizy wykonasz dużą liczbę testów statystycznych, po których następnie wykonasz inne testy, aby dokładniej zbadać wyniki.
Jeśli dalsze testy są niedrogie, możesz rozważyć ustawienie wyższego współczynnika fałszywych odkryć, ponieważ nawet jeśli masz kilka fałszywych odkryć, prawdopodobnie odkryjesz je w kolejnych testach.
Dodatkowo, jeśli koszt przeoczenia ważnego odkrycia jest wysoki, możesz zwiększyć odsetek fałszywych odkryć, aby nie przeoczyć niczego ważnego.
W zależności od kosztów badań i tego, jak ważne jest, aby nie pominąć żadnych ważnych ustaleń, wskaźnik fałszywych odkryć będzie się różnić w zależności od sytuacji.
Dodatkowe zasoby
Wyjaśnienie wartości P i istotności statystycznej
Jaki jest poziom błędu na rodzinę?