T-TEST i ANOVA
T-TEST vs ANOVA
Gromadzenie i obliczanie danych statystycznych w celu uzyskania średniej jest często długim i żmudnym procesem. Test t-Studenta i jednoczynnikowa analiza wariancji (ANOVA) to dwa najczęściej stosowane testy do tego celu.
Test t jest testem hipotez statystycznych, w którym statystyka testowa podąża za rozkładem Studenta, jeśli podtrzymana jest hipoteza zerowa. Ten test jest stosowany, gdy statystyki testu są zgodne z rozkładem normalnym, a wartość parametru skalującego w statystykach testowych jest znana. Jeśli termin skalowania nie jest znany, zostaje on zastąpiony oszacowaniem opartym na dostępnych danych. Statystyka testu będzie następować po t-Studencie.
William Sealy Gosset wprowadził statystykę t w 1908 roku. Gosset był chemikiem w browarze Guinnessa w Dublinie w Irlandii. Browar Guinnessa prowadził politykę rekrutowania najlepszych absolwentów z Oxfordu i Cambridge, wybierając spośród tych, którzy mogliby dostarczać aplikacje biochemii i statystyki do ustalonych procesów przemysłowych firmy. William Sealy Gosset był jednym z takich absolwentów. W procesie tym William Sealy Gosset opracował test t-owy, który pierwotnie był przewidziany jako sposób monitorowania jakości stouta (ciemne piwo wytwarzane przez browar) w opłacalny sposób. Gosset opublikował test pod piórem "Student" w Biometrika, około roku 1908. Powodem nazwy pensa było naleganie Guinnessa, ponieważ firma chciała zachować swoją politykę dotyczącą wykorzystywania statystyk jako części ich "tajemnic handlowych".
Statystyka testu T generalnie podąża za formularzem T = Z / s, gdzie Z i s są funkcjami danych. Zmienna Z ma być wrażliwa na alternatywną hipotezę; efektywnie wielkość zmiennej Z jest większa, gdy hipoteza alternatywna jest prawdziwa. W międzyczasie 's' jest parametrem skalującym, pozwalającym na ustalenie rozkładu T. Założenia leżące u podstaw t-testu są następujące: a) Z podąża za standardowym rozkładem normalnym pod hipotezą zerową; b) ps2 podąża za rozkładem Ï ‡ 2 z p stopniami swobody pod hipotezą zerową (gdzie p jest stałą dodatnią); oraz c) wartość Z i s są niezależne. W specyficznym teście typu T warunki te są konsekwencją badanej populacji, a także sposobu, w jaki dane są próbkowane.
Z drugiej strony analiza wariancji (ANOVA) jest zbiorem modeli statystycznych. Podczas gdy zasady ANOVA były wykorzystywane przez naukowców i statystyków przez długi czas, dopiero w 1918 r. Sir Ronald Fisher przedstawił propozycję sformalizowania analizy wariancji w artykule zatytułowanym "Korelacja między krewnymi na podstawie przypuszczeń Mendelowskiego Dziedzictwa".. Od tego czasu ANOVA została rozszerzona o jej zakres i zastosowanie. ANOVA jest w rzeczywistości błędną nazwą, ponieważ nie wynika z różnic wariancji, ale raczej z różnic między środkami grup. Obejmuje on powiązane procedury, w których zaobserwowana wariancja w danej zmiennej jest podzielona na składniki przypisane różnym źródłom zmienności.
Zasadniczo, ANOVA zapewnia test statystyczny, aby ustalić, czy średnie z kilku grup są równe iw efekcie uogólniają test t do więcej niż dwóch grup. ANOVA może być bardziej przydatna niż t-test z dwiema próbkami, ponieważ ma mniejsze szanse popełnienia błędu typu I. Na przykład, posiadanie wielu t-testów z dwiema próbkami będzie miało większą szansę popełnienia błędu niż ANOVA dla tych samych zmiennych, które są zaangażowane do uzyskania średniej. Model jest taki sam, a statystyką testu jest współczynnik F. Mówiąc prościej, t-testy są tylko szczególnym przypadkiem ANOVA: wykonanie ANOVA będzie miało taki sam wynik wielu testów t. Istnieją trzy klasy modeli ANOVA: a) Modele o stałym efekcie, które zakładają, że dane pochodzą z normalnych populacji, różniących się jedynie środkami; b) Losowe modele efektów, które zakładają, że dane opisują hierarchię różnych populacji, których różnice są ograniczone przez hierarchię; oraz c) Modele z efektem mieszanym, które są sytuacjami, w których występują zarówno efekty stałe, jak i losowe.
Streszczenie:
- Test t służy do ustalenia, czy dwie średnie lub średnie są takie same lub różne. ANOVA jest preferowana, gdy porównuje się trzy lub więcej średnich lub średnich.
- Test t ma więcej szans na popełnienie błędu, im więcej środków jest używanych, dlatego ANOVA jest używana podczas porównywania dwóch lub więcej środków.