T-TEST i ANOVA

Anonim

T-TEST vs ANOVA

Gromadzenie i obliczanie danych statystycznych w celu uzyskania średniej jest często długim i żmudnym procesem. Test t-Studenta i jednoczynnikowa analiza wariancji (ANOVA) to dwa najczęściej stosowane testy do tego celu.

Test t jest testem hipotez statystycznych, w którym statystyka testowa podąża za rozkładem Studenta, jeśli podtrzymana jest hipoteza zerowa. Ten test jest stosowany, gdy statystyki testu są zgodne z rozkładem normalnym, a wartość parametru skalującego w statystykach testowych jest znana. Jeśli termin skalowania nie jest znany, zostaje on zastąpiony oszacowaniem opartym na dostępnych danych. Statystyka testu będzie następować po t-Studencie.

William Sealy Gosset wprowadził statystykę t w 1908 roku. Gosset był chemikiem w browarze Guinnessa w Dublinie w Irlandii. Browar Guinnessa prowadził politykę rekrutowania najlepszych absolwentów z Oxfordu i Cambridge, wybierając spośród tych, którzy mogliby dostarczać aplikacje biochemii i statystyki do ustalonych procesów przemysłowych firmy. William Sealy Gosset był jednym z takich absolwentów. W procesie tym William Sealy Gosset opracował test t-owy, który pierwotnie był przewidziany jako sposób monitorowania jakości stouta (ciemne piwo wytwarzane przez browar) w opłacalny sposób. Gosset opublikował test pod piórem "Student" w Biometrika, około roku 1908. Powodem nazwy pensa było naleganie Guinnessa, ponieważ firma chciała zachować swoją politykę dotyczącą wykorzystywania statystyk jako części ich "tajemnic handlowych".

Statystyka testu T generalnie podąża za formularzem T = Z / s, gdzie Z i s są funkcjami danych. Zmienna Z ma być wrażliwa na alternatywną hipotezę; efektywnie wielkość zmiennej Z jest większa, gdy hipoteza alternatywna jest prawdziwa. W międzyczasie 's' jest parametrem skalującym, pozwalającym na ustalenie rozkładu T. Założenia leżące u podstaw t-testu są następujące: a) Z podąża za standardowym rozkładem normalnym pod hipotezą zerową; b) ps2 podąża za rozkładem Ï ‡ 2 z p stopniami swobody pod hipotezą zerową (gdzie p jest stałą dodatnią); oraz c) wartość Z i s są niezależne. W specyficznym teście typu T warunki te są konsekwencją badanej populacji, a także sposobu, w jaki dane są próbkowane.

Z drugiej strony analiza wariancji (ANOVA) jest zbiorem modeli statystycznych. Podczas gdy zasady ANOVA były wykorzystywane przez naukowców i statystyków przez długi czas, dopiero w 1918 r. Sir Ronald Fisher przedstawił propozycję sformalizowania analizy wariancji w artykule zatytułowanym "Korelacja między krewnymi na podstawie przypuszczeń Mendelowskiego Dziedzictwa".. Od tego czasu ANOVA została rozszerzona o jej zakres i zastosowanie. ANOVA jest w rzeczywistości błędną nazwą, ponieważ nie wynika z różnic wariancji, ale raczej z różnic między środkami grup. Obejmuje on powiązane procedury, w których zaobserwowana wariancja w danej zmiennej jest podzielona na składniki przypisane różnym źródłom zmienności.

Zasadniczo, ANOVA zapewnia test statystyczny, aby ustalić, czy średnie z kilku grup są równe iw efekcie uogólniają test t do więcej niż dwóch grup. ANOVA może być bardziej przydatna niż t-test z dwiema próbkami, ponieważ ma mniejsze szanse popełnienia błędu typu I. Na przykład, posiadanie wielu t-testów z dwiema próbkami będzie miało większą szansę popełnienia błędu niż ANOVA dla tych samych zmiennych, które są zaangażowane do uzyskania średniej. Model jest taki sam, a statystyką testu jest współczynnik F. Mówiąc prościej, t-testy są tylko szczególnym przypadkiem ANOVA: wykonanie ANOVA będzie miało taki sam wynik wielu testów t. Istnieją trzy klasy modeli ANOVA: a) Modele o stałym efekcie, które zakładają, że dane pochodzą z normalnych populacji, różniących się jedynie środkami; b) Losowe modele efektów, które zakładają, że dane opisują hierarchię różnych populacji, których różnice są ograniczone przez hierarchię; oraz c) Modele z efektem mieszanym, które są sytuacjami, w których występują zarówno efekty stałe, jak i losowe.

Streszczenie:

  1. Test t służy do ustalenia, czy dwie średnie lub średnie są takie same lub różne. ANOVA jest preferowana, gdy porównuje się trzy lub więcej średnich lub średnich.
  2. Test t ma więcej szans na popełnienie błędu, im więcej środków jest używanych, dlatego ANOVA jest używana podczas porównywania dwóch lub więcej środków.