Odchylenie standardowe i błąd standardowy

Anonim

Wprowadzenie

Standard re eviation (SD) i S tandard mi rror (SE) są pozornie podobnymi terminologiami; są one jednak koncepcyjnie tak różnorodne, że są używane niemal zamiennie w literaturze statystycznej. Oba terminy są zwykle poprzedzone znakiem plus-minus (+/-), co wskazuje na to, że definiują one wartość symetryczną lub reprezentują zakres wartości. Niezmiennie oba terminy pojawiają się ze średnią (średnią) z zestawu wartości mierzonych.

Co ciekawe, SE nie ma nic wspólnego ze standardami, błędami lub przekazywaniem danych naukowych.

Szczegółowe spojrzenie na pochodzenie i objaśnienia SD i SE ujawni, dlaczego profesjonalni statystycy i ci, którzy używają go pobieżnie, obaj popełniają błędy.

Odchylenie standardowe (SD)

SD to opisowy statystyki opisujące rozprzestrzenianie się dystrybucji. Jako miara jest przydatna, gdy dane są normalnie dystrybuowane. Jest jednak mniej użyteczny, gdy dane są wysoce przekrzywione lub bimodalne, ponieważ nie opisuje on bardzo dobrze kształtu rozkładu. Zazwyczaj używamy SD podczas zgłaszania charakterystyki próbki, ponieważ zamierzamy to zrobić opisać ile danych zmienia się wokół średniej. Inne użyteczne statystyki opisujące rozprzestrzenianie się danych to zakres kwartylny, 25 i 75 percentyl oraz zakres danych.

Rysunek 1. SD jest miarą rozprzestrzeniania się danych. Gdy dane są próbką z rozkładu normalnie rozproszonego, wówczas oczekuje się, że dwie trzecie danych będzie leżało w granicach 1 odchylenia standardowego średniej.

Wariancja to opisowy Statystyka również jest zdefiniowana jako kwadrat odchylenia standardowego. Zwykle nie jest raportowany przy opisie wyników, ale jest to formuła bardziej matematycznie trakcyjna (a.k.a. suma kwadratowych odchyleń) i odgrywa rolę w obliczaniu statystyk.

Na przykład, jeśli mamy dwie statystyki P & Q ze znanymi wariancjami var (P) & var (Q) , a następnie wariancja sumy P + Q jest równa sumie wariancji: var (P) + var (Q) . Teraz jest oczywiste, dlaczego statystycy lubią mówić o różnicach.

Jednak odchylenia standardowe mają ważne znaczenie dla rozprzestrzeniania się, szczególnie gdy dane są normalnie dystrybuowane: średnia przedziałowa +/- 1 SD można oczekiwać, że przechwyci 2/3 próbki, a średnia przerwa + - 2 SD można oczekiwać, że zdobędzie 95% próbki.

SD podaje, w jakim stopniu poszczególne odpowiedzi na pytanie różnią się lub "odbiegają" od średniej. SD mówi badaczowi, jak rozłożone są odpowiedzi - czy koncentrują się wokół średniej, czy rozrzucone daleko i szeroko? Czy wszyscy Twoi respondenci ocenili Twój produkt w połowie skali, czy niektórzy go zatwierdzili, a niektórzy go odrzucili?

Rozważ eksperyment, w którym respondenci są proszeni o ocenę produktu w serii atrybutów w 5-stopniowej skali. Średnia dla grupy dziesięciu respondentów (oznaczonych od "A" do "J" poniżej) dla "dobrej wartości za pieniądze" wynosiła 3,2 przy SD równym 0,4, a średnia dla "niezawodności produktu" wynosiła 3,4, a SD - 2,1.

Na pierwszy rzut oka (patrząc tylko na środki) wydaje się, że niezawodność została oceniona wyżej niż wartość. Ale im wyższy wskaźnik wiarygodności (SD), tym bardziej, że odpowiedzi były bardzo spolaryzowane, gdzie większość respondentów nie miała problemów z wiarygodnością (oceniano atrybut "5"), ale mniejszy, ale ważny segment respondentów miał problem z niezawodnością i ocenił atrybut "1". Patrzenie na sam środek mówi tylko część historii, jednak najczęściej to badacze się koncentrują. Dystrybucja odpowiedzi jest ważna do rozważenia, a SD stanowi cenną miarę opisową tego.

Pozwany Dobry stosunek jakości do ceny Niezawodność produktu
ZA 3 1
b 3 1
do 3 1
re 3 1
mi 4 5
fa 4 5
sol 3 5
H 3 5
ja 3 5
jot 3 5
Oznaczać 3.2 3.4
Std. Dev. 0.4 2.1

Pierwsza ankieta: Respondenci oceniający produkt na 5-stopniowej skali

Dwa bardzo różne rozkłady odpowiedzi na 5-punktową skalę ratingową mogą dać taką samą średnią. Rozważmy następujący przykład pokazujący wartości odpowiedzi dla dwóch różnych ocen.

W pierwszym przykładzie (Ocena "A") SD wynosi zero, ponieważ WSZYSTKIE odpowiedzi były dokładnie wartością średnią. Indywidualne odpowiedzi nie odbiegały wcale od średniej.

W ocenie "B", mimo że średnia grupy jest taka sama (3.0) jak pierwsza dystrybucja, odchylenie standardowe jest wyższe. Odchylenie standardowe 1.15 pokazuje, że średnio poszczególne odpowiedzi były nieco ponad 1 punkt od średniej.

Pozwany Ocena "A" Ocena "B"
ZA 3 1
b 3 2
do 3 2
re 3 3
mi 3 3
fa 3 3
sol 3 3
H 3 4
ja 3 4
jot 3 5
Oznaczać 3.0 3.0
Std. Dev. 0.00 1.15

Drugie badanie: Respondenci oceniający produkt na 5-stopniowej skali

Innym sposobem patrzenia na SD jest wykreślenie rozkładu jako histogramu odpowiedzi. Rozkład o niskim SD byłby wyświetlany jako wysoki wąski kształt, podczas gdy duży SD byłby wskazywany przez szerszy kształt.

SD generalnie nie wskazuje "dobra lub zła" lub "lepiej lub gorzej" - niższa wartość SD niekoniecznie jest bardziej pożądana. Jest używany wyłącznie jako opisowa statystyka. Opisuje rozkład w odniesieniu do średniej.

T Zrzeczenie się odpowiedzialności technicznej dotyczące SD

Myślenie o SD jako o "zbędnym odchyleniu" jest doskonałym sposobem konceptualnego zrozumienia jego znaczenia. Jednak nie jest to faktycznie obliczane jako średnia (gdyby tak było, nazwalibyśmy to "odchylenie od obciążenia"). Zamiast tego jest "zestandaryzowana" - nieco skomplikowana metoda obliczania wartości za pomocą sumy kwadratów.

Ze względów praktycznych obliczenia nie są ważne. Większość programów do tworzenia tabel, arkuszy kalkulacyjnych lub innych narzędzi do zarządzania danymi oblicza dla ciebie SD. Ważniejsze jest zrozumienie, co przekazują statystyki.

Standardowy błąd

Standardowy błąd to inferencyjny statystyki używane podczas porównywania średnich próbek (średnich) w populacjach. To jest miara precyzja średniej próbki. Średnia próbka jest statystyką pochodzącą z danych, które mają podstawowy rozkład. Nie można go wizualizować w taki sam sposób jak danych, ponieważ wykonaliśmy pojedynczy eksperyment i mamy tylko jedną wartość. Teoria statystyczna mówi nam, że średnia próbki (dla dużej, "próbki" i w kilku warunkach regularności) jest w przybliżeniu normalnie rozproszona. Odchylenie standardowe tego rozkładu normalnego jest tym, co nazywamy błędem standardowym.

Rysunek 2. Rozkład na dole reprezent wysyła dystrybucję danych, podczas gdy rozkład na górze jest teoretycznym rozkładem średniej próbki. SD wynoszący 20 jest miarą rozpowszechnienia danych, podczas gdy SE równą 5 jest miarą niepewności wokół średniej próbki.

Kiedy chcemy porównać średnie wyniki z dwupłytowego eksperymentu z Leczeniem A a Leczeniem B, musimy oszacować, jak dokładnie zmierzyliśmy środki.

W rzeczywistości interesuje nas, jak dokładnie zmierzyliśmy różnicę między tymi dwoma środkami. Tę miarę nazywamy standardowym błędem różnicy. Możesz nie być zaskoczonym, gdy dowiesz się, że standardowy błąd różnicy w próbce oznacza funkcję standardowych błędów środków:

Teraz, gdy zrozumieliście, że standardowy błąd średniej (SE) i odchylenia standardowego rozkładu (SD) to dwie różne bestie, możecie się zastanawiać, w jaki sposób się pomylili. Podczas gdy różnią się koncepcyjnie, mają prosty związek matematyczny:

, gdzie n jest liczbą punktów danych.

Należy zauważyć, że błąd standardowy zależy od dwóch składników: standardowego odchylenia próbki i wielkości próbki n . To sprawia, że ​​intuicyjny sens: im większe odchylenie standardowe próbki, tym mniej dokładna może być nasza ocena rzeczywistego środka.

Również duży rozmiar próbki, więcej informacji mamy o populacji, a dokładniej możemy oszacować prawdziwy środek.

SE jest wskaźnikiem wiarygodności średniej. Mała SE wskazuje, że średnia próbki jest dokładniejszym odzwierciedleniem rzeczywistej średniej populacji. Większy rozmiar próbki zwykle spowoduje mniejsze SE (podczas gdy SD nie ma bezpośredniego wpływu na wielkość próby).

Większość badań ankietowych polega na pobraniu próbki z populacji. Następnie wnioskujemy o populacji z wyników uzyskanych z tej próbki. Jeśli została narysowana druga próbka, wyniki prawdopodobnie nie będą dokładnie odpowiadać pierwszej próbce. Jeżeli średnia wartość dla atrybutu oceny wyniosła 3,2 dla jednej próbki, może wynosić 3.4 dla drugiej próbki o tym samym rozmiarze. Gdybyśmy narysowali nieskończoną liczbę próbek (takiej samej wielkości) z naszej populacji, moglibyśmy wyświetlić obserwowane środki jako rozkład. Możemy wtedy obliczyć średnią ze wszystkich naszych średnich próbek. Średnia ta byłaby równa rzeczywistej średniej populacji. Możemy również obliczyć SD rozkładu średnich próbek. SD tego rozkładu średnich próbek to SE każdej indywidualnej średniej próbki.

Mamy więc naszą najważniejszą obserwację: SE to SD średniej populacji.

Próba Oznaczać
1 3.2
2 3.4
3 3.3
4 3.2
5 3.1
…. ….
…. ….
…. ….
…. ….
…. ….
Oznaczać 3.3
Std. Dev. 0.13

Tabela ilustrująca zależność między SD i SE

Jest teraz jasne, że jeśli SD tej dystrybucji pomaga nam zrozumieć, jak daleko średnia próbki pochodzi od rzeczywistej średniej populacyjnej, możemy użyć tego do zrozumienia, jak dokładna jest każda pojedyncza średnia próbki w stosunku do prawdziwej średniej. Taka jest istota SE.

W rzeczywistości pobraliśmy tylko jedną próbkę z naszej populacji, ale możemy wykorzystać ten wynik, aby uzyskać szacunkową wiarygodność obserwowanej średniej próbki.

W rzeczywistości SE mówi nam, że możemy być w 95% pewni, że nasza obserwowana średnia próbki wynosi plus lub minus w przybliżeniu 2 (faktycznie 1,96) błędów standardowych ze średniej populacji.

Poniższa tabela pokazuje rozkład odpowiedzi z naszej pierwszej (i jedynej) próbki użytej do naszych badań. Wartość SE równą 0,13, jako względnie mała, daje nam wskazówkę, że nasza średnia jest względnie bliska prawdziwej średniej naszej populacji. Margines błędu (przy ufności 95%) dla naszej średniej wynosi (w przybliżeniu) dwukrotność tej wartości (+/- 0,26), informując nas, że prawdziwa średnia jest najprawdopodobniej pomiędzy 2,94 i 3,46.

Pozwany Ocena
ZA 3
b 3
do 3
re 3
mi 4
fa 4
sol 3
H 3
ja 3
jot 3
Oznaczać 3.2
Std. Błądzić 0.13

streszczenie

Wielu badaczy nie rozumie różnicy między odchyleniem standardowym a błędem standardowym, mimo że są one często uwzględniane w analizie danych. Chociaż rzeczywiste obliczenia odchylenia standardowego i błędu standardowego są bardzo podobne, stanowią dwa bardzo różne, ale uzupełniające się środki. SD mówi nam o kształcie naszej dystrybucji, o tym, jak bliskie są poszczególne wartości danych od wartości średniej. SE mówi nam, jak blisko naszej średniej próbki jest prawdziwa średnia całkowitej populacji.Razem pomagają zapewnić pełniejszy obraz, niż może nam powiedzieć tylko sam.