-Statystyka jest nauką, która zajmuje się ilościowymi metodami badania zjawisk masowych. Służy do matematycznego opisu zmienności i badania procesów i zależności w otaczającym nas świecie.
-Statystyka elementarna zajmuje się badaniem próby. Wyniki obliczeń na podstawie danych z próby to statystyka lub estymatory(oznaczane literami łacińskimi).
Estymator- właściwość próby pobranej z populacji (np. S- odchylenie standardowe).
Wartość uzyskana przy badaniu próby jest estymatorem odpowiedniego parametru populacji. Statystyka matematyczna zajmuje się wnioskowaniem o populacji generalnej na podst. Próby.
Wyniki, które dotyczą pop. Gen. To parametry ( oznaczana literami greckimi np ᵟ -sigma, odchylenie standardowe w populacji)
Zależność statystyki pozwalają szacować parametry
Populacja a próba:
-populacja generalna ( nie mylić z populacją w sensie biologicznym) – zbiór wszystkich elementów(jednostek, organizmów, osobników) które podlegają badaniu np. Populacja stonki ziemniaczanej, wszytskich mężczyzn w Polsce, chorych na AIDS na świecie.
-badania obejmujące wszystkie elementy, populacje nazywa się wyczerpującym z wielu względów nierealne do przeprowadzenia ( gdy wiąże się z całkowitym zniszczeniem materiału lub kosztami)
-próba- grupa jednostek ( elementów) wchodzących w skład pop. Gen.
Elementy wybrane do próby powinny reprezentować ogół elementów w badanej całej zbiorowości ( populacja generalna) i spełniac określone warunki.
Warunki:
- odpowiednio liczna
- dobrana losowo
Liczebność – im większa próba tym lepsza ( lepiej opisuje pop. Gen.)
Ograniczenia możliwości zbierania materiału:
-techniczne
-finansowe
-czasowe
Minimum statystyczne wynosi 30 elementów, próba musi być co najmniej 30 elementowa ( w każdej kombinacji kategori podlegającej badaniu)
Liczebność:
- jesli badana cecha zaznacza się silnie z dużą powtarzalnością a czynniki przypadkowe nie występują lub są mało istotne- można poprzestać na próbie niezbyt liczebnej.
-gdy cecha manifestuje się w sposób ulotny lub na wynikach obserwacji prowadzonych dla różnych pacjentów bardzo silnie wiążą ich cechy osobnicze lub inne czynniki losowe- potrzbujemy liczną próbę!
Dobrane losowo -
- dobór jednostki do próby powinien być przypadkowy ( każdy element powinien mieć jednakowe szanse wejścia do próby) nie powinien być wyselekcjonowany. Jednostki powinny dobrze charakteryzować zmienną występującą w pop. Gen.
Losowość doboru elementu może być jednak ograniczona jedynie do ostatniego etapu doboru materiału.
Wybór celowy- selekcjnowanie(celowe) grupy przebiega na wczesnych etapach dobóru materiału (np. Mężczyźni: wiek 25 -30)
Losowanie niezależne=zwrotne- po każdym losowaniu jednostka wraca do zbiorowości generalnej. Liczebność n jest stała.
Losowanie zależne( bezzwrotne) po każdym losowaniu element nie bierze już udziału w dalszym losowaniu.
Próba spełniająca warunki liczebności i losowości jest reprezentatywna!
Rodzaje błedów podczas zbierania materiału:
zasada nieoznaczalności Heisenberga
-każda cyznność pomiarowa zakłoca stan obiektu mierzonego przez co sam pomiar staje się niedokładny.
Ze względu an przycyzny powodujące błedy dzileimy je na :
-systematyczne (tendencyjne)
-niesystyematyczne (przypadkowe)
Błędy systyematyczne (BS) wynikajace z jednokierunkowej tendencji do zniekształcenia badanej rzeczywistości. Źródłem BS jest zwykle przyrząd pomiarowy, obserwator lub przyjęta metoda pomiaru.
Np. Błąd pomiarowy wynika z tego że na skali pryzrządu są tylko centymetry, za każdym razem błędnie w ten sam sposób wykonujemy jakiś pomiar (np. Zaokrąglając odczyt w górę)
Błędy niesystematyczne- popełniane nieumyślnie, wynikajace z nieuwagi, nieumiejętnego podania informacji, niedbalstwo.
Błędy grube- wynik znacznie odbiega od wartości prawidłowej, łatwo zauważalny, możliwy do wyeliminowania np pomyłka przy odczycie wyniku pomiaru, źle wykalibrowany przyrząd, zła metoda pomiarowa
Błędy losowe wynikają z czynników losowych an które eksperymentator nie ma wpływu np. Zmiennosć indywidualna obiektów ( nie będąca przedmiotem badań) nie sposób ich uniknąć, ale można starać się oszacować ich wielkość oraz wpływ na eksperyment.
Błąd próbkowania- rozkład częstości danych ( zmienność próby) nawet w dobrze dobranej próbie jest nieco inny niż w pop. Gen. Zjawisko to nazywamy zmiennością próbkowania.
Im mniejsza próbka tym większe prawdopodobieństwo że rozkład zmienności próby i populacji są różne.
Rodzaj cech statystycznych :
-Cechy stałe (CS) własności wspólne dla wszstkich jednostek danej zbiorowości statystycznej -> definiują badaną grupę, określają elementy.
-rzeczowo(co?)
-czasowo(kiedy?)
-przestrzennie (gdzie?)
CS są wspólne dla całego materiału, nie będą podlegały badaniu- decydują o zaliczneiu jednostki do odpowiedniej zbiorowości(podgrupy) np. Data badania, miejsce badania, obiekt badania-konieczne do opisu materiału.
Cechy zmienne (zmienne) własności dzieki którym poszczególne jednostki różnią się między sobą!
Cechy jakościowe(niemierzalne, dyskretne) nie można ich zmierzyća jedynie opisać słownie, wariantów tej cechy nie da się uporządkować np kolor oczu, płeć, obywatelstwo, miejsce zamieszkania, wariant odpowiedni na dane pytanie w ankiecie.
Cechy ilościowe ( mierzalne, ciągłe) te dają wyrazić się za pomocą tzw. liczb mianowanych ( liczb o określonych jednostakch) np. Wzrost (cm), wiek (lata), sztuki (liczba sztuk), liczba odpowiedzi pozywtynych na kolokwium.
Rodzaje cech ilościowych:
-zmienne skokowe- wartości można wyrazić określonymi liczbami zmieniającymi się skokowo, bez wartości ośrednich (np liczba studentów w Sali)
-zmienne ciągłe mogą przyjmować każdą wartość z określonego przedziąłu liczbowego np. Masa ciała w kg i ułamkach kilograma
-zmienne „quasi-ciągłe” rodzaj zmiennej skokowej o bardzo dużej liczbie wariantów ( np. Cechy wyrażone z dokłądnością do jednego grosza)
Warianty cechy ststystycznej:
-jest informacją uzyskaną o jendostce statystycznej w trakcie badania statystycznego
-z uwagi na liczbę mozliwych wariantów, cechy statystyczne dzieli się na:
-cychy dychotomiczne(zero- jedynkowe) cecha może przyjąc tylko 2 warianty np. Płeć
- cechy wielodzielne (politomiczne) przyjmują wiecej niż 2 warianty
Skale pomiarowe:
-skala nominalna (sn) najprostszy rodzaj klasyfikacji, stosuje opis słowny dla potrzeb identyfikacji badanego elementu dotyczy cech jakościowych!!!
-podział zbioru danych dokonywany jest na odpowiednie kategorie-podstawowa operacja pomiarowa!
-UWAGA niezmiernie ważne jest aby podział na kategorie i klasyfikacja były przeprowadzane jednoznacznie- umożliwia zupełną i rozłączną klasyfikację wyników np podział na blondynów, brunetów i rudych.
-skala dychotomiczna-szczególny przypadek sn podział tylko na dwie kategorie np płeć.
Skala porządkowa –dane uporządkowane są w określonym rankingu wg określonej zasady
- skala dokładniejsza niż nominalna
-Umożliwia podział na kategorie i określenie kierunku wzrostu, natężenia cechy np. Pozycja na zawodach sportowych
-każdy osobnik ma przypisaną rangę(1-szej, 2-giej) każda pozycja w rankingu oddana jest w taką samą jednostkę
-ranga wiązana- gdy kilka badanych elementów posiada taką samą rangę przypisuje się im rangę będącą średnią arytmetyczną rang które zajęłyby analizowane elementy gydyby wartości ich cech były różne
-kolejny element w zbiorze ma taką rangę jakby osobniki w rangach wiązanych były warunkowane osobno.
Skala porządkowa-pomiar porządkowy nie daje żadnych informacji o wielkości kolejnych różnic między elementami. Wiemy że coś jest większe lub mniejsze ale nie wiemy o ile.
Skala interwałowa- skala najdokładniejsza np. Wzrost, ciężar ciała, pomiary długościowe różnych parametrów itd.
Umożliwia porządkowanie elementów i określenie odległości pomiędzy poszczególnymi poamirami
Mozliwe jes określenie przedziału liczbowego-interwały w których znajdują się informacje
Każdy element ma przypisaną określoną wartosc wyrażoną w odpowiednich jednostkach
Umożliwia stosowanie dowolnyhc metod statystycznych( zawsze w miarę potrzeb można taką skalę uprościć)
Rangowanie
Skala nominalna dychotomiczna:
- gniazda o małej liczbie jaj 4 i 5
-gniazda o dużej liczbie jaj 6 i 7
Skala nominalna ale nie dychotomiczna:
-gniazda o małej liczbie jaj 4
-gniazda o średniej liczbie jaj 5
-gniazda o dużej liczbie jaj 6 i 7
Skala porządkowa-> skala nominalna
skala interwałowa-> skala porządkowa lub nominalna
skala nominalna-> skala porządkowa
skala porządkowa-> skala interwałowa
Organizacja badań
1 przygotowania do badania
-pomysł
-KWERENDA BIBLIOTECZNA
-określenie celu(określa co i dlaczego jest przedmiotem badania) i przygotowanie badania
-zebranie materiału (REPREZENTATYWNOŚĆ) i przygotowanie do opracowania
-opracowanie materiału statystycznego
-prezentacja danych statystycnzych i analiza statystyczna
Rodzaje materiału :
-materiał ciągły( materiał kongituidalny)
- obserwujemy materiał w kolejnyhc jednostkach czasu analizując: zmiany, które dotyczą tych
samych elemantów w kolejnych jendostkach czasu, analizujemy te same elementy w naszej
zbiorowości statystycznej
-liczebnośc w kolejnych badaniach jets taka sama
- materiał półciągły- obserwujemy te same elementy materiału pod względem tej samej zmiennej po ustalonym okresie czasu
- materiał przekrojowy
- obserwujemy materiał w określonym momencie czasu
- nie ma możliwości śledzenia zmian-można jedynie badać uchwycony obraz materiału
ZAOKRĄGLANIE LICZB
1. ostatnia cyfra nie zmienia się jeśli po niej następuje cyfra mniejsza od 5 np. 3,5739-3,57
2. ostatnia cyfra nie zmienia się jeśli po niej jest cyfra 5, wszystkie dalsze są zerowe lub nieokreślone, a ta ostatnia cyfra jest parzysta np. 3,565 – 3,56 3,565000-3,56
3. ostatnia cyfra zwiększa się o jedną jednostkę jeśli po niej następuje cyfra większa od 5 np. 3,5783-3,58
4. ostatnia cyfra zwiększa się o jedną jednostkę jeśli po niej następuje cyfra 5. Zaś po tej cyfrze 5 na dalszych miejscach są inne cyfry większe od zera np. 3,5752-3,58 3,57500-3,58
5. wszystkie dalsze są zerowe lub nieokreślone a ta ostatnia cyfra jest parzysta np. 3,565 – 3,56 3,565000-3,56
PROPORCJE
Metoda klasyfikacji jest rozłączona i wyczerpująca. Badana jednostka znajduje się w jednej i tylko jednej kategorii. Proporcje przypadków określa się jako wynik podzielenia liczby przypadków przez całkowitą liczbę przypadków.
N1 + N2 + N3 + N4 = N
N1/N + N2/N + N3/N + N4/N = 1
Dodając proporcję przypadków znajdujących się we wszystkich kategoriach otrzymujemy jedności
ODSETKI
- Otrzymujemy z proporcji pomnożonej przez 100
- częściej niż proporcje stosowane w prezentacji danych
- może być liczbą większą od 1!!!!!
Stosunek liczby mężczyzn do kobiet wynosi 3:2, wśród każdych pięciu osób jest trzech mężczyzn i dwie kobiety tym samym proporcja mężczyzn równa się 3/5 czyli 0,6.
MODALNA
Określana także jako dominanta,moda lub wartość najczęstsza, wartość cechy staty., która w danym rozkładzie empirycznym występuje najczęściej, a zatem jest to maximum funkcji rozkładu empirycznego cechy statystycznej.
Np. Lekarz A 12 15 15 18 20 modalna 15
Lekarz B 10 10 12 12 15 15 18 20 21 21 nie możemy określi wart. Modalnej ponieważ żadna z wartości cechy nie przyjęła pozycji dominującej (cztery wartości cechy powtarzają się dwukrotnie)
Po połączeniu obu zbiorów modalna wynosiłaby 15. Modalna jest niewrażliwa na wartości skrajne
MEDIANA
Sposób wyznaczania:
1. Uporządkować wyniki w kolejności rosnącej
2. Wyznaczyć medianę jako element środkowy
– pomiary w skali zarówno interwałowej jak i porządkowej
- mediana nie jest czuła na pomiary znacznie odbiegające od innych
- dla pomiaru w skali interwałowej, które rozłożone są symetrycznie jako miary tendencji centralnej powinno używać się mediany
Dla N nieparzyste Me = (Xn+1)/2
Dla N parzyste (mediana jest średnią dwóch środkowych elementów szeregu)
Me = ½ ($x_{n/2} + x_{\frac{n}{2} + 1}$)
Np. dane czasu hospitalizacji 6 7 8 8 9 11 11 11 14 14 15 16 17 ponieważ szereg liczy 13 elementów to zgodnie ze wzorem, środkowym jest element (13+1)/2=7 w szeregu uporządkowanych wartości czyli 11.
Łatwo udowodnić, że także mediana jest niewrażliwa na przypadki odstające. Obok średniej arytmetycznej mediana jest najczęściej stosowanym parametrem statystycznym.
KWANTYLE
Wyznacza się w sposób analogiczny do mediany. Wyznaczając medianę dzielimy badany szereg na dwie połowy.
wyznaczenie kwartyla pierwszego sprowadza się do znalezienia mediany w połowie zawierające jednostki mniejsze od mediany, a wyznaczenie kwartyla trzeciego to znalezienie mediany w połowie zawierającej jednostki większe od mediany.
Kwantyle definiuje się jako wartości cechy badanej populacji, przedstawionej w postaci szeregu statystycznego, które dzielą zbiorowość na określone części pod względem liczby jednostek. Częstości te pozostają do siebie w określony proporcjach.
Kwartyl pierwszy (Q1) – dzieli zbiorowość na dwie części także 25% jednostek zbiorowości ma wartości cechy niższe bądź równe kwantylowi pierwszemu, a 75% równe bądź wyższe
Kwartyl drugi (Q2) – mediana (Me) – dzieli zbiorowość na dwie równe części, połowa jednostek ma wartości cechy mniejsze bądź równe medianie, a połowa wartości cechy większe lub równe medianie. W szeregu szczegółowym medianą jest wartość znajdująca się w jego środku stąd mediana nazywana jest wartością środkową.
Kwartyl trzeci (Q3) - dzieli zbiorowość na dwie części tak że 75% jednostek zbiorowości ma wartości cechy niższe bądź równe Q3, a 25% wyższe bądź równe.
CENTYLE
Stosowane są dla prób o dużej liczebności. Wskazują jaki % jednostek w próbie uzyskał wynik mniejszy od danego
Centyl 50 odpowiada medianie,a centyle 25 i 75 to odpowiednio pierwszy i trzeci kwartyl
Jednostka C (centyl ) lub Pc (percentyl)
Centyle (percentyle) mierzą skupienie jednostek w znaczeniu procentowym. Umożliwiają dla każdego numeru obserwacji uporządkowanej zbiorowości określić procent zbiorowości znajdujący się poniżej bądź powyżej tej obserwacji. Pozycja (który element z szeregu) ()=> Xcp
cp to centyl, który chcemy obliczyć (odszukać)
Xcp to numer elementu (osobnika)w uporządkowanym szeregu staty. O określonej wartości cechy, który odpowiada określonemu poziomowi centylowemu np. 15 osobnik o wzroście 167 cm z grupy 50 jest na 30 poziomie centylowym (Xc30= 15; x15= 167 cm) w związku z tym 30 centyl ma wartość 167
Np. 25 centyl oznacza że 25% obserwacji ma wartość mniejszą lub równą wartości percentyla 25 i 75% ma wartość większą lub równą tej wartości
Np. N= 50; C30 – jaka wartość cechy odpowiadana temu centylowi
Rozwiązanie: (30 x N)/100= (30 x 50)/100= 1500/100=15
X15= C30 w uporządkowanym szeregu statyst. To będzie 15 osobnik
MIARY TENDENCJI CENTRALNEJ (miary przeciętności, typowości)
Mierniki typowości = miary przeciętne
Średnia arytm najważniejsze
Mediana najważniejsze
Modalna = moda = dominanta
Średnia arytm.
- Jeden z najważniejszych i najlepszych mierników tendencji centralnej, bardziej rozpowszechniony niż mediana (ale! – tylko w odniesieniu do zbiorowości jednorodnych o niewielkim zróżnicowaniu wartości zmiennej )
- określa się ją jako iloraz sumy pomiarów przez ich liczbę i oblicza w odniesieniu do cech w skali interwałowej
- jest wypadkową wszystkich wartości zmiennej i spełnia nierówność Xmin < X < Xmax
- stosowana jako miara zrównoważenia rozkładu
- na jej poziom silnie wpływają wartości skrajne (niejednokrotnie przypadkowo włączane do próby)
- suma odchyleń poszczególnych wartości zmiennej od średniej jest równa zeru
$$\sum_{}^{}{\left( x1 - \overset{\overline{}}{x} \right) = 0}$$
- suma wartości zmiennej jest równa iloczynowi średniej arytm i liczebności zbiorowości
$$\sum_{}^{}{x1 = N*\ \overset{\overline{}}{x}}$$
Mh = $\frac{2}{\frac{1}{400} + \frac{1}{600}} = \frac{2}{\frac{3 + 2}{1200}} = 2*\frac{1200}{5} = \frac{2400}{5}$=480
X = $\frac{400 + 600}{2} = 500\ osob/km2$
Czy rozwiązanie zadania jest prawidłowe?
60 000 osób : 400 os/km2 = 150 km2
60 000 osób : 600 os/km2 = 100 km2
120 000 osób : 250 km2 = 480 os/km2
ŚREDNIA GEOMETRYCZNA
Pierwiastek n-tego stopnia z iloczynu n wartości danej zmiennej
- znajduje zastosowanie w badaniu średniego tempa zmian zjawiska
jej obliczenie ma sens dla liczb nieujemnych
- stosowana przy współczynnikach reprodukcji netto
Np. badamy rozrodczość i śmiertelność pewnego gatunku motyla
Między pierwszym i drugim rokiem obserwacji liczba motyli wzrosła 4-krotnie R = 4
Między 2 i 3 R = 1
Między 3 i 4 R = 2
Jakie było średnie tempo wzrostu populacji?
X = $\sqrt[3]{4*1*2}$ = $\sqrt[3]{8}$ = 2 średnio populacja wzrasta dwu krotnie w ciągu roku
X = 4+1+2/3 = 2,33
PORÓWNANIE ŚREDNICH
- gdy wszystkie pomiary szeregu staty. Są identyczne (gdy niema zmienności) – średnia arytmetyczna = śr. Geometrycznej = śr. Harmonicznej
- gdy elementy szeregu różnią się między sobą śr arytm ma największą wartość (zależy od liczebności); śr geomentr ma wartość mniejszą, a harmoniczna najmniejszą
Mierniki pozycyjne – mediana (Me)
- wartość określająca środek szeregu staty. – połowa otrzymanych pomiarów jest mniejsza od tej wartości lub równa, a połowa od niej większa lub równa
- podaje pozycję pewnego typowego przypadku stosunku do innych
- gdy liczba pomiarów jest nieparzysta, medianą jest środkowy pomiar
- gdy liczba pomiarów jest parzysta, medianą jest śr arytm dwóch środkowych pomiarów
- aby ją obliczyć lub wyznaczyć należy uporządkować szereg staty. W kolejności rosnącej lubmalejącej i wybrać wartość środkową
Np. - 12;15;21;33;45 Me = 21
- 12;15;21;33 Me= (15+21/2) = 18
- w odróżnieniu od średniej jest nieczuła na wartości skrajne
- w przypadku rozkładów symetrycznych mediana jest równa lub bardzo bliska wartości średniej, przy rozkładzie prawoskośnym mediana jest mniejsza od średniej, przy lewoskośnym większa
- obliczając średnią korzystamy ze wszystkich pomiarów, mediana jest tylko pojedynczym pomiarem
- zmiany wartości pomiarów ekstremalnych wpływają na wartość średniej, nie wpływają na wartość mediany – dopóki nie zmienia się wartość pomiaru środkowego
- gdy mamy wątpliwości jaki miernik jest bardziej rzetelny przy przechodzeniu z jednej próby do drugiej – stosujemy średnią
- gdy rozkład jest silnie skośny (gdy z jednej strony rozkładu jest wyraźnie więcej krańcowych pomiarów niż z drugiej) – mediana jest odpowiedniejszym miernikiem
- obliczenie średniej wymaga skali interwałowej; medianę można wyznaczyć dla skali porządkowej, dzieląc pomiary na dwie grupy: powyżej i poniżej mediany
- nie można obliczyć mediany ważonej
Rozkład symetryczny
Prawoskośny -> Mo, Me, $\overset{\overline{}}{x}$ A>0
Lewoskośny -> $\overset{\overline{}}{x}$, Me, Mo A<0
Modalna
- moda lub dominanta – przypadek najczęstszy czyli przypadek cechy statys. Która w rozkładzie występuje najczęściej
- może być wyrażona dla wyników pomiarów w skali porządkowej i interwałowej
- jej wyznaczanie jest uzasadnione gdy rozkład jest jednomodalny – ma jeden ośrodek dominujący
- jeśli wszystkie wartości zmiennej mają jednakową liczebność równą lub większą niż 1 – nie da się obliczyć wartości modalne: 2;7;16;19;20;27;41
- jeśli wszystkie wartości występują z tą samą liczebnością – nie można wyznaczyć modalnej
- jeśli dwie sąsiadujące ze sobą wartości mają tę samą, najwyższą liczebność – modalna jest średnią tych pomiarów
- jeśli w zbiorze są dwie nie sąsiadujące ze sobą wartości, których liczebności są większe niż w sąsiednich przedziałach każdą z tych wartości można uznać za modalną. Zbiór taki nazywa się bimodalnym
11;12;12;12;13;13;13;13;13;14;14;15;15;15;15;15 13*5 i 15*5
KWANTYLE
- wartości cechy badanej, które dzielą zbiorowość na określone części pod względem liczby jednostek
-szeregi, z których się wyznacza kwantyle muszą być uporządkowane (rosnąco lub malejąco)
Kwartyl pierwszy= dolny=Q1
-dzieli zbiorowość na dwie części: 25% jednostek ma wartości cechy niższe a 75% wyższe od kwartyla pierwszego
Kwartyl drugi = środkowy= mediana=Q2
-dzieli zbiorowość na dwie równe części: 50% ma wartości cechy niższe i 50% ma wartości cechy wyższe od mediany
-kwartyl trzeci=górny=Q3
-dzieli zbiorowość na dwie części: 75% jednostek ma wartości cechy niższe a 25% ma wartości wyższe od kwartyle trzeciego
Decyle- dzielą zbiorowość na 10 części: jest ich 9; piąty jest medianą!
Centyle- dzielą zbiorowość na 100 części; jest ich 99; 50 centyl to mediana!
MIARY ZMIENNOŚCI
Dyspersja-zróżnicowanie jednostek danej zbiorowości statystycznej ze wzgl. Na wartość badanej cechy
- miary klasyczne zmienności (oparte na średnich klasycznych) do których zalicza się wariancję, odchylenie standardowe, odchyl. Przeciętne oraz współczynnik zmienności
-miary pozycyjne(oparte na pozycyjnych) do których zaliczamy rozstęp, odchylenie ćwiartkowe oraz współczynnik zmienności
Współczynnik zmienności w zalezności od sposobu obliczania może być miarą klasyczną albo pozycyjną
istotą klasycznych miar zmienności jest obliczenie róźnic pomiędzy poszczególnymi wartościami cechy a wartością centralną, którą najczęściej jest średnia arytmetyczna
-Natomiast miery zmienności pozycyjne obliczane są na podst, wybranych, specyficznych, wyróżniających się położeniem wartości jednostek i są to wielkości rzeczywiste zawarte w badanym szeregu.
Miary zmienności
Miary klasyczne miary pozycyjne
Inny praktyczny podział miar zmienności rozróżnia:
- miary bezwzględne czyli absolutne (wyrażone są w konkretnych jednostkach, takich samych jak badana zmienna):
- rozstęp, wariancja, odchylenie przeciętne
- standardowe, ćwiartkowe
-miary względne czyli stosunkowe(nie określone w jakichkolwiek jednostkach naturalnych wyrażone np w odsetkach): -współczynnik zmienności
Miary pozycyjne dyspersji:
Rozstęp
- jest najprostszym miernikiem zmienności i wyraża różnicę między pomiarem największym i najmniejszym
- podaje się zwykle w postaci róznicy lub dwóch ekstremalnych pomiarów
R=Xmax-Xmin
Np.: 72; 81; 86; 69; 57 R=86-57=29 lub R= 57-86Wady:
- opiera się tylko na dwóch pomiarach i to ekstremalnych (te rzadko pojawiają się w badaniach empirycznych) stąd ograniczenie jedynie do wstępnej orientacji
- nie powinno się porównywać rozpiętości gdy:
-rozkłady obejmują bardzo różną liczbę przypadków
-gdy są różne jednostki miary!
Odchylenie ćwiartkowe:
Q= $\frac{\left( Q_{3 - Me} \right) + (Me - Q_{1})}{2} = \frac{Q_{3 - Q_{1}}}{2}$
Jest rodzajem rozstępu, lecz określany jako połowa różnicy między 3 i 1 kwartylem
Mierzy rozstęp pokryty przez połowę wszystkich przypadków
Q1 i Q3 są mniej zalezne od wahań próby niż wartości pomiarów ekstremalnych- odchyl. Ćwiartkowe jest bardziej stabilnym miernikiem niż rozstęp! Nie wykorzystuje jednak wszystkich informacji! Nie można uchwycić zmienności w środkowej połowie przypadków.
Miary klasyczne
Odchylenie średnie
Odchylenie przeciętnej jest średnią arytmetyczną bezwzględnych odchyleń wartości cechy od jej średniej arytmetycznej
$d = \frac{1}{n}\sum_{i - l}^{n}{|x_{i}} - \overset{\overline{}}{x}$| xi- odchylenie wartości danej zbiorowości
-Jest przeciętną odległością między pomiarem a średnią! Wygodne jedynie dla celów czysto opisowych
Przykład:
pięciu studentów wykonywało test psychologiczny poświęcając odpowiednio: 12,15,15,18,20 minut. Wyznacz odchylenie przeciętne czasu wykonania testu
Wyznaczamy najpierw średni czas wykonania testu który wynosi 16 min. Następnie obliczamy odchylenie przeciętne:
$d = \frac{1}{5}\sum_{i - l}^{5}{|x_{i}} - 16$|=$\frac{\left| 12 - 16 \right| + \left| 15 - 16 \right| + \left| 15 - 16 \right| + \left| 18 - 16 \right| + |20 - 16|}{5}$ =$\frac{12}{5}$=2,4
Wariancja
$s_{x}^{2\ } = \ \frac{1}{n}\sum_{i = 1}^{n}{(x_{i} - \overset{\overline{}}{x})}^{2}$ $s^{2} = \frac{\sum_{}^{}x^{2}}{N - 1}$
-wariancja jest to suma kwadratów odchyleń poszczególnych wartości badanej cechy od średniej arytmetycznej tych wartości podzielone przez (N-1)
-jest bardzo ważnym parametrem, który wykorzystuje się do konstrukcji wielu innych miar.
-natomiast w analizie miar dyspersji bezprośrednio nie jest często wykorzystywana ze wzgl na reprezentowanie wyższego stopnia(druga potęga) niż wartości badanej cechy.
-aby więc otrzymać miarę dyspersji o walorach wariancji, ale mianie zgodnym z mianem badanej cechy, wprowadzono parametr będący pierwiastkiem kwadratowym z wariancji, nazywany odchyleniem standardowym
Odchylenie standardowe(pierwiastek kwadratowy wariancji)
s$= \sqrt{\frac{\sum_{}^{}x^{2}}{N - 1}}$ s w statystyce oznacza xi -$\overset{\overline{}}{x}$ gdzie xi-odchylenie wartości od zbiorowości, $\overset{\overline{}}{x}$ –średnia aryt.
sx=$\sqrt{s_{x}^{2}}$
jednostki odchylenia stand odpowiadają jednostkom badanej cechy
-określa przeciętne zróżnicowanie poszczególnych wartości cechy od średniej arytmetycznej
Zalety odchylenia standardowego:
-odchyl stand jest obok śr arytm najczęściej stosowaną miarą staty
-odchyl stand jest obliczane na podstawie wszystkich wartości analizowanego szeregu statystycznego
-wielkość odchyl. Stand. Jest tym większa im zbiorowość jest bardziej zróżnicowana
-stopień rozproszenia pomiarów wokół średniej arytmetycznej
-mówi o kształcie rozkładu danej cechy!
-podobnie jak śr arytm jest miarą bardzo wrażliwą nawet na pojedyncze wartości wyraźnie odbiegające od reszty zbiorowości. Jest to związane z podnoszeniem do kwadratu poszczególnych odchyleń w początkowej fazie obliczeniowej tego dużego odchylenie nie zniweluje w pełni późniejsze pierwiastkowanie zsumowanych....
w takich przypadkach celowe jest stosowanie odchyl. Przeciętnego jako miary dyspersji
Alternatywny wzór odchylenia standardowego
szybszy i praktyczniejszy sposób obliczania sumy kwadratów odchyleń
$\overset{\overline{}}{x} = \frac{\sum_{}^{}x}{n}$ $x_{i} = \ x_{i} - \ \overset{\overline{}}{x}\ $
Suma kwadratów odchyleń: $\sum_{}^{}x_{i}^{2} = \ \sum_{}^{}{(x_{i} - \overset{\overline{}}{x})}^{2}$
$\sum_{}^{}x^{2} = \sum_{}^{}X^{2} - \ \frac{{(\sum_{}^{}X)}^{2}}{N}$ (najpierw sumujemy potem podnosimy do kwadratu)
Suma kwadratów pomiarów kwadrat sumy pomiarów
Prawo trzech sigm – całość rozkładu wartości danej cechy pokrywa 6 odchyl stand z czego 3 po jednej stronie rozkładu i 3 po drugiej
- w zakresie pomiędzy śr arytm a + 1s znajduje się 68% obserwacji
-mówi o znikomym prawdopodobieństwie występowania wartości cechy wykraczającej poza przedziały
<-1s, +1s> zawiera 68% osobników
<-2s. +2s> zawiera 95% osobników
<-3s, +3s> zawiera 99,7% osobników
-Przeciętnie 6 odchyleń standardowych (po 3 z każdej strony) pokrywa się z prawie całym akresem zmienności cechy!
Typowy obszar zmienności $\overset{\overline{}}{x} - \ s_{x}\ \leq \ x_{\text{typ}}\ \leq \ \overset{\overline{}}{x} + \ s_{x}$
W obszarze tym mieszczą się wartości cechy około 2/3 wszystkich jednostek badanej zbiorowości.
Przykład: pięciu studentów uzyskało oceny z egzaminu ze statysty w punktach: 8; 5; 3; 6; 3
Należy obliczyć ocenę średnią oraz określić poziom dyspersji( czyli odchyl. Stand.)
Rozw:
N | xi | xi -$\overset{\overline{}}{x}$ | | xi -$\overset{\overline{}}{x}|$ | (xi -$\overset{\overline{}}{x})$2 |
---|---|---|---|---|
1 | 3 | -2 | 2 | 4 |
2 | 3 | -2 | 2 | 4 |
3 | 5 | 0 | 0 | 0 |
4 | 6 | 1 | 1 | 1 |
5 | 8 | 3 | 1 | 9 |
Razem | 25 | 0 | 8 | 18 |
$$\overset{\overline{}}{x} - \ s_{x}\ \leq \ x_{\text{typ}}\ \leq \ \overset{\overline{}}{x} + \ s_{x}5 - 1,89 < x_{\text{typ}} < 5 + 1,893,11 < x_{\text{typ}} < 6,89$$
Cecha | $$\overset{\overline{}}{x}$$ |
s | X(duży X oznacza jednego osobnika z grupy |
---|---|---|---|
B-v | 135,84 | 5,34 | 137 |
Sst-sy | 71,91 | 2,72 | 71 |
a-a | 29,37 | 1,55 | 33 |
Ic-ic | 21,47 | 1,39 | 22 |
Tl-tl | 2,46 | 29 | |
Ciężar ciała | 3,71 | 26 |
$$Z \bullet s = X - \overset{\overline{}}{x}$$
Test chi kwadrat
* gdyby nie było żadnej zależności pomiędzy zmiennymi wówczas powinniśmy oczekiwać mniej więcej takich samych liczebności ozekiwanych i obserwowanych. W miarę odchodzenia od tego rośnie wartość testu chi kwadrat
* wartość testu x2 zależy od liczby obserwacji i liczby komórek w tabeli kontyngencji. Jeśli jakieś liczebności teoretyczne są poniżej 5, to wartość testu może być nieprecyzyjna
Poprawka Jatesa
- test x2 sprawdza , czy dwie zmienne są ze sobą powiązane. Jednak poza stwierdzeniem związku między cechami interesuje nas, jak silne jest to powiązanie. Samej wartości testu x2 jako miary siły związku ine można zastosować , zależy ona od liczebności grupy N i rośnie wraz z jej wzrostem. W oparciu o tę wartość zbudowano szereg miar siły związku
-współczynnik fi Yula - miara korelacji pomiędzy 2 zmiennymi jakościowymi w tabeli 2x2 , przyjmuje wartości od 0 do 1
- wspoczynnik V- Cramera
- wspolczynnik kontyngencji Pearsona
* interpretacja wszystkich wspolczynnikow jest taka sama
- jesli posiada ona wartosc 0 to cechy x i y sa niezalezne
- im blizsza jedynki jest wartosc tych wspolczynnikow, tym silniejsze jest powiazanie pomiedzy analizowanymi cechami.
Modele regresyjne Wprowadzenie
* modelowanie zależności między zmiennymi ciągłymi (mierzonymi na skali interwałowej i ilorazowej):
- ocena siły zależności
- modelowanie zależnści - związek między zmiennymi opisywany jest funkcją liniową w modelach regresji iniowej i nieliniową w modelach regresji logistycznej
- w modelach regresyjnych można określić kierunek zależności, ponieważ w modelach tych jedna ze zmiennych jest zmienną objaśnianą (zalężną) a pozostałe (lub tylko jedna) są zmiennymi objaśniającymi i współczynnik regresji ma okeślony znak.
Miary zależności między zmiennymi ciągłymi – korelacja
- dwie zmienne mogą być powiązane zależnością funkcyjną lub zależnośćią statystyczną (korelacyjną). Związek funkcyjny odnacza się tym, żę każdej wartości jednej zmiennej niezlaeżnej (będziemy ją oznaczać jako X) odpowiada tylko jedna, jendoznacznie określona wartość zmiennej zależnej (Y). Wiadomo na przykłąd, że obwód kwadratu jest funkcją jego boku (O=4a).
- na podstawie analizy merytorycznej należy logicznie uzasadnić występowanie związku, a dopiero potem przystącpić do określenia siły i kierunku zależności. Znane są bowiem w literaturze badania zależności (nawet istotnej statystycznie) między:
> liczbą zajętych gniazd bocianich a liczbą urodzeń na danym obszarze
> liczbą zarejestrowanych odbiorników TV a liczbą chorych umysłowo
- liczbowe stwierdzenie występowania zależności nie zawsze oznacza występowania związku przyczynowo-skutkokwego miedzy badanymi zmiennymi. Współwystępowanie dwóch zjawisk może również wynikać bezpośredniego oddziaływania na nie jeszcze innego , trzeciego zjawiska.
-w analizie korelacji badacz jednakowo traktuje obie zmienne - nie wyrżniamy zmiennej zależnej i nielaeżnej. Korelacja między X i Y jest taka sama, jak między Y i X. Mówi nam ona, na ile obie zmienne zmieniają się równocześnie w spósob liniowy.
Precyzyjna definicja brzmi:
- korelacja między zmiennymi X i Y jest miarą siły liniowego związku między tymi zmiennymi.
1. Analizę związku korelacynego między badanymi cechami rozpoczynamy zawsze od sporządzenia wykresu
2. wykresy, które reprezentują obrazowo związek pomiędzy zmiennymi, nazywane są wykresami rozrzutu (scatterplot). Wzrokowa ocena ułatwia określenie siły i rodzaju zależności.
3. przyjmijmy, żę zbiorowość jest badana ze względu na dwie zmienne X i Y, a wartości tych zmiennych w populacji lub próbie n-elementowej są zestaione w postaci dwóch szeregó szczegółowych lub rozdzielczych. W prostokątnym układzie współrzędnych na osi odciętych zaznaczamy wartości jednej zmiennej, na osi rzędnych - wartości drugiej zmiennej. Punkty odpowiadające poszczególnym wartościom cech tworzą kokrelacyjny wykres rozrzutu.
4. rzadko się zdarza, że zaznaczone punkty leżą dokładnie na linii prostej (pełna korelacja); częściej spotykna konfiguracja skłąd aisę z wielu zaznaczonych punktów leżących mniej więcej wzdłuż konkretnej krzywej ( najczęściej linii prostej). Taka sytuacja przedstawiona jest jako przypadek 1 i 2 na rysunku 1. Przy silnie skorelowanych zmiennych odnosimy wrażenie, jakby te punty równocześnie się poruszały.
5. gdy korelacja staje się coraz słabsza, wówczaa punkty zaczynają się rozpraszać i przesuwać, tworząc w pewnym momencie bezkształtną chmurę punktów (brak korelacji). taka sytuacja ma miejsce w przypadku 3
Koreacja dodatnia występuje wtedy, gdy wzrostowi wartości jednej zmiennej odpowiada wzrost średnich wartości drugiej zmiennej
Korelacja ujemna (odwrotnie proporcjonalna) występuje wtedy, gdy wzrostowi wartości jednej zmiennej odpowiada spadek średnich wartośi drugiej zmiennej (przypadek 2 na rysunku 1)
Współczynnik korelacji Pearsona
- siłę wpółzależności dwóch zmiennych można wyrazić liczbowo za pomocą wielu mierników. Najbardziej populary jest wsółczynnik korelacji liniowej Pearsona, oznaczony symbolem rXY i przyjmujący wartości przedziału [-1,1]
- współczynnik korelacji Pearsona wyliczanmy wówczas, gdy obie zmienne są mierzalne i mają rozkład zbliżony do normalnego , a zależność jest prostoliniowa (stąd nazwa). przy interpretacji współczynnika korelacji liniowej Pearsona należy pamiętać, że wartość współczynnika bliska zeru nie zawsze oznacza brak zależności, a jedynie brak zależności liniowej.
-znak współczynnik korelacji informuje o kierunku korelacji, natomiast bezwzględna wartość - o sile związku. Oczywiście rXY jest równe rYX. Jeśli rXY = 0, oznacza to zupełny brak związku korelacyjnego między nadanymi zmiennymi Xi Y
- im wartość bezwzględna współczynnika korelacji jest bliższa jedności, tym zależność korelacyyjna między zmiennymi jest silniejsza. Gdy rXY = 1 , to zależność korelacyjna przechodzi w zależność funkcyjną (funkcja liniowa)
Współczynnik korelacji rang spermana
- własność współczynnika korelacji rang:
rs=1 gdy pary rang uszeregowane są w ty samym porządku
rs=-1 gdy pary rang uszeregowane są w odwrotnym porządku
rs=0 w przypadku czysto losowego ułożenia rang
1. losowo wybrane małżeństwo poproszono o uporządkowanie programów tv od najchętniej oglądanych (ranga 1- do najmniej interesujących (ranga 7). Wyniki przedstawia tabela
Podsumowanie
- współczynnik korelacji liniowej pearsona służy do oceny zależności liniowej, natomiast wpółczynnik korelacji rang Spearmana do oceny zależności monotonicznej ( rosnącej lub melejącej, niekowniecznie liniowej). Ponieważ każda zlaeżność liniowa jest monotoniczną, a nie każda monotoniczna liniową - współczynnik korelacji rang jest nieco ogólniejszy niż wpsółczynnik Pearsona
- jeśli zależność między badanymi zmiennymi jest zależnością liniową - wartości obu współczynników będą podobne
- jeśli zależność jest krzywoliniowa (ale monotoniczna) to wartość współczynnika korelacji rang będzie większa niż współczynnik korelacji liniowej.
Zależność wyniku oceny istotności współczynnika korelacji od liczebności
R^2 - kwadrat współczynnik korelacji = współczynnik determinacji
Jest to opisowa miara dokładności dopasowania regresji do danych empiycznych Przyjmuje wartości z przedziału <0,1> lub w ujęciu odsetkowych <0,100%> i informuje ( zgodnie z zapisem) jaka część zaobserwowanej w próbie całkowitej zmienności Y została wyjaśniona (zdeterminowana) regresją względem VX.
Im większe R2 tym powiązanie jest lepsze i można mieć większe zauwafnie do ewentualnej linii regresji.
Jesli R2 jest równy zero, niekoniecznie oznacze to, żę nie ma zależnosci między zmiennymi, Oznacza o, iż model liniowy jest nieodpowiedni do opisu zależności między zmienną objaśnianą i objaśniającą (gdyż zależność ta możebyć nieliniowa i wówczas model liniowy nie pasuje = jeśli żle dopasowany do danych empirycznych)
Możemy mieć również do czynienia ze skorygowanym wspóczyniekiem determinacji (adjusted R1). ZOał wprowadzony (szczególnie w SPSS) aby lepiej odzwierciedlć jakość dopasowania modelu w populacji generalnej
Korelacja - analiza współzależności między dwoma cechami -> ilościowymi lub jakościowymi
Modele regresyjne, które pozwalają nam szaować w jaki sposób zmieni się objaśniania w zależności od jednej lub kilku zmiennych objaśniających (predyktorów)
Modele regresyjne – wprowadzenie
- modelowanie zależności między zmiennymi ciągłymi (mierzonymi na skali interwałowej i ilorazowej):
* ocena siły zależności
* modelowanie zależności -z wiązek między zmienymi opisywanymi jest funkcją liniową w modelach regresji liniowej i nieliniową w modelach regresji logistycznej
- w moelach regresynych można określić kierunek zależności, poniewaz w modelach tych jedna ze zwmiennych jest mienną objaśnianą (zależnoą) a pozostałe (lub jedna tylko) są zmiennymi objaśniających i współczynnik regresji ma określony znak.
Predyktory jakościowe - wyrażone w skali nominalnej
Predyktory ilościowe - w skali
Analiza regresji
- celem regresji jest predykcja (przewidywanie, prognozowanie) wartości jednej lub kilku zmiennych (wynikowych) na podstawie informacji zawartych w wynikach pomiarów innych zmiennych (objaśniających (predyktorów)
- analiza regresji - zbiorcza nazwa szerokiej klasy analiz pozwalających na testowanie rownież zależności nieliniowych oraz wpływu zmiennych jakościowych.
- dzięki analizie regresji możemy przewidzieć o ile zmieni się wartość zmiennej objaśnianej wtedy, gdy wartość zmiennej objaśniającej = predyktora zmieni się o jedną jednostkę
- przewagą analizy regresji nad korelacją jest możliwość przewidywania wartości zmiennej zależnej na podstawie większej liczby predyktorów niż jeden !
Założenia teoretyczne
- zmienna objaśniania (zależna) i predyktory pochodza z populacji o rozkładzie normalnym.
- zarówno zmienna zależna, jak i predyktory mierzone są na skali ilościowej; możiwe jest wykorzystanie jako predyktorów zmiennych kategorialnych, pod warunkiem, ze są zero-jedynkowe!
- w przypadku regresji wielozmiennowej predyktory nie powinny ze sobą silnie korelować ( w przeciwnym razie zmienne odzwierciedlają prawie te same zjawiska) !
- przewidywanie zmiennej zależnej na podstawie jednego predyktora wymaga jednozmiennowej analizy regresji, zaś uwzględnienie przynajmniej dwóch predyktorów - regresji wielozmiennowej.
- dokonując analizy regresji budujemy "model" liniowej zależności pomiedzy zmiennymi czyli uproszczony obraz rzeczywistości, w którym wartości, jakie przyjmuje zmienna zależna, zależą głównie od wartości predyktora.
- użycia regresji w praktyce sprowadza się do dwóch faz:
* konstruowanie modelu - budowa tzw. modelu regresyjnego, czyli funkcji opisującej, jak zależy wartość oczekiwana zmiennej objaśnianej od zmiennych objaśniających. Funkcja ta może być zadana nie tylko czystym wzorem matematycznym, ale także całym algorytmem, np w postaci drzewa regresyjnego, sieci neuronowej, itp. Model konstruuje się tak, aby jak najlepiej pasował do danych z próby, zawierającej zarówno zmienne objaśniające, jak i objaśniane
* stosowanie modelu (tzw. scoring) - użycie wyliczonego modelu do danych w których znamy tylko zmienne objaśniające, w celu wyznaczenia oczekiwanej wartości zmiennej objaśnianej.
1.w jaki sposób liczba lat poświęconych nauce zwiększa przyszłe zarobki?
* predyktor - liczba lat nauki
* zmienna wyjaśniana - przewidywane zarobki
Przeprowadzono badania ankietowe, w jakich znalazły się informacje o zarobkach i liczbie lat nauki.
1) sprawdzamy czy isnieje prostoliniowy związek między predyktorem a zmienną wyjaśnianą:
- wyniki układają się w smugę punktów, które przypomina linię prostą. Obliczony r= 0.47
2) dopasowanie linii do danych - szukamy takiej prostej, która będzie najbizej wszystkich punktów jednocześnie. Linię dopasowujemy za pomocą metody najmniejszych kwadratów!
Odległości (linie równoległe do osi Y) pomiędzy każdym punktem a linią regresji czyli równica między wynikiem rzeczywistym dla zmiennej zależnej Y,i a wynikiem przewydywanym na podstawie regresji Y'^,i = błedy oszacowania = reszty regresji.
Im większe reszty regresji, tym bardziej model myli się w przewidywaniu wyników. Dlatego nazywa się je błędami. Gdyby dodać do siebie różnice (dodatnie - nad linią, ujemne - pod linią), ich suma wynosiłaby 0. Przed dodaniem podnosi się je do kwadratu.
Metoda najmniejszych kwadratów polega na tym, że ze wszystkich możliwych linii prostych wybieramy tę, dla której suma kwadratów reszt jest najmniejsza!
- linia regresji jest modelem na podstawie którego możemy oszacować konkretne wartości zmiennej zależnej. Cechy tego modelu okreslane są przez dwie charakterystyki linii prostej:
* punkt przecięcia tej linii z osią Y - stała określająca punkt przecięcia (b,0)
* nachylenie linii względem osi X - współczynnik kierunkowy opisujący nachylenie linii (b,1)
Model linii regresji można zapisać za pomocą równania liniowego
Y'^,i - przewidywana wartość zmiennej zależnej przy uwzglęndnieniu konkretnej wartości predyktora X,i
b,0 - punkt przecięcia linii regresji z osią Y - jest to przewidywana wartość zmiennej zależnej, gdy watość predyktora wynosi 0
b,1 - współczynnik nachylenia linii regresji względem osi X (może być dodatki lub ujemny w zależności od kierunku korelacji ) - informuje o tym, jak szybko zmienia się wartość zmiennej zależnej wraz ze wzrostem wartości predyktora o jedną jednostkę
X,i – predyktor
Analiza wariancji - porównuje dwa źródła wariancji - całkowita waiancja zaróbków zostaje rozbita na dwie części:
Pierwsza część (1)jest wariancją wyjaśnianą przez predyktor (średni kwadrat dla regresji - pierwszy wiersz tabeli); (2)druga to, czego predyktor nie wyjaśnił czyli wielkość reszt (wariancja błedu)
Aby przewidzieć zarobki po, np. 25 latach nauki, potrzebne są wartości współczynników równania regresji:
Współczynnik beta(*) - współczynnik nachylenia prostej b,1 wyrażony w jednostkach odchylenia standardowego. Dla regrsji prostej jest równy współczynnikowi korelacji zmiennej zależnej i predyktora!
Zwiększając liczbę lat nauki o jedno odchylenie standardowe wartość zarobków wzrośnie o 0.47 odchylenia standardowego.
Mając wartości współczynników regresji, można dokonać predykcji wysokości zarobków dla osoby, która uczyła się 25 lat!
Efektywność modelu
Statystyka R - wartość współczynnika korelacji wielokrotnej - siła związku między zmienną zależną i predktorem
R^2 - stopień dopasowania modelu do danych - jak duży procent wariancji zmiennej zależnej (zarobki) można wyjaśnić posługując się predyktorem (liczba lat nauki) = model wyjaśniania 22% wariancji
Skorygowane R^2 - bierze poprawkę na liczbę predyktorów wprowadzonych do równania regresji; gdy >1 predyktorów powołujemy się na skorygowany R^2
Błąd standardowy oszacowania - określa rozbieżność między przewidywanymi wartościami a rzeczywistymi danymi. Im lepszy predyktor , tym mniejsza jego wartość!
Błąd standardowy oszacinania - na jego podstawie wimy, że szacując wynagrodzenie z uwzględnieniem liczby lat mylimy się o około 531zł, przeszacowując lub niedoszacowując wielkość zarobków (0,5307 pomnożone przez 1000)
Skoro oszacowanie obarczone jest błedem = 531 zł, to oznacza ż eprzewidywane zarobki dla osoby uczacej się 25 at mieszczą się w przedziale od 2364 do 3426zł.
Pierwiastek z namniejszej sumy kwadratów reszt podzielony przez stopnie swobody.
Pytania:
1. czy można stosować regresję liniową, jeżeli zmienne nie mają rozkładu normalnego?
Wbrew pozorom tak! Wartość p traci wtedy na znaczeniu, ale możemy uzyskać dobry model predykcyjny.
2. czy należy transformować dane do regresji?
można a czasem nawet trzeba - zwłaszcza logarytmowanie danych! Log - gdy stosunek między największą i najmniejszą wartością przekracza 10; jeśli przekracza 100 - trzeba!
3. czy porównanie R^2 w róznych modelach jest dobrym kryterium?
- Nie! Należy wtedy używać AIC; Cp lub BIC
- AIC = Akaike Information Criterion = Kryterium Informacyjne Akaike - znajduje się w oknie wyników dotyczących modelu.
- Im mniejsze AIC tym lepiej - lepsze dopasowanie modelu!
- Samo AIC niewiele znaczy - ważne jest porównanie AIC między modelami!
Testy parametryczne
- służą do weryfikacji hipotez parametrycznych, odnoszących się do parametrów rozkładu badanej cechy w populacji generalnej
- najczęściej weryfikują sądy o takich paramterach populacji jak: średnia arytmetyczna, wskaźnik struktury i wariancja
- testy te konstruowane są przy zalożeniu znajomości postaci dystrybuanty w populacji generalnej
-biorąc pod uwagę zakres ich zastosować testy te można podzielić na dwie grupy:
* testy parametryczne służace do weryfikacji własności populacji jednowymiarowych oraz testy służace do porównania własności dwóch populacji!
- testy parametryczne służace do weryfikacji własności populacji jednowymiarowych:
* testy dla średniej
* testy dla proporcji (wskaźnika struktury)
* test dla wariancji
- w teschach tych oceny parametrów uzyskane zpróby losowej są porównywane z hipotetycznymi wielkościami paramtewó, trkaktowanymi jako pewien wzorzec.
- testy parametryczne służące do porównania własności wóch populacji:
* test dla dwóch średnich
* test dla dwoch proporcji
* test dla dwóch wariancji
- testy te porrownują oceny paramterwó uzyskane z dwóch prób losowych
Porównywanie dwóch średnich Kolejne kroki testowania statystycznego
Porównywanie srednich może dotyczyc średnich dla prób:
- niezależnych - porównujemy średnie dwóch równych grup - wyniki pomiaru jednej grupy nie są zależne wobec pomiaru drugiej grupy
- zależnych - gdy oceniamy skutek pewnych działań przeprowadzonych na tej samej grupie; wówczas porównujemy wartość sprzed działań ze średnią po działaniach, np. badanie efektywności terapeutycznej leku i porównywanie stanu pacjentów przed podaniem leku i po podaniu
- dla jednej próby - porównanie ze sobą średniej i odchylenia standardowego zbadanej jednej grupy osób badanych z założoną z góry wartością (pewien przyjęty wzorzec, pewien punkt odniesienie, norma)
*próby niezależne:
przykład: chcemy sprawdzic, czy studenci UWr mają wyższy poziom inteligencji niż studenci akademii medycznej. Zbadano ich testem na IQ. Aby porównać wyniki stodujemy test t-Studenta (jeżeli założenia tego testu zostały spełnione) dla prób niezależnych.
* próby zależne:
Przykład - chcemy sprawdzić skuteczność nowego leku na poziom cukru. Każdemu pacjentowi na wstepie zaznaczamy poziom cukru. Po dwóch tygodniach stosowania leku ta sama grupa badana jest ponownie. Aby stwierdzić czy lek jest skuteczny należy zastosować test t-studenta dla prób zależnych.
* test dla jednej próby:
przykład: średnia wartość IQ w populacji wynosi 100, studenci uzyskali wynik w teście 116, korzystając z testu t-studenta dla jednej próby oceniamy, czy wynik studentów jest wyższy (ze statystycznego punktu widzenia) niż średni poziom IQ w populacji.
William Sealy Gosset (1876-1937) - pseudonim Student ( wymyślił test t-Studenta i rozkład prawdopodobieństwa - rozkład Studenta)
Test t-Studenta
- wyniki pomiarów w skali interwałowej
- najwyżej dwie grupy do porównania
- dane powinny pochodzić z populacji o rozkładzie normalnym
- jednorodność = homogeniczność wariancji obu porównywanych grup
- wygodny i użyteczny dla małych prób (mniej niż 50 obserwacji); można stosować dla dużych prób
Rodzaje testów t Wzory testów t-studenta
- błąd standardowy próby - S,X; SE (standard error) - błąd standardowy róznicy między dwiema średnimi; określa rozproszenie średnich. Zależy od liczebności próby; im większa liczebność, tym mniejszy błąd! Określa granice przedziału zamykające określoną liczbę charakterystyk statystycznych.
Test U - Mann – Whitneya
Test sumy rng Wilcoxona
Jedna z najpopularniejszych nieparametrycznych alternatyw dla testu t-studenta dla prób niezależnych. Zmienna zależna musi być mierzona na skali co najmniej porządkowej (może być również mierzona na skali ilościowej). Jest to podstawowwty warunek dla zastosowania tego testu. Możemy z niego korzystać również , gdy zmienna jest mierzona na skali dychotomicznej (czyli 0-1), dlatego, że jest to przypadek zmiennej nominalnej, któa zarazem jest zmienną porządkową. Zastosowanie testu U nie wymaga równoliczności grup, rozkłądu normalnego czy też homogenicznych wariancji.
- test U M-W polelga na rangowaniu wyników zmiennej zależnej ( od najmniejszej do największej) w badanych grpach a nastepnie grupy są ze sobą porwywane
- np chcemy sprawdzic, czy kobiety różnią się od mężczyzn względem poziomu wyksztalcenia mierzonego w skalli (podstawowe, zawodowe, średnie, wyższe). Ponieważ zmienna zależna (poziom wykształcenia) jest mierzona na skali porzadkowej stosujemy test U M-W do sprawdzenia różnic między badanymi grupami
Test z - Stosowany w przypadku spełnienia podstawowych założeń homogeniczności wariancji oraz dżych prób a taże do 1 próby.
TEst t dla prób niezależnych - duże próby:
średni poziom hemoglbiny wśród chłopców i dziewcząt:
Chłopcy i dziewczęta mają podobne wariancje a dziewczęta odrobinę wyższy średni poziom hemolobiny niż chłopcy. Czy różnica w srednim poziomie hemoglobiny między płciami jest istotna?
Krok1: postawienie hipotezy 0: średni poziom Hb dzieczwąt = sredni poziom Hb chłopców
krok 2: sprawdzenie homogenicznosci wariancji z zastosowaniem F (Fishera-Snedecora)
krok 3: wybór testu t, obliczenie wartości statystyki t raz wybór poziomu istotności (p)
krok 4, w zależności od p:
1) małe (<0.05) -> odrzucenie hipotezy 0 -> oznacza to istnienie rzeczywistej róznicy płciowej w średnim poziomie hemoglobiny
2) duże (p>0.05) -> akceptacja H0 -> oznacza brak różnicy płciowej w średnim poziomie Hb
Wartość krytyczna testu F odczytana z tablicy = 1.309
obliczona wartość F= 1.1597 ( jest mniejsza niż 1.309) czyli prawdopodobienstwo p>0.05 -> wariancje oby prób nie różnia się = są homogeniczne!
Interpretacja
liczba stopnni swobody (df) dla testu t: N,1-1 + N,2-1 = 142+126=268 -> p=5% z df=200 1.9719
Obliczona wartość testu t=1.22 jest mniejsza niż 1.9719
nie ma podstaw do odrzucenia H0 - nie ma rónic w średnim poziomie Hb między chłopcami i dziewczętami!
Analiza wariancji
- przy poziomie istotnosci p=0.05 prawdopodobieństwo, że się nie pomylimy dla jednego porównania = 0.95; dla dwóch porównań: 0.95^2 = 0.905
- dla 4 grup mamy 6 porównań: 0.96^6= 0.7351
* ANOVA - analysis of variance to metoda statystyczna, służąca do badania obserwacji, które zależą od jednego lub wielu działających równocześnie czynników. Metoda ta wyjaśnia z jakim prawdopodobieństwem wyodrębnione czynniki mogąbyć powodem różnic między obserwowanmi srednimi grupowymi Analiza wariancji została stworzona w 1923 przez angielskiego biologa Ronalda Fishera.
*Modele analizy wariancji można podzielić na:
- jednoczynnikowe - wpływ każdego czynnik jest rozpatrywany oddzielnie, tą kllasą zagadnień zajmuje się jednoczynnikowa analiza wariancji
- wieloczynnikowe - wpływ różnych czynników jest rozapatrywany łącznie , tą klasą zagadnień zajmuje się wieloczynnikowa analiza wariancji
- analiza wariancji dla czynników wewnątrzgrupowych - wpływa czynnika wewnątrzgrupowego na zmienną zależną, tzw. "powtarzane pomiary".
Wg kryterium podział modeli przebiega następująco:
- model efektów stałych - obserwacje są z góry podzielone na kategorie
- model efektów losowych - kategorie mają charakter losowy
- model mieszany - częśc kategorii jest ustalona a część jest losowa.
Założenia analizy wariancji
- każda populacja musi mieć rozkład normalny (test Kołmogorowa-Smirnowa)
- pobrane do analizy próby są niezależne
- próby pobrane z każdej populacji muszą być próbami losowymi z podobną liczebnością ( jesli jedna grupa nie przekracza liczebnoscią drugiej dwukrotnie)
- wariancje w populacjach są równe = homogeniczne (test Levene'a)
W przypadku, gdy założenia analizy wariancji nie są spełnione należy posługiwać się testem Kruskala-Wallisa.
Jednoczynnikowa analiza wariancji jest testem statystycznym służacym do porównywania średnich w wielu populacjach. Nazwa metody pochodzi od algorytmu postępowania przy testowaniu układu hipotez.
Podstawą analizy wariancji jest możliwość rozbicia sumy kwadratów wariancji całkowitej dla wszystkich wyników obserwacji na dwa składniki:
- sumę kwadratów opisującą zmienność wewnątrz prób
- sumę kwadratów opisującą zmienność między grupami (populacjami)
Całkowita suma kwadratów = wewnetrzna suma kwadratów + międzygrupowa suma kwadratów
SK całkowita = SK reszt + SK pomiędzy grupami
(SS Total) = (SS Error)/miara zmienności wewnątrz grup/ + (SS Effect)/miara różnic między grupami -> Sum of Squares
Suma kwadratów może powstać zarówno z odchyleń spowodowanych wpływami przypadkowymi, jak i z odchyleń spowodowanych systematycznymi różnicami między poszczególnymi grupami
Następny etap obliczeń to tzw. średnie kwadraty odchyleń (MS - Mean squares):
ŚK - pomiędzy grupami (MS Effect) = SS pom. grupami/df grup = SS pom. grupami/(k-1)
ŚK reszta (MS Error) = SS reszt / df reszt = ss reszt / n-k
Jeśli H0 nie jest prawdziwa, wówczas średni kwadrat między grupami (ŚK pom. grupami) rośnie i jest wyższy niż średni kwadrat odchyleń wewnątrzgrupowych. H0 należy wtedy odrzucić
Statystyka F jest podstawą wyznaczenia obszaru krytycznego dla H0 o równości wszystkich średnich. Wartości F bliskie 1 "świadczą za" prawdzaną hipotezą, dużo większe od 1 przemawiają za jej odrzuceniem!!!!
Przykład : Badano czterema róznymi metodami czas krzepnięcia osocza krwi 10 losowo wybranym pacjentom. Otrzymano następujące wyniki;
Chcemy poróbwnać średnie czasy krzepnięcia dla każdej metody.
Międzygrupowe i wewnątrzgrupowe sumy kwadratów podzielone przez związane z nimi liczby stopni swobody dają średnie kwadraty!!
20.826: 3 = 6.9420; ...
Zgodnie ze wzorem F otrzyujemy:= 3.85924
H0 o równości wszystkich średnich odrzucamy!
Gdy hipoteza zerowa zostanie odrzucona to powstanie pytanie której z porównywanych grup są odpowiedzialne z ajej odrzucenie? Chcemy wiedziec które ze średnich różnią się między sobą, a które są równe
Należy wtedy przeprowadzić dokłądniejsze badania różnić między średnimi z poszczególnych grup. Służa do tego testu post-hoc zwane też testami wielokrotnych porównań.
Trzy grupy testów post-hoc:
- analiza kontrastów i związane z nią testy (test Scheffego)
- testy oparte na studentyzowanym rozstępie umożliwiające grupowanie średnich ( test Tukeya, Duncana, Newmana-Keusala)
- wnioskowanie na podstawie przedziałoów ufności (test Scheffego, Benferroniego, Dunneta)
* test NIR (najmniejszych istotnych różnic - least significant differences (LSD) to najsatrszy test, zaproponowany w 1949 r przez R.A.Fishera. polega on na wyznaczeniu tzw. najmniejszych istotnych różnic
- najczęściej stosuje się go do średnich uporządkowanych niemalejącą, poróznywanie rozpoczyna się od średnich najbadziej oddalonych. W rezultacie z zbiorze wszystkich średnich wyrżniamy podzbiory wewnątrzenie jednorodne. Pozbiory te niekoniecznie muszą być rozłączne. Możliwa też jest sytuacja że nie został wyzdzielony żaden podzbuór rózniący się od pozostałych, mimo że test F analizy wariancji wykazał istotne zrónicowanie.
* test Scheffego - najbardziej konserwatywny test. Oznacza to że używając go w porównywanlnych grupach rzadziej będziemy odrzucać hipoteże o równości średnich niż posługując się innymi testami
- uwzględnia nie tylko porównania par cach ale wszystkie możliwe kontrasty. Ważne jest też to ze w teście S mamy zagwarantowany łączny poziom istotności dla wszystkich testowanych par, czego nie gwarantował test NIR
- jest najbardziej zachowawczy, ponieważ błąd typu pierwszego jest najmniejszy (tzn prawdopodobieństwo odrzucenia hipotezy ktora okaże się prawdzija jest najmniejsze ) . Jednak dla porównań par średnich bardziej zalecany jest test Tukeya oraz test Newmana i Keulsa.
* Test Newmana i Keulsa należy do grupy testów opartych na tzw studentyzowanym rozstępie. Bada każdą hipoteze o równości średnich w pewnej grupie. Za jego pomoą możemy tworzyć grupy jednorodne. Test ten ze względu na niejednoczesnte testowanie hipotez o równości srednich nie może słyżyc do tworzenia przedziałó wunosci. Idea obliczen jest nastepujaca:
- sortjemy średnie w porzadku niemalejacym:
- dla kazdej pary srednich testujemy roznice rozstepow przy ustalonych liczebnosciach
* Test Duncana to drugi test oparty na studentyzowanym rozstepie. Podobie jak poprzedni,test D ze wzgledu na niejednoczesne testowanie hiipotez o rownosci srednich nie moze sluzyc do tworzenia przedzialow ufnosci.
* test Tuckeya występuje w dwóch wariantach: dla równej liczebnosci próbek i dla nierównej liczebnosci (test Spjotvolla i Stoline'a) Ttest Tuckeya jest również opasty na studentyzowanym rozkładzie. Metode Tukeya jest bardziej konserwatywna niż test NIR, ale mniej niż Scheffego . Oznacza to ze uzywają go rzadziej bedziemy odrzucac pojedyncze porownania niz w metodzie NIR.
- uszeregowanie wymienonych testow od najbardziej do najmniej konserwatywnego przedstwaia sie nastepujaco: Scheffego, Tukeya, Newmana i Keulsa, Duncana i test NIR
czas krzepnięcia dla metody 4 jest znacznie wyższy w porównaniu z metodami 1 i 2. Pozostałe różnice są nieistotne!