Statystyka kolos wykłady, Pedagogika - studia, II semestr - ogólna, Statystyka


Statystyka - kolokwium z wykładów.

1. Podstawowe typy projektów badawczych - ogólna charakterystyka - cechy i różnice.

Projekt badawczy - plan przebiegu badania, odejmujący decyzje - od ogólnych założeń do szczegółowych metod gromadzenia i analizy danych.

•TYP SCHEMATU BADAWCZEGO (założenia światopoglądowe - paradygmat, planowane procedury - strategie, metody gromadzenia, analizy i interpretacji danych, natura badanego problemu, osobiste doświadczenia badacza, odbiorcy projektu)

•- badania jakościowe

•- badania ilościowe

•- badania mieszane

•Badania jakościowe odrzucają etos nauki

•Badania jakościowe odrzucają teorię jako podstawę

i rezultat

Typy projektów badawczych:
•1. jakościowy

•2. ilościowy

•3. mieszany

•Badania jakościowe vs. ilościowe to nie dychotomia, ale punkty krańcowe pewnego kontinuum.

Badanie jakościowe:

•DEFINICJA: Analizowanie i interpretowanie znaczeń, jakie jednostki lub grupy przypisują problemom z zakresu nauk społecznych i nauk o człowieku.

•Proces badawczy:

•Wyłanianie nowych pytań i procedur w toku badania

•Gromadzenie badań w warunkach współuczestnictwa

•Analiza indukcyjna danych (od szczegółu do ogółu)

•Interpretacja znaczenia danych

•Raport końcowy ma strukturę elastyczną

•(styl indukcyjny, indywidualne interpretacje, złożoność sytuacji)

Badanie ilościowe:

•DEFINICJA: Sprawdzanie obiektywnych teorii przez analizowanie relacji pomiędzy różnymi zmiennymi

•Badanie obejmuje:

•Pomiar zmiennych z wykorzystaniem różnych narzędzi

•Analiza statystyczna zebranych danych

•Raport z badań ma ustaloną strukturę (wprowadzenie, omówienie literatury i teorii, metody, wyniki, wnioski)

•Weryfikacja teorii w drodze dedukcji, tworzenie zabezpieczeń przed błędami, testowanie wyjaśnień alternatywnych, wyniki są powtarzalne i dają się uogólniać

Badanie mieszane:

•Łączy formy jakościowe i ilościowe

•Badanie obejmuje:

•Założenia filozoficzne

•Zastosowanie w praktyce metod jakościowych i ilościowych oraz ich integrację w projekcie badawczym

Różnice:
•Cechy dyskwalifikujące badania jakościowe jako badania naukowe (sprowadzenie do formy reportażu)•w ujęciu „ekstremalnym”


1. Stosunek do teorii

2. Stosunek do obiektywizmu

Stosunek do teorii:

•A) badania ilościowe zaczynają się od teorii, stanowiącej podstawę określania potrzebnych danych

•- badany obiekt wypowiada się w obszarze wyznaczonym przez teorię i wynikającą zeń metodę

•- badacz narzuca o.b. własne pojęcia, rejestruje fakty społeczne pozbawione subiektywnych sensów

•- wyjaśnia zaobserwowane zjawiska jako konkretyzacje ogólnego prawa

•B) badania jakościowe nie zaczynają się od teorii, ale od danych

•- badany obiekt sam się wypowiada (np. jak spostrzega, odczuwa własną sytuację)

•- badacz jakościowy szuka sensu zachowań, który o. b. konstruuje w ramach pewnego kontekstu (np. instytucjonalnego, osobistego)

•- dokonuje próby zobrazowania złożonych wzorców analizowanego obiektu i udostępniania ich tym, którzy ich nie doświadczyli

Stosunek do obiektywizmu:

•A) w badaniach ilościowych badacz ucieka w mechaniczną procedurę, próbując zabezpieczyć swoje wnioski przed wpływem własnych wartości i wartości badanych osób

•B) w badaniach jakościowych badacz nie „broni się” przed własnymi wrażeniami, uczuciami, wartościami - przyznaje wprost, że badanie to „ciąg jego osobistych wyborów” (własne wartości wchodzą w interakcje z wartościami badanego obiektu) - teza o niemożności realizacji zasady bezstronności

2,3,4 Podstawowe pojęcia statystyczne:
- Statystyka opisowa: t

o dział statystyki zajmujący się metodami opisu danych statystycznych uzyskanych podczas badania.

Celem stosowania metod statystyki opisowej jest:

• podsumowanie zbioru danych

•wyciągnięcie pewnych podstawowych wniosków i uogólnień na temat zbioru.

Statystykę opisową stosuje się jako pierwszy
i podstawowy krok w analizie zebranych danych.

Do technik statystyki opisowej można zaliczyć:

• opis tabelaryczny,

• graficzną prezentację wyników,

• wyznaczanie miar rozkładu.

- Statystyka indukcyjna: •To dział statystyki zajmujący się wnioskowaniem o cechach populacji w oparciu o cechy wylosowanej z niej próby (czyli estymacja - szacowanie)

•Weryfikacja hipotez statystycznych odbywa się przez zastosowanie specjalnego narzędzia - test istotności

•Pozwala ustalić prawidłowości i podejmować decyzje na podstawie zastosowania rachunku prawdopodobieństwa

Reasumując: statystyka indukcyjna zajmuje się wnioskowaniem statystycznym

Próba a populacja - konsekwencje dla statystyki :

Populacja i jej parametry: μ σ p

Próba i estymator : s
Próba i estymator : r
Próba i estymator: x z kreską

Estymacja :

•Jest zbiorem metod pozwalających na uogólnianie wyników badania próby losowej na nieznaną postać i parametry rozkładu zmiennej losowej w całej populacji 

czyli:

• Estymator jest statystyką służącą do szacowania wartości parametru rozkładu.

• Celem zastosowania estymatora jest znalezienie parametru rozkładu cechy w populacji.

•Miary tendencji centralnej: średnia; modalna; mediana

•Miary rozproszenia

rozstęp; wariancja; odchylenie standardowe

•Miary rozkładu

skośność; kurtoza

Miary tendencji centralnej:

Średnia:
Średnia (M) - suma wszystkich wartości zmiennych podzielonych przez ich liczbę.

Mamy kilka rodzajów średniej min.:

-arytmetyczna

-geometryczna

-harmoniczna

-ważona

-ucinana

-kwadratowa

-średnia logarytmiczna

•może być obliczona tylko dla zmiennych ilościowych

•Jest wielkością abstrakcyjną, tzn. jej wartość nie musi występować w szeregu statystycznym na podstawie którego była wyznaczana (badany o średnim wzroście nie istnieje)

•nie jest odporna na wartości skrajne, dlatego należy obliczyć inne miary.

ponadto:

•Jakość średniej lepiej ocenić mając informacje o odchyleniu standardowym (ale o tym za chwilę)

Modalna (dominanta): to wartość najczęściej występująca w zbiorze

•charakteryzuje „typowe” jednostki w zbiorowości

•jedyna miara położenia, którą można wyznaczyć dla zmiennych nominalnych

•w zbiorze wartości może występować więcej niż jedna wartość dominanty - zjawisko dwumodalności

Mediana: Me - to wartość środkowa, dzieląca uporządkowany zbiór na pół.

•Innymi słowy jest to wartość cechy (zmiennej) w szeregu uporządkowanym, powyżej i poniżej której znajduje się jednakowa liczba obserwacji

• Obliczając medianę konieczne jest, aby w pierwszym kroku uporządkować dany zbiór od najmniejszej do największej wartości

Miary rozproszenia:

Rozstęp - odległość pomiędzy najniższym a najwyższym wynikiem dla danej zmiennej

Wariancja - suma kwadratów odchyleń od średniej, dzielonych przez liczbę wyników pomniejszonych o 1.

• Jest to miara rozproszenia wokół średniej.

• Przez to, że wariancja jest wyrażona w jednostkach pomiarowych podniesionych do kwadratu, to sprawia pewne trudności w interpretacji, dlatego częściej podaje się odchylenie standardowe

Odchylenie standardowe:
•Jest równe pierwiastkowi kwadratowemu z wariancji

•Informuje o tym, na ile wyniki się "zmieniają", tzn.
czy rozrzut wyników wokół średniej jest mały
czy duży.

• Im większe SD, tym większe rozproszenie wyników wokół średniej


5,6,7. Układ normalny. Miary rozkładu (asymetrii):

Cechy rozkładu normalnego:

• 68% wszystkich opisywanych przezeń przypadków trafia do przedziału odejmującego ±1 odchylenie standardowe od wartości średniej,

•a ±2 odchylenia standardowe obejmują 95% przypadków.

Właściwości układu normalnego:

•symetria

•jednomodalność

•średnia = mediana = modalna

•teoretycznie zmienna może przyjmować dowolnie małe/duże wartości

Skośność jest miarą symetrii rozkładu

(częstość występowania wyników niskich i wysokich)

Dwie możliwe sytuacje:

-prawoskośność

-lewoskośność

Prawoskośność:

Jeśli wartość skośności jest większa od zera,
mówimy o rozkładzie dodatnio skośnym (prawoskośnym)

Wyniki skupione wokół wartości niskich cechy

Jest to taki rozkład, gdzie częstość występowania wyników niskich jest większa niż wyników wysokich

Mo<Me<M

Lewoskośność:
Jeśli wartość skośności jest mniejsza od zera, mówimy o rozkładzie ujemno skośnym (lewoskośnym)
Skupienie jednostek znajduje się przy wysokich wartościach cechy
Dominująca liczba jednostek ma wartości powyżej średniej

M<Me< Mo

Kurtoza: to stopień skupienia wyników wokół wartości centralnej

Kurtoza w rozkładzie normalnym wynosi 0.

Rozkład leptokurtyczny:

•Jeśli kurtoza jest większa od zera, mamy do czynienia
z rozkładem leptokurtycznym

•W rozkładzie leptokurtycznym wartości są skupione
silnie wokół średniej

Rozkład platykurtyczny:

Czyli taki rozkład, kiedy jest duże rozproszenie wyników wokół wartości centralnej

•Jeśli kurtoza jest mniejsza od zera nasz rozkład jest rozkładem platykurtycznym (spłaszczonym).

8. Pomiar - isota, definicje, skale pomiarowe ze względu na poziom pomiaru - podstawowe cechy i przykłady .

Definicja:
•Przyporządkowanie liczb, numerów przedmiotom (obiektom lub faktom - cechom, procesom, zdarzeniom, osobom) zgodnie z określonymi regułami, w taki sposób, aby odzwierciedlały one zachodzące między tymi przedmiotami stosunki

•przypisanie wartości liczbowych jednostkom, cechom nie posiadającym tych wartości

Istota pomiaru

Porządkowanie, ilościowe określanie pewnych zjawisk lub cech zjawisk o charakterze jakościowym.

Przekształcanie zbioru faktów jakościowych określanych jako cechy na hierarchie ilościowe rozumiane jako zmienne.

Określenie natężenia, siły, intensywności występowania danej cechy lub zjawiska.

-Reguły wyznaczają poziom pomiaru (dokładność)
-Wartości zmiennej uporządkowane są na kontinuum

-Narzędziem pomiaru jest skala (odzwierciedlająca kontinuum)

Skale pomiarowe:

Skala nominalna:

•Występują relacje różności/równości pomiędzy klasami jednostek A=B, A#B.

•Możliwe operacje logiczne to określenie tożsamości lub różnicy obiektu wobec kategorii opisowej.

•Można dokonywać klasyfikacji lub typologizacji,

•Możliwe operacje matematyczne

• obliczenie częstotliwości występowania poszczególnych kategorii cech

•Możliwe operacje statystyczne:

•- obliczenie proporcji, procentów, stosunków, miar tendencji centralnej (modalna), testy nieparametryczne, współczynniki kontyngencji (zbieżności cech jakościowych)

przykłady : region pochodzenia, płeć, rodzaj wyznania, typ wykształcenia

Skala porządkowa:

•ustalanie kolejności (szeregowanie) klas obiektów,

•występowanie relacji równości, różności,

•większości i mniejszości, przechodniości między obiektami (A=B, A>B, B<A, B>C to A>C),

•wartości w zbiorze tworzą zbiór uporządkowany,

•ale nie można ustalić o ile A jest większe od B; C jest mniejsze od B, itd.

Przykłady: poziom osiągnięć dydaktycznych, miejsce urodzenia, poziom wykształcenia)

Skala przedziałowa ( interwałowa)

•możliwość ustalania odległości pomiędzy klasami obiektów,

•występowanie relacji równości, różności, większości i mniejszości,

•występowanie jednostki odległości,

•możliwość oceny o ile różnią się od siebie poszczególne obiekty i klasy obiektów,

•przyjęcie apriorycznego punkt zerowego.

Przykłady: temperatura, iloraz inteligencji

Skala ilorazowa (stosunkowa)

•występowanie pomiaru metrycznego - liczby odzwierciedlającej wartość zmiennej,

•występowanie relacji równości, różności, większości i mniejszości,

•występowanie jednostki liczbowej wraz z naturalnym punktem zerowym,

•możliwość określenia ile razy poszczególne obiekty są większe lub mniejsze od innych.


przykłady: wiek, dochód, wzrost

9. Rodzaje pomiarów:

podstawowy - ilość mierzonej cechy przedmiotu określa się poprzez proste i bezpośrednie porównanie z przedmiotem, który posiada pewną typową ilość tej własności (długość, ciężar, masa),

pochodny - pomiar, który wymaga posługiwania się logicznymi lub matematycznymi prawami dotyczącymi miar podstawowych (znając charakter związku pomiędzy temperaturą a objętością rtęci lub spirytusu - mierzymy temperaturę odczytując na termometrze wysokość słupka tych cieczy),

umowny (wskaźnikowy) - pomiar opierający się na przypuszczalnych związkach między obserwacjami a mierzonymi cechami (testy, kwestionariusze - np. wskaźnikiem poziomu uspołecznienia są określone zachowania).

Pomiar w naukach społecznych jest pomiarem umownym, wskaźnikowym.

11. Prawdopodobieństwo obiektywne i subiektywne - definicja i przykłady

Jakie jest prawdopodobieństwo, że zaliczę kurs statystyki w pierwszym terminie?

W roku akademickim 2012/2013 do egzaminu przystąpiło 250 studentów w pierwszym terminie. Zaliczenie uzyskało 165 studentów.

A więc prawdopodobieństwo, że zaliczysz kurs ze statystyki w pierwszym terminie wynosi: 165/250 = 0,66

Ten rodzaj prawdopodobieństwa to prawdopodobieństwo obiektywne.

Obliczane jest przez podzielenie liczby wszystkich zdarzeń, których prawdopodobieństwo obliczamy, przez liczbę wszystkich możliwych zdarzeń

Prawdopodobieństwo subiektywne:

Wyobraź sobie, że jesteś bardzo ambitny, czytasz wszystkie zadane teksty, przychodzisz na każdy wykład, zadajesz pytania jeśli czegoś nie rozumiesz, rozstrzygasz każde wątpliwości.

Jakie jest prawdopodobieństwo, że Twoi koledzy wezmą pod uwagę, że nie zaliczysz kursu?

Odpowiedź oprą na znajomości Twojego podejścia do kursu.

Stąd są to czyjeś subiektywne przekonania, że zdarzenie zaliczenia przez Ciebie kursu nastąpi.

Jednostka stara się ocenić - co jest bardziej, a co mniej prawdopodobne

12. Aksjomat rachunku prawdopodobieństwa:

Wybitny rosyjski matematyk Andriej Kołmogorow*,

zdefiniował prawdopodobieństwo jako zasadę przyporządkowującą określonym zdarzeniom wartości liczbowe.

Zasady te to trzy warunki zwane:

aksjomatami rachunku prawdopodobieństwa

1)Prawdopodobieństwo nie jest liczbą ujemną, czyli nie może być mniejsze od zera


2)Jeśli dwa zdarzenia nie są od siebie zależne, to prawdopodobieństwo tego, że wystąpi którekolwiek z nich, jest równe sumie prawdopodobieństwa zajścia każdego z nich oddzielnie

3)Prawdopodobieństwo zdarzenia, które jest pewne, wynosi 1

13. Rodzaje hipotez
Hipoteza statystyczna -
to dowolne przypuszczenie dotyczące rozkładu populacji - postaci funkcyjnej lub wartości parametru rozkładu. Proces sprawdzenia prawdziwości tego przypuszczenia na podstawie wyników próby losowej to weryfikacja hipotez statystycznych. .

Hipoteza zerowa(H0) będąca punktem wyjścia

-

grupy nie różnią się od siebie

Hipoteza alternatywna (H1) - przyjmowana w razie odrzucenia H0:

Testowanie hipotez to proces podejmowania decyzji.

Z dwóch hipotez: zerowej i alternatywnej, trzeba wybrać tę, która jest bardziej prawdopodobna

Hipoteza alternatywna może przyjmować dwa kierunki. Nazwa bierze się stąd, że użyte jest w niej sformułowanie „większy niż” albo „mniejszy niż” i wskazuje na przewidywany przez badacza kierunek różnic.

Np.H1. Kobiety i mężczyźni nie zarabiają tyle samo

Hipoteza kierunkowa:

H1. pk>pm Kobiety zarabiają więcej niż mężczyźni

H1. pk<pm Kobiety zarabiają mniej niż mężczyźni

14. Poziom istotności:

1. Poziom p odpowiada prawdopodobieństwu popełnienia błędu polegającego na tym, że przyjmujemy uzyskany rezultat jako prawdziwy, tj. reprezentatywny dla populacji.


2. Poziom p równy 0,05 oznacza, że istnieje 5% szansa, iż odkryta w próbce relacja jest dziełem przypadku.

3. W wielu dziedzinach badań poziom istotności równy 0,05 jest przyjmowany jako graniczna wartość akceptowalnego poziomu błędu.

Statystyczna istotność wyników:

- miara stopnia, w jakim jest on prawdziwy (w sensie jego reprezentatywności dla całej badanej populacji).

Bardziej technicznie - wartość poziomu p stanowi malejący wskaźnik wiarygodności rezultatu.

Im wyższy poziom p, tym mniej możemy być pewni, że relacja obserwowana w próbce jest wiarygodnym wskaźnikiem relacji pomiędzy mierzonymi wielkościami w całej interesującej nas populacji.

Poziomy istotności:

Żeby odrzucić hipotezę zerową musimy być przekonani, że ryzyko

błędu jest niewielkie.

W naukach społecznych przyjmuje się najczęściej jeden z dwóch

poziomów istotności:

α = 0,05

α = 0,01

Oznaczają one dopuszczalne ryzyko popełnienia pomyłki polegającej na odrzuceniu prawdziwej hipotezy zerowej (błąd I rodzaju).

Żeby odrzucić hipotezę zerową istotność (prawdopodobieństwo testowe) musi być mniejsze od przyjętego poziomu istotności, czyli: uzyskane p musi być mniejsze od α.

p<0,001 - jeśli wartość p nie przekracza 0,001

p<0,01 - jeśli wartość p jest w przedziale między 0,001 a 0,01

p<0,05 - jeśli wartość p jest w przedziale między 0,01 a 0,05

n.i - wartość nieistotna statystycznie

15. Błędy I i II rodzaju:

Błąd I rodzaju

p = ryzyko odrzucenia PRAWDZIWEJ hipotezy zerowej

istotność/prawdopodobieństwo testowe (p)

Jakie jest prawdopodobieństwo, że zaobserwowany wynik uzyskaliśmy „przypadkiem” z populacji, w której hipoteza zerowa jest prawdziwa?

Błąd II rodzaju

β = ryzyko nie odrzucenia FAŁSZYWEJ hipotezy zerowej

Jakie jest prawdopodobieństwo, że odrzucimy hipotezę zerową, gdy jest ona fałszywa? lub innymi słowy:

Jakie jest prawdopodobieństwo, że przyjmiemy hipotezę alternatywną, gdy jest ona prawdziwa?

16,17,18 Testy parametryczne i nieparametryczne:

Testy parametryczne stosujemy min.:

-przy skalach ilościowych

-dobór jednostek do badań odbywa się losowo

-porównywane grupy są w miarę równoliczne

-wariancja w porównywanych grupach jest podobna**

Testy nieparametryczne stosujemy wtedy, kiedy nie możemy (ze względu na złamane założenia) zastosować testów parametrycznych.

Testy nieparametryczne, również mają swoje założenia, ale są one „słabsze”

Rodzaje testów nieparametrycznych:
- test x2
- test U Manna - Withneya

Rodzaje testów parametrycznych :
- koleracja Pearsonsa


Istnieją trzy rodzaje testu t-Studenta:

-dla jednej próby

-dla prób niezależnych

-

dla prób zależnych

testy te stosujemy do zmiennych mierzonych na skali ilościowej

Test dla jednej próby:
Stosujemy go wtedy, kiedy chcemy porównać średnią obliczoną na podstawie wyników z próby z jakąś z góry określoną wartością

Wartość testowana może pochodzić z innych badań, ale może mieć też charakter teoretyczny

Dla dwóch grup:

Służą do porównania średnich w dwóch grupach obserwacji.

H0 : Średnie w populacjach są takie same.

Założenia:

•zmienna/zmienne interwałowe

•rozkłady normalne w obu porównywanych grupach

•jednorodność wariancji - test Levene'a

Grupa tych testów dzieli się na:

•testy t dla dwóch grup niezależnych

•testy t dla dwóch grup zależnych

Dla prób niezależnych:
Procedura testu t dla prób niezależnych

to porównanie średnich dla dwóch grup obserwacji.

Test ten służy do porównania średnich z dwóch grup.

Służy do porównywania średnich uzyskanych w zmiennej zależnej przez dwie niezależne od siebie grupy np. możemy porównać kobiety i mężczyzn pod względem średniej długości życia.

Test t dla prób zależnych:

W tym przypadku porównujemy dwa wyniki uzyskane przez te same osoby - przykładem może być klasyczny przypadek powtarzanego w czasie pomiaru: badamy zdolność logicznego rozumowania przed studiami i po studiach - w badaniu biorą udział te same osoby. Przy tym teście t możemy porównać też średnie na podstawie informacji uzyskanych od jednej osoby.

19. Test ANOVA - zastosowanie, warunki stosowania, interpretacja, wady

Zastosowanie:
-jednoczynnikowa analiza

-ogólniony test różnic między średnimi (rozszerzenie testu t)

-pozwala porównać więcej niż dwie grupy

-zarówno dla grup zależnych jak i niezależnych

-stosujemy wtedy, gdy chcemy zbadać wpływ jednej zmiennej niezależnej (czynnika, który posiada dwie lub więcej wartości) na zmienną zależną

Stosowanie :
wewnątrz i międzygrupowa

-w ANOVA analizujemy wariancję (to ona jest podstawą obliczeń).

lecz

-wnioski dotyczą średnich w poszczególnych grupach.

WARIANCJA CAŁKOWITA =

WARIANCJA WEWNĄTRZGRUPOWA + WARIANCJA MIĘDZYGRUPOWA

1.Zmienna zależna jest mierzona na skali ilościowej

2.Rozkład wyników w każdej grupie badanych przyjmuje kształt zbliżony do rozkładu normalnego

3.Zmienna niezależna przyjmuje co najmniej dwa poziomy (zwykle porównujemy ze sobą trzy lub więcej grup)

4.Zmienna niezależna mierzona jest na skali jakościowej (nominalnej lub porządkowej)

5.Zebrane pomiary są niezależne od siebie

6.Założenie jednorodności (homogeniczności) wariancji

1.Zmienna zależna jest mierzona na skali ilościowej

2.Rozkład wyników w każdej grupie badanych przyjmuje kształt zbliżony do rozkładu normalnego

3.Zmienna niezależna przyjmuje co najmniej dwa poziomy (zwykle porównujemy ze sobą trzy lub więcej grup)

4.Zmienna niezależna mierzona jest na skali jakościowej (nominalnej lub porządkowej)

5.Zebrane pomiary są niezależne od siebie

6.Założenie jednorodności (homogeniczności) wariancji

Wady:
-Na podstawie wyników testu F nie wiemy, które pary średnich różnią się od siebie istotnie. Wiemy tylko, że wśród porównywanych grup co najmniej dwie różnią się od siebie.

-

Aby móc szczegółowo opisać uzyskane różnice (które dokładnie średnie grupowe różnią się od siebie) musimy wykonać porównania post hoc (inaczej a posteriori).

20. Testy post hoc i czemu służą?

konserwatywny - w tym te różnice wykazać trudniej



Wyszukiwarka