STATYSTYKA I wykład
Meteriały: http://www.staff.amu.edu.pl/~pewka/seml2w.html
28.04- egzamin
Podstawowe pojęcia statystyczne
Statystyka dyscyplina naukowa zajmująca się ilościowymi metodami badania prawidłowości zachodzących w zjawiskach (procesach) masowych
Zadanie statystyki to dostarczenie wiarygodnych informacji, niezbędnych do podejmowania różnego rodzaju decyzji
Zbiorowość statystyczna- zbiór dowolnych elementów objętych badaniem statystycznym, posiadających co najmniej jedną cechę wspólną
Zbiorowość statystyczna to po prostu odpowiedź na pytanie ,,kogo lub co badam?”
Populacja (zbiorowość generalna)- zbiór wszystkich jednostek statystycznych, których dotyczy interesujący problem
Próba (zbiorowość próbna)- część populacji poddawana badaniu statystycznemu
Jednostka statystyczna- każdy element badanej zbiorowości
Jednostka statystyczna to po prostu odpowiedź na pytanie ,,z czego składa się lub co tworzy zbiorowość statystyczną?”
Cecha statystyczna- właściwość jednostki statystycznej (np. wiek kobiety)
Cechy stałe- to cechy wspólne dla badanej zbiorowości
Cechy zmienne- to cechy, którymi poszczególne jednostki badanej zbiorowości różnią się miedzy sobą. Dzielą się na jakościowe i ilościowe.
Cecha jakościowa- cecha niemierzalna (opisowa), wyrażona kategorią słowną (płeć, zawód , stan cywilny)
Cecha ilościowa- cecha mierzalna, wyrażona liczbowo różnymi jednostkami (wzrost, waga)
-zmienna ciągła przyjmuje wartości z określonego skończonego przedziału liczbowego (wiek, wzrost, czas rozwiązywania testu)
-Zmienna skokowa- przyjmuje wartości których liczba jest skokowa lub przeliczalna (ocena, liczba startujących w danej konkurencji osób, dobrze wykonanych skoków w dal)
Cecha statystyczna jakościowa może być:
- dwudzielna (dychotomiczna)- cecha przyjmująca tylko 2 warianty (zero i jeden, K i M)
-wielodzielna- cecha przyjmująca więcej niż 2 warianty (Gdańsk, Sopot i Gdynia jako miejsca zamieszkania)
Przykłady:
CECHY ZMIENNE ILOSCIOWE
Zmienna | Wartości |
Liczba nauczycieli w szkole | 30,31,32,33,34,35 itd. |
Wiek uczniów w latach | 12,17,21 itd. |
Temperatura | 120C, 240C, 360C itd. |
CECHY ZMIENNE JAKOŚCIOWE
Zmienna | Wartości |
Płeć | K, M |
Stopień zadowolenia z lekcji | Wysoki, średni, niski |
Kierunek studiów | Pedagogika, socjologia prawo itd. |
Zad.1
Grupa 9 studentów z Poznania pisała w lutym 2014 r. egzamin ze statystyki. Ocen studentów wyglądały następująco: 2,2,3,3,4,4,4,4,5. Dodatkowo, studenci zostali oceniani wg skali: źle, przeciętnie, dobrze, bardzo dobrze
Podaj zbiorowość i jednostkę statystyczną. Wymień cechy stałe i zmienne.
Zbiorowość statystyczna: grupa studentów z Poznania, którzy pisali egzamin ze statystyki w lutym 2014r
Jednostka statystyczna: jeden student (z omawianej grupy)
Cecha stała:
Fakt, że każdy z naszych 9 studentów pisał egzamin ze statystyki w lutym 2014r. jest cechą wspólną dla każdego naszego studenta
Rzeczowa: grupa studentów
Czasowa: luty 2014 r
Przestrzenna: Poznań
Cecha zmienna: studenci różnią się między sobą ocenami
Ilościowa, skokowa: ocena z egzaminu
Jakościowa, wielodzielna: oceny opisowe
Gdyby interesowały nas również płeć studentów, to byłaby ona cechą zmienną jakościową dwudzielną
SKALE POMIAROWE
Pomiar statystyczny- polega na przyporządkowaniu cechom statystycznym ustalonych symboli, którymi mogą być liczby, litery alfabetu, kolory, opis słowny itp.
Skala pomiarowa- to system, pozwalający usystematyzować wyniki pomiarów statystycznych
Skala nominalna- skala stosująca opis słowny w celu identyfikacji jednostki, a dokładnie ustalenia czy dana jednostka należy lub nie należy do określonej kategorii (płeć, poziom wykształcenia, zawód)
Płeć- K i M
Skala porządkowa (rangowa)- skala służąca do uporządkowania wartości w zależności od natężenia cechy (Np. wielostopniowe wypowiedzi w kwestionariuszu, skale ocen, ranking szkół wyższych z punktu widzenia ich atrakcyjności, wykształcenia (podstawowe, średnie, wyższe)
Skala przedziałowa (interwałowa)- skala pozwalająca ustalić o ile jedna wartość jest większa od innej. Przypisanym wartościom zmiennej odpowiadają wtedy jednakowe różnice (np. skale temperatur, standaryzowane skale testowe, rok urodzenia)
Skala ilorazowa (stosunkowa)- skala pozwalająca ustalić ile razy jedna wartości jest większa od drugiej. Skala ta posiada tzw. zero bezwzględne, które ogranicza jednostronnie zakres skali.
Zmienne mierzone na skali ilorazowej: wiek w latach, kwota dochodu, wzrost, wynik testu w procentach (punktach)
(np. zysk przedsiębiorstwa, liczba zatrudnionych pracowników, wiek w latach, wynik testu w procentach (punktach))
Skale pomiarowe- Zapamiętać !
Nominalne- porządkowe interwałowe ilorazowe
Każda kolejna skala ma cechy skali poprzedniej
Np. wynik testu
Liczba punktów: 0 1 2 3 4 5 6 7 ILORAZOWA
Ocena ndst dst db bdb PORZĄDKOWA
Zaliczenie: nie zdane zdane POMIAROWA
Cechy jakościowe mierzone są w skali nominalnej i porządkowej
Cechy ilościowe mierzone są w skalach przedziałowej i ilorazowej
Badanie statystyczne- ogół czynności mających na celu poznanie rozkładu zbiorowości statystycznej pod wg wybranej lub wybranych cech (analiza struktury) lub ocena rodzajów związków występujących między cechami (analiza współzależności)
Etapy badania statystycznego:
Przygotowanie (projektowanie) badania
Obserwacja statystyczna (proces zbierania informacji)
Opracowanie i prezentacja zebranego materiału statystycznego
Analiza wyników (opis lub wnioskowanie statystyczne) i ich interpretacja
OPRACOWANIE MATERIAŁU STATYSTYCZNEGO
Grupowanie statystyczne to usystematyzowanie zebranego materiału statystycznego (np. ankiet) wg kryteriów wynikających z celu badania (np. płci, klas) w szeregi statystyczne przedstawione w formie tabel lub wykresów
Szereg statystyczny pogrupowany i uporządkowany zbiór wyników obserwacji wg pewnej cechy. Rozróżniamy:
-szeregi szczegółowe- to uporządkowany ciąg wartości badanej cechy statystycznej, np.:
Wiek:
18,18,19,19,19,19,20,21,21,22,23- uporządkowanie rosnące
23,22,21,211,20,20,19,19,19,18,18 – uporządkowanie malejące
-szeregi rozdzielcze- to zbiór wartości liczbowych uporządkowanych wg wariantów badanej cechy mierzalnej lub niemierzalne z przyporządkowaniem liczebności poszczególnym wariantom zmiennej.
Szereg rozdzielczy określa strukturę badanej zbiorowości
Szeregi rozdzielcze (dla cechy mierzalne) mogą być:
- jednostopniowe (in. Punktowe)
Lp. xi fi fi- częstość występowania
x1 f1
x2 f2
Wiek fi
18 2
19 4
20 2
21 2
22 1
23 1
- wielostopniowe (in. Przedziałowe)
Lp. xi fi
x1-x2 f1
x2-x3 f2
Wiek fi
18-19 6
20- 21 4
Etapy budowania szeregu rozdzielczego:
Ustalamy wartości cechy minimalnej (X min) i maksymalnej (Xmax)
Wyznaczamy rozstęp próby
R= Xmax - Xmin
Wyznaczamy ilość przedziałów klasowych (k)
5≤ k ≤ 20
K=
Wyznaczamy długość (rozpiętość) przedziałów klasowych (i)
i= i
Wyznaczamy lewy koniec pierwszego przedziały klasowego
X1=X min (lub X1= X min- 0,5i)
X2=X1+i
(itd.)
Opcjonalnie możemy wyznaczyć nasilenie danej cechy w stosunku do całej zbiorowości (wyrażamy ją w procentach):
* 100%
Gdzie N to liczba obserwacji
Graficzne metody prezentowania danych statystycznych:
Metoda 1- tabele statystyczne
Tabela zawiera dane statystyczne w postaci szeregów oraz parametrów opsiowaych i pozwala na uchwycenie ilościowych zależności między nimi.
Metoda 2- wykresy statystyczne RÓWNORZĘDNA
Najczęściej stosuje się takie wykresy statystyczne jak:
-krzywa liczebności
-histogram
- krzywa liczebności skumulowanych
OPIS ZBIOROWOŚCI STATYSTYCZNEJ
Opis zbiorowości statystycznej – uporządkowanie wyników badań oraz ich analiza w oparciu o szereg parametrów opisowych, szczególnie takich jak:
-miary położenia
-miary rozproszenia
-miary asymetrii
WYKŁAD II
Miary położenia (tendencji centralnej, miary średnie, miary przeciętne)
Wskazują miejsce, w którym leży wartość najlepiej charakteryzująca wszystkie jednostki danej zbiorowości. Mówią o przeciętnym poziomie analizowanej cechy. Są najczęściej używane do charakterystyki szeregów rozdzielczych.
Miary tendencji centralnej, są:
- w grupie klasycznych- średnia arytmetyczna, średnia harmoniczna
- w grupie pozycyjnych- dominanta (modalna), mediana
Średnia arytmetyczna
Suma wartości zmiennej wszystkich jednostek badanej zbiorowości podzielona przez liczbę tych jednostek.
Własności:
-ma zastosowanie tylko do skal ilościowych (interwałowych i ilorazowych)
-nie może być mniejsza od najmniejszej wartości cechy ani też większa od największej wartości cechy:
Xmin ≤ M ≤ Xmax
-nie wolno jej obliczać, gdy klasy są otwarte na końcach
-suma odchyleń poszczególnych wartości cechy od średniej jest równa zero:
(Wzory w materiałach)
Średnia harmoniczna
Jest to odwrotność średniej arytmetycznej obliczonej z odwrotności wartości cechy
Średnia harmoniczną stosujemy w przypadkach, w których rozkład danych zależy od czasu, np. efektywność szybkości uczenia się, szybkość zapominania, prędkość wykonywania określonego zadania przez badaną grupę
Średnia harmoniczna wyliczana z danych niepogrupowanych (szereg szczegółowy)
(Wzory w materiałach)
Przykład
W ciągu 8 godz pracy w zakładzie poprawczym obserwowano prace 3 wykładowców. Na wykonanie obowiązków związanych z 1 wychowankiem wychowawca A potrzebował 4 min, wychowawcza B-6 min, C-12 min
Jaki jest średni czas zużywany na jednego wychowanka
n= 3
1/ = ¼+ 1/6 +1/12=
Mn= 3/0,5= 6 min/osobę
Mediana
Wartość środkowa szeregu statystycznego uporządkowanego rosnąco lub malejąco. Jest to punkt na skali pomiarowej powyżej i poniżej którego znajduje się dokładnie połowa obserwacji.
Medianę należy obliczać zawsze wtedy, kiedy interesuje nas, czy obserwacje przypadają w dolnej czy w górnej połowie rozkładu, a nie interesuje nas ich oddalenie os punktu środkowego.
Modalna (dominanta, moda)
Cecha dominująca, czyli wartość, która występuje najczęściej w danej zbiorowości statystycznej
-W szeregach szczegółowych i rozdzielczych jest to wartość cechy, której odpowiada największa liczebność.
-W zbiorowościach statystycznych może występować jedna modalna, dwie lub trzy modalne itd. Istnieją również zbiorowości, w których dominanty nie można wyznaczyć.
Przykłady:
W zbiorze wyników (1,2,3,1,2,1) modą jest 1
W zbiorze wyników (1,2,,3,1,2,,1,2) są 2 modalne
W zbiorze wyników (1,2,3,4,5,6,7,8,10) nie można wyznaczyć dominanty
Miary rozproszenia (dyspersji, zróżnicowania)
Miary dyspersji informują o poziomie jednorodności nadanych zbiorowości lub (inaczej) o stopniu rozproszenia wyników w obrębie badanego zjawiska.
Im mniejsza wartość tych miar, tym większa jednorodność w zakresie badanej cechy.
Np. różnice w zmianach wyników osiąganych przez badanych uczniów
Miarami dyspersji są:
- w grupie miar bezwzględnych- odchylenie standardowe, wariancja, obszar zmienności
- w grupie miar względnych- współczynnik zmienności
Wariancja i odchylenie standardowe
Przeciętne zróżnicowanie (odchylenie) badanej cechy od średniej arytmetycznej)
Im mniejsza jest wartość odchylenia standardowego w badanej próbie to tym bardziej obserwację są skupione wokół średniej
UWAGA!
Nie wolno obliczać tych miar, gdy badane zjawisko mierzone jest w różnych jednostkach miary (np. waga, wzrost)
Wariancja- to średnia arytmetyczna z kwadratów odchyleń poszczególnych wartości zmiennej od średniej arytmetycznej całej zbiorowości.
Odchylenie standardowe to pierwiastek kwadratowy z wariancji.
Najważniejsze cechy:
- jest wielkością obliczaną na podstawie wszystkich obserwacji
-można go poddawać przekształceniom algebraicznym
- im zbiorowość jest bardziej zróżnicowana, tym większe jest odchylenie standardowe
(xi-M- odchylenie każdej średniej od wartości zmiennej)
Obszar zmienności (rozstęp)
Rozstęp jest miarą charakteryzującą empiryczny obszar zmienności badanej cechy. Wpływ jego wartości mają tylko wartości skrajne.
Współczynnik zmienności
Współczynnik zmienności jest względną miarą rozproszenia, służącą do porównywanie zróżnicowania:
- dwóch różnych cech (np. porównanie wysokości ciała i obwodu ramienia
Lub
- jednej cechy w dwóch różnych grupach (np. porównanie miesięcznych płac nauczycieli o różnych stażach pracy)
Vs=S/M *100% M>0
Nie wolno stosować wzory gdy:
-M=0 lub M<0
- dane empiryczne wyrażone są w procentach
Współczynnik zmienności
Informuje jaki procent średniej arytmetycznej stanowi odchylenie standardowe. Wyższa wartość oznacza większe zróżnicowanie wielkości w obrębie danej cechy.
Jeśli współczynnik zmienności przyjmuje wartości liczbowe z przedziału od 0% do 100%, to fakt ten świadczy o niejednorodności zbiorowości
Jeżeli współczynnik zmienności nie przekracza 1-%, to zbiorowość nie jest zróżnicowana w sposób statystycznie istotny
Jeśli współczynnik zmienności przekracza 20%, to zbiorowość jest znacznie zróżnicowana pod wg badanej cechy.
Miary asymetrii (skośności)
Problem badawczy: badając poziom wiadomości uczniów określonej grupy, interesuje nas czy liczba uczniów z wynikami wyższymi od przeciętnej jest większa lub mniejsza od liczby tych uczniów, których wyniki są niższe od przeciętnych.
Zastosujemy: miary asymetrii ( interesuje nas kierunek odchyleń od wartości)
Wskaźnik asymetrii wyrażamy różnicą między średnią arytmetyczną a modalną.
Asymetria charakteryzuje się siłą oraz kierunkiem
Współczynnik asymetrii (skośności) (As) wyrażamy ilorazem wskaźnika asymetrii (M-M0) przez odchylenie standardowe.
As=
TYPY ROZKŁADÓW
M-Mo=0 rozkład symetryczny
M-Mo>0 rozkład asymetryczny prawostronny
M-Mo<0 rozkład asymetryczny lewostronny
Interpretacja współczynnika asymetrii- kierunek:
As=0 brak skośności
As>0 skośność dodatnia, asymetria prawostronna
As<0 skośność ujemna, asymetria lewostronna
Interpretacja współczynnika asymetrii- siła (tab.)
Korelacja oznacza współzależność, wzajemny związek
Korelacja (zależność korelacyjna) polega na tym, że określonym wartościom jednej zmiennej odpowiadają ściśle określone średnie wartości drugiej zmiennej
Przykłady: związek między liczbą opuszczonych godz. w szkole a wynikami testu, korelacja pomiędzy ocenami z języka polskiego i matematyki
Analiza Korelacyjna- umożliwia stwierdzenie czy istnieje związek między dwoma badanymi cechami. Związki korelacyjne zachodzą albo pomiędzy cechami mierzalnymi albo niemierzalnymi
Charakteryzując korelację dwóch cech podajemy dwa czynniki: kierunek i siłę
Korelacja określana jest na podstawie współczynnika korelacji. Zastosowanie konkretnego współczynnika uzależnione jest od skali pomiarowej, na której jest mierzona zmienna.
Współczynnik to liczba określająca w jakim stopniu zmienne są współzależne. Jest on miarą siły, kierunku oraz kształtu związku.
Dla zmiennych porządkowych i ilościowych współczynnik korelacji
Dla zmiennych nominalnych (jakościowych) współczynnik kontyngencji
Podsumowanie:
KORELACJA ILOSCIOWA | KORELACJA JAKOŚCIOWA |
Korelacja cech ilościowych (mierzalnych) | Korelacja cech jakościowych (niemierzalnych) |
Korelacja liniowa | Korelacja nieliniowa |
Współczynnik korelacji (dodatni i ujemny) | Współczynnik kontyngencji (tylko dodatni) |
Współczynnik jest miarą siły i kierunku | Współczynnik jest miarą tylko siły (nie kierunku) |
Badanie współzależności między zmiennymi
Związek cech ilościowych
-korelacja Pearsona
- korelacja rang Spearmana
Związek korelacyjny miedzy zmiennymi X i Y ustalamy przedstawiając obie zmienne w tablicy korelacyjnej
X1,..xn- wartości zmiennej X
Y1,..yn- wartości zmiennej Y
Zmienna niezależna (objaśniająca), to zmienna, która wyjaśnia badane zjawisko i która powoduje zmiany w wartościach zmiennych zależnych
Zmienna zależna (objaśniana) jest tym co badamy, aby ocenić skutki ,,działania” zmiennej niezależnej
(jaka jest różnica miedzy zmiennymi na egzaminie!)
Jeśli badamy ,,czy poczucie szczęścia zależy od ilości posiadanych pieniędzy”, to:
-,,poczucie szczęścia” to zmienna zależna
-,,ilość posiadanych pieniędzy” to zmienna niezależna
Związek cech ilościowych
Dwie zmienne mogą być powiązane, lecz jeśli relacja nie jest liniowa, to nie wolno obliczać współczynnika korelacji Pearsona (Spearmana)
Interpretacja zależności między cechami ilościowymi
Współczynnik korelacji oznaczamy literką: r
Wartość współczynnika należy do przedziału <-1,1>
r= 0 korelacja równa zeru (brak zależności liniowej)
r= -1 zalężnosć liniowa ujemna; bardzo silny związek ujemny
r=+1 zależność liniowa dodatnia; bardzo silny związek dodatni
Kierunek korelacji:
Korelacja ujemna (wartość współczynnika korelacji od -1 do 0, czyli r<0) to zależność odwrotnie proporcjonalna. Wzrostowi (spadkowi) wartości jednej cechy odpowiada spadek (wzrost) średnich wartości drugiej cechy
Korelacja dodatnia (wartość współczynnika korelacji od 0 do 1, czyli r>0) to zależność proporcjonalna. Informuje, ze wzrostowi (spadkowi) wartości jednej zmiennej towarzyszy wzrost (spadek) średnich wartości drugiej zmiennej.
Problem badawczy: badamy związek między poziomem stresu egzaminacyjnego a wynikiem w treści
Współczynnik korelacji między dwiema zmiennymi ilościowymi może być:
Dodatni (korelacja dodatnia)- związek jest pozytywny, co oznacza, że im wyższy poziom stresu, tym wyższy wynik w teście
Ujemny (korelacja ujemna)- związek jest negatywny, co oznacza, że im wyższy poziom stresu, tym niższy wynik w teście.
Siła współczynnika- jest to jego wartość bezwzględna, którą należy odczytać z poniższej tabelki. Im większa jest ta wartość tym związek pomiędzy zmiennymi jest silniejszy.