Pierwsze cwiczenia
Cechy stałe nie podlegają badaniu, ponieważ są wspólne dla wszystkich jednostek zbiorowości
Cechy zmienne podlegają badaniu, ponieważ są to właściwości, którymi różnią się poszczególne jednostki statystyczne.
Cechy jakościowe (niemierzalne) -takie, które nie mogą być w sposób jednoznaczny i oczywisty scharakteryzowane przy pomocy liczb płeć, grupę krwi, kolor włosów, wykształcenie
Cechy ilościowe (mierzalne) dadzą się wyrazić za pomocą jednostek miary w pewnej skali, wzrost (w cm), waga (w kg), wiek w latach.
Wśród cech mierzalnych wyróżniamy 3 podgrupy:
Cechy ciągłe mogą przyjmować w danym przedziale wszystkie wartości rzeczywiste, staż pracy można mierzyć w latach, w latach i miesiącach, w latach, miesiącach i dniach itd.
Cechy skokowe (dyskretne) to takie cechy, które można wyrazić za pomocą określonych zmieniających się w sposób skokowy, bez wartości pośrednich. Na przykład ilość łóżek w szpitalu, liczba białych krwinek, liczba dzieci w rodzinie.
Cechy quasi-ilościowe określają natężenie badanej cechy w sposób opisowy, który jednak jest oparty na cesze ilościowej, np. podział przedsiębiorstw na duże, średnie i małe wiąże się z wielkością przedsiębiorstw mierzoną wg liczby zatrudnionych czy wielkości produkcji.
Rachunek interpolacyjny polega na szacowaniu nieznanych wartości cechy na podstawie znanych wartości sąsiednich (wcześniejszych i późniejszych).
Rachunek ekstrapolacyjny polega na szacowaniu wartości wykraczających poza przedział wartości znanych.
Skala nominalna - dotyczy cech o charakterze jakościowym. Dla przykładu: dzieląc grupę ludzi na 2 podgrupy: kobiet i mężczyzn wykorzystujemy skalę nominalną dla cechy jakościowej - płeć.
Skala porządkowa - wyznaczona jest przez relacje porządkującą niektóre lub wszystkie elementy zbioru wyników. Skala Dla przykładu badając wzrost osoby, możemy użyć określeń „niski”, „średni”, „wysoki”.
Skala ilorazowa -pomiary są wykonywane za pomocą tej skali charakteryzują się stałymi stosunkami oraz bezwzględnym zerem. Skale te określamy przez wybór stałej jednostki miary, wskazanie zera bezwzględnego oraz wskazanie relacji przyporządkowującej każdemu wynikowi obserwacji liczbę z dokładnością do stałości ilorazu.
Skala równomierna (przedziałowa) - spełnia własności uporządkowania a ponadto zakłada, że porządkowany zbiór wartości cech składa się z liczb rzeczywistych. Skale taka określamy wskazując stałą jednostkę miary i relację przyporządkowującą każdemu wynikowi obserwacji liczbę. W skali tej mierzymy czas kalendarzowy, temperaturę w skali Celsjusza.
Grupowanie typologiczne jest przeprowadzane na podstawie wariantów cechy jakościowej, np. podział ludności wg wykształcenia na wyższe, średnie, zasadnicze zawodowe, podstawowe.
Grupowanie wariancyjne opiera się na cesze ilościowej, np. podział ludności wg wieku na grupy: 0-14,015-19, 20-24, 25-29 lat itd.
Szeregiem statystycznym nazywamy ciąg wielkości statystycznych wzrastający lub malejący, pogrupowany według określonych kryteriów.
Szeregiem szczegółowym (indywidualny) nieuporządkowany tworzą wartości badanej cechy rejestrowane zgodnie z kolejnością obserwowania. W wyniku uporządkowania wg kryterium rosnącego lub malejącego uzyskuje się szereg szczegółowy uporządkowany.
Szereg czasowy (dynamiczny, chronologiczny) otrzymujemy w wyniku grupowania typologicznego i wariancyjnego, gdy podstawą grupowania jest zmiana badanego zjawiska w czasie. Przykład: liczba bezrobotnych w Polsce w latach 1998-2004.
Szereg przestrzenny przedstawia rozmieszczenie wielkości statystycznych wg jednostek administracyjnych gmin, powiatów, województw. Przykładami takich szeregów są: informacje o stopie bezrobocia w poszczególnych województwach w Polsce w 98 r.
Szereg rozdzielczy poszczególnym wariantom cechy ilościowej i jakościowej przyporządkowane są odpowiadające im liczebności. Wyróżniamy szeregi rozdzielcze punktowe (proste i skumulowane) i przedziałowe (proste i skumulowane).
Reguła Sturges'a - określającą liczbę tworzonych klas (k). Ta liczba powinna być:
k ≈ 1 + log2 (n), gdzie n jest liczbą obserwacji lub k Ⴃ 5 log n
Rozpiętość przedziału h = (Xmax - Xmin)/k
Tablice statystyczne powinny spełniać określone wymogi formalnie dotyczące jej budowy, takie jak: określenie tytułu ogólnego, tytułów kolumn i wierszy, podanie źródeł danych statystycznych.
Wykresy statystyczne służą rejestracji danych, ich prezentacji i analizie.
Histogram to zbiór prostokątów, których podstawy wyznaczone są na osi X przez rozpiętość przedziałów, a wysokości są określone na osi Y przez liczebności przedziałów.
Diagram otrzymuje się w wyniku połączenia punktów o współrzędnych będących środkami przedziałów i odpowiadających im liczebności.
ĆWICZENIA nr 2
Miary tendencji centralnej:
Średnia arytmetyczna Obliczanie jej opiera się na wszystkich obserwacjach, poważniejszą jej wadą jest to, że duży wpływ na nią skrajne wartości cechy.
dla szeregów prostych gdy dane nie są uporządkowane wyraża się wzorem:
xi - wartość badanej cechy i-tej jednostki statystycznej,
N - liczba badanych jednostek statystycznych.
dla szeregu rozdzielczego - jeżeli w wyniku odpowiedniego grupowania danych nieuporządkowanych w szereg rozdzielczy w postaci:
ni - liczebność i-tego przedziału klasowego (suma ni równa się N)
xi - środek i-tego przedziału klasowego
W rozkładach asymetrycznych, silnie zróżnicowanych, bimodalnych i wielomodalnych średnia arytmetyczna traci wartość poznawczą. Średniej arytmetycznej nie można obliczyć dla szeregów otwartych. Średnia arytmetyczna jest momentem zwykłym rzędu pierwszego
Średnia arytmetyczna ważona
W przypadku gdy liczebność w obrębie prób nie jest jednakowa, to wówczas średnia ogólna
jest średnią arytmetyczną ważoną.
Średnią geometryczną oblicza się wówczas, gdy wyniki w trakcie badań zmieniają się w
postępie geometrycznym i gdy zjawiska ujmowane są dynamicznie. Średniej tej nie stosuje się, gdy mamy wartości ujemne lub równe zeru.
Średnia geometryczna:
obliczana na podstawie wszystkich danych szeregu,
wartości skrajne mają na nią mniejszy wpływ niż na średnią arytmetyczną,
jest mniejsza lub równa średniej arytmetycznej,
istnieje dla xi > 0,
jest pomocna przy obliczaniu średnich wskaźników
ma szerokie zastosowanie w badaniach serologicznych, gdzie wprowadzono pojęcie „miana”.
Średnia harmoniczna jest odwrotnością średniej arytmetycznej - stosujemy gdy dane są
podane jako odwrotność np. zużycie paliwa na jednostkę, wydajność na godzinę.
Średnia harmoniczna:
obliczana na podstawie wszystkich danych szeregu,
nadaje się do przekształceń algebraicznych,
jest mniejsze lub równe średniej arytmetycznej, przy czym równość zachodzi tylko dla identycznych wszystkich wartości.
Modalna (moda, dominanta, typowa)
To taka wartość badanej cechy statystycznej, której odpowiada największa liczebność.
Dominanta- wartość występująca najczęściej.
xo - dolna granica przedziału, w którym występuje modalna,
nm - liczebność przedziału modalnej,
nm-1 - liczebność klasy poprzedzającej przedział modalnej,
nm+1 - liczebność klasy następującej po przedziale modalnej,
km - rozpiętość przedziału klasowego modalnej
Jeśli histogram ma 2, 3 lub więcej szczytów, to mówimy, że jest bimodalny, trimodalny lub wielomodalny itd. To świadczy o niejednorodności badanej zbiorowości.
Wartość środkowa - mediana dzieli uporządkowany szereg liczbowy na połowę, jest więc to wartość środkowa szeregu.
gdzie: m - numer klasy, w której występuje Me,
xm - dolna granica tej klasy,
nm - liczebność tej klasy,
km - rozpiętość tej klasy
suma Ni- liczebność skumulowana do przedziału poprzedzającego klasę, w której występuje Me.
Wartość mediany nie zależy od wartości krańcowych.
Do pozycyjnych miar średnich zalicza się kwantyle i dominantę.
Kwantylami nazywamy wartości cechy badanej zbiorowości, które dzielą uporządkowaną zbiorowość na określone części pod względem liczby jednostek.
Najpowszechniej stosowanymi kwantylami są kwartyle:
Pierwszy kwartyl - dzieli populację na dwie części w sposób następujący - 25% jednostek statystycznych jeszcze tej wartości nie osiągnęło a 75% przekroczyło.
Drugi kwartyl -Me (mediana) dzieli populację na połowy, wartość środkowa, połowa populacji jeszcze nie osiągnęła wartości a druga połowa już przekroczyła.
Trzeci kwartyl -75% liczebności jeszcze nie osiągnęło tej wielkości a 25% ją przekroczyło.
Miary rozproszenia (zmienności)
Odchylenie średnie (przeciętne): dodajemy do siebie wartości bezwzględne różnic między kolejnymi pomiarami i średnią a następnie dzielimy sumę tych różnic przez liczbę pomiarów.
Odchylenie standardowe, jest ono większe od odchylenia przeciętnego, mają większy wpływ wartości skrajne, tzn. bardzo odbiegające od średniej; dlatego odchylenie średnie bywa lepsza miarą rozproszenia niż odchylenie standardowe.
Wariancja, teoretyczna miara odchylenia, odchylenie standardowe jest jej pierwiastkiem. Do obliczania odchylenia wykorzystujemy wszystkie dane, to znaczy wszystkie wartości zarejestrowane w trakcie pomiarów.
Wariancja jest momentem centralnym rzędu drugiego. Miara ta nie ma interpretacji, ponieważ jej miano nie jest zgodne z mianem badanej cechy. Pierwiastek kwadratowy z wariancji zwany jest odchyleniem standardowym i określony jest wzorem:
gdzie :
Współczynnik zmienności
Za pomocą tego współczynnika można porównywać zmienność pomiarów różniących się średnią, na przykład zmienność osobników z gatunków różniących się wymiarami
jeżeli:
Vx Ⴃ 35% to średnia jest „bardzo dobra” (bardzo dobrze opisuje badaną rzeczywistość)
35% Ⴃ Vx Ⴃ 68% to średnia jest „dobra”,
68% Ⴃ Vx Ⴃ 75% to średnia jest „do przyjęcia”,
Vx > 75% to średnia traci swój sens poznawczy.
Współczynnik zmienności służy do porównywania różnych cech jednej zbiorowości lub jednej cechy w różnych zbiorowościach. Określa on siłę zróżnicowania (dyspersji).
Jeśli rozkład danej cechy jest jednomodalny i symetryczny, to średnia i odchylenia są w zasadzie wystarczającymi charakterystykami tego rozkładu. Jeśli natomiast nie jest on symetryczny, czyli średnia nie pokrywa się z medianą, to nazywamy go asymetrycznym:
Miary asymetrii:
Asymetrię można określić porównując średnią arytmetyczną z medianą i modalną.
X = Me = Mo - dla rozkładu symetrycznego
X > Me > Mo - dla rozkładu o asymetrii prawostronnej
X < Me < Mo - dla rozkładu o asymetrii lewostronnej
Dla określenia odchylenia od symetrii rozkładu stosuje się mierniki asymetrii.
Skośność rozkładu przyjmuje wartości ujemne dla rozkładu asymetrycznego lewostronnie, dodatnie dla rozkładu asymetrycznego prawostronnie, natomiast dla rozkładów symetrycznych jest równa zero. Jeśli s (skośność) < 0,3 to uważamy asymetrię za nieznaczną.
Kiedy stosować średnią a kiedy inne wskaźniki?
Jeśli rozkład jest jednomodalny i względnie symetryczny - stosujemy średnią;
Jeśli rozkład jest jednomodalny, ale niesymetryczny - stosujemy medianę;
Jeśli rozkład jest wielomodalny- stosujemy modalną;
Koncentrację nazywa się kurtozą wartości zmiennej i odnosi się tylko do rozkładów symetrycznych lub co najwyżej słabo asymetrycznych.
Za taki typowy punkt odniesienia przyjęto rozkład normalny. Jeżeli dla rozkładu skupienie wartości wokół średniej jest większe niż w rozkładzie normalnym, to taki rozkład nazywamy wysmukłym. Natomiast gdy skupienie wartości zmiennej wokół średniej jest mniejsze niż w rozkładzie normalnym, to taki rozkład nazywamy spłaszczonym.
Błąd standardowy :
wskazuje na prawdopodobną odległość uzyskanej średniej od rzeczywistej średniej.
Wielkość jest zależna od liczebności badanej grupy, dużych grupach jest zwykle mniejsze.
Ma mniejszą wartość od odchylenia standardowego.
ĆWICZENIA 3
Funkcje rozkładu prawdopodobieństwa
Rozkład dwumianowy (binomialny), Bernoulli'iego
Oparty jest na eksperymencie przeprowadzonym zgodnie z tzw. schematem urnowym Bernoulli'iego, który polega na przeprowadzeniu n (n Ⴓ 2) niezależnych doświadczeń. Wynikiem każdego doświadczenia może być tylko jeden z dwóch stanów „sukces” i „porażka”. Prawdopodobieństwo sukcesu oznaczamy przez p, a prawdopodobieństwo klęski przez q i oczywiście musi zachodzić związek p + q = 1. Jeżeli przeprowadzimy n niezależnych doświadczeń, to liczba sukcesów w tych doświadczeniach ma właśnie rozkład dwumianowy.
We wzorze na rozkład określa się prawdopodobieństwo P(k) zajścia korzystnego k przy określonej liczbie zdarzeń N i prawdopodobieństwie zajścia pojedynczego zdarzenia korzystnego p:
gdzie: q = 1-p
N!/k!(N-k)! - określa liczbę sposobów otrzymania k sukcesów w N doświadczeniach. Jeśli k = 0 lub k = N wyrażenie to równa się jedności
pk*q(N-k) - określa natomiast prawdopodobieństwo otrzymania określonej sekwencji sukcesów
Mówimy, że zmienna X ma rozkład Bernouliego, jeśli przyjmuje wartości k = 0, 1, 2, ...,n z prawdopodobieństwem określonym za pomocą wzoru:
Dla rozkładu Bernoulli'ego możemy określić średnią ze zdarzeń korzystnych,
średnią arytmetyczną i dyspersję.
Rozkład Bernoulli'ego nosi też nazwę rozkładu dwumianowego, gdyż poszczególne prawdopodobieństwa dla kolejnych k występują przy podnoszeniu dwumianu (p+q) do n-tej potęgi:
Rozkład dwumianowy jest symetryczny tylko wtedy, gdy p = q = 0,5.
Rozkład Poissona
Gwiazdy w przestrzeni, rozmieszczenie zwierząt na badanym terenie, rodzynki w cieście.
Jest to wzór na prawdopodobieństwo P(x) zajścia zdarzenia korzystnego x, przy czym n oraz p występują w formie iloczynu:
Rozkład normalny
Rozkład ten bywa często określany jako rozkład Gaussa. Mówimy, że zmienna losowa X ma rozkład normalny o parametrach ၭ i ၤ jeśli jej funkcja gęstości wyraża się wzorem:
Y - wysokość krzywej rozkładu
e - podstawa logarytmu naturalnego
X- stała
ၭ i ၤ - średnia i odchylenie standardowe
Rozkład normalny ma pewne charakterystyczne właściwości:
Powierzchnia pod krzywą równa się jedności.
Jest to rozkład symetryczny o najwyższej wartości Y dla pomiaru X równej średniej ၭ. Oznacza to, że dla teoretycznego rozkładu mediana i wartość modalna równe są średniej.
Oba skrzydła rozkładu ciągną się w nieskończoność, czyli dla X-ów nawet bardzo odległych od średniej ၭ , Y jest dodatnie, aczkolwiek bardzo małe.
W rozkładzie normalnym około 2/3 powierzchni pod krzywą rozkładu (dokładnie 68,26%) mieści się w granicach jednego odchylenia standardowego od średniej, czyli w granicach
W granicach dwóch odchyleń standardowych od średniej, czyli mieści się 95,46% pomiarów.
Wynika z tego, że wykres rozkładu jest wąski i wysoki przy małych wartościach odchyleń standardowych, a spłaszczony przy dużych wartościach.
Pomiar standaryzowany obliczamy według wzoru:
Me
średnia
średnia
Me
D
D
ni
x
c
a
b