Przedmiot statystyki
W języku polskim słowo `statystyka' może oznaczać
Zbiór danych liczbowych odnoszących się do jakiejś zbiorowości,
Wartości charakteryzujące daną zbiorowość (parametry), otrzymane w wyniku dokonania operacji matematycznych na danych liczbowych,
`naukę o metodach badań poświęconych liczbowo wyrażalnym właściwościom zbiorowości' [Szulc B. s.13]
Trochę historii
Pojęcie statystyka pochodzi od średniowieczno-łacińskiego słowa `status' oznaczającego stan co po włosku brzmi stato i oznacza `państwo'
Już w starożytnym Rzymie miały miejsce spisy ludności dokonywane co pięć lat, zwane cenzusami
W Rosji w IX-XI wieku sporządzano spisy tzw. Dymów, pługów itp. dla celów podatkowych
W 1086r. na rozkaz Wilhelma sporządzono w Anglii tzw. Doomsday Book będącą spisem posiadłości z określeniem ich obszaru, wartości itp.
W końcu XVIII wieku wiele miast polskich posiadało spisy ludności (m.in. Kraków, Warszawa)
Wszystkie te dokumenty spisowe przedstawiały pewną fotografię stanu danego kraju czy jakiegoś obszaru, grupy społecznej. Nie wyciągano na podstawie tych informacji praktycznie żadnych wniosków, a tym bardziej nie próbowano użyć ich do tworzenia pewnych uogólnień i na ich podstawie prognoz. W dzisiejszym tego słowa rozumieniu nie można nazwać ich więc pracami statystycznymi
Za początki `nowożytnej' statystyki uważa się dopiero wiek XVII
`wraz z rozwojem kapitału handlowego, z rozwojem monarchii absolutnej i początkami polityki merkantylistycznej w XVII w. powstaje potrzeba nowego rodzaju sprawozdawczości gospodarczej i państwowej
Dało to impuls do rozwoju pewnego typu analiz, które dziś nazywamy statystycznymi
Były to opisy stanu ludności, gospodarki, polityki poszczególnych krajów. Ten sposób opisu i analizy nazwano statystyką i określano jako naukę o państwie
Statystyka jako wyraz został użyty przez osiemnastowiecznych autorów niemieckich a następnie w ciągu kilku lat przeszczepiony na grunt angielski i oznaczał `przedstawienie najbardziej godnych uwagi cech charakterystycznych państwa'
Wraz z rozrostem liczby danych oficjalnych zwiększały się możliwości tworzenia zestawień liczbowych, zastępując opis słowny. Słowo statystyka zaczęło więc przyjmować co raz węższe znaczenie. Co raz częściej utożsamiano je z opisem państwa za pomocą `metod numerycznych'
To przekształcenie się znaczenia słowa statystyka do współcześnie pojmowanego już tylko ilościowego rozumienia tej dyscypliny trwał jeszcze długi czas i choć trudno jest określić kiedy się skończył, można uznać, że pod koniec XIX wieku słowo to przyjęło współczesne znaczenie
Niezależnie od rozwoju statystyki, w końcu XVI i początki XVII wieku rozwija się gałąź matematyki nazwana teorią prawdopodobieństwa
Jej korzenie tkwią w ludzkich skłonnościach do hazardu
Gracze w kości lub karty pragnąc wymyślić (ustalić) sposób na zdobycie wielkiej wygranej, czynili olbrzymie ilości obserwacji i próbowali dokonać uogólnień pozwalających na zdobycie majątku
A, że byli wśród nich wielcy matematycy, jak Galileusz (1564-1642), B Pascal (1623-1662), Pierse de Fermat (1601-1665), Bernoulli Jan (1654-1705), Abraham de Moivre (1667-1754) to rezultatem ich dociekań było powstanie nowej dyscypliny matematycznej - rachunku prawdopodobieństwa
W Polsce za pioniera rachunku prawdopodobieństwa uważa się Jana Śniadeckiego (1756-1830)
Ewolucja
Istotny wzrost zainteresowania rachunkiem prawdopodobieństwa notuje się w XIX stuleciu, a wynika on z potrzeby stosowania metod rachunku prawdopodobieństwa i wyodrębnionej z niego statystyki matematycznej od ubezpieczeń majątkowych i na życie
Statystyka opisowa i statystyka matematyczna wykształcały się więc jako dwie odrębne dziedziny
Ta pierwsza na gruncie nauk społecznych, druga na gruncie matematyki. Z czasem zlały się tak silnie, że współcześnie uważa się je za jedną dyscyplinę - statystykę, a różnica w metodzie badania wynika z typu badania. W związku z powyższym wyodrębnić można dwa rodzaje badań statystycznych
Opis statystyczny
Jeżeli interesuje nas opis całej zbiorowości obliczamy wówczas pewne parametry zbiorowości wskaźniki charakteryzujące tą zbiorowość (takie jak średnią lub średnie). Możemy wówczas określić stan interesującego nas zjawiska w badanej zbiorowości oraz wykryć prawidłowości w jej rozwoju. Użyta metoda nazywa się opisem statystycznym lub powiemy, że używamy narzędzi statystyki opisowej do analizy zjawiska w danej populacji.
Wnioskowanie statystyczne
Jeżeli badamy tylko część zbiorowości a wyniki chcemy uogólnić na całą zbiorowość, wówczas badanie jest oparte o wnioskowanie statystyczne i jest podstawowym narzędziem statystyki matematycznej.
Z czasem, ze statystki opisowej wyodrębniała się, przede wszystkim na użytek nauk społecznych, kolejna gałąź statystyki nazwana statystyką ekonomiczno-społeczną, `zajmującą się' konstrukcją wskaźników ekonomicznych oraz dostarczającą metod analizy dynamiki zjawisk ekonomiczno-społecznych.
Pojęcia wstępne
Procesy masowe - zjawiska, które zachodzą często i/lub dotyczą wielu obiektów np. urodzenia, zgony, akty kupna, sprzedaży, produkcja. Zjawiska te podlegają pewnym prawom (prawidłowościom), które można jednak wychwycić badając obiekty podlegające tym zjawiskom, w masie a nie pojedynczo
Prawidłowości masowe - prawidłowości możliwe do uchwycenia tylko gdy obserwujemy bardzo dużą liczbę obiektów
Na proces masowy, zwany też procesem statystycznym oddziałowują dwie grupy czynników go kształtujących:
- czynniki główne
- czynniki uboczne
Czynniki główne są to czynniki działające tak samo lub stale na wszystkie badane obiekty
Czynniki uboczne nie działają jednakowo na wszystkie jednostki lub działają tylko na niektóre co powoduje, że elementy zbiorowości mają zróżnicowane wartości cechy pomimo wpływu tych samych czynników głównych
Zarówno gdy proces jest deterministyczny jak i gdy jest chaotyczny statystyka nie znajduje zastosowanie. W pierwszym przypadku jest niepotrzebna, ponieważ obserwacja jednego obiektu wystarczy by wiedzieć co będzie się działo z pozostałymi, w drugim zaś nie ma zastosowania ponieważ w procesach chaotycznych przebadania całej zbiorowości nie da nam informacji jakim prawom ta zbiorowość podlega albowiem takich praw tam nie ma
Statystyka więc jest to nauka o metodach analizy zbiorowości i podlegających działaniu prawidłowości masowych (statystycznych). Służy wykrywaniu prawidłowości, które istnieją ale nie są bezpośrednio widoczne wskutek działania czynników losowych i ich uchwycenie wymaga zbadania dużej liczby obiektów. Im więcej obiektów zbadamy z tym większą precyzją jesteśmy w stanie określić istniejącą prawidłowość w badanym procesie
Zbiorowość całkowita inaczej populacja generalna - wszystkie badane obiekty mające interesujące nas właściwości. Jeżeli wszystkie obiekty zbiorowości podlegają badaniu, mówimy o badaniu całościowym (całkowitym), np. wszyscy studenci PB
Cecha statystyczna - badana własność, która różni elementy zbiorowości np. płać studentów, zarobki każdego z pracujących w Polsce, liczba turystów przyjeżdżających w ciągu roku do poszczególnych krajów świata, wykształcenie pracowników
Zbiorowość częściowa (cząstkowa, podpopulacja) - ta część zbiorowości, która podlega badaniu (często nazywana próbą). Nie zawsze możemy przebadać całą zbiorowość, wówczas albo badamy te obiekty, które są dostępne, albo jeśli to możliwe pobieramy próbę
Jednostka statystyczna - obiekt, który badamy ze względu na interesującą nas cechę lub cechy i stanowiący element populacji
Liczebność - liczba jednostek mających daną cechę w populacji lub podpopulacji.
Rozkład cechy - przyporządkowanie poszczególnych odmian cechy ich liczebności lub częstości, czyli podanie (ustalenie) jak dana cecha rozprzestrzenia się w populacji
Szereg statystyczny - uporządkowany (pogrupowany) zbiór obserwacji danej cechy statystycznej (cech). W przypadku cechy ilościowej uporządkowanie wartości cechy jest monotoniczne czyli według malejących lub rosnących wartości cechy.
Przykład: liczba turystów w dniach pomiędzy 1-7 lipca 2010r. w Muzeum Ikon w Supraślu:
Poniedziałek |
Wtorek |
Środa |
Czwartek |
Piątek |
Sobota |
Niedziela |
23 |
28 |
20 |
35 |
27 |
59 |
80 |
Szereg rozdzielczy (strukturalny) - szereg statystyczny przedstawiony w postaci dwukolumnowej tabeli. W jej pierwszej kolumnie podane są odmiany cechy niemierzalnej, w drugiej kolumnie podaje się liczbę jednostek mających daną wartość (wartości) cechy.
Przykład: Płeć zwiedzających muzeum 2 lipca 2010r.
kobiety |
mężczyźni |
dzieci |
23 |
28 |
20 |
Szereg statystyczny skumulowany - monotonicznie uporządkowany zbiór obserwacji danej cechy statystycznej, przy czym liczebności kolejnych odmian cechy są do siebie dodawane, tak że reprezentują sobą informację ile jednostek statystycznych ma wartości cechy do danej wartości
Poniedziałek |
Wtorek |
Środa |
Czwartek |
Piątek |
Sobota |
Niedziela |
23 |
28 |
20 |
35 |
27 |
59 |
80 |
23 |
51 |
71 |
106 |
133 |
192 |
272 |
Rodzaje cech statystycznych
W zależności od przyjętego kryterium cechy statystycznej można podzielić na pewne typy i podział ten ma zasadniczy wpływ na sposób przetwarzania materiału statystycznego
Podstawowy, najbardziej istotny podział to podział na cechy mierzalne i niemierzalne inaczej zwane ilościowymi i jakościowymi
Cechy mierzalne z kolei dzieli się na cechy ciągłe i skokowe w zależności od tego z jakiego zbioru liczb przyjmują wartości
Cechy ciągłe przyjmują wartości z przedziału liczb rzeczywistych
Cechy skokowe inaczej zwane dyskretnymi przyjmują przeliczalną liczbę wartości
Problem podziału cech na ciągłe i skokowe - cechy quasi ciągłe
Cele badań statystycznych
Ustalenie rozkładu badanej cechy (lub cech) w populacji
Określanie związków pomiędzy cechami w danej populacji, czyli ustalenie współzależności pomiędzy cechami
Badanie rozwoju populacji w czasie czyli badanie dynamiki populacji
Pomiar w statystyce czyli skale pomiarowe
Nominalna (relacja: równe lub różne)
Porządkowa lub rangowa (relacja: większe lub mniejsze)
Przedziałowa lub interwałowa (relacja: większe o tyle)
Ilorazowa lub stosunkowa (relacja: tyle razy większe)
Na każdej co raz mocniejszej skali można dokonywać działań tych samych co na słabszych plus działanie dodatkowe.
Skala nominalna
Najsłabsza ze skal, dotyczy cech jakościowych
Możemy tylko podzielić obiekty na podzbiory wg badanej cechy. Czyli określić jaką odmianę cechy ma dany obiekt
Przykłady: płeć, wyznanie, kierunek studiów, stan cywilny, status zawodowy, społeczny
Cecha: płeć |
Liczba obiektów: ni |
||
kobieta |
200 |
||
mężczyzna |
300 |
||
razem |
500 |
||
Cecha: wyznanie |
Liczba osób: ni |
||
Katolicyzm |
277 |
||
Prawosławie |
322 |
||
Muzułmańskie |
102 |
||
Inne |
30 |
||
Bez wyznania |
266 |
Skala porządkowa lub rangowa
Mocniejsza od poprzedniej, czyli można wykonywać te same działania co w skali nominalnej, dodatkowo umożliwia rangowanie, inaczej porządkowanie obiektów przy pomocy relacji mniejsze większe wg ich znaczenia, wielkości. Badane obiekty są uszeregowane w jakimś porządku
Nie możemy określić odległości (różnicy) między cechami mierzonymi na skali porządkowej
Przykłady: poziom wykształcenia, klasa społeczna, status zawodowy, siła reakcji na bodziec, ocena produktu, opinie i poglądy na jakiś temat
Poziom wykształcenia pracowników |
Liczba jednostek |
||
Podstawowe |
120 |
||
Średnie |
200 |
||
wyższe |
50 |
||
Ocena smaku |
ni |
||
Bardzo smaczny |
110 |
||
Smaczny |
200 |
||
Nie mam zdania |
120 |
||
Niesmaczny |
90 |
||
Bardzo niesmaczny |
100 |
Skala przedziałowa lub interwałowa
Pozwala liczyć odległości pomiędzy obiektami mierzone różnicą wartości cechy, czyli możliwe jest dodawanie i odejmowanie wartości cech. Wartości cechy są bowiem wyrażane w zbiorze liczb rzeczywistych. Pozwala to na porządkowanie obiektów z użyciem relacji mniejsze, większe (równe)
NIE MOŻNA przy użyciu pomiaru na tej skali liczyć ilorazów wartości cech, czyli określenie ile razy jedna wartość jest większa (mniejsza) od drugiej
Klasyczny przykład
Miasto |
Temperatura w 0C |
Białystok |
25 |
Gdańsk |
18 |
Katowice |
32 |
Rzym |
40 |
Z przedstawionych danych wynika np. że:
- pomiędzy Białymstokiem i Katowicami jest taka sama różnica jak pomiędzy Białymstokiem i Gdańskiem (70C)
- w Rzymie temp. jest wyższa niż w Gdańsku i jest to największa różnica temperatur
Miasto |
Temperatura w 0F |
Białystok |
77 |
Gdańsk |
64,4 |
Katowice |
89,6 |
Rzym |
104 |
Używając skali pomiaru temperatur Fahrenheita możemy nadal stwierdzić to samo co w przypadku skali Celsjusza czyli:
- pomiędzy Białymstokiem i Katowicami jest taka sama różnica jak pomiędzy Białymstokiem i Gdańskiem (12,60F)
- w Rzymie temp. jest wyższa niż w Gdańsku i jest to największa różnica temperatur
Wzór na przejście ze skali C na F: TF=32+9/50C
i odwrotnie:TC=5/9(TF-32)
9/5=1,8
5/9=0,5555(5)
NIE MOŻNA TU STWIERDZIĆ, że w Rzymie jest 40/24=1,6 raza cieplej niż w Białymstoku (w skali Celsjusza), bo w skali Fahrenheita iloraz ten wynosi 104/77=1,35 raza
Niemożność obliczenia różnic wynika z braku zera absolutnego na skali przedziałowej. Jest ono na skali interwałowej umowne
Brak zera absolutnego oznacza, że cecha o wartości zero występuje np. temperatura 00C oznacza istnienie tejże cechy (jest to temperatura, w której ma miejsce pewien proces fizyczny)
Rok urodzenia zero w kalendarzu chrześcijańskim oznacza istniejącą datę umownie przyjętą jako punkt odniesienia. Nie możemy powiedzieć, że osoba o tym roku urodzenia nie ma daty urodzenia
Natomiast np. zerowy dochód człowieka oznacza brak dochodu. Ta cecha jest mierzona na innej skali
Przykłady: temperatura, wysokość geograficzna (poziom morza jako 0), data zajścia zjawiska, indeksy społeczne (poziom ubóstwa, korupcji), kwalifikacje zawodowe
Skala ilorazowa lub stosunkowa
Najmocniejsza skala, na której oprócz działań już wymienionych można obliczać ilorazy (stosunki) wartości cech. Na tej skali istnieje zero absolutne
Zerowa wartość cechy oznacza jej brak (nie występowanie np. dochodu)
Przykłady: płace, dochody, wydatki itp. dane ekonomiczne w ujęciu wartościowym, waga, wzrost, wiek, ceny towarów i usług, czas trwania zjawiska (produkcji, dostawy, wykonania usługi)
Skale słabe: nominalna i porządkowa
Skale mocne (silne): przedziałowa i porządkowa
To, której skali pomiaru użyjemy zależy także od celu badania. Cechy, które można mierzyć na skali mocnej, można także mierzyć na skalach słabszych np. gdy nie interesują nas dokładne wartości cechy, a jedynie pewne przedziały (np. dochody: niskie, średnie, wysokie), wówczas pomiar jest w skali porządkowej.
Etapy badania statystycznego
Obserwacja jednostek populacji, czyli zbieranie materiału statystycznego
Konstrukcja szeregu statystycznego w oparciu o dane surowe (wyjściowe)
Opracowanie zebranego materiału statystycznego w oparciu o skonstruowany szereg statystyczny w formie tabel, wykresów i pewnych charakterystyk opisowych
Analiza wyników
Rodzaje szeregów statystycznych
Czasowy lub inaczej dynamiczny
Przekrojowy
Przekrojowo-czasowy inaczej panelowy