STATYSTYKA
nauka zajmująca się metodami badani prawidłowości występujących w zbiorowościach i charak te prawidłowości za pomocą liczb
Nauka zajmująca się metodami gromadzenia, opracowywania, prezentacji, analizy i interpretacji danych ilościowych dotyczących badanych zbiorowości
Taktuje o metodach ilościowych badania prawidłowościowych zjawisk masowych
Zbiór danych liczbowych dotyczących konkretnego zadania
STATYSTYKA OPISOWA zajmuje się metodami gromadzenia, opracowywania, prezentacji i analizy danych ilościowych dotyczących badanych zbiorowości. Trzy metody analizy:
Opisu struktury zbiorowości - przez określenie przeciętnego poziomu, dyspersji, asymetrii i koncentracji cech
Opisu współzależności - przez analizę korelacji i regresji
Opisu zmian zjawisk w czasie - przez analizę indeksowa lub składników szeregów czasowych
PRZEDMIOTEM nazywamy wykrywanie prawidłowości występujących w zbiorowościach
METODY STATYSTYCZNE narzędzie, które pozwala opisać rzeczywistość
OPIS STATYSTYCZNY opis liczbowy zbiorowości
Opis tabelaryczny - opis zawarty w szeregach i tablicach
Opis graficzny - w postaci wykresów ujawniających prawidłowości
Opis parametryczny - w postaci charakterystyk liczbowych zw. parametrami :miary położenia, dyspersji, asymetrii
BADANIE STATYSTYCZNE ogól czynności zmierzających do uzyskania za pomocą metod statystycznych infor charak daną zbiorowość. Podział
Zakres obserwacji badanych jednostek: pełne, częściowe
Częstotliwość: ciągłe okresowe doraźne
Zasięg przestrzenny: międzynarodowe, krajowe, regionalne, środowiskowe, monograficzne
Dziedzina badań: demograficzne, społeczne, ekonomiczne, rolnicze itp.
BADANIE PEŁNE - badaniu podlega każda jednostka
BADANIE CZĘSCIOWE - badaniu podlegają wylosowane jednostki
REPREZENTACYJNE - losowe jednostki reprezentują zbiorowość np.: ocena jakości
MONOGRAFICZNE - wyczerpujący opis świadomie wybranej jednostki np.: przedsiębiorstwo
ANKIETOWE - gdy chcemy znać czyjąś opinię a nie opis faktów czy własności
ETAPY BADANIA STATYSTYCZNEGO
ZBIOROWOŚĆ STATYSTYCZNA zbiór dowolnych elementów zw. jednostkami statys, podobnych pod względem określonych cech i poddanych badaniu statys
JENDOSTKA STATYST. poszczególny element zbior. stast podlegający bezpośredniej obserwacji
CECHA STAŁA - określa zbiorowość staty, wspólna dla wszystkich jednostek, nie podlega badaniu a jedynie decyduje o zaliczeniu jednostki do zbiorowości
RZECZOWA
CZASOWA
PRZESTRZENNA
CECHA ZMIENNA - wartości które różnią jednostki statystyczne między sobą
JAKOŚCIOWA - wyrażane opisowo
ILOŚCIOWA - wyrażane za pomocą liczb
Cechy zmienne wyrażane są za pomocą WARIANTÓW CECHY, które wynikają z przyjętej w badaniu klasyfikacji cech.
ROZKAD CECH oznacza przyporządkowanie liczby zbiorowości do odpowiedniej wartości cechy zmiennej
Cechę jakościową można wyrazić za pomocą:
SKALI NOMINALNEJ - identyfikuje wg ustalonych klas, np.: nr przydzielony zawodnikowi
SKALI PORZĄDKOWEJ (ordinal)- pozwala uporządkować jednostki wg przyjętego kryterium, np.: samochody wg stanu technicznego
Cechę ilościową można wyrazić za pomocą:
SKALI PRZEDZIAŁOWEJ (interwał) - gdy zbiór wartości cechy zmiennej przyjmuje liczy rzeczywiste i można je uporządkować na osi liczbowej, np.: temperatura, wiek, zysk
SKALI ILORAZOWEJ (ratio, stosunkowa) - np.>: czas wykonywanie ćwiczenia, wydatki i dochody
OBSERWACJA STATYS. gromadzenie infor o właściwościach poszczególnych jednostek
MATERIAŁ STASTYS. jest wynikiem zaplanowanych specjalnie do celów badania dochodzeń ststys.
Pierwotny
Wtórny
KLASYFIKACJA ustalenie wariantów cechy
GRUPOWANIE podział zbiorowości na jednorodne lub względnie jednorodne podgrupy z punktu widzenia wyróżnionej cechy
TRYPOLOGICZNE - wg cechy jakościowej
WARIANCYJNE - wg cechy ilościowej
SZEREG STAT materiał uporządkowany lub uporządkowany i pogrupowany wg określonych kryteriów
SZEREG SZCZEGÓŁOWY - uporządkowany ale nie pogrupowany
SZEREG ROZDZIELCZY - uporządkowany i pogrupowany ,składa się z wariantów cech (xi) oraz liczebności (ni)
Strukturalny - wg cechy jakościowej
Punktowy - wg cechy ilościowej skokowej
Przedziałowy - wg cechy ilościowej skokowej lub jakościowej
WYKRES STATYSTYCZNY - graficzna forma prezentacji materiału statystycznego (tytuł, źródło, skala. legęda)
Punktowy - postać punktów, z których każda reprezentuje obserwacje (szereg szczegółowy) lub też określona liczbę jednostek
Szczegółowy
Rozdzielczy punktowy - wg cechy ilościowej skokowej
Obrazkowe - przedstawiają rozmiary za pomocą symboli
Rozdzielczy strukturalny - wg cechy jakościowej
Powierzchniowe - mają postać figur płaskich
Rozdzielczych strukturalnych
Rozdzielczych przedziałowych - histogram
Czasowych
przestrzennych
Liniowe - mają postać linii wykreślonej z początku układu współrzędnych
Czasowy
Rozdzielczy przedziałowy - krzywa liczebności
Rozdzielczy punktowy - wielobok liczebności
Mapowe - przedstawiają przestrzenne zróżnicowanie, (kartogram - różnice za pomocą barw, kartodiagram - łączy mapę z wykresem powierzchniowym lub obrazkowym)
geograficzny
Złożone - warstwowy saldowy
Szczegółowy - wykres punktowy
Strukturalny - wykres obrazkowy, powierzchniowy
Punktowy - wykres punktowy, liniowy (przerwa)
Przedziałowy - wykres powierzchniowy, liniowy (brak przerwy)
TABLICE STATYSTYCZNE - forma prezentacji rezultatów obserwacji, składa się z tytułu, nazwy wierszy-boczek , nazwy kolumn - główka i części liczbowej
PROSTA - kryterium stanowi jedna cecha, tablica merytorycznie pokrywa się z szeregiem stat.
ZŁOŻONA - prezentuje kilka zbiorowości charakteryzowanych wg jednaj cechy lub jedną zbiorowość wg kilku cech
KOMBINOWANA - charak jedną zbiorowość wg jednej lub kilku cech
KORELACYJNA (KRZYŻOWA)
KOONTYGENCJI - więcej niż 2 wiersze lub 2 kolumny
ASOCJACJI - 2 wiersze i 2 kolumny
Kreska (-) |
Zjawisko nie występuje |
Zero (0) |
Istniało w wielkości nie większej niż 0,5 jednostki miary tablicy |
Dwa zera (0,0) |
Istniało w wielkości nie większej niż 0,05 jednostki miary tablicy |
Kropka (.) |
Brak infor lub brak wiarygodnych infor |
Znak iks (x) |
Wypełnienie tablicy jest nie możliwe lub nie celowe |
Gwiazdka (*) |
Stawiana obok liczby w celu zaznaczenie że została zmieniona w stosunku do poprzedniej publikacji |
Znak (▼) |
Dane nie mogą być opublikowane bo trzeba zachować tajemnicę |
„w tym” |
Nie podaje się wszystkich składników sumy ogólnej |
TYPY ROZKŁADÓW EMPIRYCZNYCH
ROZKŁAD SYMETRYCZNY - obserwacje rozłożone są równomiernie po obu stronach osi
ROZKŁAD ASYMETRYCZNY - większość obserwacji grupuje się bliżej początku szeregu (małe wartości) lub bliżej końcu (duże wartości)
ROZKŁAD BIMODALNY - można dostrzec dwa wyraźne punkty skupienia obserwacji
ROZKŁAD SIODŁOWY - w kształcie litery U, posiada dwa punkty skupienia na jego krańcach
ROZKŁAD RÓZNOMIERNY - we wszystkich przedziałach klasowych występuje ta sama liczba obserwacji
Analizują rozkład cechy mierzalnej
|
MIARY KLASYCZNE |
MIARY POZYCYJNE |
TENDENCJA CENTRALNA MIARY POŁOŻENIA |
Śr arytmetyczna x |
Dominanta D |
|
|
Mediana Me |
|
|
Kwartale Q |
|
|
Decyle DR |
ROZPROSZENIE ZRÓŻNICOWANIE DYSPERSJA |
Wariancja s2 |
Rozstęp R |
|
Odchylenie standardowe s |
Odchylenie ćwiartkowe Q |
|
Wspł. Zmienności V(s) |
Współ. Zmienności V(Q) |
ASYMETRIA SKOŚNOŚĆ |
Moment trzeci centralny μ3 |
Współ. Skośności A(x) |
|
Moment trzeci względny α3 (-2,2) |
Współ. Skośności A(Q) (-1,1) |
KONCENTRACJA KURTOZA |
Moment czwarty |
Wskaźnik spłaszczenia |
|
Moment czwarty centralny |
|
TENDENCJA CENTRALNA - skupienie się jednostek wokół wartości centralnej
MIARY POŁOŻENIA - to Miery średnie lub przeciętne, za ich pomocą następuje uogólnienie poziomu wartości cechy zaobserwowanych u poszczególnych jednostek
Śr arytmetyczna- iloraz globalnej wartości cechy przez liczbę obserwacji, pokazuje średni poziom cechy przypadający na jedną jednostkę xmin≤ X≤ xmax
Dominanta - to wartość typowa, najczęściej występująca, określana również jako moda, jaki poziom cechy jest najczęściej spotykany
Mediana - wartość środkowa, absolutna miara położenia, połowa zbiorowości ma wartości nie większe niż Me a druga połowa ma nie mniejsze niż Me, jaki poziom cechy posiada środkowa jednostka
Kwartale - wartości ćwiartkowe dzielą zbiorowość, uporządkowaną wg rosnących wart badanej cechy, na cztery jednakowe części
Decyle - dzielą szereg na dziesięć jednakowych części
MIARY DYSPERSJI/ROZPROSZENIA/ZMIENNOŚCI - mówi o wartościach cechy zmiennej przypadającej na poszczególne jednostki, pozwalają na uogólnienie różnic w wartościach cechy zaobserwowanych u poszczególnych jednostek
Wariancja - moment drugi centralny, przyjmuje wartości większe od zera, nie da się jej logicznie zinterpretować, to przeciętne kwadratowe odchylenie poszczególnych wyników od ich średnich
Odchylenie standardowe - pokazuje średnie absolutne odchylenie wartości cechy od jej śr arytmetycznej
Współczynnik zmienności - to względna miara dyspersji, wyrażana jest w procentach, ocenia natężenie zróżnicowania badanej cechy w zbiorowościach, wartości bliskie zeru mówią o tym że zbiorowość jest jednorodna, im wartości wieksze tym zbiorowość bardziej zróżnicowana
Rozstęp - obszar zmienności, najbardziej ogólna miara dyspersji
Odchylenie ćwiartkowe - interpretowane jako połowę obszaru zmienności środkowych 50% jednostek zbiorowości
Wspól zmienności - względna miara dyspersji, przyrównuje odchylenie ćwiartkowe do odpowiedniej średniej czyli do Me
MIARY ASYMETRII/SKOŚNOŚCI - mówi o rozmieszczeniu liczebności przy wartościach cechy
Moment trzeci centralny - =0 -szereg symetryczny, >0 szereg o asymetrii dodatniej, <0 szereg o asymetrii ujemnej
Moment trzeci względny - przyjmuje wartości (-2,2)
Współ asymetrii - przyjmuje wartości (-1,1), mówi jaka jest asymetria -niewielka umiarkowana duża
Są to miary unormowane i niemianowane, nie można porównać asymetrii różnych rozkładów
Rozkład symetryczny x=Me=D
Asymetria dodatnia (prawostronna) - punkt skupienia znajduje się przy niskich wartościach, D<Me<x, x-D>0
Asymetria ujemna (lewnostronna) - punkt skupienia znajduje się przy wyzszych wartościach x<Me<D, x-D<0
Kierunek asymetrii można ustalić w oparciu o kwartale Q3-Me=Me-Q1
Rozkłady jednaj zmiennej różnią się między sobą kierunkiem i siłą asymetrii.
KONCENTRACJA - NIERÓWNOMIERNY PODZIAŁ GLOBALNEJ WARTOŚCI CECHY (Σxini)
Problem koncentracji po raz pierwszy wprowadził M.O.Lorens w 1905 r w badaniu nad rozkładem dochodu. Pojęcie koncentracji ograniczone jest dwoma skaranymi przypadkami:
Brak koncentracji - na każdą zbiorowość przypada taksa sama suma wartości cechy
Koncentracja zupełna (całkowita) - łączny fundusz cech przypadający na jednostkę zbiorowości
METODY BADANIA SIŁY KONCENTRACJI:
GRAFICZNA - wielobok koncentracji Lorensa
ANALITYCZNA - miara koncentracji - współczynnik koncentracji Pearsona, jest stosunkiem pól oznaczonych literami a i b
Jest to miara unormowana przyjmująca wartości (0,1)
Jeżeli koncentracja jest słaba, pola a jest małe i współczynnik przyjmuje wartości bliskie 0
Jeżeli koncentracja jest silna pole a jest duże i współczynnik przyjmuje wartości bliskie 1
Suma pól a i b wynosi 5000 (połowa kwadratu o boku 100)
ANALIZA WSPÓLZALEŻNOŚCI I REGRASJI
KORELACJA - to współzależność, czyli wzajemne oddziaływanie lub współwystępowanie dwóch zjawisk lub cech tej samej zbiorowości. Jeżeli zamienne X i Y oddziaływają na siebie wzajemnie mówimy o korelacji lub współzależności tych cech. nie mówimy o przyczynie i skutkach.
Statystyczny opis korelacji może mieć formę tabelaryczną, graficzną (diagram korelacyjny) lub parametryczną w postaci odpowiedniej charak liczbowej.
Wykres korelacyjny (scatterpolt, diagram korelacyjny, rozproszenia, wykres rozrzutu) - to najprostsza forma oceny związk między cechami, pozwala zaobserwować i ocenić najważniejsze własności powiązań cech.
Gdy punkty układają się blisko linii to mówimy o silnej korelacji, a im większe odległości tym związek słabszy.
POMIARY SIŁY I KIERUNKU KONCENTRACJI
WSPÓLCZYNNIK KORELACJI LINIOWEJ PEARSONA (r) - obie cechy ilościowe a zależność między nimi jest liniowa, przyjmuje wartości (-1,1), jest ilorazem miary łącznego zróżnicowania cech - kowariancji. Współczynnik jest symetryczny nie ma znaczenia, którą cechę nazwiemy X, a którą Y.
KOWARIANCJA - średnia arytmetyczna iloczynu odchyleń wartości zmiennych X i Y od ich średnich arytmetycznych. Pokazuje ona kierunek współzależności (dodatni bądź ujemny). Porównanie jej ze współczynnikiem daje miernik unormowany, mówiący o kierunku i sile związku.
r=-1 związek funkcyjny ujemny
-1<r<0 związek korelacyjny ujemny
r=0 brak związku, cechy niezależne
0<r<1 związek korelacyjny dodatni
r=1 związek funkcyjny dodatni
Współczynnik podniesiony do kwadratu r2 nazywamy WSPÓŁCZYNNIKIEM DETERMINACJI - informuje jaka część zmienności jest wyjaśniania zmiennością drugiej cechy.
Dopełnienie tego współczynnika to tzw. WSPÓŁCZYNNIK INDETERMINACJI φ2 - informuje jaka cześć zmienności cechy nie jest wyjaśniana zamiennością drugiej cechy
r2=1-φ2
φ2=1-r2
WSPÓLCZYNNIK RANG SPEARMANA (rs) - cechy wyrażone w skali porządkowej, jakościowej, mieszanej; zaobserwowane wartości zastępowane są rangami, czyli kolejnymi liczbami od 1 do n przyporządkowanymi wg określonego kryterium. Współczynnik zbudowany jest na podstawie różnic między rangami odpowiadających sobie parami obserwacji obu badanych cech (di). przyjmuje wartości (-1,1). Znak infor o kierunku korelacji (dodatnia - uporządkowania zgodne, ujemna - niezgodne), wartość bezwzględna współczynnika o sile.
WSPÓŁCZYNNIK KONTYNGENCJI (ZBIEŻNOŚCI) T-CZUPROWA (T) - cechy jakościowe, wyrażone na skali nominalnej, przyjmuje wartości (0,1), jest symetryczny, mówi tylko o istnieniu związku między badanymi cechami, nie wskazuje kierunku korelacji, może być stosowany zarówno w przypadku cech mierzalnych jak i niemierzalnych.
MIARY WSPÓLZALEŻNOŚCI CECH JAKOŚCIOWYCH
Chcąc zbadać współzależność miedzy cechami jakościowymi wyrażonymi na skali nominalnej, bądź cechą jakościową a ilościową posługujemy się współczynnikiem kontyngencji, oceniający stopień powiązania (skojarzenia). Ocena skojarzenia opiera się na tzw. statystyce χ2 (chi-kwadrat).
Statystyka χ2 mierzy różnicę między liczebnościami zaobserwowanymi - empirycznymi, a teroretycznymi które powinny być. Oblicza się ją na podstawie tablicy korelacyjnej.
Przyjmuje wartości z przedziału (0, √(k-1)(l-1))
=0 gdy liczebności są takie same, gdy różnicę między liczebnościami empirycznymi a teoretycznymi jest mała χ2 osiąga niewielkie ilości.
WSPÓŁCZYNNIKI KONTYNGENCJI - obie cechy jakościowe, ilościowe lub jedna jakościowa a druga ilościowa; współczynniki oparte są na rozkładach liczebności a zatem mogą być traktowane jako miara związku stochastycznego, przyjmują wartości (0,1), 0 świadczy o stochastycznej niezależności cech, a im dalej od zera tym związek silniejszy, czyli cechy są skojarzone
WSPÓŁCZYNNIK KONTYNGENCJI (ZBIEŻNOŚCI) T-CZUPROWA (T)
WSPÓŁCZYNNIK V CRAMER
WSPÓŁCZYNNIK KONTYNGENCJI C PEARSONA
Współ V Cramera i współ. T-Czuprowa są sobie równe gdy k=1, w innych przypadkach współ V Cramera jest zawsze nieco większy od współ. T-Czuprowa. W przypadku tablicy 2x2 oba mierniki s ą równe współ φ Yule'a. dla tablicy 2xk współ V Cramera równy jest współ φ Yule'a..
TABLICA KONTYNGENCJI - powstaje w wynkiu grupowania zbiorowości wg dwóch cech, skada się z k- wierszy odpowiadających wariantom jednej cechy oraz l kolumn odpowiadających wariantom drugiej cechy
TABLICA ASOCJACJA - powstaje w oparciu o 2 cechy jakościowe dychotomiczne, jest czteropolowa a rozmiarach 2x2
Nie powinniśmy używać statystyki χ2 w przypadku gdy n<20 lub gdy 20<n<40 a wartości empiryczne są mniejsze niż 5, jeżeli n>40 to żadna z wartości empirycznych nie powinna być mniejsza niż 7
Dla danych zapisanych w takiej tablicy najczęściej stosowaną miara skojarzenia cech jest współ φ Yule'a
LINIOWA FUNKCJA REGRESJI - badanie wpływu jaki wywiera zamienna niezależna na zmienną zależną, statystyczny opis związku przyczynowo-skutkowego. Analityczną postacią tego związku jest formalna konstrukcja nazywana modelem regresji.
funkcja pokazująca wpływa cechy X na Y
yi=ay+byxi
yi - zmienna zależna xi - zmienna niezależna
funkcja pokazująca wpływa cechy Y na X
xi=ax+bxyi
xi - zmienna zależna yi - zmienna niezależna
a i b - współczynniki regresji
współczynnik kątowy b -nazywana jest współczynnikiem regresji - pokazuje o ile zmieni się średnio zmienna zależna jeżeli zmienna niezależna wzrośnie o 1 jednostkę
wyraz wolny prostej a nie zawsze ma logiczne wyjaśnienie, można go interpretować jako teoretyczny poziom zmiennej zależnej dla wartości zmiennej niezależnej równej zero
Liniowa funkcja regresji nie jest symetryczna, duże znaczenie ma którą cechę nazwiemy X a którą Y, która wywiera wpływ na drugą.
OCENA DOPOSOWANIA REGRESJI
WARIANCJA RESZTOWA (Se2) - miara wahań przypadkowych
BŁĄD STANDARDOWY SZACUNKU - ODCHYLENIE STANDARDOWE RESZT (Se) - infor o ile średnio odchyylają się watrości zaobserwowane od oszacowanych za pomocą funkcji regresji
WSPÓŁCZYNNIK ZMIENNOŚCI (Ve) - ocenia natężenie wahań przypadkowych
WSPÓŁCZYNNIK ZBIEŻNOŚCI-INDETERMINACJI (φ2) - ocena dopasowania funkcji regresji
WSPÓŁCZYNNIK DETERMINACJI (R2) - ocena dopasowania funkcji regresji
Funkcję nazywamy dobrze dopasowana gdzy współ. determinacji jest bliski 1.
Różnice między wartościami empirycznymi (punktami), a teoretycznymi (prosta) nazywamy resztą - wpływ czynników przypadkowych.