STATYSTYKA- jest nauką zajmującą się metodami gromadzenia, opracowywania, prezentacji, analizy i interpretacji danych ilościowych dotyczących badanych zbiorowości - jest nauką traktującą o metodach ilościowych badania prawidłowości zjawisk (procesów) masowych -zbiory danych liczbowych dotyczących konkretnego zagadnienia - „to badanie zmienności” /*Przedmiotem statystyki jest wykrywanie prawidłowości wyst. W badanych różnorodnych zbiorowościach (zjawiskach masowych) FUNKCJE STYTYSTYKI 1. opis, zebranie informacji w taki sposób by były najbardziej użyteczne 2. Indukcja czyli reguły uogólnienia na populację wniosków wyciągniętych w oparciu o próbę /*Statystyczne metody badania prawidłowości charakteryzujących badane zjawiska występują w formie opisu statystycznego oraz w formie wnioskowania statystycznego OPIS STATYSTYCZNY- to liczbowy opis badanej zbiorowości lub zjawisk, wyst. W formie tabelarycznej, graficznej i parametrycznej (za pomocą charakterystyk liczbowych takich jak miary położenia, dyspersji, asymetrii, zwanych parametrami) WNIOSKOWANIE STATYSTYCZNE- jest to proces uogólnienia wyników uzyskanych z próby losowej na całą zbiorowość statystyczną. Wnioskowanie statystyczne prowadzi się na podst. Próby losowej, a więc w szczególności nie może to być próba dowolna wybrana na chybił trafił BADANIE STATYSTYCZNE- ogół prac mających na celu poznanie struktury określonej zbiorowości statystycznej ETAPY B.S.- 1. programowanie badania 2.obserwacja statystyczna 3. prezentacja wyników 4. analiza statystyczna ETAP 1 (programowanie badania)- 1.określenie celów badania: ogólnych , cząstkowych 2. Określenie przedmiotu badania: -zdefiniowanie zbiorowości statystycznej -jednostki statystycznej ZBIOROWOŚĆ STATYSTYCZNA- (populacja statystyczna) zbiór dowolnych elementów (osób, przedmiotów, faktów) nazywanych jednostkami statystycznymi podobnych pod względem określonych cech i poddanych badaniom statystycznym JEDNOSTKA STATYSTYCZNA- to poszczególny element (obiekt badania) zbiorowości statystycznej podlegający bezpośredniej obserwacji lub pomiarowi /*Jednostki statyst. Chartka. Się pewnymi własnościami które określa się mianem cech statystycznych (Cechy:-stałe (rzeczowe, czasowe, przestrzenne) -zmienne(-jakościowe niemierzalne:dwudzielcze i wielodzielcze; -ilościowe mierzalne: skokowe i ciągłe) CECHY STAŁE- to wspólne wszystkim jednostkom danej zbiorowości i nie podlegają badaniu a jedynie decydują o zaliczeniu jednostki do określonej zbiorowości CECHY ZMIENNE- to właściwości które różnią poszczególne jednostki statystyczne BADANIE REPREZENTACYJE- losowy wybór jednostek do badania i uogólnienie informacji na całą populację (zbiorowość) BADANIE MONOGRAFICZNE- świadomy wybór jednostki do badania ETAP 2 (obserwacja statystyczna) OBSERWACJA- jest to gromadzenie, zbieranie materiału statystycznego- informacji o właściwościach jednostek statystycznych /*Określenie źródeł pozyskiwania danych: pierwotnych (obserwacja, wywiad, ankieta) wtórnych (sprawozdawczość przedsiębiorstw, publikacje statystyczne, spisy) GRUPOWANIE MATERIAŁU STATYSTYCZNEGO- usystematyzowanie, podział zbiorowości na jednorodne podgrupy według jednej lub kilku cech. *Grupowanie: typologiczne i wariancyjne GRUPOWANIE TYPOLOGICZNE- gdy podstawą grupowania jednostek statystycznych jest cecha jakościowa GRUPOWANIE WARIANCYJNE- gdy podstawą grupowania jednostek statystycznych jest cecha ilościowa SZEREGI ROZDZIELCZE- otrzymywane w wyniku grupowania materiału statystycznego ETAP 3 (prezentacja wyników obserwacji statyst.) SZEREG STATYSTYCZNY- ciąg wyników obserwacji uporządkowany lub uporządkowany i pogrupowany wg określonych kryteriów, przyjętych wariantów cechy DZIELĄ SIĘ NA: I. szczegółowe(wyliczające, proste) II. Rozdzielcze: 1. szereg rozdzielczy strukturalny (powstaje w wyniku grupowania cechy jakościowej) 2. szereg rozdzielczy jednostopniowy- punktowy (powst. W wyniku grupowania cechy ilościowej skokowej) 3. szereg rozdzielczy wielostopniowy- przedziałowy ( powst. W wyniku grupowania cechy ilościowej ciagłej lub skokowej bardzo wiele wariantów) III. Czasowe(dynamiczne, chronologiczne) SZEREG SZCZEGÓŁOWY- nazywamy uporządkowany ciąg wartości badanej cechy statystycznej wg określonego kryterium SZEREG ROZDZIELCZY- nazywamy uporządkowany i pogrupowany ciąg wartości badanej cechy statystycznej wg określonego kryterium WYKRESY STATYSTYCZNE- graficzna, wizualna forma prezentacji materiału statystycznego /*szereg strukturalny- wykresy powierzchniowe ( np. wykres słupkowy, kołowy, bądź na planie innych figur płaskich *szereg rozdzielczy jednostopniowy (wykresy punktowe) *szereg rozdzielczy wielostopniowy : -wykresy liniowe (krzywa liczebności) -wykresy powierzchowne (histogram, wielobok liczebności) HISTOGRAM- zbiór prostokątów których podstawy stanowią rozpiętość poszczególnych przedziałów klasowych, natomiast wysokości są określone przez liczebności odpowiadające poszczególnym przedziałom klasowym KRZYWA LICZEBNOŚCI- jest łamaną powst. Przez połaczenie punktów których współrzędnymi są środki przedziałów klasowych i odpowiadające im liczebności ETAP 4 ( analiza statystyczna) ROZKŁAD EMPIRYCZNY- jeżeli wartości cechy zmiennej X zostaną uporządkowane oraz jeżeli tym wartościom zostaną przyporządkowane jednostki lub grupy jednostek badanej zbiorowości to mówimy że dany jest rozklad empiryczny jednej cechy ROZKŁADY SYMETRYCZNE- obserwacje są rozłożone równomiernie po obu stronach osi symetrii. Wartość cechy przez którą przechodzi oś symetrii pełni tu rolę punktu centralnego wokół którego znajduje się najwięcej obserwacji a w miarę oddalania się od tej wartości liczba spostrzeżeń maleje ROZKŁADY ASYMETRYCZNE- większość obserwacji posiada stosunkowo niskie wartości cechy niewiele jest obserwacji przy wysokich wartościach WŁASNOŚCI ROZKŁADY EMPIRYCZNEGO: 1. TENDENCJA CENTRALNA- polega na skupianiu się jednostek wokół wartości centralnej . występuje w przypadku rozkładów jednomodalnych i zbliżonych do rozkładu symetrycznego 2. DYSPERSJA (rozproszenie, zróżnicowanie, zmienność, rozrzut)- odchylenie od tendencji centralnej, Jeżeli wszystkie jednostki znajdują się blisko wartości centralnej ich zmienność jest mniejsza niż wtedy gdy oddalają się one zacznie od wartości centralnej 3.ASYMETRIA (skośność)- odchylenie od symetrii. Pkreśla symetryczność bądź niesymetryczność rozkładu liczebności WSTĘPNA ANALIZA DANYCH- ma charakter opisowy, obejmuje proste operacje, metody sporządzania tablic i wykresów statystycznych . Ma na celu zrozumienie przez badacza charakteru struktury danych a w konsekwencji dobranie odpowiednich modelów statystycznych /* ilościowy opis każdej z własności rozkładu nazywa się analizą struktury *Miary opisujące szeregi mogą być: bezwzględnie absolutne (wartości mianowane wyrażone w tych samych jednostkach miary co badana cecha zmienna (m, kg, km, osoby itd.) kłopotliwe do porównań) względnie stosunkowe (wartości niemianowane lub np. w % w ułamku, lepsze dla celów porównawczych /*Do opisu własności rozkładu służą charakterystyki liczbowe zwane PARAMETRAMI ROZKŁADU: - parametry klasyczne (obliczane na podst. Wszystkich obserwacji w szeregu) - parametry pozycyjne ( wyznaczane są na podstawie miejsca w szeregu lub częstotliwości występowania MIARY TENDENCJI CENTRALNEJ- MIARY POŁOŻENIA dzielą się na miary : przeciętne i kwantyle PRZECIĘTNE- charakteryzują średni lub typowy poziom wartości cech. Są to więc takie wartości wokół których skupiają się wszystkie pozostałe wartości analizowanej cechy np.srednia arytmetyczna, dominanta KWANTYLE- są to wartości cech badanej zbiorowości przestawionej w postaci szeregu statystycznego które dzielą zbiorowość na określone części pod względem liczby jednostek. Części te pozostają do siebie w określonych proporcjach np. mediana, kwantyle, decyle ŚREDNIA ARYTMETYCZNA- suma wartości wyników podzielona przez liczbe elementów tego zbioru (klasyczna absolutna miara położenia) zaleta: uwzględnia wszystkie informacje zawarte w zbiorze) 1.powinna być stosowana w przypadku rozkładów symetrycznych lub rozkładów o umiarkowanej asymetrii 2. wielkość mianowana tzn. wyrażona jest w konkretnych jednostkach miary 3. nie powinna być stosowana w szeregach w których obserwacje są skupione w skrajnych przedziałach 4. wymaga szeregów o domkniętych przedziałach klasowych 5. jest szczególnie wrażliwa na występowanie tzn wartości skrajnych DOMINANTA (moda, modalna, wartość typowa)- pozycyjna, absolutna miara położenia, jest to wartość występująca najczęściej w badanej zbiorowości. Wymaga pogrupowania materiału statystycznego- wyznaczana zatem jedynie dla szeregów rozdzielczych. Stosowana w przypadku rozkładów jednomodalnych (wartość która dominuję i występuje najczęściej) KWANTYLE dzielimy na 1. KWARTYLE- dzielą zbiorowość na 4 ćwiartki2. DECYLE- dzielą zbiorowość na 10 części 3. PERCENTYLE - dzielą zbiorowość na 100 części MEDIANA (wartość środkowa)- pozycyjna , absolutna miara położenia. Wartość cechy jaką posiada jednostka znajdująca się w środku uporządkowanego szeregu mediana- kwartyl drugi - decyl piąty 1. może być obliczana np. w szeregach o otwartym przedziale klasowym, o różnej rozpiętości przedziałów 2. nie jest wrażliwa jak średnia arytmetyczna) na występowanie wartości skrajnych MIARY DYSPENSJI (rozproszenie , zmienności , zróżnicowania) ROZSTĘP- różnica między największą i najmniejszą zaobserwowaną wartością WARIANCJA- przeciętne kwadratowe odchylenie poszczególnych wyników od ich średniej arytmetycznej ODCHYLENIE STANDARDOWE- w zbiorze wyników obserwacji nazywamy pierwiastek kwadratowy z wariancji ; odchylenie standardowe jest obok średniej arytmetycznej najczęściej stosowanym parametrem statystycznym ; klasyczna absolutna miara dyspensji ; im zbiorowość jest bardziej zróżnicowana tym większa jest wariancja i odchylenie standardowe ; odchylenie w przeciwieństwie do wariancji można interpretować WSPÓŁCZYNNIK ZMIENNOŚCI- iloraz bezwzględnej miary zmienności cechy i średniej wartości tej cechy ( duże wartości tego współczynnika świadczą o zróżnicowaniu a więc o niejednorodności zbiorowości) ; stosowany zwykle w analizach porównawczych gdy chcemy ocenic żróżnicowanie kilku zbiorowości pod względem tej samej cechy. Gdy chcemy ocenić zróżnicowanie tej samej zbiorowości pod względem kilku różnych cech ANALIZA WSPÓŁZALEŻNOŚCI: Jeżeli zmienne X i Y oddziałują na siebie wzajemnie lub współwystępują to mówimy o KORELACJI lub współzależności tych cech. Nie mówimy wówczas o przyczynie i skutku lucz określamy wzajemną relację między cechami WYKRES KORELACYJNY ( diagram korelacyjny, diagram rozproszenia, wykres rozrzutu)- pozwala zaobserwować i ocenić najważniejsze własności powiązać cech a więc: 1.istnienie związku 2. rodzaj związku 3. kierunek zależności 4. siłę zależności /*Analiza wykresu korelacyjnego pozwana również na zaobserwowanie jednostek które znacznie odbiegają od pozostałych tzw outliersów /* Na podst. Diagramu korelacyjnego możemy stwierdzić czy powiązanie cech ma charakter 1. liniowy , krzywoliniowy, nieliniowy 2. dodatni , ujemny 3. silny, umiarkowany , słaby *O ZWIĄZKU LINIOWYM mówimy gdy punkty na diagramie korelacyjnym rozkładają się wokół lini prostej. Zjawisko takie występuje wtedy gdy jednostkowym zmianom jednej cechy odpowiadaja jednostkowe zmiany drugiej cechy *Związek ma charakter KRZYWOLINIOWY gdy punkty na diagramie rozkładaja się wokół innej linii ( funkcji) niż liniowa. Przy czym mamy wtedy na myśli funkcje sprowadzone do liniowej takie jak wykładnia , potegowa, hiperboliczna, tornquista, logistyczna… Jednakowym zmianom jednej cechy towarzyszą różne co do siły lub (i ) kierunku zmiany drugiej cechy * Jeżeli punkty na diagramie rozkładają się na diagramie wokół lini funkcji niesprowadzalnej do liniowej mówimy o korelacji NIELINIOWEJ /* Korelacja może być dodatnia albo ujemna *O zależności DODATNIEJ mówimy gdy wzrostowi wartości jednej cechy X odpowiada wzrost średnich wartości drugiej cechy Y. Zależność jest dodatnia także gdy spadkowi jednej cechy X towarzyszy spadek średnich wartości drugiej cechy Y * O zależności UJEMNEJ mówimy gdy zmiany wartości cech są różnokierunkowe. Jeżeli wartości jednej cechy X wzrastają a średnie wartości drugiej cechy Y spadają ( i odwrotnie) to mówimy o korelacji ujemnej * Jeżeli rozrzut punktów na diagramie korelacyjnym jest mały, punkty układają się niemal idealnie wokół linii prostej to mówimy o SILNEJ korelacji * Jeżeli rozproszenie punktów jest wyrażne mówimy o korelacji UMIARKOWANEJ * Jeżeli punkty są znacznie rozproszone jednak nadal wyraźnie widać wokół jakiej linii mówimy o korelacji SŁABEJ * Jeżeli wszystkie punkty diagramu leżą dokładnie na prostej mówimy o korelacji IDEALNEJ~ FUNKCYJNEJ (związku funkcyjnym) * Jeżeli na wykresie nie można jednoznacznie zauważyć linii wokół której rozkładają się punkty to mówimy że między badanymi cechami NIE MA ZADNEGO ZWIĄZKU / POMIAR SIŁY I KIERUNKU KORELACJI- do obiektywnej oceny siły i kierunku współzależności cech służą WSPÓŁCZYNNIKI KORELACJI / *W zależności od tego czy dane są zapisane w szeregach szczegółowych czy w tablicy korelacyjnej czy obie cechy są ilościowe , jakościowe czy jedna jest ilościowa a druga jakościowa, wybierzmy inny współczynnik * Do najlepiej znanych i najczęściej stosowanych należą: 1. współczynnik korelacji liniowej Pearsona ( obie cechy ilościowe) 2. współczynnik korelacji rang Spearmana (cechy wyraźnie w skali porządkowej, jakościowe, mieszane) 3. Współczynnik kontyngencji np. współczynnik T-Czuprowa ( cechy jakościowe) WSPÓŁCZYNNIK KORELACJI LINIOWEJ PEARONA- jest najczęściej stosowany w praktyce. Można go stosować jeżeli spełnione są jednocześnie dwa założenia: 1. obie cechy są cechami ilościowymi 2. zależności między cechami są liniowe * Współczynnik przyjmuje wartości z przedziału <-1,+1> *Interpretacje r= -1 doskonała korelacja ujemna, związek funkcyjny r < 0 korelacja ujemna r = 0 brak związku cechy są niezależne r > 0 korelacja dodatnia r = 1 doskonała korelacja dodatnia, związek funkcyjny *ZNAK WSPÓŁCZYNNIKA INFORMUJE O KIERUNKU KORELACJI współczynnik ten jest symetryczny a więc nie ma znaczenia którą cechę nazwiemy X a która Y. W konsekwencji na podstawie tego współczynnika nie można wnioskować, która z nich jest przyczyną a która skutkiem * Wartość bezwzględna współczynnika korelacji określa SIŁĘ KORELACJI /* ANALIZA SZEREGÓW CZASOWYCH - szeregiem czasowym nazywamy takie szereg statystyczny w którym kryterium porządkowania jest czas. Szereg czasowy to ciąg wyników obserwacji uporządkowanych w kolejnych jednostkach czasu. /* W pewnych sytuacjach obserwujemy zjawiska w konkretnych momentach np. liczna bezrobotnych. Takie szeregi czasowe nazywamy SZEREGAMI CZASOWYMI MOMENTÓW. Cechy te maja charakter zasobów. /* Inne cechy mogą być obserwowane jedynie za pewien okres czasu np. liczba urodzeń. Takie szeregi będziemy nazywać SZEREGAMI CZASOWYMI OKRESÓW. Szeregi te mają charakter strumieni /* Szeregi czasowe przedstawiamy na wykresach liniowych i punktowych /* Szeregi czasowe mogą znacznie różnić się między dynamiką, ogólnym kierunkiem zmian, natężenia wahań przypadkowych i okresowych. / *Zależnie od celu badania a także od charakteru zmian występujących w szeregach czasowych, stosujemy różne metody ustalania w nich prawidłowości statystycznych /* Jeżeli chcemy badać natężenie zmian jakiegoś zjawiska w poszczególnych okresach (momentach) w odniesieniu do innych okresów ( momentów) to stosujemy miary zwane WSKAŹNIKAMI DYNAMIKI. /* Jeżeli interesują nas prawidłowości rozwojowe w dłuższym czasie ( u kilku, kilkunastu lub kilkudziesięciu okresach ) tobadamy TENDENCJĘ ROZWOJOWA (TREND) , analizujemy także SEZONOWOŚĆ gdy informacje liczbowe są podane w kwartałach lub miesiącach. INDYWIDUALNE WSKAŹNIKI DYNAMIKI przyrost możemy wyznaczyć w sposób bezwzględny ( absolutny) lub względny. PRZYROSTY ABSOLUTNE informują nas o zmianach zachodzących w poziomie zjawiska w takich jednostkach jak jednostka badanej cechy PRZYROSTY WZGLĘDNE przekazują tą samą informacje jednak w sposób względny a więc opisują zmiany w poziomie badanego zjawiska lecz są to zmiany procentowe. /*Badając zmiany w poziomie zjawiska możemy jako punkt odniesienia mieć okres bezpośrednio poprzedzający okres badany lub okres podstawowy. Kryterium to pozwana wyróżnić formuły szacowania przyrostów: odpowiednio łańcuchową i jednopodstawową /* Dzieki formule ŁAŃCUCHOWEJ możemy badać zmiany zjawiska z okresu na okres. /* Formuła JEDNOPODSTAWOWA pozwala natomiast badać dynamikę zmian wartości cechy w stosunku do stałej podstawy z zadanego okresu. /* Relatywne zmiany w szeregach czasowych możemy mierzyć za pomoca WSKAŹNIKÓW DYNAMIKI zwanych INDEKSAMI. /* INDEKSEM nazywamy iloraz poziomu zjawiska w okresie badanym do poziomu zjawiska w okresie przyjętym za podstawę porównań. /* Analizując zmiany zachodzące w szeregu czasowym, możemy przyjąć stałą podstawę porównań, otrzymując tzw INDEKSY JEDNOPODSTAWOWE , bądź też możemy zastosować zmienną podstawę porównań, odnosząc poziom zjawiska w okresie badanym do poziomu w okresie bezpośrednio poprzedzającym i otrzymując tym sposobem INDEKSY ŁAŃCUCHOWE. /* Indeksy są miarami względnymi, pokazują identyczną informację jak przyrosty względne lecz w inny sposób. Interpretując wartośc indeksów zawsze interpretujemy „ODCHYLENIE OD 100%” SKŁADOWE SZEREGÓW CZASOWYCH- Do najważniejszych z nich zaliczamy: 1. TENDENCJĘ ROZWOJOWĄ czyli TREND - jest to ogólny kierunek zmian badanego zjawiska zachodzący w długim okresie czasu będący wynikiem oddziaływania określonego zespołu przyczyn głównych: trend może być wzrostowy, spadkowy lub pozostawać na takim samym niezmiennym poziomie ( wtedy mówi się o stałym lub średnim poziomie zjawiska) 2. WAHANIA OKRESOWE- jest to regularny wzrost lub spadek wartości badanego zjawiska w podobnych okresach czasu. Wahania pojawiające się periodycznie w skali dnia, tygodnia, dekady, miesiąca, kwartału, sezonu , roku itp. /* Jeżeli się weźmie pod uwagę długość cyklu wahania okresowe dziela się na: 1. WAHANIA KRÓTKOOKRESOWE- które powtarzają się w obrębie miesięcy , tygodni lub dni (np. wagania sprzedaży w hipermarketach spowodowane duzą zmiennością natężenia ruchu nabywców w ciągu tygodnia) 2. WAHANIA SEZONOWE- które mają roczny okres (cukl) wahań ( wynikają one z przyczyn naturalnych np. z przebiegu pór roku oraz z przyczyn konwencjonalnych np. zwyczajów świątecznych) 3. WAHANIA KONIUNKTURALNE (cykliczne) powtarzają się w odstępach dłuższych niż rok i są na ogół związane z cyklem koniunkturalnym gospodarki ) 4. WAHANIA NIEREGULARNE - pozostałe wahania nie będące wahaniami cyklicznymi ani sezonowymi , zwykle są to nieregularne odchylenia wartości badanego zjawiska o niewielkim natężeniu. /* Należą do nich wahania czysto losowe ( przypadkowe) o określonym rozkładzie prawdopodobieństw zdarzeń losowych oraz wahania incydentalne ( katastroficzne) , nie podlegające żadnym prawidłowościom losowym.