Zagadnienia do kolokwium ze statystyki w roku akad. 2013/2014
I rok pedagogiki UŚ, ćwiczenia, 15 godzin, mgr Edyta Charzyńska
- rozróżnienie między próbą a populacją
Populacja - cała zbiorowość posiadająca określone cechy, to zbiorowość generalna, nadzbiór próby
Próba- podzbiór populacji generalnej, podlegający badaniom ze względu na określoną cechę w celu
wyciągnięcia wniosków o kształtowaniu się tej cechy w populacji
Dlaczego badamy częściej próby a nie populację ? : czas i koszty badań
Populacją jest cała zbiorowość, a próba jest wybraną częścią populacji. Posłużmy się konkretnymi przykładami: populacją jest ludność zamieszkująca Polskę, a próbą z tej populacji jest ludność wybranego województwa.
- czym zajmuje się statystyka opisowa, a czym indukcyjna?
Statystyka opisowa - metoda gromadzenia i prezentacji danych oraz ich opis, czyli obliczanie podstawowych miar statystycznych; ogół przetwarzania danych bez zamiaru szacowania nieznanych parametrów populacji, bez posługiwania ie teoria rachunku prawdopodobieństwa
Statystyka matematyczna (indukcyjna) - buduje reguły wnioskowani statystycznego, który na podstawie próby reprezentacyjnej szacuje się z pewnym prawdopodobieństwem błędu o całej populacji, jej podstawą jest teoria rachunku
- co to jest reprezentatywność próby?
PRÓBA REPREZENTATYWNA -
próba, której struktura pod względem badanej cechy nie różni się istotnie od struktury populacji generalnej. P. reprezentatywna daje podstawy do wysuwania prawidłowych wniosków na temat populacji generalnej. Uzyskanie prób reprezentatywnych sprzyja dobór właściwego schematu losowania próby.
REPREZENTATYWNOŚĆ- ważne jest aby próba była reprezentatywna dla całej populacji, tzn. aby badanie które przeprowadzamy na części populacji mogło być również odniesione do wszystkich elementów lub jednostek, które nie są badane, zatem elementy wybrane dla prób powinny reprezentować ogół elementów badanej zbiorowości.
- rodzaje doboru próby; różnica między doborem losowym a celowym
Metody doboru losowego - probabilistyczne
Metody doboru losowego, to procedury oparte na mechanizmach losujących elementy do próby w taki sposób, aby każda jednostka populacji miała jednakową szansę dostania się do próby.
dobór losowy prosty - jest najprostszym sposobem doboru próby badawczej. Polega on na bezpośrednim i nieograniczonym doborze jednostek badanych do próby statystycznej wprost z populacji generalnej i bez ograniczeń. Istnieją dwa rodzaje doboru losowego prostego: dobór losowy prosty niezależny, czyli ze zwarciem, oraz dobór losowy prosty zależny, czyli bez zwarcia. Wśród technik doboru losowego prostego stosuje się wiele sposobów bezpośredniego i nieograniczonego doboru. Klasycznym sposobem jest losowanie za pomocą urny. Polega ono na zastąpieniu poszczególnych jednostek badanych losami (numerami), które umieszcza się w odpowiedniej urnie, a następnie po dokonaniu wymieszania losuje się, z zachowaniem wszelkich reguł prawdopodobieństwa, odpowiednią liczbę losów niezbędną do badań. Próba tak dobrana ma wszelkie cechy próby reprezentacyjnej. Drugim sposobem doboru jednostek do próby jest losowanie za pomocą tablicy liczb losowych. Polega on na ponumerowaniu wszystkich jednostek populacji generalnej i odczytaniu w ustalonej kolejności liczb z tablic liczb losowych.
dobór losowy systematyczny - należy również do typu losowania bezpośredniego, ale ograniczonego. Mianowicie, dobór ten jest ograniczony do jednostek z pewnego przedziału liczbowego. Metoda doboru losowego systematycznego polega na wyborze z uporządkowanego zbioru jednostek populacji - odpowiedniej liczby jednostek w równych odstępach (interwałach - k). Np. N=2000, n-200, K=N/n
dobór losowy warstwowy - polega na podziale całej populacji generalnej na tzw. warstwy i dokonaniu bezpośredniego losowania niezależnych prób w obrębie każdej warstwy. Podział populacji na warstwy musi być przeprowadzony w taki sposób, aby każdy element wchodził tylko do jednej warstwy i znajdował się w któreś z nich. Same warstwy powinny być jednorodne i różnić się między sobą istotnie. Wyróżnia się trzy rodzaje doboru losowania warstwowego: dobór proporcjonalny, dobór nieproporcjonalny i dobór optymalny.
dobór losowy grupowy (zespołowy) - losuje się bezpośrednio nie jednostki badawcze, lecz ich zespoły, a więc grupy tych jednostek, np. rodziny, klasy szkolne, zakłady pracy, dzielnice itp. Dobór próby w tym schemacie polega na wylosowaniu do próby pewnej liczby grup i badaniu wszystkich jednostek należących do tych grup. Istnieją dwa sposoby doboru losowego grupowego: dobór z jednakowymi prawdopodobieństwami wyboru oraz dobór z różnymi prawdopodobieństwami wyboru.
dobór losowy wielostopniowy - jest metodą kolejnego losowania zespołów jednostek coraz to niższego stopnia, powstających z podziału zespołów wyższego stopnia. Najpierw wybiera się jednostki losowania pierwszego stopnia, składające się dużych zespołów jednostek badania. Następnie jednostki te dzieli się na mniejsze zespoły, zwane jednostkami losowania drugiego stopnia. Z kolei jednostki te dzieli się na jeszcze mniejsze zespoły, zwane jednostkami losowania trzeciego stopnia, aż w końcu dochodzi się do podstawowych jednostek badania.
dobór losowy wielofazowy - jest metodą doboru prób losowych w kilku fazach, ale zawsze w obrębie tej samej kategorii jednostek. Dobór wielofazowy polega na wyborze w pierwszej fazie większej próby losowej, a w drugiej (lub dalszej) fazie - na wyborze z niej jednej lub więcej mniejszych prób losowych. Dobór losowy wielofazowy stosuje się w przypadku gdy uzyskanie informacji jest trudne (wywiad głębinowy) lub zbyt kosztowne (eksperyment rynkowy), skutkiem czego należy ograniczyć badania do stosunkowo niewielkiej i dobrze wyselekcjonowanej próby.
Metoda doboru nielosowego - nieprobabilistyczne
Metody doboru nielosowego, to takie techniki wyboru próby, w których nie stosuje się procedur losowania, lecz inne procedury, oparte przede wszystkim na subiektywnych decyzjach, opartych na znanych danych obiektywnych, odnoszących się do znajomości struktury badanej populacji.
dobór kwotowy - w doborze próby możliwe jest określenie przez badacza, w sposób arbitralny, które z jednostek populacji generalnej znajdują się w próbie. Dobór kwotowy opiera się on na znajomości struktury populacji generalnej. Do próby dobiera się te elementy, które spełniają żądane cechy w taki sposób aby ich rozkład w próbie odpowiadał rozkładowi tych cech w populacji generalnej. Jest to jeden z najbardziej popularnych doborów próby w badaniach marketingowych.
dobór jednostek typowych - należy do często stosowanych metod doboru nielosowego. Polega on na wyborze najbardziej typowych reprezentantów populacji generalnej przez przyjecie jednostek przeciętnych. Jednostki te przez swą „przeciętność” nie muszą być zbyt liczne.
dobór przez eliminację - jest w pewnym sensie przeciwieństwem doboru jednostek typowych. Zamiast bowiem dobierać jednostki typowe - eliminuje się wszystkie jednostki nietypowe, odbiegające znacznie od przeciętnych.
dobór celowy - jest najbardziej typowym przypadkiem doboru nielosowego. Polega on bowiem na całkowicie subiektywnym wyborze jednostek badanych do próby, w nadziei uzyskania najszerszych i najpełniejszych informacji.
dobór przypadkowy - wbrew jego nazwie jest również doborem nielosowym. Polega on bowiem na przypadkowym (na „chybił - trafił”) doborze pewnych jednostek, które w danej (przypadkowej) sytuacji znalazły się w dogodnym zasięgu. Może to być np. wywiad na ulicy czy w sklepie w czasie przypadkowych sytuacji.
dobór wygodny - technika doboru nielosowego, polegająca na wyborze osób badanych z grona bliskich krewnych bądź znajomych.
dobór sieciowy - technika doboru nielosowego polegająca na wyborze respondentów spośród klientów określonej sieci usługowej, np. pacjentów gabinetu dentystycznego.
dobór kuli śniegowej - dobór polegający na dotarciu do nielicznej grupy badanych, a następnie za ich pośrednictwem do kolejnych znanych im jednostek o podobnych cechach. W ten sposób następuje zwiększenie liczby jednostek w próbie aż do uzyskania zakładanej liczebności próby.
Różnice
ISTOTA DOBORU LOSOWEGO
- Przypadek decyduje o tym, które jednostki spośród badanej zbiorowości zostaną wybrane do próby
- Przypadek traktujemy tu jako formę przejawiania się konieczności, której występowanie jest zgodne z istniejącymi prawidłowościami i możliwe do przewidzenia;
Losowości nie należy identyfikować z dowolnością!!!
- Warunkiem możliwości zastosowania jest posiadanie operatu losowania
ISTOTA DOBROU NIELOSOWEGO
- Nie przypadek lecz badacz decyduje o tym, które jednostki spośród badanej zbiorowości zostaną wybrane do próby
- szanse poszczególnych jednostek zbiorowości, iż wybór padnie na nie są z założenia nierówne
- dokładność wyników badania (wielkość błędu) znana dopiero po jego przeprowadzeniu
- dla zastosowania nie ma potrzeby posiadania operatu losowego
- zastosowanie „lepszych” metod nielosowych jest uzależnione od znajomości rozkładów bądź parametrów cech charakteryzujących całą badaną zbiorowość (np. średnia, wariancja, wskaźnik struktury), co wymaga wnikliwej kwerendy
- rodzaje skal pomiarowych wg Stevensa (bardzo ważne!); zmienne jakościowe i ilościowe
skala nominalna - pozwala pogrupować, zmienna nominalna odzwierciedla cechy jakos.ciowe, nie można powiedzieć czego jest więcej, w wartościach zmiennej nie można ustalić zadnego porządku, wszystkie wartości są tak samo ważne, możemy powiedzieć tylko ze cos jest różne albo jednakowe; wartości na tej skali nie mają oczywistego uporządkowania (np. nazwy miejscowości). Jedyną dozwoloną relacją porównującą dwie wartości na skali nominalnej jest równość. Wśród skal nominalnych wyróżnia się czasem skale dychotomiczne przyjmujące tylko dwie wartości, np. odpowiedź na pytania tak/nie; płec, kolor skóry, kolor oczu
skala porządkowa - nie możemy powiedzieć o ile się różnia ale możemy ja uporzadkowac biorac pod uwagę natężenie tej cechy np. wykształcenie, stopnie wojskowe; wartości mają jasno określony porządek, ale nie są dane odległości między nimi (np. wykształcenie). Oprócz równości możliwe są relacje porządku ( < > ≤ ≥)
skala interwałowa (przedziałowa) - można określić różnicę pomiędzy wartościami, możemy porównowywac;różnice pomiędzy wartościami mają sensowną interpretację, ale ich iloraz nie. Np. daty.
skala ilorazowa (stosunkowa) - możemy określić o ile cos się różni, nie ma wartości ujemnychnie tylko różnice, ale także ilorazy wielkości mają interpretację. Przykładem jest masa (coś może być dwa razy cięższe). Wielkości na skali ilorazowej można dodawać odejmować i dzielić przez siebie.
- grupowanie danych - umiejętność narysowania tabeli, wykresu kolumnowego, liniowego
Statystyczne grupowanie, czynności związane z usystematyzowaniem materiału statystycznego, polegające na mniej lub bardziej zróżnicowanym podziale niejednorodnej zbiorowości na możliwie jednorodne grupy wg obranych kryteriów i na zestawieniu interesujących danych statystycznych, charakteryzujących poszczególne grupy.
Szereg rozdzielczy -
kategoria np. ile dzieci ------- liczebność
Grupowanie typologiczne - odnosi się do cech jakościowych, polega na wydzielaniu grup względnie jednorodnych z niejednorodnej zbiorowości np. podział ze względu na płeć, pochodzenie
x np. posiada dzieci, nie posiada dzieci-----ilosć
Grupowanie wariancyjne - dot. cech ilościowych, łączy poszczególne jednostki statystyczne wg interesującej badacza; można łączyć ze sobą dwie lub więcej cech
Grupowanie kombinowane- dot. cech ilościowych, lub jakościowych powiązanych ze sobą z punktu widzenia badań; uczhwycenie związków między nimi
x np. 0 - 3 ----------------- f ( częstość) np. 2
Klasa - zbiór wszystkich wartości liczbowych leżących wewnątrz przedziału oznaczonego ustalonymi granicami; najniższa wartość liczbowa klasy to jej dolna granica, a najwyższa to górna granica; środek przedziału to średnia arytmetyczna jego dolnej granicy
Zad. Mamy wyniki testów 70 uczniów. Najwyzszy wynik to 58, najniższy to 9. Proszę wyznaczyć optymalna liczbę klas
R (rozpiętość wyników) = X max - X min
58 - 9 = 49
i (długość przedziałów) = R / k (liczba klas, przedziałów)
k mieści się miedzy 10 do 20 - 5 << k << 20
i - zalecane wielkości przedziału : 1,2,3,5,10,20,30,50,100
* dobrze jeżeli długość przedziału jest liczbą nieparzysta, ponieważ ułatwia obliczenie środku przedziłu
i = 49 / 10 = 4,9 = 5
- znajomość różnych rodzajów wykresów
Graficzna prezentacja danych statystycznych oznacza obrazowanie ich za pomocą wykresów.
- liniowe(diagramy)
- powierzchniowe (słupkowe, kołowe, posowe)
- obrazkowe(piktogramy)
- punktowe
- mapowe ( kartogramy)
- wiedza, jakie wykresy pasują do danego rodzaju skali pomiarowej
dla zmiennych ilościowych ( skrzynkowe, liniowe, histogramy)
dla zm. jakościowych ( powierzchniowe)
- sporządzanie szeregu rozdzielczego, w tym zawierającego przedziały klasowe
Szereg rozdzielczy (ang. stem-and-leaf lub stemplot) jest statystycznym sposobem prezentacji rozkładu empirycznego. Uzyskuje się go dzieląc dane statystyczne na pewne kategorie i podając liczebność lubczęstość zbiorów danych przypadających na każdą z tych kategorii.
Szeregi rozdzielcze:
strukturalny (cecha jakościowa, grupowanie typologiczne),
punktowy (cecha ilościowa, skokowa),
przedziałowy (cecha ilościowa, ciągła),
punktowy plus przedziałowy (grupowanie wariancyjne).
Kolejne kroki podczas wykonywania szeregu rozdzielczego:
porządkowanie (jeśli to możliwe rosnąco) wartości cechy,
zliczenie liczby wystąpień danej cechy w próbie,
obliczenie częstości występowania dla każdej wartości cechy,
prezentacja wyniku w formie tabeli.
Jeśli cecha ma charakter ciągły, wtedy przedział wartości cechy dzieli się na przedziały klasowe. Liczba i rozpiętości przedziałów powinny być tak dobrane, aby dawały przejrzysty obraz rozkładu. Na ogół przyjmuje się, że liczba przedziałów powinna być większa od 5 i mniejsza od 20.
Jeśli cecha ma charakter skokowy, ale liczba możliwych wartości jest bardzo duża, wtedy można postąpić podobnie jak w przypadku cechy o charakterze ciągłym.
- wyznaczanie dolnej i górnej granicy przedziału oraz jego środka
Klasa - zbiór wszystkich wartości liczbowych leżących wewnątrz przedziału oznaczonego ustalonymi granicami; najniższa wartość liczbowa klasy to jej dolna granica, a najwyższa to górna granica; środek przedziału to średnia arytmetyczna jego dolnej granicy
- umiejętność wymienienia i policzenia miar tendencji centralnej
- średnie klasyczne
* arytmetyczna - skala przedziałowa, stosunkowa; suma wszystkich wartości zmiennej podzielona przez liczebność wzoru,
Właściwosci !!!
* harmoniczna,
* ważona - obliczona jest wtedy gdy pewne wartości zmiennej pojawią się więcej niż jeden raz lub różne jest jej znaczenie
- pozycyjne - konkretne wartości zajmujące w danym szeregu określone miejsce
* mediana
*dominanta
* kwartyle
- wiedza, kiedy można obliczyć średnią, a kiedy należy policzyć medianę lub dominantę (zależy od rodzaju skali, na jakiej wyrażona jest zmienna)
- obliczanie miar dyspersji: rozstęp, odchylenie przeciętne, wariancja, odchylenie standardowe
- umiejętność narysowania/rozpoznania rozkładu normalnego, rozkładu lewo- i prawoskośnego, leptokutycznego i platykurtycznego; rozumienie, co oznaczają miary asymetrii, umiejętność podania przykładów
Miary asymetrii mówią nam, czy większa część populacji plasuje się powyżej, czy poniżej przeciętnego poziomu badanej cechy X . Asymetrię rozkładu można zbadać porównując modę, medianę i wartość oczekiwaną (średnią). W przypadku rozkładu symetrycznego wszystkie te parametry są równe.
Najprostszym sposobem oceny skośności rozkładu jest porównanie lokalizacji charakterystyk tendencji centralnej:
- rozkład lewoskośny: mediana < średnia arytmetyczna < moda (dominanta, wartość dominująca);
- rozkład prawoskośny: mediana > średnia arytmetyczna > moda;
- rozkład symetryczny: mediana = średnia arytmetyczna = moda.
Rozkłady prawdopodobieństwa można podzielić ze względu na wartość kurtozy na rozkłady:
mezokurtyczne - wartość kurtozy wynosi 0, spłaszczenie rozkładu jest podobne do spłaszczenia rozkładu normalnego (dla którego kurtoza wynosi dokładnie 0)
leptokurtyczne - kurtoza jest dodatnia, wartości cechy bardziej skoncentrowane niż przy rozkładzie normalnym
platokurtyczne - kurtoza jest ujemna, wartości cechy mniej skoncentrowane niż przy rozkładzie normalnym
- właściwości rozkładu normalnego, standaryzacja wyników
Rozkład normalny jest rozkładem zmiennej losowej ciągłej o kształcie dzwonu. Jest on symetryczny i jednowierzchołkowy (jednomodalny)
- w rozkładzie normalnym większość wartości skupia się wokół jednej centralnej wartości, a średnia, mediana i modalna są sobie równe.
- kształt tego rozkładu zależy od wartości oczekiwanej oraz odchylania standardowego populacji. Im mniejsze odchylenie standardowe tym krzywa rozkładu normalnego jest bardziej wysmukła.
Właściwości :
- najwięcej wyników jest o średnim natężeniu cechy
- rozkład normalny jest w przedziale nieokreślonym
w rozkładzie empircznym zmienność poszczególnych bserwacji występuje w obszarze zmienności
- rozkład normalny jest rozkładem symetrycznym o ścisle oznaczonym kształcie; największą częstotliwość wysępowania maja zdarzenia o sredniej wartości badanej zmiennej; częstotliwość występowania zdarzeń maleje wraz ze wzrostem odchylenia zmiennej losowej od jej średniej arytmetycznej
- wewnątrz przedziału krzywa normalna jest wypukła a na zewnątrz wklęsła
- jeżeli całe pole pod krzywa rozkładu normalnego przyjąć za 100% to wartość odchylenia stand. dzieli je w ściśle określony sposób
standaryzacja - to zmiana wyników surowych rozkładu na taki rozkład w którym średnia = 0 a odchylenie = 1
Z = X - M /s
- obliczanie błędu standardowego średniej
- znajomość kolejnych kroków wnioskowania statystycznego
Wnioskowanie statystyczne polega na weryfikacji postawionych hipotez !
Wnioskowanie statystyczne to dział statystyki zajmujący się problemami uogólniania wyników badania próby losowej na całą populację oraz szacowania błędów wynikających z takiego uogólnienia (patrz badanie statystyczne).
Wyróżnia się dwie grupy metod uogólniania wyników, definiujące jednocześnie dwa działy wnioskowania statystycznego:
Estymacja - szacowanie wartości nieznanych parametrów rozkładu.
Weryfikacja hipotez statystycznych - sprawdzanie poprawności przypuszczeń na temat rozkładu.
- stawianie hipotez zerowych i alternatywnych w formie słownej i przy użyciu parametrów
Hipoteza zerowa - (Ho) - hipoteza poddana procedurze weryfikacyjnej, w którym zakładamy ze NIE ma różnicy pomiędzy analizowanymi parametrami lub rozkładami
np. politycy nie różnią się od zwykłej populacji w zakresie częstości wypowiadania kłamstw.
Hipoteza alternatywna - hipoteza przeciwstawna do weryfikowanej
np. Politycy różnia się od populacji zwykłej w zakresie mówienia kłamstw.
* kierunkowa - precyzuje kierunek różnicy (dodatni lub ujemny) miedzy wartoscią statystyki a parametrami określonymi w hipotezie zerowej
* bezkierunkowa - kierunek nie jest określony
Proces weryfikacji hipotez - zakładamy ze hipoteza zerowa jest prawdziwa,
- sprawdzamy czy są przesłanki do jej odrzucenia
- jeśli tak to przyjmujemy hipotezę alternatywną; odrzucamy hipotezę zerową gdy prawdopodobieństwo uzyskania danego wyniku jest mało prawdopodobne ( przyjmujemy poziom istotności p< 0,05)
Błedy I, II , III rodzaju
Bład I - gdy Ho jest prawdziwa a my ja odrzucamy
Bład II - gdy Ho jest fałszywa a my jej nie odrzucamy
Bład III -….
- odczytywanie wartości „z” z rozkładu normalnego
- wyliczanie procentu osób spełniających określone kryteria
- wiedza, kiedy korzystamy z tablicy standardowego rozkładu normalnego (z), a kiedy z tablicy wartości krytycznych dla testu t-Studenta
- umiejętność skorzystania z trzech rodzajów testów t-Studenta
- umiejętność odróżnienia próby zależnej od próby niezależnej
- obliczanie współczynników korelacji r-Pearsona i rho-Spearmana; wiedza, kiedy używamy pierwszego, a kiedy drugiego
- znajomość określeń „korelacja pozytywna/dodatnia” i „korelacja negatywna/ujemna”; umiejętność interpretowania współczynnika korelacji; obliczanie istotności współczynnika korelacji
- test χ2; tablice czteropolowe i wielopolowe; dla jakich zmiennych wykorzystujemy ten test? Obliczanie istotności współczynnika korelacji dla tablicy czteropolowej