Statystyka kolokwium


Zagadnienia do kolokwium ze statystyki w roku akad. 2013/2014

I rok pedagogiki UŚ, ćwiczenia, 15 godzin, mgr Edyta Charzyńska

- rozróżnienie między próbą a populacją

Populacja - cała zbiorowość posiadająca określone cechy, to zbiorowość generalna, nadzbiór próby

Próba- podzbiór populacji generalnej, podlegający badaniom ze względu na określoną cechę w celu
wyciągnięcia wniosków o kształtowaniu się tej cechy w populacji

Dlaczego badamy częściej próby a nie populację ? : czas i koszty badań

Populacją jest cała zbiorowość, a próba jest wybraną częścią populacji. Posłużmy się konkretnymi przykładami: populacją jest ludność zamieszkująca Polskę, a próbą z tej populacji jest ludność wybranego województwa.


0x01 graphic

- czym zajmuje się statystyka opisowa, a czym indukcyjna?

Statystyka opisowa - metoda gromadzenia i prezentacji danych oraz ich opis, czyli obliczanie podstawowych miar statystycznych; ogół przetwarzania danych bez zamiaru szacowania nieznanych parametrów populacji, bez posługiwania ie teoria rachunku prawdopodobieństwa

Statystyka matematyczna (indukcyjna) - buduje reguły wnioskowani statystycznego, który na podstawie próby reprezentacyjnej szacuje się z pewnym prawdopodobieństwem błędu o całej populacji, jej podstawą jest teoria rachunku

- co to jest reprezentatywność próby?

PRÓBA REPREZENTATYWNA -

próba, której struktura pod względem badanej cechy nie różni się istotnie od struktury populacji generalnej. P. reprezentatywna daje podstawy do wysuwania prawidłowych wniosków na temat populacji generalnej. Uzyskanie prób reprezentatywnych sprzyja dobór właściwego schematu losowania próby.

REPREZENTATYWNOŚĆ- ważne jest aby próba była reprezentatywna dla całej populacji, tzn. aby badanie które przeprowadzamy na części populacji mogło być również odniesione do wszystkich elementów lub jednostek, które nie są badane, zatem elementy wybrane dla prób powinny reprezentować ogół elementów badanej zbiorowości.


- rodzaje doboru próby; różnica między doborem losowym a celowym

  1. Metody doboru losowego - probabilistyczne

Metody doboru losowego, to procedury oparte na mechanizmach losujących elementy do próby w taki sposób, aby każda jednostka populacji miała jednakową szansę dostania się do próby.

Metody doboru nielosowego, to takie techniki wyboru próby, w których nie stosuje się procedur losowania, lecz inne procedury, oparte przede wszystkim na subiektywnych decyzjach, opartych na znanych danych obiektywnych, odnoszących się do znajomości struktury badanej populacji.

  1. Różnice

ISTOTA DOBORU LOSOWEGO
- Przypadek decyduje o tym, które jednostki spośród badanej zbiorowości zostaną wybrane do próby
- Przypadek traktujemy tu jako formę przejawiania się konieczności, której występowanie jest zgodne z istniejącymi prawidłowościami i możliwe do przewidzenia;
Losowości nie należy identyfikować z dowolnością!!!
- Warunkiem możliwości zastosowania jest posiadanie operatu losowania

ISTOTA DOBROU NIELOSOWEGO

- Nie przypadek lecz badacz decyduje o tym, które jednostki spośród badanej zbiorowości zostaną wybrane do próby
- szanse poszczególnych jednostek zbiorowości, iż wybór padnie na nie są z założenia nierówne
- dokładność wyników badania (wielkość błędu) znana dopiero po jego przeprowadzeniu
- dla zastosowania nie ma potrzeby posiadania operatu losowego
- zastosowanie „lepszych” metod nielosowych jest uzależnione od znajomości rozkładów bądź parametrów cech charakteryzujących całą badaną zbiorowość (np. średnia, wariancja, wskaźnik struktury), co wymaga wnikliwej kwerendy

- rodzaje skal pomiarowych wg Stevensa (bardzo ważne!); zmienne jakościowe i ilościowe

- grupowanie danych - umiejętność narysowania tabeli, wykresu kolumnowego, liniowego

Statystyczne grupowanie, czynności związane z usystematyzowaniem materiału statystycznego, polegające na mniej lub bardziej zróżnicowanym podziale niejednorodnej zbiorowości na możliwie jednorodne grupy wg obranych kryteriów i na zestawieniu interesujących danych statystycznych, charakteryzujących poszczególne grupy.

Szereg rozdzielczy -

kategoria np. ile dzieci ------- liczebność

Grupowanie typologiczne - odnosi się do cech jakościowych, polega na wydzielaniu grup względnie jednorodnych z niejednorodnej zbiorowości np. podział ze względu na płeć, pochodzenie

x np. posiada dzieci, nie posiada dzieci-----ilosć

Grupowanie wariancyjne - dot. cech ilościowych, łączy poszczególne jednostki statystyczne wg interesującej badacza; można łączyć ze sobą dwie lub więcej cech

Grupowanie kombinowane- dot. cech ilościowych, lub jakościowych powiązanych ze sobą z punktu widzenia badań; uczhwycenie związków między nimi

x np. 0 - 3 ----------------- f ( częstość) np. 2

Klasa - zbiór wszystkich wartości liczbowych leżących wewnątrz przedziału oznaczonego ustalonymi granicami; najniższa wartość liczbowa klasy to jej dolna granica, a najwyższa to górna granica; środek przedziału to średnia arytmetyczna jego dolnej granicy

Zad. Mamy wyniki testów 70 uczniów. Najwyzszy wynik to 58, najniższy to 9. Proszę wyznaczyć optymalna liczbę klas

R (rozpiętość wyników) = X max - X min

58 - 9 = 49

i (długość przedziałów) = R / k (liczba klas, przedziałów)

k mieści się miedzy 10 do 20 - 5 << k << 20

i - zalecane wielkości przedziału : 1,2,3,5,10,20,30,50,100
* dobrze jeżeli długość przedziału jest liczbą nieparzysta, ponieważ ułatwia obliczenie środku przedziłu

i = 49 / 10 = 4,9 = 5

- znajomość różnych rodzajów wykresów

Graficzna prezentacja danych statystycznych oznacza obrazowanie ich za pomocą wykresów.

- liniowe(diagramy)
- powierzchniowe (słupkowe, kołowe, posowe)
- obrazkowe(piktogramy)
- punktowe
- mapowe ( kartogramy)

- wiedza, jakie wykresy pasują do danego rodzaju skali pomiarowej


dla zmiennych ilościowych ( skrzynkowe, liniowe, histogramy)

dla zm. jakościowych ( powierzchniowe)

- sporządzanie szeregu rozdzielczego, w tym zawierającego przedziały klasowe

Szereg rozdzielczy (ang. stem-and-leaf lub stemplot) jest statystycznym sposobem prezentacji rozkładu empirycznego. Uzyskuje się go dzieląc dane statystyczne na pewne kategorie i podając liczebność lubczęstość zbiorów danych przypadających na każdą z tych kategorii.

Szeregi rozdzielcze:

Kolejne kroki podczas wykonywania szeregu rozdzielczego:

Jeśli cecha ma charakter ciągły, wtedy przedział wartości cechy dzieli się na przedziały klasowe. Liczba i rozpiętości przedziałów powinny być tak dobrane, aby dawały przejrzysty obraz rozkładu. Na ogół przyjmuje się, że liczba przedziałów powinna być większa od 5 i mniejsza od 20.

Jeśli cecha ma charakter skokowy, ale liczba możliwych wartości jest bardzo duża, wtedy można postąpić podobnie jak w przypadku cechy o charakterze ciągłym.

- wyznaczanie dolnej i górnej granicy przedziału oraz jego środka

Klasa - zbiór wszystkich wartości liczbowych leżących wewnątrz przedziału oznaczonego ustalonymi granicami; najniższa wartość liczbowa klasy to jej dolna granica, a najwyższa to górna granica; środek przedziału to średnia arytmetyczna jego dolnej granicy

- umiejętność wymienienia i policzenia miar tendencji centralnej


- średnie klasyczne
* arytmetyczna - skala przedziałowa, stosunkowa; suma wszystkich wartości zmiennej podzielona przez liczebność wzoru,

Właściwosci !!!
* harmoniczna,
* ważona - obliczona jest wtedy gdy pewne wartości zmiennej pojawią się więcej niż jeden raz lub różne jest jej znaczenie

- pozycyjne - konkretne wartości zajmujące w danym szeregu określone miejsce
* mediana
*dominanta
* kwartyle

- wiedza, kiedy można obliczyć średnią, a kiedy należy policzyć medianę lub dominantę (zależy od rodzaju skali, na jakiej wyrażona jest zmienna)

- obliczanie miar dyspersji: rozstęp, odchylenie przeciętne, wariancja, odchylenie standardowe

- umiejętność narysowania/rozpoznania rozkładu normalnego, rozkładu lewo- i prawoskośnego, leptokutycznego i platykurtycznego; rozumienie, co oznaczają miary asymetrii, umiejętność podania przykładów


Miary asymetrii mówią nam, czy większa część populacji plasuje się powyżej, czy poniżej przeciętnego poziomu badanej cechy X . Asymetrię rozkładu można zbadać porównując modę, medianę i wartość oczekiwaną (średnią). W przypadku rozkładu symetrycznego wszystkie te parametry są równe.

Najprostszym sposobem oceny skośności rozkładu jest porównanie lokalizacji charakterystyk tendencji centralnej:

- rozkład lewoskośny: mediana < średnia arytmetyczna < moda (dominanta, wartość dominująca);

- rozkład prawoskośny: mediana > średnia arytmetyczna > moda;

- rozkład symetryczny: mediana = średnia arytmetyczna = moda.

Rozkłady prawdopodobieństwa można podzielić ze względu na wartość kurtozy na rozkłady:

mezokurtyczne - wartość kurtozy wynosi 0, spłaszczenie rozkładu jest podobne do spłaszczenia rozkładu normalnego (dla którego kurtoza wynosi dokładnie 0)

leptokurtyczne - kurtoza jest dodatnia, wartości cechy bardziej skoncentrowane niż przy rozkładzie normalnym

platokurtyczne - kurtoza jest ujemna, wartości cechy mniej skoncentrowane niż przy rozkładzie normalnym

- właściwości rozkładu normalnego, standaryzacja wyników

Rozkład normalny jest rozkładem zmiennej losowej ciągłej o kształcie dzwonu. Jest on symetryczny i jednowierzchołkowy (jednomodalny)
- w rozkładzie normalnym większość wartości skupia się wokół jednej centralnej wartości, a średnia, mediana i modalna są sobie równe.
- kształt tego rozkładu zależy od wartości oczekiwanej oraz odchylania standardowego populacji. Im mniejsze odchylenie standardowe tym krzywa rozkładu normalnego jest bardziej wysmukła.

Właściwości :
- najwięcej wyników jest o średnim natężeniu cechy
- rozkład normalny jest w przedziale nieokreślonym
w rozkładzie empircznym zmienność poszczególnych bserwacji występuje w obszarze zmienności
- rozkład normalny jest rozkładem symetrycznym o ścisle oznaczonym kształcie; największą częstotliwość wysępowania maja zdarzenia o sredniej wartości badanej zmiennej; częstotliwość występowania zdarzeń maleje wraz ze wzrostem odchylenia zmiennej losowej od jej średniej arytmetycznej
- wewnątrz przedziału krzywa normalna jest wypukła a na zewnątrz wklęsła
- jeżeli całe pole pod krzywa rozkładu normalnego przyjąć za 100% to wartość odchylenia stand. dzieli je w ściśle określony sposób

standaryzacja - to zmiana wyników surowych rozkładu na taki rozkład w którym średnia = 0 a odchylenie = 1

Z = X - M /s

- obliczanie błędu standardowego średniej

- znajomość kolejnych kroków wnioskowania statystycznego

Wnioskowanie statystyczne polega na weryfikacji postawionych hipotez !

Wnioskowanie statystyczne to dział statystyki zajmujący się problemami uogólniania wyników badania próby losowej na całą populację oraz szacowania błędów wynikających z takiego uogólnienia (patrz badanie statystyczne).

Wyróżnia się dwie grupy metod uogólniania wyników, definiujące jednocześnie dwa działy wnioskowania statystycznego:

Estymacja - szacowanie wartości nieznanych parametrów rozkładu.

Weryfikacja hipotez statystycznych - sprawdzanie poprawności przypuszczeń na temat rozkładu.

- stawianie hipotez zerowych i alternatywnych w formie słownej i przy użyciu parametrów

Hipoteza zerowa - (Ho) - hipoteza poddana procedurze weryfikacyjnej, w którym zakładamy ze NIE ma różnicy pomiędzy analizowanymi parametrami lub rozkładami

np. politycy nie różnią się od zwykłej populacji w zakresie częstości wypowiadania kłamstw.

Hipoteza alternatywna - hipoteza przeciwstawna do weryfikowanej

np. Politycy różnia się od populacji zwykłej w zakresie mówienia kłamstw.
* kierunkowa - precyzuje kierunek różnicy (dodatni lub ujemny) miedzy wartoscią statystyki a parametrami określonymi w hipotezie zerowej
* bezkierunkowa - kierunek nie jest określony

Proces weryfikacji hipotez - zakładamy ze hipoteza zerowa jest prawdziwa,
- sprawdzamy czy są przesłanki do jej odrzucenia
- jeśli tak to przyjmujemy hipotezę alternatywną; odrzucamy hipotezę zerową gdy prawdopodobieństwo uzyskania danego wyniku jest mało prawdopodobne ( przyjmujemy poziom istotności p< 0,05)

Błedy I, II , III rodzaju

Bład I - gdy Ho jest prawdziwa a my ja odrzucamy
Bład II - gdy Ho jest fałszywa a my jej nie odrzucamy
Bład III -….

- odczytywanie wartości „z” z rozkładu normalnego

- wyliczanie procentu osób spełniających określone kryteria

- wiedza, kiedy korzystamy z tablicy standardowego rozkładu normalnego (z), a kiedy z tablicy wartości krytycznych dla testu t-Studenta

- umiejętność skorzystania z trzech rodzajów testów t-Studenta

- umiejętność odróżnienia próby zależnej od próby niezależnej

- obliczanie współczynników korelacji r-Pearsona i rho-Spearmana; wiedza, kiedy używamy pierwszego, a kiedy drugiego

- znajomość określeń „korelacja pozytywna/dodatnia” i „korelacja negatywna/ujemna”; umiejętność interpretowania współczynnika korelacji; obliczanie istotności współczynnika korelacji

- test χ2; tablice czteropolowe i wielopolowe; dla jakich zmiennych wykorzystujemy ten test? Obliczanie istotności współczynnika korelacji dla tablicy czteropolowej



Wyszukiwarka

Podobne podstrony:
Statysta kolokwium ubiegly, Stosunki międzynarodowe - materiały, II semestr, Statystyka i demografia
statystyka kolokwium 06
STATYSTYKA Kolokwium 21.05.2013 Info
Statystyka kolokwium, Pedagogika - studia, II semestr - ogólna, Statystyka
statystyka Kolokwium 1 zadania gr 1
STATYSTYKA KOLOKWIUM
statystyka Kolokwium 1 z poprzedniego roku
Statystyka kolokwium rozwiazane
statystyka kolokwium 1
kolokwium 1 2012, ZiIP - GIG AGH, Semestr 3, Statystyka
statystyka pytania kolokwium
przygotowanie, Inżynieria Środowiska, Statystyka, Egzamin i kolokwium
STATYSTYKA MATEMATYCZNA Opracowanie na kolokwium
Kolokwium z neta, Pedagogika EPiW, Metody badań pedagogicznych z elementami statystyki
kolokwium 2 2011, studia AGH, ZiIP, Inżynier, Statystyka
Notatki, Rok 2, Statystyka, Na kolokwium
Zadania z kolokwium Statystyka
Informacje dotyczące kolokwium nr 2 ze statystyki

więcej podobnych podstron