Statystyka kolokwium, Pedagogika - studia, II semestr - ogólna, Statystyka


- ROZRÓŻNIENIE MIĘDZY PRÓBĄ A POPULACJĄ

Populacja - cała zbiorowość posiadająca określone cechy, to zbiorowość generalna, nadzbiór próby

Próba- podzbiór populacji generalnej, podlegający badaniom ze względu na określoną cechę
w celu wyciągnięcia wniosków o kształtowaniu się tej cechy w populacji

Dlaczego badamy częściej próby a nie populację?: Czas i koszty badań

Populacją jest cała zbiorowość, a próba jest wybraną częścią populacji. Posłużmy się konkretnymi przykładami: populacją jest ludność zamieszkująca Polskę, a próbą z tej populacji jest ludność wybranego województwa.

- CZYM ZAJMUJE SIĘ STATYSTYKA OPISOWA, A CZYM INDUKCYJNA?

Statystyka opisowa - metoda gromadzenia i prezentacji danych oraz ich opis, czyli obliczanie podstawowych miar statystycznych; ogół przetwarzania danych bez zamiaru szacowania nieznanych parametrów populacji, bez posługiwania się teoria rachunku prawdopodobieństwa

Statystyka matematyczna (indukcyjna) - buduje reguły wnioskowani statystycznego, który na podstawie próby reprezentacyjnej szacuje się z pewnym prawdopodobieństwem błędu o całej populacji, jej podstawą jest teoria rachunku

- CO TO JEST REPREZENTATYWNOŚĆ PRÓBY?

REPREZENTATYWNOŚĆ- ważne jest, aby próba była reprezentatywna dla całej populacji, tzn. aby badanie które przeprowadzamy na części populacji mogło być również odniesione do wszystkich elementów lub jednostek, które nie są badane, zatem elementy wybrane dla prób powinny reprezentować ogół elementów badanej zbiorowości.

- RODZAJE DOBORU PRÓBY; RÓŻNICA MIĘDZY DOBOREM LOSOWYM A CELOWYM

ISTOTA DOBORU LOSOWEGO

- Przypadek decyduje o tym, które jednostki spośród badanej zbiorowości zostaną wybrane do próby

- Przypadek traktujemy tu jako formę przejawiania się konieczności, której występowanie jest zgodne z istniejącymi prawidłowościami i możliwe do przewidzenia;

Losowości nie należy identyfikować z dowolnością!!!

- Warunkiem możliwości zastosowania jest posiadanie operatu losowania

ISTOTA DOBROU NIELOSOWEGO

- Nie przypadek lecz badacz decyduje o tym, które jednostki spośród badanej zbiorowości zostaną wybrane do próby

- szanse poszczególnych jednostek zbiorowości, iż wybór padnie na nie są z założenia nierówne

- dokładność wyników badania (wielkość błędu) znana dopiero po jego przeprowadzeniu

- dla zastosowania nie ma potrzeby posiadania operatu losowego

- zastosowanie „lepszych” metod nielosowych jest uzależnione od znajomości rozkładów bądź parametrów cech charakteryzujących całą badaną zbiorowość (np. średnia, wariancja, wskaźnik struktury), co wymaga wnikliwej kwerendy

- RODZAJE SKAL POMIAROWYCH WG STEVENSA (BARDZO WAŻNE!); ZMIENNE JAKOŚCIOWE I ILOŚCIOWE

skala nominalna - pozwala pogrupować, zmienna nominalna odzwierciedla cechy jakościowe, nie można powiedzieć czego jest więcej, w wartościach zmiennej nie można ustalić żadnego porządku, wszystkie wartości są tak samo ważne, możemy powiedzieć tylko ze cos jest różne albo jednakowe; wartości na tej skali nie mają oczywistego uporządkowania (np. nazwy miejscowości). Jedyną dozwoloną relacją porównującą dwie wartości na skali nominalnej jest równość. Wśród skal nominalnych wyróżnia się czasem skale dychotomiczne przyjmujące tylko dwie wartości, np. odpowiedź na pytania tak/nie; płeć, kolor skóry, kolor oczu

skala porządkowa - nie możemy powiedzieć o ile się różnią ale możemy ja uporządkować biorąc pod uwagę natężenie tej cechy np. wykształcenie, stopnie wojskowe; wartości mają jasno określony porządek, ale nie są dane odległości między nimi (np. wykształcenie). Oprócz równości możliwe są relacje porządku ( < > ≤ ≥)

Szereg rozdzielczy -kategoria np. ile dzieci- liczebność

Zad. Mamy wyniki testów 70 uczniów. Najwyższy wynik to 58, najniższy to 9. Proszę wyznaczyć optymalna liczbę klas

R (rozpiętość wyników) = X max - X min

58 - 9 = 49

i (długość przedziałów) = R / k (liczba klas, przedziałów) k mieści się miedzy 10 do 20 - 5 << k << 20 i - zalecane wielkości przedziału : 1,2,3,5,10,20,30,50,100

* dobrze jeżeli długość przedziału jest liczbą nieparzysta, ponieważ ułatwia obliczenie środku przedziału i = 49 / 10 = 4,9 = 5

- ZNAJOMOŚĆ RÓŻNYCH RODZAJÓW WYKRESÓW

Graficzna prezentacja danych statystycznych oznacza obrazowanie ich za pomocą wykresów.

- liniowe(diagramy)

- powierzchniowe (słupkowe, kołowe, posowe)

- obrazkowe(piktogramy)

- punktowe

- mapowe ( kartogramy)

- WIEDZA, JAKIE WYKRESY PASUJĄ DO DANEGO RODZAJU SKALI POMIAROWEJ

dla zmiennych ilościowych ( skrzynkowe, liniowe, histogramy)

dla zm. jakościowych ( powierzchniowe)

-SPORZĄDZANIE SZEREGU ROZDZIELCZEGO, W TYM ZAWIERAJĄCEGO PRZEDZIAŁY KLASOWE

Szereg rozdzielczy jest statystycznym sposobem prezentacji rozkładu empirycznego. Uzyskuje się go dzieląc dane statystyczne na pewne kategorie i podając liczebność lub częstość zbiorów danych przypadających na każdą z tych kategorii.

Szeregi rozdzielcze:

strukturalny (cecha jakościowa, grupowanie typologiczne),

punktowy (cecha ilościowa, skokowa),

przedziałowy (cecha ilościowa, ciągła),

punktowy plus przedziałowy (grupowanie wariancyjne).

Kolejne kroki podczas wykonywania szeregu rozdzielczego:

porządkowanie (jeśli to możliwe rosnąco) wartości cechy,

zliczenie liczby wystąpień danej cechy w próbie,

obliczenie częstości występowania dla każdej wartości cechy,

prezentacja wyniku w formie tabeli.

- WYZNACZANIE DOLNEJ I GÓRNEJ GRANICY PRZEDZIAŁU ORAZ JEGO ŚRODKA

Klasa - zbiór wszystkich wartości liczbowych leżących wewnątrz przedziału oznaczonego ustalonymi granicami; najniższa wartość liczbowa klasy to jej dolna granica, a najwyższa to górna granica; środek przedziału to średnia arytmetyczna jego dolnej granicy

- UMIEJĘTNOŚĆ WYMIENIENIA I POLICZENIA MIAR TENDENCJI CENTRALNEJ

-średnie klasyczne

* arytmetyczna - skala przedziałowa, stosunkowa; suma wszystkich wartości zmiennej podzielona przez liczebność wzoru,

Właściwości !!!

* harmoniczna,

* ważona - obliczona jest wtedy gdy pewne wartości zmiennej pojawią się więcej niż jeden raz lub różne jest jej znaczenie

-pozycyjne - konkretne wartości zajmujące w danym szeregu określone miejsce

* mediana

*dominanta

* kwartyle

- wiedza, kiedy można obliczyć średnią, a kiedy należy policzyć medianę lub dominantę (zależy od rodzaju skali, na jakiej wyrażona jest zmienna)

- obliczanie miar dyspersji: rozstęp, odchylenie przeciętne, wariancja, odchylenie standardowe

- umiejętność narysowania/rozpoznania rozkładu normalnego, rozkładu lewo- i prawoskośnego, leptokutycznego i platykurtycznego; rozumienie, co oznaczają miary asymetrii, umiejętność podania przykładów

Miary asymetrii mówią nam, czy większa część populacji plasuje się powyżej, czy poniżej przeciętnego poziomu badanej cechy X . Asymetrię rozkładu można zbadać porównując modę, medianę i wartość oczekiwaną (średnią). W przypadku rozkładu symetrycznego wszystkie te parametry są równe.

Najprostszym sposobem oceny skośności rozkładu jest porównanie lokalizacji charakterystyk tendencji centralnej:

- rozkład lewoskośny: mediana < średnia arytmetyczna < moda (dominanta, wartość dominująca);

- rozkład prawoskośny: mediana > średnia arytmetyczna > moda;

- rozkład symetryczny: mediana = średnia arytmetyczna = moda.

Rozkłady prawdopodobieństwa można podzielić ze względu na wartość kurtozy na rozkłady:

leptokurtyczne - kurtoza jest dodatnia, wartości cechy bardziej skoncentrowane niż przy rozkładzie normalnym

platokurtyczne - kurtoza jest ujemna, wartości cechy mniej skoncentrowane niż przy rozkładzie normalnym

- WŁAŚCIWOŚCI ROZKŁADU NORMALNEGO, STANDARYZACJA WYNIKÓW

Rozkład normalny jest rozkładem zmiennej losowej ciągłej o kształcie dzwonu. Jest on symetryczny i jednowierzchołkowy (jednomodalny)

- w rozkładzie normalnym większość wartości skupia się wokół jednej centralnej wartości,
a średnia, mediana i modalna są sobie równe.

- kształt tego rozkładu zależy od wartości oczekiwanej oraz odchylania standardowego populacji. Im mniejsze odchylenie standardowe tym krzywa rozkładu normalnego jest bardziej wysmukła.

Właściwości :- najwięcej wyników jest o średnim natężeniu cechy

- rozkład normalny jest w przedziale nieokreślonym

w rozkładzie empirycznym zmienność poszczególnych obserwacji występuje w obszarze zmienności

- rozkład normalny jest rozkładem symetrycznym o ściśle oznaczonym kształcie; największą częstotliwość występowania maja zdarzenia o średniej wartości badanej zmiennej; częstotliwość występowania zdarzeń maleje wraz ze wzrostem odchylenia zmiennej losowej od jej średniej arytmetycznej

- wewnątrz przedziału krzywa normalna jest wypukła a na zewnątrz wklęsła

- jeżeli całe pole pod krzywa rozkładu normalnego przyjąć za 100% to wartość odchylenia stand. dzieli je w ściśle określony sposób

standaryzacja - to zmiana wyników surowych rozkładu na taki rozkład w którym średnia = 0 a odchylenie = 1

Z = X - M /s

- OBLICZANIE BŁĘDU STANDARDOWEGO ŚREDNIEJ

Sm=s/pierwiastek z n

- ZNAJOMOŚĆ KOLEJNYCH KROKÓW WNIOSKOWANIA STATYSTYCZNEGO

Wnioskowanie statystyczne polega na weryfikacji postawionych hipotez !

Wnioskowanie statystyczne to dział statystyki zajmujący się problemami uogólniania wyników badania próby losowej na całą populację oraz szacowania błędów wynikających z takiego uogólnienia (patrz badanie statystyczne).

Wyróżnia się dwie grupy metod uogólniania wyników, definiujące jednocześnie dwa działy wnioskowania statystycznego:

Estymacja - szacowanie wartości nieznanych parametrów rozkładu.

Weryfikacja hipotez statystycznych - sprawdzanie poprawności przypuszczeń na temat rozkładu.

- STAWIANIE HIPOTEZ ZEROWYCH I ALTERNATYWNYCH W FORMIE SŁOWNEJ I PRZY UŻYCIU PARAMETRÓW

Hipoteza zerowa - (Ho) - hipoteza poddana procedurze weryfikacyjnej, w którym zakładamy ze NIE ma różnicy pomiędzy analizowanymi parametrami lub rozkładami

np. politycy nie różnią się od zwykłej populacji w zakresie częstości wypowiadania kłamstw.

Hipoteza alternatywna - hipoteza przeciwstawna do weryfikowanej

np. Politycy różnią się od populacji zwykłej w zakresie mówienia kłamstw.

Proces weryfikacji hipotez - zakładamy ze hipoteza zerowa jest prawdziwa, - sprawdzamy czy są przesłanki do jej odrzucenia- jeśli tak to przyjmujemy hipotezę alternatywną; odrzucamy hipotezę zerową gdy prawdopodobieństwo uzyskania danego wyniku jest mało prawdopodobne
( przyjmujemy poziom istotności p< 0,05)

BŁEDY I, II , RODZAJU

Błąd I - gdy Ho jest prawdziwa a my ja odrzucamy

Błąd II - gdy Ho jest fałszywa a my jej nie odrzucamy



Wyszukiwarka