1. Zdarzenia losowe to takie zdarzenia, które mogą zajść lub nie w danym eksperymencie.
Np. w eksperymencie polegającym na rzucie kostką do gry, przykładowe zdarzenia losowe to:
- wypadnięcie „szóstki”
- wypadnięcie parzystej liczby oczek
- wypadnięcie liczby oczek większej, niż 4
Zdarzenie pewne - jest ono interpretowane jako zdarzenie, które musi zajść. Jeśli jednokrotnie rzucamy symetryczną monetą, to prawdopodobieństwo wypadnięcia orła lub reszki wynosi 1 (albo 100%); wypadnięcie orła lub reszki jest zdarzeniem pewnym.
Zdarzenie niemożliwe - jest ono interpretowane jako zdarzenie losowe, które nie może zaistnieć. Jeśli jednokrotnie rzucamy symetryczną monetą, to prawdopodobieństwo wypadnięcia innego wyniku, niż orzeł lub reszka wynosi 0 (albo 0%); wypadnięcie w jednokrotnym rzucie monetą innego wyniku, niż orzeł lub reszka jest zdarzeniem niemożliwym.
Prawdopodobieństwo wyraża liczbowo szansę zajścia danego zdarzenia. Częstościowa interpretacja prawdopodobieństwa: jeśli wykonamy bardzo wiele rzutów tą kostką, to można oczekiwać, że około 1/6 tych rzutów zakończy się wyrzuceniem 1 oczka. Np. jeśli rzucimy 2400 razy, to można się spodziewać, że około 400 razy wyrzucimy 1 oczko.
Zdarzenie wykluczające się - to para zdarzeń losowych A, B, których część wspólna jest zdarzeniem niemożliwym. Zdarzenia losowe mogą się wykluczać, np. w pojedynczym rzucie kostką nie jest możliwe jednoczesne zajście zdarzenia polegającego na wyrzuceniu 1 oczka i 2 oczek.
Zdarzenie niezależne - są niezależne, jeśli zajście jednego z tych zdarzeń nie ma wpływu na prawdopodobieństwo zajścia drugiego z tych zdarzeń, wyrzucenie 2 oczek w pierwszym rzucie kostką nie zmienia prawdopodobieństwa zdarzenia, że w drugim rzucie wyrzucimy 6 oczek.
2.Rozkład zmiennej losowej - miara pozwalająca przypisywać prawdopodobieństwa zbiorom wartości tej zmiennej, odpowiadającym zdarzeniom losowym. Wygodnie go przedstawiać na wykresie lub w tabeli.
ROZKŁAD SKOKOWY |
ROZKŁAD CIĄGŁY |
jest przykładem rozkładu dwumianowego |
jest przykładem rozkładu normalnego |
może mieć skończoną lub nieskończoną ale przeliczalną liczbę wartości |
możliwą wartość tworzy przedział ze zbioru liczb rzeczywistych |
Suma prawdopodobieństw jest równa 1 |
Pole pod krzywą gęstości jest równe 1. |
3. Rozkład dwumianowy - to dyskretny rozkład prawdopodobieństwa opisujący liczbę sukcesów w ciągu N niezależnych prób, z których każda ma stałe prawdopodobieństwo sukcesu równe p. Rozważmy doświadczenie losowe, którego wynikiem może być tylko „sukces” albo „porażka”. Takie doświadczenie nazywa się próbą Bernoulliego. Np. urna zawiera kule zielone, czarne, białe i czerwone; losujemy z tej urny jedną kulę. Jako „sukces” możemy przyjąć wylosowanie kuli zielonej, a jako porażkę wylosowanie kuli innego koloru, niż zielony. Powtarzamy to doświadczenie n razy. Prawdopodobieństwo „sukcesu” w pojedynczym doświadczeniu jest zawsze takie samo, a więc nie zmienia się przy kolejnych powtórzeniach doświadczenia. Rozważamy zmienną losową, która opisuje liczbę „sukcesów” w n powtórzeniach doświadczenia (próby Bernoulliego). Rozkład tej zmiennej losowej nazywa się rozkładem dwumianowym.
4. Rozkład normalny - jest jednym z najważniejszych rozkładów prawdopodobieństwa. Odgrywa ważną rolę w statystycznym opisie zagadnień przyrodniczych, przemysłowych, medycznych, socjalnych itp. Przyczyną jest jego częstość występowania w naturze. Jeśli jakaś wielkość jest sumą lub średnią bardzo wielu drobnych losowych czynników, to niezależnie od rozkładu każdego z tych czynników, jej rozkład będzie zbliżony do normalnego, stąd można go bardzo często zaobserwować w danych. Cecha ma rozkład normalny jeśli histogram tej cechy jest mniej więcej symetryczny, ma wyraźne maksimum, wokół którego koncentruje się większość wartości.
5. Statystyka matematyczna - dział statystyki, używający teorii prawdopodobieństwa i innych działów matematyki do rozwijania statystyki z czysto matematycznego punktu widzenia. Zadaniem statystyki matematycznej jest uzyskanie informacji o całej populacji na podstawie próby pochodzącej z tej populacji.
6.Statystyka z próby - zmienne losowe będące dowolną funkcją wyników próby losowej, np. średnia arytmetyczna wyników próby.
Estymator jest statystyką służącą do szacowania wartości parametru rozkładu. Celem zastosowania estymatora jest znalezienie parametru rozkładu cechy w populacji. Przykładowo badamy rozkład wzrostu ludności w Polsce. W celu oszacowania tych wielkości zbieramy dane z próby losowej o liczebności n.
7. Estymacja punktowa - grupa metod statystycznych, służąca do punktowego oszacowania wartości szukanego parametru rozkładu. Punktowe oszacowanie oznacza tutaj, że uzyskujemy konkretną wartość liczbową, nie zaś przedział liczbowy, jak dzieje się to w przypadku estymacji przedziałowej.
8. Estymacja przedziałowa to grupa metod statystycznych służących do oszacowania parametrów rozkładu zmiennej losowej w populacji generalnej. Wynikiem oszacowania nie jest tutaj ocena punktowa. W metodach estymacji przedziałowej ocena parametru nie jest konkretna wartość, ale pewien przedział. Podstawowym pojęciem estymacji przedziałowej jest przedział ufności.
Przedział ufności jest podstawowym narzędziem estymacji przedziałowej. Istnieją wzory, które pozwalają wyznaczyć przedział ufności dla danego parametru.
Czyli wynikiem estymacji przedziałowej jest przedział ufności
9. Hipoteza statystyczna to stwierdzenie na temat rozkładu prawdopodobieństwa pewnej cechy w populacji sformułowane bez zbadania całości tej populacji. Np. gdy twierdzimy, że skuteczność szczepionki przeciwko pewnej chorobie wynosi 50%, to jest to hipoteza statystyczna, gdy stwierdzenie to jest sformułowane bez podania tej szczepionki wszystkim potencjalnie narażonym na tę chorobę.
Błąd I rodzaju - błąd polegający na odrzuceniu hipotezy zerowej, która w rzeczywistości jest prawdziwa. Błąd ten wystąpi wtedy kiedy założymy, że lekarstwo X jest lepsze od lekarstwa Y podczas gdy w rzeczywistości ich działanie się nie różni. Błąd I rodzaju jest fałszem, jest stwierdzeniem nieprawdy.
Błąd II rodzaju - polegający na nieodrzuceniu hipotezy zerowej, która jest w rzeczywistości fałszywa. Przykład: kiedy twierdzimy, że oba lekarstwa działają podobnie w sytuacji gdy w rzeczywistości jedno z nich jest lepsze.
10 Test statystyczny to reguła postępowania, która dla każdej możliwej próby pobranej z populacji pozwala określić, co należy zrobić z hipotezą zerową (odrzucić, czy uznać, że nie ma podstaw do jej odrzucenia).
p-value. W pakietach statystycznych testowanie hipotez statystycznych przeprowadza się na ogół w oparciu o tzw. p-wartość (p-value). P-wartość jest to prawdopodobieństwo zaobserwowania danych takich, jak w próbie lub danych jeszcze bardziej skłaniających do odrzucenia hipotezy zerowej, przy założeniu, że hipoteza zerowa jest prawdziwa.
Obszar krytyczny testu to zbiór tych wartości obserwowanych w próbie, które będą prowadzić do odrzucenia hipotezy zerowej. Znając poziom istotności testu można określić tzw. obszar krytyczny testu.
Poziom istotności testu - jest to maksymalne dopuszczalne prawdopodobieństwo popełnienia błędu I rodzaju (zazwyczaj oznaczane symbolem α). Określa tym samym maksymalne ryzyko błędu, jakie badacz jest skłonny zaakceptować.
Statystyka testowa T to pewna wielkość, którą można policzyć na podstawie danych z próby. Statystyka testowa jest zmienną losową, bo jej wartość zależy od próby. Dla konkretnej próby statystyka testowa jest konkretną liczbą.
11. Schematy testowania hipotez. Przy testowaniu hipotez w oparciu o p-wartość postępujemy według następującego schematu:
1. Określamy hipotezę zerową i alternatywną.
2. Przyjmujemy poziom istotności testu.
3. Wyznaczamy p-wartość (najczęściej przy użyciu komputerowego
pakietu statystycznego).
4. Podejmujemy decyzję odnośnie hipotezy zerowej.
Obszar krytyczny testu - w statystyce zbiór wartości rozkładu funkcji testowej w teście statystycznym, których wystąpienie, przy założeniu prawdziwości hipotezy zerowej (H0), jest wystarczająco mało prawdopodobne, żeby (empiryczna) realizacja zmiennej losowej mieszcząca się w obszarze krytycznym pozwalała na odrzucenie tej hipotezy.
12. Sposoby badania normalności rozkładu:
-metoda „na oko” za pomocą wykresu kwantylowo -normalnego
-test Shapiro-Wilka
-test T Studenta (dla pojedynczej próby)
13 Testy dla średniej to grupa testów statystycznych, służących do wnioskowania o wartości średniej w populacji, z której pochodzi próba losowa. Sprawdzianem hipotezy jest statystyka testowa, która jest funkcją wyników próby losowej. Postać funkcji testowej zależy od trzech okoliczności: rozkładu cechy w populacji, znajomości wartości odchylenia standardowego w populacji, liczebności próby.
14. Istotność różnic między średnimi w dwóch populacjach. W celu zbadania tych różnic używa się statystyki testowej zbudowanej w oparciu o różnice między pomiarami w parach. Taka sytuacja następuje gdy badamy pewną grupę jednostek statystycznych dwukrotnie w pewnych odstępach czasu lub gdy już na etapie projektowania statystycznego celowo dobierane są dwie grupy w ten sposób że elementy w obu grupach są połączone w pary względem wartości pewnej cechy która potencjalnie może mieć wpływ na kształtowanie się średniego poziomu cechy będącej głównym przedmiotem badania,