Informatyka II Chemia biologiczna Wykład 1 (26.09.2011) Godz. 1400-1530 Egzamin końcowy!!! 1. Wprowadzenie do statystyki. 1. Wprowadzenie do statystyki. 2. Statystyka opisowa rodzaje i sposoby obliczania 2. parametrów statystycznych. 3. Pojęcie prawdopodobieństwa, generowanie zmiennych 3. losowych, funkcje gęstości rozkładu prawdopodobieństwa 4. Wizualizacja danych statystycznych. 4. 5. Techniki wnioskowania statystycznego testowanie hipotez 5. 6. Analiza zależności zmiennych ilościowych podstawy 6. korelacji i regresji. 7. Regresja wieloraka. 7. 1) Marek Dobosz Statystyczna analiza wyników badań Akademicka Oficyna Wydawnicza EXIT, Warszawa 2001 2) Andrzej Stanisz Przystępny kurs statystyki StatSoft, Kraków 2006 3) Adam Aomnicki Wprowadzenie do statystyki dla przyrodników PWN, Warszawa 2007 4) Jacek Koronacki, Jan Mielniczuk Statystyka dla studentów kierunków technicznych i przyrodniczych , Wydawnictwo Naukowo-Techniczne, Warszawa 2006 5) Wiesława Regiel Statystyka matematyczna w programie Matlab PWN, Warszawa 2007 6) Daniel T. Larose Odkrywanie wiedzy z danych PWN, Warszawa 2006 Statystyka Liczby opisujące fakty Dyscyplina naukowa 1 2 Nauka zajmująca się: na II r. ChB jest 67 studentów, zbieraniem, średnia ocen ostatniej sesji dla organizacją, II r. ChB wyniosła 3.8, prezentacją i 2 studentów nie uzyskało analizą danych, oraz zaliczenia z laboratorium wyciąganiem wniosków i z podstaw chemii. podejmowaniem decyzji na ich podstawie. Podział statystyki jako dyscypliny naukowej na: " statystykę teoretyczną i " statystykę stosowaną. Podział statystyki stosowanej na: " statystykę opisową opartą na zestawie metod stosowanych w organizacji, prezentacji i opisie danych poprzez tabele, wykresy i sumaryczne miary. " statystykę wnioskowania indukcyjnego opartą na zestawie metod, które pozwalają na podstawie wyników dla próby podjąć decyzję lub przewidzieć wyniki próby próby dla populacji. populacji populacji Populacja (populacja generalna) - zbiór wszystkich elementów będących przedmiotem badań statystycznych. Przykład: Badania demograficzne - spis powszechny. Próba część populacji wybrana do badań statystycznych. Przykład: Badania opinii publicznej na przykładzie grupy respondentów. Próba reprezentatywna dane reprezentacyjne (ankieta). Próba reprezentatywna - poszczególne cechy populacji są poprawnie oszacowane na podstawie próby. Przykładowo, po wylosowaniu próby spośród wszystkich osób mających prawo głosu (populacja), ankieter będzie chciał oszacować z pewną dokładnością poparcie dla partii politycznych w całej populacji. Próba Ankieta Populacja Spis, pełne badanie statystyczne Właściwości próby: Reprezentatywna próba, której cechy są maksymalnie podobne do cech opisujących populację. Wybór losowy - próba wygenerowana przy założeniu, że każdy element populacji ma taką samą szansę być wylosowanym. Struktura takiej próby jest podobna do struktury całej populacji. Wraz ze wzrostem liczebności próby wzrasta jej stopień reprezentatywności. Techniki losowania w wyborze losowym Losowanie niezależne (zwrotne) po każdym losowaniu element wraca do populacji. Losowanie zależne (bezzwrotne) po każdym losowaniu element nie wraca do populacji, tzn. nie bierze udziału w dalszym losowaniu. Metoda stosowana w przypadku małych populacji. Zakład prosty polega na wytypowaniu przez grającego 6 liczb ze zbioru liczb od 1 do 49 http://www.sjc.edu/rdegray/Math110F03/applets/randomsample.html Na ćwiczenia: Każdy student przygotowuje, opisuje na kartce, propozycję dla populacji i próby. " W opisie statystycznym analizujemy badaną populację lub próbę za pomocą odpowiednich miar. " Wnioskowanie statystyczne dotyczy badań reprezentatywnych przeprowadzonych na próbie losowej. " Wyniki są uogólniane na całą populację generalną, z której pobrano próbę. Element Specyficzny obiekt, dla którego są gromadzone informacje. Zmienne Różne wartości posiadane przez różne elementy. Obserwacja/opis/pomiar/ Rejestracja wartości zmiennych elementów. Zestaw danych Zestaw danych pomiarowych/obserwacji dla jednej lub wielu zmiennych. Przykład zestawu danych dla 5 elementów opisanych jedną zmienną. Jedna zmienna Student Średnia Anka 4.7 Jurek 3.8 5 obserwacji/pomiarów 5 elementów Zosia 4.3 Mirek 4.1 Paweł 4.5 Zmienne - to wielkości, które mierzymy, kontrolujemy lub którymi manipulujemy w trakcie badań. Zmienne Jakościowe Ilościowe - specjalność na kierunku chemia, Dyskretne Ciągłe - kolor włosów, - liczba domów, - długość, - płeć - wiek, - liczba wypadków, - liczba wylosowanych - czas, itp. oczek, itp. Zmienne jakościowe (nazywane również kategorycznymi, czynnikowymi), to zmienne przyjmujące określoną liczbę wartości, najczęściej nieliczbowych, - binarne, np. płec (kobieta/mężczyzna), - nominalne, np. marka samochodu, - porządkowe, np. wykształcenie (podstawowe / średnie / wyższe). Zmienne ilościowe, opisują ilość. Wyróżnia się skale: - licznikowa (liczebność wystąpień pewnego zjawiska, opisywana przez liczby naturalne), np. liczba lat nauki, - przedziałowa (nazywana też interwałową), skala w której zmienna może przyjmować dowolne wartości z określonego przedziału, np. temperatura w stopniach Celsjusza, - ilorazowa, to skala licznikowa, w której dodatkowo zachowane są proporcje (a więc skala ma zero absolutne), np. temperatura w stopniach Kelvina, wzrost w centymetrach itp. Przykład zestawu danych gdzie do opisu 10 elementów wybrano 2 zmienne (m,f) Ł m 3 6 8 4 4 8 1 2 6 5 f 7 3 7 10 9 9 7 4 5 2 m2 f2 mf mf2 m2f Należy obliczyć następujące wartości: Łm; Łf; Łmf; Łm2f; Łmf2; (Łm)2; Łf2; (Łmf)2 Macierz s tensor 2x10x70 2x10x69 for i=1:70 for k=1:10 2x10x3 2x10x2 for l=1:2 2x10x1 s(l,k,i)=round(rand(1,1)*10); end end Numer na liście obecności end na wykładzie Analiza danych pierwotnych (raw data) Dane pierwotne dane zapisane w kolejności gromadzenia przed zastosowaniem jakiekolwiek procedury porządkującej. Przykład: 50 studentów spotkanych w klubie Wydziału Chemii podało swój wiek kolumna >> w=(round(rand(1,50)*10)+18)'; >> wiek=reshape(w,5,10) >> wiek=reshape((round(rand(1,50)*10)+18)',5,10) wiek = wiek = 26 19 20 24 21 23 26 26 21 27 23 22 25 27 19 25 23 19 19 20 25 19 19 18 24 21 25 22 23 21 20 24 18 26 28 22 27 26 23 25 26 24 22 25 27 19 20 23 24 28 23 23 24 26 23 23 27 26 24 24 18 19 19 26 20 21 26 22 28 24 24 27 28 22 24 27 21 22 26 24 22 24 28 27 22 20 22 24 22 22 24 20 27 21 26 22 23 22 21 21 Zmienna ciągła, ilościowa >> w=reshape(sort(wiek(:)),10,5)' w = 18 18 19 19 19 19 19 19 20 20 20 20 21 21 21 21 21 22 22 22 22 22 22 22 22 23 23 23 24 24 24 24 24 24 24 25 25 25 26 26 26 26 26 26 27 27 27 28 28 28 Rozkład częstości zmiennych liczebność zbioru danych w poszczególnych kategoriach/klasach. Należy: - uporządkować rosnąco wartości zmiennej; - zliczyć liczbę wystąpień wartości według kategorii/klas; - obliczyć częstość występowania dla każdej kategorii/klasie; >> k=0; >> for i=min(wiek(:)):max(wiek(:)) k=k+1; Liczba osób w danym wieku f(k)=sum(wiek(:)==i); end >> >> sum(f) ans = 50 >> klasa=min(wiek(:)):max(wiek(:)) klasa = 18 19 20 21 22 23 24 25 26 27 28 >> rozklad=[klasa;f] rozklad = 18 19 20 21 22 23 24 25 26 27 28 2 6 4 5 8 3 7 3 6 3 3 Liczba wystąpień wartości zmiennej w danej klasie Względna częstość klasy = Liczba wystąpień wszystkich wartości zmiennej Procentowa względna częstość klasy= Względna częstość klasy * 100 >> rozklad rozklad = 18 19 20 21 22 23 24 25 26 27 28 2 6 4 5 8 3 7 3 6 3 3 0.04 0.12 0.08 0.1 0.16 0.06 0.14 0.06 0.12 0.06 0.06 4 12 8 10 16 6 14 6 12 6 6 >> bar(rozklad(1,:),rozklad(3,:)) 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 18 19 20 21 22 23 24 25 26 27 28 klasa (wiek) Wzgl ę dna cz ę sto ść klasy/liczebno ść klasy >> bar(rozklad(1,:),rozklad(4,:),1);axis tight 16 14 12 10 8 6 4 Histogram 2 0 18 19 20 21 22 23 24 25 26 27 28 Klasa (wiek) Wzgl ę dna cz ę sto ść klasy/liczebno ść klasy >> pie(rozklad(3,:),[0 0 0 1 0 0 0 0 0 0 0],{'18' ,'19','20','21','22','23','24','25','26','27','28'}) 18 28 27 19 26 20 25 21 24 22 23 Numer na liście obecności na wykładzie