Mariola Szydełko 26.10.2010 Rzeszów
II CC DI
Statystyka i opracowanie wyników
Ćwiczenie nr 1
ZARZĄDZANIE DANYMI W PROGRAMIE STATISTICA (STATSOFT).
BADANIE EMPIRYCZNEGO ROZKŁADU ZMIENNEJ. CHARAKTERYSTYKI LICZBOWE ROZKŁADU ZMIENNEJ.
WSTĘP TEORETYCZNY:
STATISTICA jest uniwersalnym, zintegrowanym systemem służącym do statystycznej analizy danych, tworzenia wykresów, operowania na bazach danych, wykonywania transformacji danych i tworzenia aplikacji. W skład sytemu wchodzi wszechstronny zestaw zaawansowanych procedur analitycznych, stosowanych w nauce, biznesie, technice oraz zgłębianiu danych. STATISTICA zawiera nie tylko procedury statystyczne i graficzne ogólnego przeznaczenia i związane z nimi narzędzia zarządzania danymi, ale także specjalistyczne techniki analityczne (np. do badań społecznych, biomedycznych, technicznych).
Średnia jest najpopularniejszą miarą tendencji centralnej (oprócz średnich klasycznych istnieją także mediana i modalna). Informuje o przeciętnym poziomie cechy, nie odzwierciedlając różnic pomiędzy poszczególnymi jednostkami. Obliczanie jej wartości ma sens tylko wtedy, gdy zbiorowość jest jednorodna.
Mediana (zwana też wartością środkową lub drugim kwartylem) to w statystyce wartość cechy w szeregu uporządkowanym, powyżej i poniżej której znajduje się jednakowa liczba obserwacji. Mediana jest kwartylem rzędu 1/2, czyli drugim kwartylem.
Dominanta (wartość modalna, moda, wartość najczęstsza) to jedna z miar tendencji centralnej, statystyka dla zmiennych o rozkładzie dyskretnym, wskazująca na wartość o największym prawdopodobieństwie wystąpienia, lub wartość najczęściej występująca w próbie. Dla zmiennej losowej o rozkładzie ciągłym jest to wartość, dla której funkcja gęstości prawdopodobieństwa ma wartość największą.
Odchylenie standardowe jest to klasyczna miara zmienności, obok średniej arytmetycznej najczęściej stosowane pojęcie statystyczne. Intuicyjnie rzecz ujmując, odchylenie standardowe mówi, jak szeroko wartości jakiejś wielkości (takiej jak np. wiek, inflacja, kurs akcji itp.) są rozrzucone wokół jej średniej[1]. Im mniejsza wartość odchylenia tym obserwacje są bardziej skupione wokół średniej.
Wariancja mierzy średni "rozrzut" wartości zmiennej losowej od jej wartości średniej.
Kurtoza jest to względna miara koncentracji i spłaszczenia rozkładu (termin stosowany w statystyce i rachunku prawdopodobieństwa). Określa rozmieszczenie i koncentrację wartości (zbiorowości) w pobliżu średniej.
Minimum i maksimum inaczej odpowiednio element najmniejszy i największy danego zbioru uporządkowanego. Często w zastosowaniach praktycznych rozważany zbiór ma skończenie wiele elementów (np. tylko dwa).
CO ZOSTAŁO WYKONANE:
Włączono już stworzony plik w programie Statistica o nazwie Azot.
Dodano 1 nową zmienną MASA, którą umieszczono po zmiennej zbiornik.
(ZARZĄDZANIE DANYMI DANE ZMIENNE DODAJ).
Następnie zmieniono położenie naszej danej. Umiejscowiono ją po zmiennej stężenie.
(DANE ZMIENNE PRZENIEŚ, od zmiennej zbiornik do zbiornik).
Następnie skopiowane zamienną stężenie.
(DANE ZMIENNE KOPIUJ, stężenie do masa po masa).
Następnie zajęto się przypadkami.
Dodano nowe przypadki ( DANE PRZYPADKI DODAJ, dodano 3 nowe przypadki po 3 przypadku).
Przeniesiono przypadki (DANE PRZYPADKI PRZENIEŚ, przypadki od 4 do 6 wstawiono po przypadku 10).
Proces sortowania danych.
Zaznaczono odpowiednia kolumnę z odpowiednimi danymi, następnie DANE SORTUJ ROSNĄCO.
Proces przekodowania:
Zaznaczono odpowiednie dane, następnie DANE PRZEKODUJ.
Do danej odwołujemy się za pomocą literki V, indeks dolny przy niej wskazuje Nam określoną kolumnę w której się zmienna znajduje. W moim przypadku było to V1.
Wpisano: V1 < 30 niskie,
V1 => 30 and V1 < 60 średnie
V1 => 50 wysokie
Proces tworzenia nowych etykiet tekstowych.
Do kolumny zbiornik zamiast B wpisano C. Wyskoczył odpowiedni komunikat, należy wówczas zaznaczyć opcje, aby program utworzył nową etykietę tekstową.
Proces sprawdzania danych:
DANE SPRAWDZANIE DANYCH.
Warunek poprawności:
Poprawne, jeśli: V3 = `A' OR V3 = `B'. Została podświetlona linijka, gdzie zostało wpisane C.
Utworzono nowy plik składający się z 10 zmiennych i 2 przypadków (Dzień, Miesiąc, Rok, Data,Rok, Miesiąc). Wpisano przypadkowe liczby.
DANE OPERACJE NA DATACH
Wybrano format 17-Mar-98.
Nazwa Data.
Wybrano zmienne źródłowe. Stwórz datę z 2 lub 3 zmiennych. Zapisano do konkretnej kolumny.
Następnie rozdzielono datę na 2 lub 3 zmienne i zapisano do konkretnych kolumn.
Utworzono nowy plik, który posiadał tylko 1 zmienną i 50 przypadków. Nasza zmienna nazywała się ŁADUNEK ELEKTRONU. Wartości zmiennej przepisano z kartki otrzymanej od prowadzącego zajęcia.
Zaznaczono odpowiednią sekwencje, co program musi wykonać.
Ostatecznie otrzymaliśmy tabele, w której były wartości: n ważnych, średnia, mediana, moda, liczność mody, minimum, maksimum, wariancja, odchylenie standardowe, skośność, kurtoza.