4 ZarzT dzanie danymi

R O Z D Z I A Ł 4

ZARZĄDZANIE DANYMI

W rozdziale drugim omówiliśmy p o d s t a w o w e funkcje modyfikacji zmiennych
i przypadków. Obecnie przedstawimy bardziej zaawansowane i równie potrzebne narzędzia
zarządzania danymi. Należą do nich między innymi:

* sortowanie przypadków
* tworzenie podzbiorów pliku danych
* łączenie dwóch plików danych
* weryfikacja wprowadzonych danych

W programie STATISTICA zebrane są one w specjalnym m o d u l e Zarządzanie

danymi/MFM. Po naciśnięciu przycisku
programu poza arkuszem danych otworzy się okno Przełącznika M o d u ł ó w (STATISTICA
Module Switcher). W oknie tym wybieramy m o d u ł Zarządzanie danymi/MFM
i naciskamy przycisk Zakończ i przełącz do. Otworzy się okno m o d u ł u Zarządzanie
danymi/MFM, widoczne na rysunku poniżej:

Rys. 4.1 O k n o m o d u ł u zarządzania danymi

oknie tym wyróżniają się dwie grupy:

lub d w u k r o t n y m kliknięciu w oknie

Przystępny kurs statystyki

grupa opcji związana z - Megafile Menager - specjalistycznym systemem zarządzania
bazą danych. U ż y w a n y jest najczęściej do importowania nietypowych danych
i wstępnego ich opracowania (np. dużych baz z długimi rekordami). System ten
dysponuje też językiem programowania M M L (Megafile M a n a g e r Language) do
zarządzania bazami danych i ich transformowania do pakietu STATISTICA. D o k ł a d n e
omówienie tych opcji - j a k o bardzo zaawansowanych - wykracza poza ramy niniejszego
opracowania i zostanie o m ó w i o n e w następnych t o m a c h .
grupa opcji związana z zarządzaniem danymi, pokazana na poniższym rysunku:

Rys. 4.2 Opcje zarządzania danymi

O m ó w i m y teraz najważniejsze opcje drugiej grupy.

I. Tworzenie nowego pliku danych

Dotychczas tworzyliśmy nowy plik danych przy p o m o c y m e n u Plik (File).
Otrzymywaliśmy pusty domyślny arkusz danych (10 przypadków na 10 zmiennych).
Opcja, którą o m ó w i m y tutaj, ma o wiele większe możliwości. T w o r z y m y nowy arkusz
danych wedle własnych kryteriów i upodobań. M o ż e m y określić b o w i e m (rysunek
poniżej):

1. N a z w ę i położenie n o w e g o pliku - przycisk N a z w a nowego pliku

W oknie, które się otworzy po naciśnięciu tego przycisku, określamy n a z w ę
i ścieżkę dostępu do n o w o tworzonego pliku.

2. Liczbę zmiennych

W p r o w a d z a m y n o w ą liczbę zmiennych. Pliki programu STATISTICA m o g ą
zawierać maksymalnie 4092 zmienne. Pliki o większej ilości z m i e n n y c h (do
32 000) m o ż e m y tworzyć wykorzystując m o d u ł Megafile Menedżer.

3. Liczbę przypadków

Liczba przypadków jest prawie nieograniczona. Jak podają twórcy programu
w dokumentacji - liczba przypadków m o ż e osiągnąć astronomiczną liczbę 2,14
miliardów.

Zarządzanie danymi

Długość nazw przypadków
Pliki danych programu STATISTICA m o g ą mieć nazwy przypadków
o maksymalnej długości do 20 znaków.
Format wyświetlania wartości zmiennych
Określamy tutaj format postaci X.Z, gdzie X całkowita szerokość pola liczby,
a Z - ilość miejsc po przecinku. D o m y ś l n e ustawienie to postać 8.3. Ustawienie
to nie ma wpływu na precyzję przechowywania danych.

Rys. 4.3 O k n o opcji - Utwórz n o w y plik

6. Kod braku danych

Wartością domyślną jest liczba -9999, ale użytkownik m o ż e podać własną.
Wartość ta jest używana do reprezentowania brakujących danych dla
wszystkich zmiennych w arkuszu danych.

7. Przedrostek nazwy zmiennej

D o m y ś l n e ustawienie to przedrostek V A R lub Z M N . Służy on do
zdefiniowana nazw kolejnych zmiennych ( V A R 1 , VAR2, VAR3,...).

8. N u m e r początkowy zmiennej

Podajemy numer początkowy zmiennej dla przedrostka zmiennej. Domyślną
wartością jest 1.

9. Jednowierszowy nagłówek pliku

Podajemy tutaj krótki (do 77 znaków) komentarz o pliku. Jest on wyświetlany
w nagłówku arkusza danych i m o ż e być drukowany wraz z arkuszem danych
lub raportem.

Przycisk Pobieraj z... w o m a w i a n y m oknie umożliwia wykorzystanie ustawień z innych
plików danych dla określenia (skopiowania) omawianych powyżej opcji. Wystarczy

jedynie podać nazwę istniejącego pliku dla pobrania specyfikacji.

Przystępny kurs statystyki

II. Scalanie plików

Czasami tworzymy duże arkusze danych na d w ó c h różnych komputerach (lub równolegle

przez dwie osoby) i chcemy następnie połączyć dane w jeden plik. M o ż e m y też chcieć
dołączyć dane do utworzonego j u ż wcześniej pliku. Wykorzystujemy w celu opcję scalanie
plików (rysunek poniżej).

Rys. 4.4 O k n o opcji scalania plików

Łączenie przypadkami polega na dopisaniu na końcu danych z pierwszego zbioru wartości
danych z drugiego pliku, j a k na rysunku poniżej:

Rys. 4.5 Scalanie przypadkami

Przy takim łączeniu liczba zmiennych w obu plikach musi być taka sama.

Innym razem m o ż e m y chcieć do istniejącego pliku danych dodać nie n o w e przypadki, lecz
nowe zmienne zapisane w innym pliku. Stosujemy wówczas łączenie zmiennych. N o w e
zmienne z dołączanego pliku zostają umieszczone na p r a w o od j u ż istniejących, j a k
pokazano to na następnym rysunku:

Rys 4.6 Scalanie „ z m i e n n y m i "

Istnieją też inne sposoby scalania (relacyjne, hierarchiczne) rzadziej używane i dlatego
dokładne ich omówienie zostanie pominięte. Zainteresowanych odsyłam do doskonałego
„elektronicznego podręcznika" (menu P o m o c ) .

Dla zilustrowania pozostałych opcji załóżmy, że utworzyliśmy następujący arkusz danych -
tabela 1:

Zarządzanie danymi

Nazwisko Wiek

Wzrost

W a g a

Płeć

P c u k r u

H e m o g l o 

bina

Skala

(natęż,

choroby)

L-ciąż

Nowak

175

51,5

5,40

14,10

Tomal

169

6,70

16,80

Nosal

169

5,80

17,00

Ząb

156

5,30

14,50

Abacka

164

60,5

6,60

14,40

Nowak

165

6,20

14,50

Banach

172

7,00

16,80

Moroz

170

49,5

6,20

16,00

Kowalska

156

48,5

5,90

16,20

Sikora

160

5,80

14,20

Dobosz

168

6,60

16,60

Babacka

166

6,00

16,50

Tomal

165

6,40

14,30

III

Kwatera

168

6,90

14,50

Dawid

172

47,5

6,80

14,10

III. Sprawdzanie wartości danych

Jest to doskonałe narzędzie do weryfikacji arkusza danych (sprawdzenie kompletności,
sensowności, spełnienia kryteriów logicznych dla określenia zakresu itd.). Wybranie tej
opcji powoduje otwarcie okna dialogowego Sprawdzaj dane widocznego na poniższym
rysunku:

W oknie tym określamy warunki weryfikacji. M o ż e m y podać dwa rodzaje warunków:

• warunki uznające przypadek za „poprawny", jeśli spełnia on podane kryterium -

opcja „poprawny jeżeli";

• warunki uznające przypadek za „zafałszowany", jeśli nie spełnia on podanego

kryterium - opcja „ błędny jeżeli".

Podane warunki możemy łączyć spójnikiem „i" (opcja „wszystkie warunki"), a także
spójnikiem "lub" (opcja „przynajmniej jeden warunek").
W konstrukcji warunków weryfikacji możemy wykorzystać operatory z trzech
omawianych już grup:

Przystępny kurs statystyki

2. Logiczne:

• A N D (równoważny z &)
• OR (równoważny z |)
• - N O T (równoważny z ~)

• koniunkcja (iloczyn logiczny),
• alternatywa (suma logiczna),
• negacja (zaprzeczenie).

Rys. 4.7 O k n o opcji weryfikacji danych

W warunkach do zmiennych odwołujemy się albo przez ich nazwy (np. = L E K 1 - L E K 2 ) ,
albo przez ich numery (np. = v l - v2). Przez v0 oznaczamy n u m e r przypadku.

Po określeniu warunków weryfikacji w celu jej rozpoczęcia naciskamy przycisk

OK. Jeżeli znaleziony zostanie przypadek „zafałszowany" (nie spełniający w a r u n k ó w )
wyświetlone zostanie okno dialogowe Sprawdzanie danych. Umożliwia ono wybór jednej
z trzech dalszych dróg przebiegu weryfikacji:

Zarządzanie danymi

• modyfikowanie danych;
Po modyfikacji naciskamy przycisk Sprawdzaj aby kontynuować weryfikację.

• ignorowanie błędu i kontynuacja sprawdzianu;
• zakończenie procesu weryfikacji.

Przykład 1
Dla danych przedstawionych w powyższej tabeli, m o ż e m y sprawdzić, czy dla mężczyzn
„prawidłowo" wprowadzone zostanie dane dla zmiennej L_ciąż oraz czy skala natężenia
choroby przyjmuje wartości tylko postaci -I, II, III. W tym celu postępujemy następująco:

• Krok 1 -

wybieramy dla warunku 1 opcję „ błędny jeżeli"

• Krok 2 -

w oknie wpisujemy warunek - P ł e ć = ' M ' A N D L_ciąż>0

• Krok 3 -

wybieramy dla warunku 2 opcję„poprawny jeżeli"

• Krok 4 - w

oknie poniżej wpisujemy warunek - S k a l a < ' I V '

• Krok 5 -

wybieramy opcję „wszystkie warunki"

• Krok 6

- naciskamy przycisk OK

Proces weryfikacyjny wykryje n a m błędy dla przypadku 6 i 15 (mężczyzna i dodatnia
liczba ciąż) oraz dla przypadku 14 (skala natężenia choroby - V).

Wiele warunków sprawdzających m o ż e być bardzo skomplikowanych,

a jednocześnie wielokrotnie wykorzystywanych. Program STATISTICA umożliwia
zapisanie określonych warunków. Z a c h o w a ć m o ż e m y poszczególne warunki (przycisk
Zapisz lub wszystkie utworzone warunki (przycisk Zapisz wszystkie). Zapisane warunki
możemy wykorzystać (przycisk Otwórz lub Otwórz wszystkie przy sprawdzeniu
poprawności w innym arkuszu danych. Weryfikacji m o g ą podlegać wszystkie przypadki
lub tylko te przez nas wybrane w oknie Z a k r e s . Podajemy tam przed weryfikacją n u m e r
początkowy (Od p r z y p a d k u ) i końcowego (Do p r z y p a d k u ) ) pliku przypadków, który
chcemy sprawdzić. Chcąc otrzymać k o ń c o w y raport przeprowadzonej weryfikacji
naciskamy przycisk Drukuj.

IV. Sortowanie danych.

Opcja ta pozwala przeprowadzić hierarchiczne sortowanie danych. Sortowanie przebiega
według ustawionych przez użytkownika kluczy. Jeżeli wartości pierwszej sortowanej
zmiennej są równe STATISTICA, bierze pod u w a g ę następny klucz. M a k s y m a l n i e m o ż e m y
zdefiniować do siedmiu kluczy. Po wybraniu tej opcji otworzy się okno Opcje sortowania
-jak na rysunku poniżej - gdzie ustawiamy klucze sortowania.

Domyślnie wyświetlone są trzy klucze. Jeżeli chcemy określić więcej, naciskamy przycisk
Więcej kluczy. W celu określenia klucza wybieramy:

• opcję zmienna (Var) - gdy sortujemy według zmiennych;

Wpisujemy lub po dwukrotnym kliknięciu na t y m polu wybieramy zmienną
z wyświetlonej listy.

• opcję nazwa przypadku (Case name) - gdy sortujemy według przypadków;
• sposób sortowania - rosnący (Ascen) lub malejący (Desc);
• tryb sortowania - tekstowy (Text) lub numeryczny (Numeric).

Przystępny kurs statystyki

Rys. 4.8 O k n o Opcje sortowania

Przykład 2
Dla danych zebranych w tabeli 1 przeprowadzimy sortowanie według nazw przypadków
(nazwisko) - 1 klucz i według zmiennej wiek - 2 klucz. Ustawiamy klucze tak jak na
powyższym rysunku.
Następnie klikamy przycisk OK w celu wykonania sortowania. O t r z y m a m y następujący
wynik:

Rys. 4.9 Wynik sortowania danych z tabeli 1

Zarządzanie danymi

V. Tworzenie podzbiorów

Opcja ta umożliwia tworzenie podzbiorów danych. Poprzednio przy p o m o c y W a r u n k ó w
Selekcji przypadków tworzyliśmy chwilowe podzbiory dla potrzeb aktualnej analizy
statystycznej. Obecna opcja wyświetla otrzymany podzbiór na ekranie i umożliwia
zapisanie go pod inną (niż cały zbiór) nazwą. Po wyborze tej opcji otwiera się okno,
w którym podajemy warunki tworzenia podzbiorów. O k n o to widoczne jest poniżej:

Rys. 4.10 O k n o z opcjami do tworzenia podzbiorów

Przykład 3
Dla danych z tabeli 1 utworzymy następujący podzbiór. Interesują nas wiek, waga, płeć
i poziom cukru osób, dla których skalę natężenia choroby określono na I. Tworzenie
podzbioru opiszemy w kolejnych krokach:

• Krok 1. Wybieramy opcję Podzbiór.
• Krok 2. Klikamy przycisk Zmienne i w otwierającym się oknie wybieramy

zmienne - Wiek, Waga, Płeć i P c u k r u .

• Krok 3. Klikamy przycisk Przypadki, otwierając o k n o Warunki Selekcji

Przypadków. W oknie tym wpisujemy warunek

Skala = „I"

i klikamy O K

dla wcielenia warunku w życie.

• Krok 4. Klikamy przycisk OK dla uruchomienia procedury tworzenia

podzbioru.

Otrzymujemy następujący podzbiór:

Przystępny kurs statystyki

Rys. 4.11 Wynik tworzenia podzbioru dla danych z tabeli 1

VI. Standaryzowanie danych

Pozwala ono na standaryzowanie dowolnie wybranych wartości. Z m i e n n a standaryzowana
charakteryzuje się tym, że jej średnia jest równa 0, a odchylenie standardowe 1.
Standaryzacja pozwala na transformacje zmiennej mianowanej w zmienną niemianowaną.
Dzięki temu średnie otrzymane z różnych źródeł (w różnych jednostkach) m o g ą być ze
sobą porównywalne. Opcja standaryzowania dostępna jest też po kliknięciu p r a w y m
przyciskiem myszy. M o ż e m y wówczas dokonać standaryzacji k o l u m n (zmiennych) lub
wierszy (przypadków). Po wybraniu tej opcji pojawia się okno pokazane na rysunku
poniżej:

Rys. 4.12 O k n o ustawiania opcji dla standaryzacji

W oknie Standaryzacja wartości m a m y trzy przyciski dla ustawienia opcji standaryzacji
Umożliwiają one określenie:

Zarządzanie danymi

* Zmiennych - przycisk

Umożliwia określenie zmiennej ważącej (zawierającej wagi przypadków) dla

określenia wpływu każdego przypadku na obliczanie standaryzacji.

Wartości standaryzacji obliczone są według tradycyjnych reguł:

wartość standaryzowana = (wartość początkowa - średnia grupy)/odchylenie standardowe

Przykład 4
Dla danych z tabeli 1 przeprowadzimy standaryzowanie zmiennej „ w a g a " tylko dla grupy
mężczyzn. W tym celu postępujemy następująco:

• Krok 1. Wybieram opcję Standaryzuj (Standarize).
• Krok 2. Klikamy przycisk Z m i e n n e (Variables) i wybieramy zmienną „ w a g a " do

standaryzacji.

• Krok 3. Klikamy przycisk przypadki (Cases) i w p r o w a d z a m y warunek

„włącz jeżeli" P ł e ć = " M "

Klikamy przycisk OK zamykając omawiane okno.

• Krok 4. Klikamy OK uruchamiając proces standaryzacji.

Fragment arkusza danych przed i po standaryzacji widoczny jest na poniższym rysunku:

* Wkładu każdego przypadku - przycisk

Po kliknięciu tego przycisku otwiera się okno W a r u n k i selekcji przypadków.
W oknie tym podajemy warunki na wybranie przypadków do standaryzowania.
M o ż e m y dzięki temu przeprowadzić osobne standaryzowanie tworzonych
podzbiorów. Domyślne wszystkie przypadki są standaryzowane;

* Przypadków - przycisk

Po kliknięciu tego przycisku pojawia się okno, w którym wybieramy zmienne
przeznaczone do standaryzacji;

Przystępny kurs statystyki

Przed standaryzacją Po standaryzacji

Rys. 4.13 Wynik procesu standaryzacji zmiennej „waga" dla grupy mężczyzn

Wyszukiwarka

Podobne podstrony:
zarzT dzanie kadrami sciagi, Zarządzanie OK, ZARZĄDZANIE
ZarzT dzanie strategiczne
TEST Zarz dzanie logistyczne1
(2) zarz dzanie wyk?y ci ga
ZARZ DZANIE POLITYKA I STRA, Zarządzanie projektami, Zarządzanie(1)
Zarz dzanie pytania(1)
ZARZ DZANIE JAKO CIA TQM I , Zarządzanie projektami, Zarządzanie(1)
ZARZ DZANIE FINANSAMI, Zarządzanie projektami, Zarządzanie(1)
Zarz dzanie personelem, Zarządzanie zasobami ludzkimi - to uporządkowany i systematyczny zespół oddz
Zarz dzanie ci ga 1 kolos, Szkoła, prywatne, Sesja, Organizacja i Zarządzanie, Organizacja i Zarz d
zarza dzanie na egz
Zarz dzanie ściąga 1 kolos
Zarz dzanie zasobami ludzkimi dzienne W 1
AllData 10 53 – dodawanie dysków z danymi
zarz-dzanie strategiczne 11
W02 Zarz dzanie jako ci
Modu Zarz dzanie Ekonomia 1

więcej podobnych podstron