Zastosowane metody statystyczne
Skale pomiarowe zmiennych.
Analizie poddano zmienne numeryczne ciągłe, porządkowe oraz zmienne kodowane zero-jedynkowo.
Jeżeli zmienna oznaczała wystąpienie jakiejś cechy, np. płci czy określonego stanowiska - wystąpieniu przypisywano wartość 1, a gdy zjawisko nie wystąpiło - wartość 0. Takie zmienne transformowano do częstości, co w świetle twierdzeń granicznych umożliwia stosowanie statystycznych metod parametrycznych.
Zastosowane metody opisu statystycznego.
Jako miary tendencji centralnej podawano średnią arytmetyczną (czasem oznaczana przez m), jako miarę rozproszenia - wariancję, odchylenie standardowe (std.odch. lub d.s.) i współczynnik zmienności (oznaczany jako Vm). Przy badaniu współzmienności cech posłużono się współczynnikiem korelacji liniowej Pearsona (oznaczanym przez r).
Zmienne dotyczące czynników sukcesu były mierzone na pięcio-punktowej skali interwałowej (ciągłej), przy czym wartość 1 oznaczała zdecydowanie brak sukcesu, a 5 - zdecydowany sukces w opinii badanych. Do opisu statycznego cech ciągłych zastosowano
miary tendencji centralnej - modę (wartość najczęściej wystepujacą), medianę (wartość środkową), kwartale oraz średnia arytmetyczną (m)
miary rozproszenia - wariancję (s2), odchylenie standardowe (s) i współczynnik zmienności względem średniej (s/m)
współczynniki asymetrii -współczynnik skośności (α3)
współczynnik koncentracji - kurtozę (α4).
Najbardziej adekwatną miarą tendencji centralnej jest średnia arytmetyczna m. Warto tutaj pamiętać, że ze względu na stosowaną skalę, o tym, czy czynnik można uznać za wysoko sukcesywny (mający wpływ na sukces) świadczy średnia powyżej wartości 3,8. Wartość 3 w skali pieciopunktowej może świadczyć o tym, że albo respondent ma do czynnika stosunek obojętny, albo uznaje czynnik za niewyrazisty. Wartości 1 i 2 świadczą, że czynniki raczej nie stanowią dużego sukcesu, a wartości 4 i 5 - przeciwnie, że zmienna stanowi czynnik wysokiego sukcesu. Wartość średniej równa 3 nie jest niska w sensie statystycznym, natomiast w sensie merytorycznym nie daje dużej informacji.
Przy analizie średnich wartości czynników warto zwrócić uwagę na medianę, kwartyle i skośność (α3). Dodatni współczynnik skośności (α3 >0) daje informację o tym, że w populacji dominują wyniki raczej niskie w stosunku do średniej - zwykle wtedy mediana jest mniejsza niż średnia, co oznacza, że co najmniej 50% przypadków ma wartości niższe niż średnia, a analizowana zmienna nie jest istotnym predykatorem sukcesu. Ujemny współczynnik skośności (α3 <0) daje informację o tym, że w populacji dominują wyniki raczej wysokie w stosunku do średniej - zwykle wtedy mediana jest większa niż średnia, co najmniej 50% przypadków. ma wartości wyższe niż średnia, a analizowana cecha może być uznana za kluczowy czynnik sukcesu. Przy analizie każdego czynnika warto porównać te dwie miary.
Przy analizie zmienności uwzględniono odchylenie standardowe (s pierwiastek kwadratowy z wariancji - średniej arytmetycznej kwadratów odchyleń od średniej s2) oraz współczynnik zmienności (s/m). Odchylenie standardowe (s) można intuicyjnie interpretować jako przeciętną odległość, jakiej w danej populacji można spodziewać się w stosunku do średniej. Im odchylenie standardowe (s) i współczynnik zmienności względem średniej (s/m) są większe, tym zmienne są bardziej zróżnicowane (heterogeniczne, niejednorodne), a respondenci są mniej zgodni w ocenie wagi czynnika w osiągniętym przez nich sukcesie zawodowym . Do oceny koncentracji wokół średniej można wykorzystać współczynnik koncentracji - kurtozę (α4). Jeżeli współczynnik koncentracji - kurtoza (α4) jest mniejsza niż 0 - populacja jest bardziej heterogeniczna niż w rozkładzie normalnym - wartości zmiennej są bardziej rozrzucone wokół średniej, oznacza to zróżnicowanie w odpowiedziach badanych. Oznacza to, że respondenci nie zgodni w swoich ocenach.
Zastosowane sposoby wnioskowania statystycznego.
W celu uogólnienia wniosków z prób badawczych na populację generalną stosowano:
- estymację punktową
- weryfikację hipotez statystycznych.
Do weryfikacji hipotez statycznych wykorzystano testy zgodności przy sprawdzaniu niezbędnych założeń testu Studenta i analizy wariancji, testy istotności różnic rozkładów zmiennych, m.in. test t Studenta dla pomiarów niezależnych przy porównywaniu rozkładów cech ciągłych o rozkładzie normalnym między dwiema populacjami losowymi, testy Levena i Fishera-Snedecora przy badaniu homogeniczności wariancji, testy niezależności (np. test chi-kwadrat), testy istotności współczynników korelacji.
Przy weryfikacji wszystkich hipotez zakładano poziom istotności α=0,05 lub α=0,1 (jeżeli interesujące były również tendencje, a nie wyraźny związek lub różnica). W tabelach wyników testów zawsze prezentowano obserwowany poziom istotności testu p obliczony dla danej statystyki empirycznej testu (jeżeli obserwowany poziom istotności p był mniejszy niż założony α=0,05 - hipotezę zerową odrzucano).
Metody regresji liniowej jedno-jednozmiennej
Jeżeli stwierdzono wyraźną liniową korelację tylko między dwiema zmiennymi - o ile było to możliwe, konstruowano model regresji liniowej dla jednej zmiennej zależnej (objaśnianej) i jednej zmiennej niezależnej (objaśniającej) adekwatnie do założeń merytorycznych. Równanie regresji umożliwia wyznaczenie przeciętnych wartości zmiennej zależnej przy określonych wartościach zmiennej niezależnej. Prezentowane w tabelach współczynniki regresji liniowej oznaczane jako B zawierają informację: o ile przeciętnie wzrośnie wartość zmiennej zależnej Y, jeżeli zmienna niezależna X wzrośnie o jednostkę. W tabelach umieszczano również współczynniki determinacji r2, stanowiące wskaźniki dobroci modelu, informujące, jaki odsetek zmienności zmiennej zależnej Y można wyjaśnić zmiennością zmiennej objaśniającej X. Istotność korelacji badano przy pomocy testu t Studenta.
Metody regresji liniowej jedno-wielozmiennej
Jeżeli stwierdzono wyraźną liniową korelację między jedną zmienną zależną a wieloma zmiennymi objaśniającymi - o ile było to możliwe, konstruowano model regresji liniowej jedno-jedno-ozmiennej dla jednej zmiennej zależnej (objaśnianej) i jednej zmiennej niezależnej (objaśniającej) adekwatnie do założeń merytorycznych. Równanie regresji jednozmiennej umożliwia wyznaczenie przeciętnych wartości zmiennej zależnej przy określonych wartościach zmiennej niezależnej. Prezentowane w tabelach współczynniki dla regresji liniowej oznaczane jako B zawierają informację: o ile przeciętnie wzrośnie wartość zmiennej zależnej Y, jeżeli zmienna niezależna X wzrośnie o jednostkę, z kolei zestandaryzowane współczynniki regresji BETA zawierają informację o ile odchyleń standardowych może przeciętnie wzrosnąć zmienna zależna Y, jeżeli dana zmienna objaśniająca X wzrośnie o jedno odchylenie standardowe - współczynniki BETA mają większe znaczenie w predykcji zjawisk. Współczynniki B i Beta stojące przy zmiennych niezależnych (a konkretnie ich wartości bezwzględne) świadczą o udziale danej zmiennej niezależnej w wyjaśnieniu wariancji zmiennej zależnej Y - im większa wartość bezwzględna dla B lub Beta, tym większy udział danej zmiennej w wyjaśnieniu wariancji zmiennej Y . W tabelach umieszczano również współczynniki determinacji r2, stanowiące wskaźniki dobroci modelu, informujące, jaki odsetek zmienności zmiennej zależnej Y można wyjaśnić zmiennością zmiennych objaśniających. Istotność współczynników korelacji i regresji badano przy pomocy testu t Studenta.
Statystyki nieparametryczne ANOVA Friedmana i Współczynnik
zgodności Kendalla - ANOVA Friedmana
Celem badań było m.in. wyłonienie najważniejszych czynników sukcesu pracowniczego, porangowanie ich, nadanie im ocen i wag. W tym celu zastosowano statystyki nieparametryczne: test ANOVA Friedmana, a do oceny zgodności pracowników w ocenie czynników sukcesu - współczynnik zgodności Kendalla, jak również metodę analizy skupień k-średnich. Wstępnie analizę wykonano dla wszystkich wartości ocen od 1 do 5. W celu wyłowienia najważniejszych czynników utworzono podzbiór złożony z ocen 4 oraz 5, wystąpienie 4 lub 5 zastąpiono wartością jeden, a wszystkie pozostałe zerami, następnie tak utworzone zmienne przekształcono do częstości i dokonano na nich podobnej analizy. Ostatecznie utworzono jeszcze jeden podzbiór zawierający tylko wartości 5 (transformowane do wartości 1) oraz wszystkie pozostałe zakodowane jako 0 - zmienne przekształcono do częstości i dokonano analizy wariancji.
Test Friedmana zakłada, że brane pod uwagę zmienne (poziomy) zostały zmierzone przynajmniej na skali porządkowej (rangowej). Hipoteza zerowa zakłada, że kolumny danych (zmienne) zawierają próby pobrane z tej samej populacji. Dla każdego przypadku (respondenta) kolejnym czynnikom (zmiennym-kolumnom) nadawane są rangi. Wartości najmniejszej, a więc czynnikowi który przez respondenta został najniżej oceniony nadawana jest ranga 1, wartości od niej większej - ranga 2 itd. Wstępnie zarezerwowanych jest tyle rang dla każdego respondenta, ile oceniamy zmiennych. Jeżeli wystąpiły takie same wartości - to przypisujemy im wspólna rangę wiązaną równej średniej arytmetycznej zarezerwowanych rang. Po porangowaniu odpowiedzi wszystkich badanych dotyczących wybranych czynników, dla każdej zmiennej (czynnika, kolumny) obliczana jest suma rang Sri oraz średnia ranga sri. Tak obliczone średnie rangi sri uwzględniają więc i pozycję danego czynnika u każdego respondenta, a więc uwzględniają rozkład danej zmiennej (czynnika) na tle innych czynników u wszystkich respondentów.
Na podstawie sum rang Sri obliczana jest statystyka testu Friedmana, którą można przyblizać rozkładem chi-kwadrat. Test może nam pomóc rozwiązać dylemat, czy wszystkie czynniki oceniane są jednakowo, czy też nie.Jeżeli obliczony dla statystyki empirycznej testu chi-kwadrat obserwowany poziom istotności p<0,05 - oznacza to, że rozkłady zmiennych są istotnie różne.
Na podstawie średnich rang sri można oszacować również wagi danego czynnika na podstawie ocen badanych według mojego wzoru (Kowal J., 2005):
wi= sri/ srmax
gdzie wi oznacza wagę danej zmiennej na tle innych czynników, sri średnią range uzyskana przez dany czynnik, srmax najwyższą rangę obliczoną na podstawie wszystkich czynników. Wtedy czynnik o największej wadze przyjmie wartość 1. Jeżeli chcemy wagi wyznaczyć procentowo wagę wi wytarczy pomnożyć przez 100:
wi%= sr* 100i/ srmax %.
Test Friedmana , rangi, wagi oraz współczynnik zgodności Kendalla obliczano i dla każdej grupy czynników oddzielnie (czynniki ogólne, cechy psychologiczne, wiedza i umijętności itd.) oraz dla wszystkich grup razem, ażeby stwierdzić, które czynniki najważniejsze są i w podgrupach, i w zbiorze wszystkich czynników razem.
Współczynnik zgodności W Kendalla
Statystyka ta wyraża jednoczesne powiązanie (współzależność) pomiędzy k zbiorami
pozycji (np. przypadków - respondentów, skorelowanych prób). W badaniu statystyka ta jest
wykorzystywana do oceny zgodności niezależnych sędziów - pracowników banku. W sensie
obliczeniowym współczynnik zgodności jest średnią arytmetyczną wszystkich współczynników korelacji R Spearmana pomiędzy zmiennymi, czyli:
średnie R Spearmana = (k * W -1)/(k-1)
A zatem podstawowe założenia w tym teście są identyczne jak w przypadku
współczynnika korelacji rang Spearmana.
Współczynnik W Kendalla może przyjmować wartości z przedziału liczbowego <0, 1>. Im bliżej 1 - tym sędziowie są bardziej zgodni w ocenie. Warto zwrócic też uwagę, że im bliższe 1 jest W, tym bardziej odpowiedzi (zmienne) są homogeniczne (współczynnik zmienności przyjmuje niższe wartośći).
Grupowanie obiektów i cech .
Zmienne - czynniki możemy potraktować jako obiekty. Obiekty możemy pogrupować. Okazuje się, że grupowanie ich może doprowadzić do ciekawych wyników. Możemy poklasyfikować zmienne (czynniki sukcesu), aby wykryć skupienia cech o podobnych rozkładach odpowiedzi, a więc o podobnej ocenie stopnia sukcesu.
Grupowanie obiektów i cech
Grupowanie obiektów i cech przydaje się w (stosunkowo rzadkich) okolicznościach, gdy oczekujemy, że zarówno przypadki, jak i zmienne jednocześnie przyczyniają się do odkrywania sensownych układów skupień. W naszym badaniu chcemy zidentyfikować skupienia czynników, które są podobne ze względu na poszczególne skupienia podobnych ocen pracowników. Trudność w interpretacji takich wyników może brać się stąd, że podobieństwa między różnymi skupieniami mogą odnosić się do (lub wynikać z) nieco innych podzbiorów zmiennych. Zatem wynikowa struktura (układ skupień) z natury nie jest homogeniczna.
Grupowanie metodą k-średnich
Ogólna logika
Ogólnie, przy pomocy metody k-średnich zostanie utworzonych k różnych możliwie odmiennych skupień.
Obliczenia. Z punktu widzenia obliczeń, można tę metodę traktować jako "odwrotność" analizy wariancji (ANOVA).
Wstępnie tworzymy k losowych skupień, a następnie przenosimy obiekty między tymi skupieniami mając na celu
(1) minimalizację zmienności wewnątrz skupień i
(2) maksymalizację zmienności między skupieniami.
Jest to analogiczne do "odwrotności" analizy wariancji w tym sensie, że test istotności w analizie wariancji szacuje zmienność międzygrupową w stosunku do zmienności wewnątrzgrupowej, jeśli liczymy test istotności dla hipotezy, że średnie w grupach różnią się między sobą. W grupowaniu metodą k-średnich programy komputerowe (SPSS, STATISTICA) przenoszą obiekty (np. czynniki) zgodnie z algorytmem krokowym do i-tej z grup (skupień), aby otrzymać najbardziej istotne wyniki analizy wariancji.
Interpretacja wyników. Zazwyczaj w wyniku analizy grupowania metodą k-średnich badamy średnie i zmienność dla każdego skupienia w każdym wymiarze (średnie m i współczynnik zmienności s/m dla każdej zmiennej-czynnika), aby oszacować, na ile nasze k skupienia są od siebie różne. W sytuacji idealnej otrzymalibyśmy bardzo różne średnie dla większości, jeśli nie wszystkich wymiarów wprowadzonych do analizy. Wielkość statystyki F o rozkładzie Fishera-Snedecora pochodzącej z analizy wariancji wykonanej w każdym wymiarze jest wskaźnikiem tego, na ile dobrze dany wymiar dyskryminuje skupienia. Jeżeli grupujemy cechy, a nie przypadki statystyka F i obserwowany poziom istotności p jest obliczany dla każdego przypadku ( dla każdej osoby). Daje to informację, czy dla danej osoby grupy wyodrębnionych cech różnią się istotnie.
W analizie czynników sukcesu zmienne grupowano i dla poszczególnych podskal kwestionariusza, tj. dla czynników ogólnych, psychologicznych oraz dla wiedzy i umiejetności. oraz dla wszystkich podskal razem, ażeby wyłonić grupy czynników sukcesu o podobnej średniej i podobnej zmienności.
Analiza czynnikowa
Analiza czynnikowa jest metodą chętnie stosowaną w badaniach marketingowych, których celem jest wyłowienie pewnych bezpośrednio nie zauważalnych czynników, spośród większej liczby zmiennych. Metoda ta wymaga według klasycznej metodologii, statystycznie dużych prób oraz normalności rozkładów poszczególnych zmiennych. Analizowane zmienne mogą być wzajemnie skorelowane. Analiza czynnikowa jest metodą umożliwiającą uporządkowanie danych tak, by odpowiedzieć na pytanie, czy zbiór zmiennych może zostać zredukowany do mniejszej liczby czynników, z których każdy może być kombinacją innych zmiennych. Każda zmienna może wystąpić w jednym czynniku. Nie wyróżnia się zmiennych zależnych i niezależnych. Analiza czynnikowa śledzi korelacje między zmiennymi i dostarcza badaczowi jednego lub więcej czynników, badając jednocześnie wszystkie zmienne.
Jeśli na przykład celem badania jest określenie preferencji konsumentów na podstawie wielu cech prezentowanych produktów, analiza czynnikowa może wyrazić te preferencje jako funkcję jakości produktu, ceny i użyteczności. Wielkości te mogą nie być bezpośrednio zauważalne. (por. Kowal 1998).
Analiza czynnikowa ma zwykle cztery etapy. Pierwszy etap to obliczenie macierzy korelacji. W drugim kroku wyłaniane są czynniki, których liczbę i metodę ekstrakcji określa badacz. Na tym etapie można określić, czy model „pasuje” do danych.
We wstępnym estymowania czynników najczęściej korzysta się z metody głównych składowych. Formowane są liniowe kombinacje obserwowanych zmiennych, jak w regresji wielokrotnej. Stąd pomysł wykorzystania osiągnięć metod optymalizacji statystycznej w analizie czynnikowej i optymalnych oraz nasyconych modeli regresji..
Czy model dobrze „pasuje” do danych, można sprawdzić przy pomocy miary Kaisera-Meyera-Olkina i testu sferyczności Bartletta. Test Bartleta testuje hipotezę, że obserwowana macierz pochodzi z populacji, gdzie zmienne są nieskorelowane, tzn., że każdy element diagonalny macierzy korelacji jest równy 0. Ażeby model czynnikowy był użyteczny, zmienne muszą być skorelowane. Jeśli hipoteza, że zmienne są nieskorelowane jest potwierdzona, w teście Bartletta wystepuje wysoki obserwowany poziom istotności, zwykle powyżej 0,05 (wyższy niż założony alfa). Należy wtedy rozważyć użycie modelu czynnikowego. Jeżeli założymy, że badanie jest eksperymentalne, można przyjąć wyższy założony poziom istotności alfa, na przykład 0,1.
1