Konrad Jankowski i Marcin Zajenkowski
5. Jakich informacji o teście dostarcza testowanie
5.3. Metody badania rzetelności testu
Z zaprezentowanej w poprzednim rozdziale definicji rzetelności wynika, że jest to stosunek wariancji wyników prawdziwych do wariancji wyników otrzymanych. Jednakże wynik prawdziwy nie jest wielkością bezpośrednio obserwowalną, więc nie można również obliczyć bezpośrednio wariancji wyników prawdziwych. Oznacza to, że ze wzoru definicyjnego nie da się obliczyć rzetelności testu. Opracowano więc szereg metod, które to umożliwiają. I tak, operacyjnie definiuje się rzetelność jako powtarzalność wyników. Mówiąc inaczej, im wyższa rzetelność testu, tym wyniki z drugiego pomiaru są bardziej zbliżone do wyników z pierwszego badania, co w praktyce będzie oznaczało wysoką korelację między nimi. Należy zauważyć, że oba pomiary mogą być zależne od siebie, gdyż osoba badana podczas drugiego badania testem będzie już go znała, będzie przypuszczalnie w innym stanie psychofizycznym a warunki zewnętrzne będą prawdopodobnie inne. Wprowadza się zatem pojęcie testów równoległych, które wyznacza warunki jakie powinny być spełnione, aby uzyskany współczynnik korelacji między pomiarami można interpretować jako rzetelność testu.
Testy równoległe to takie, które spełniają następujące założenia:
A=
B, czyli średnia wyników w teście A równa się średniej wyników w teście B;
SDA=SDB, czyli odchylenie standardowe w teście A jest takie jak w teście B;
riAjA=r iBjB, czyli interkorelacje pozycji w teście A są takie jak w teście B;
rAZ=rBZ, czyli korelacja wyników testu A z jakąś zmienną Z jest taka jak korelacja wyników testu B z tą samą zmienną Z.
Ponadto, co jest oczywiste, testy równoległe powinny mierzyć ten sam konstrukt teoretyczny. W przeciwnym wypadku nawet na podstawie wysokiego współczynnika korelacji między dwoma testami spełniającymi warunki równoległości, nie będzie można wnioskować o tym na ile wynik otrzymany w teście odzwierciedla wynik prawdziwy.
Poniżej opisane są praktyczne metody szacowania rzetelności. Założenie o równoległości testów dotyczy każdej z nich. I tak, w wypadku badania wiarygodności testu i stabilności bezwzględnej istotne jest, aby założenie równoległości było spełnione dla obu pomiarów tym samym testem. Przy badaniu równoważności międzytestowej i stabilności względnej istotne jest by założenie równoległości spełniały wersje alternatywne testów. Natomiast w badaniu rzetelności metodą połówkową jako testy równoległe traktowane są połowy testu, a w zgodności wewnętrznej poszczególne jego pozycje.
Należy zauważyć, że na współczynnik rzetelności, uzyskane przez zastosowanie każdej z metod, wpływają różne czynniki. Podstawowym czynnikiem, który interesuje badacza jest rzetelność testu. Ponadto występują dodatkowe czynniki, wpływające na wielkość współczynnika rzetelności, które są związane ze specyfiką konkretnej procedury badania rzetelności. Stanowią one dodatkowe źródło błędu pomiaru, zniekształcając tym samym wielkość współczynników rzetelności. Ważne jest, aby dobierając metodę badania rzetelności minimalizować wpływ tych dodatkowych czynników, tak, by uzyskany współczynnik rzetelności związany był przede wszystkim z doskonałością samego testu.
5.3.1. Metoda powtarzanego pomiaru
Metoda szacowania rzetelności za pomocą powtarzanego pomiaru polega na dwukrotnym badaniu tych samych osób tym samym testem. Miarą rzetelności jest siła związku pomiędzy wynikami z obu badań. Takie oszacowanie może być przeprowadzone na dwa sposoby, różniące się odstępem czasu między pierwszym i drugim badaniem.
Pierwszy z nich nazywany jest estymacją wiarygodności testu. Polega na tym, iż badani wykonują ten sam test dwa razy z rzędu, tzn. po skończeniu pierwszego badania następuje natychmiast drugie. Miarą rzetelności jest tu współczynnik korelacji pomiędzy wynikami obu pomiarów testem grupy osób. Badacze wskazują na szereg możliwych źródeł błędu związanych z tą metodą. Na wyniki pomiaru mogą bowiem, oprócz niedoskonałości narzędzia, wpływać chwilowe oscylacje funkcji poznawczych, stanu organizmu, pamięci i nabyta wprawa w wykonaniu testu a także zmęczenie (Choynowski, 1971). Metoda ta powinna zatem być stosowana jedynie w przypadku testów, w których powtarzanie badania nie wpływa istotnie na wyniki, np. testów motorycznych, czy testów, w których wskaźnikiem jest czas reakcji.
Drugi sposób szacowania rzetelności przy pomocy powtarzanego pomiaru tym samym testem polega na tym, iż pomiędzy pierwszym i drugim badaniem tej samej grupy osób wprowadza się jakiś odstęp czasowy, np. tydzień, dwa miesiące itp. Metoda ta nazywa się estymacją stabilności bezwzględnej testu lub popularnie test-retest (czasem używa się również nazwy stałość testu). Wielkość współczynnika korelacji (najczęściej r Pearsona) pomiędzy dwoma zbiorami wyników (z pierwszego i drugiego wykonania testu) jest tu miarą rzetelności. Stabilność bezwzględna mówi o tym, na ile wyniki testu są niezależne od losowych czynników związanych z osobą badaną lub sytuacją badania i na ile są stałe w czasie. Kwestia interpretacji współczynnika stabilności bezwzględnej jako stałości wyników w czasie zostanie bardziej szczegółowo omówiona w dalszej części rozdziału.
Psychometrzy wskazują na problemy związane z tą techniką (np. Brzeziński, 1996). Wiążą się one z faktem, iż osoby badane mają do czynienia dwukrotnie z tym samym testem. Prezentowany podczas drugiej sesji materiał nie jest dla nich nowy, tak jak przy pierwszym badaniu. Na wyniki drugiego pomiaru mogą zatem wpływać takie czynniki jak pamięć czy uczenie się. Może to być szczególnie widoczne w testach inteligencji, np. takich, w których sprawdza się czyjąś wiedzę ogólną (np. w podteście „Wiadomości” z WAIS-R) lub znajomość synonimów słów (w podteście „Synonimy” z APIS-Z). Należy zdawać sobie sprawę, iż badając kogoś dwukrotnie tym samym testem, nie możemy wykluczyć, że w przerwie między pomiarami ktoś po prostu posiądzie nową wiedzę i np. dowie się jaki jest synonim słowa prezentowanego we wcześniejszym badaniu. Ważne jest zatem, aby badana właściwość nie uległa zmianie podczas przerwy między pierwszym i drugim badaniem testem.
W pewnych przypadkach zmiana właściwości jest na tyle wyraźna, że stosowanie metody test-retest staje się w ogóle nieuzasadnione. Będzie to szczególnie zauważalne u dzieci, które podlegają dynamicznemu rozwojowi. Dobrym przykładem jest tu test DMI (Diagnoza Możliwości Intelektualnych) opracowany przez Matczak (2001). Zdaniem autorki test ma mierzyć zdolność do operacyjnego myślenia, zgodnie z koncepcją Piageta. Owa zdolność kształtuje się w stadium operacji konkretnych (czyli w wieku od 6-7 lat do 11-12 lat). Badając zmiany rozwojowe, Matczak porównywała poprawność wykonania DMI-2M w różnych grupach wieku dzieci (od 6 do 10 lat). Okazało się, że poprawność wykonania istotnie wzrasta wraz z wiekiem. Pomiar stabilności bezwzględnej byłby w tym przypadku wysoce ryzykowny, gdyż zmiany w wykonaniu zadań mogłyby być widoczne nawet w krótkim okresie. Oznaczałoby to, że nie zostało spełnione założenie o równoległości testów, ponieważ średnia w drugim pomiarze byłaby wyższa niż w pierwszym. W związku z tym rzetelność szacowano inną metodą - zgodności wewnętrznej.
Podstawowym problemem staje się długość przerwy pomiędzy pomiarami. Niestety nie ustalono optymalnego odstępu czasowego. W związku z tym proponuje się, aby przerwa pomiędzy badaniami była na tyle długa, aby badani zdążyli zapomnieć prezentowany wcześniej materiał. Jednakże zbyt długa przerwa może spowodować, iż cecha mierzona przez test zmieni się u badanego.
Biorąc pod uwagę powyższe zastrzeżenia badacze proponują, aby przerwa między pomiarami wahała się, od kilku tygodni do kilku miesięcy. Odstęp zależy zazwyczaj od specyfiki przedmiotu pomiaru. Badając styl (np. poznawczy) czy postawę możemy oczekiwać szybszych zmian (zalecana przerwa krótsza), niż w przypadku np. cech temperamentu (zalecana przerwa dłuższa). W polskiej adaptacji Kwestionariusza Radzenia Sobie w Sytuacjach Stresowych (ang. Coping Inventory of Stressful Situations, CISS) badano stabilność bezwzględną stylów radzenia sobie ze stresem w odstępie 2-3 tygodni (Strelau, Jaworowska, Wrześniewski i Szczepaniak, 2005). Korelacje dla poszczególnych skal były dość wysokie i wahały się od 0,73 do 0,80.
Strelau i Zawadzki (1997) w badaniach nad FCZ-KT (Formalna Charakterystyka Zachowania - Kwestionariusz Temperamentu), narzędziem do pomiaru cech temperamentu postulowanych przez regulacyjną teorię temperamentu, zdecydowali się oszacować stabilność bezwzględną krótkoterminową (dwutygodniowa przerwa pomiędzy badaniami) oraz długoterminową (przerwa sześciomiesięczna). Współczynniki korelacji dla stałości krótkoterminowej wahały się od 0,68 do 0,93, a dla długoterminowej od 0,55 do 0,90 (w zależności od wieku i płci badanej grupy).
Warto zwrócić uwagę, że na wyniki badania metodą test-retest, oprócz pamięci i uczenia się, mogą wpływać również czynniki związane z konkretną sytuacją, w której dokonywany jest pomiar (np. pora dnia, nastawienie badacza itp.) oraz stan osoby badanej (aktualny nastrój, stan fizyczny itp.). Wybierając stabilność bezwzględną do szacowania rzetelności testu należy o tym pamiętać. Ma to szczególne znaczenie w przypadku narzędzi mierzących stan, a nie cechę. Przykładem może być Przymiotnikowa Skala Nastroju UMACL (ang. UWIST Mood Adjective Check List). Goryńska (2005) dokonując polskiej adaptacji zdecydowała się m.in. oszacować stabilność poszczególnych wymiarów nastroju. Oczekiwała jednak, że korelacje pomiędzy pomiarami w odstępie jednego tygodnia będą istotne, choć niezbyt wysokie. Okazało się, iż współczynniki korelacji wahały się od 0,28 do 0,47, co w tym przypadku było zgodne z teorią, ponieważ nastrój, czyli stan, inaczej niż cecha, podlega względnie szybkim zmianom. Zastosowana metoda stabilności bezwzględnej miała w tym wypadku jednak więcej wspólnego z badaniem trafności teoretycznej niż rzetelności.
5.3.1.1. Stabilność czasowa a założenie o równości średnich
W większości testów psychologicznych przy pomiarze stabilności testu, zarówno bezwzględnej jak i względnej (por. rozdział 5.3.2), bierze się pod uwagę współczynnik korelacji, którego wysokie wartości interpretuje się jako wysoką stałość wyników testu w czasie. Należy podkreślić, że powyższa interpretacja jest prawdziwa jedynie, jeśli spełnione są założenia równoległości pomiarów testowych, szczególnie zaś założenie o równości średnich w obu pomiarach. Korelacja sama w sobie mówi jedynie o powiązaniu wyników w obu pomiarach, ich względnym uporządkowaniu, tzn. osoby, które miały wyższe wyniki w pierwszym pomiarze będą miały też wyższe wyniki w drugim pomiarze. Aby mówić o stałości wyników w czasie szczególnie istotne jest spełnienie założenia o równości średnich w obu pomiarach dla danej grupy osób. W praktyce założenie to często jest pomijane, co może prowadzić do poważnych błędów interpretacyjnych współczynnika stabilności. Zilustruje to poniższy przykład zawarty w tabeli 1. Skonstruowano dwa testy, A i B. Zbadano stabilność bezwzględną każdego z nich dla 5 osób. Okazało się, że współczynnik korelacji dla obu pomiarów testem A wyniósł 1, i podobnie korelacja dla obu pomiarów testem B również wyniosła 1. Interpretując jedynie współczynniki korelacji (bez sprawdzenia założeń o równoległości pomiarów) można by stwierdzić, że wyniki w teście A i wyniki w teście B są tak samo, idealnie stałe w czasie. Jednak biorąc pod uwagę średnie można zauważyć, że powyższa interpretacja jest słuszna jedynie w wypadku testu A, gdzie w pomiarze pierwszym (A1) i drugim (A2) średnie w istocie są równe. Dla pomiarów w teście B, choć korelacja również wynosi 1, to średnia w drugim pomiarze (B2) jest wyższa o dwie jednostki od tej w pierwszym (B1). Zatem, wyniki osób w teście B nie były stabilne w czasie, lecz nastąpiło systematyczne ich podwyższenie (może się tak zdarzyć np. przy badaniu stabilności testu inteligencji u dzieci).
Tabela 1. Wyniki dwukrotnego badania testem A (A1,A2) i testem B (B1,B2) grupy pięciu osób
Nr osoby |
A1 |
A2 |
B1 |
B2 |
1 2 3 4 5 |
5 4 3 2 1 |
5 4 3 2 1 |
5 4 3 2 1 |
7 6 5 4 3 |
Średnia |
3 |
3 |
3 |
5 |
Korelacja |
rA1A2=1 |
rB1B2=1 |
Podsumowując, interpretacja współczynnika stabilności testu, jako niezmienności wyników w czasie, jest uprawniona tylko, jeśli są spełnione założenia o równoległości testów, szczególnie o równości średnich w obu pomiarach.
Wiarygodność testu służy do badania rzetelności testu oraz wskazuje na stopień w jakim wynik testu jest zależny od chwilowych, przypadkowych zmian. Polega na dwukrotnym badaniu tych samych osób tym samym testem. Stabilność bezwzględna służy do badania rzetelności testu oraz pokazuje w jakim stopniu wyniki testu są wrażliwe na przypadkowe zmiany związane z dłuższym upływem czasu. Polega na badaniu dwa razy tych samych osób tym samym testem z przerwą czasową między pomiarami. |
5.3.2. Metoda wersji alternatywnych
W poprzednim paragrafie omówiono metody szacowania rzetelności za pomocą dwukrotnego badania tej samej grupy osób tym samym testem. Niniejsza część poświęcona jest metodom szacowania rzetelności za pomocą dwukrotnego badania tej samej grupy osób wersjami alternatywnymi testu. Można zauważyć spore podobieństwo między szacowaniem rzetelności metodą test-retest a metodą wersji alternatywnych. Jedyną różnicą między powyższymi dwiema metodami w zakresie procedury badania jest posłużenie się tym samym testem albo posłużenie się wersjami alternatywnymi testu.
Badanie rzetelności metodą wersji alternatywnych ma następujący przebieg. Po pierwsze należy skonstruować dwie wersje danego testu. Obie wersje powinny różnić się pod względem treści, tzn. składać się z innych treściowo pozycji, ale jednocześnie spełniać założenie równoległości (por. idea testów równoległych paragraf 5.3). Następnie należy przebadać tę samą grupę osób najpierw jedną, a potem drugą wersją danego testu.
Podobnie jak za pomocą metody test-retest, tak poprzez zastosowanie procedury testów alternatywnych można uzyskać dwa współczynniki rzetelności, w zależności od zastosowanej długości przerwy czasowej między pomiarem pierwszą i drugą wersją testu.
Współczynnik równoważności międzytestowej pod względem zastosowanej przerwy czasowej między pomiarami jest odpowiednikiem współczynnika wiarygodności w metodzie test-retest. Inaczej mówiąc współczynnik równoważności międzytestowej uzyskuje się korelując ze sobą wyniki z dwóch testów alternatywnych przeprowadzonych na tej samej grupie osób, przy czym między badaniem oboma testami nie ma przerwy czasowej. Po zakończeniu rozwiązywania pierwszej wersji osoby badane natychmiast przystępują do rozwiązywania drugiej wersji testu. Uzyskany w ten sposób współczynnik korelacji, najczęściej r Pearsona, traktuje się jako współczynnik równoważności międzytestowej.
Współczynnik stabilności względnej to korelacja między wynikami w dwóch testach alternatywnych uzyskanych przez tę samą grupę osób, ale pomiędzy badaniem testem pierwszym i testem drugim wprowadza się przerwę czasową. Długość tej przerwy powinna być dobrana w zależności od tego co mierzą testy alternatywne oraz od specyfiki grupy, dla której chcemy oszacować rzetelność testów. Jeśli testy przeznaczone są do pomiaru względnie stałych czasowo właściwości, jak np. cech temperamentu, to przerwa ta może być dłuższa, np. kilka miesięcy. Dłuższych przerw zazwyczaj nie stosuje się ze względu na potencjalne trudności badawcze - mogłoby być trudno dotrzeć do tych samych osób np. po upływie kilku lat. Jeśli istnieje podejrzenie, że badana właściwość psychiczna może szybko ulegać zmianom, to przerwa między oboma pomiarami powinna być krótsza. Krótkie przerwy czasowe będą również właściwsze w przypadku osób, u których badana właściwość może szybko ulec zmianie ze względów rozwojowych. Grupą taką z pewnością będą dzieci. Łatwo można wyobrazić sobie, że poziom wykonania np. testu inteligencji zmieniłby się znacznie gdyby przebadano dzieci w piątej klasie, a następnie te same dzieci po roku, w szóstej klasie. Zważywszy, że dodatkowo występują różnice w tempie rozwoju dzieci, to uzyskany współczynnik korelacji między pomiarami testami alternatywnymi byłby zniekształcony. Nie odzwierciedlałby zatem tego, jak dokładny jest pomiar tymi testami. Generalnie, problemy z ustaleniem przerwy czasowej między pomiarami podczas szacowania stabilności względnej są identyczne jak w wypadku stabilności bezwzględnej (por. rozdział 5.3.1)
Współczynnik równoważności międzytestowej służy do badania rzetelności testu oraz wskazuje na stopień podobieństwa między wersjami alternatywnymi testu. Polega na dwukrotnym badaniu tych samych osób, po kolei dwiema wersjami testu. Współczynnik stabilności względnej służy do badania rzetelności testu oraz wskazuje na stopień podobieństwa między wersjami alternatywnymi testu i na przypadkowe zmiany wyników związane z upływem czasu. Polega na zbadaniu tych samych osób pierwszą wersją testu a po upływie pewnego czasu drugą wersją testu. |
5.3.3 Metoda połówkowa
W poprzednich paragrafach omówiono metody szacowania rzetelności na podstawie dwukrotnego pomiaru. Metoda połówkowa pozwala na oszacowanie rzetelności testu na podstawie jednokrotnego badania tej samej grupy osób jednym testem. Jest to jedna z pierwszych metod badania zgodności wewnętrznej, jakie wymyślono.
Technika ta opiera się na pomyśle wyodrębnienia dwóch testów równoległych w ramach tego samego testu, a następnie skorelowaniu ze sobą wyników uzyskanych w tych połówkach. Procedura badania polega na tym, że grupa osób wykonuje test, następnie test jest dzielony na dwie połówki, po czym koreluje się ze sobą zbiory wyników uzyskanych z pierwszej i drugiej połówki. Tak powstały współczynnik korelacji mówi o rzetelności jedynie połowy testu. Dlatego też należy skorzystać ze wzoru Spearmana-Browna, który pozwala oszacować rzetelność całego testu na podstawie rzetelności jego połowy:
(5.1)
rtt - rzetelność całego testu
rpp - współczynnik korelacji między połówkami testu
Podstawiając w miejsce rpp wartość współczynnika korelacji między połowami testu otrzymamy współczynnik rzetelności całego testu.
Warto zauważyć, że wzór na rzetelność połówkową jest specjalnym przypadkiem ogólniejszego wzoru Spermana-Browna na zależność między rzetelnością testu a zmianą jego długości.
(5.2)
rttn - współczynnik rzetelności testu po jego przedłużeniu
rtti - współczynnik rzetelności testu przed jego przedłużeniem
n - współczynnik przedłużenia testu (ile razy należy przedłużyć test)
Powyższy wzór pozwala na oszacowanie rzetelności testu (rttn) po jego n krotnym przedłużeniu, znając rzetelność testu przed przedłużeniem (rtti). Skoro znamy rzetelność połowy testu, to rzetelność całego testu to inaczej rzetelność połowy testu po dwukrotnym przedłużeniu. W takim razie, gdy wstawimy za n wartość 2, to otrzymamy wzór 5.1. Ze wzoru 5.2 wynika, że rzetelność testu wzrasta w miarę jego wydłużania, w związku z tym rzetelność całego testu będzie zawsze większa niż rzetelność jego połówek (niż korelacja miedzy połówkami testu).
Podstawowe pytanie dotyczy tego, w jaki sposób podzielić test na połowy. Podział ten powinien być przeprowadzony tak, aby połówki testu były względem siebie równoległe. Możliwych jest kilka rozwiązań.
Prosty podział na połowy zachodzi wtedy, gdy np. narzędzie zawierające 10 pozycji testowych, podzielono by w ten sposób, że w pierwszej połowie znajdą się te o numerach 1-5, a w drugiej o numerach 6-10. Podział taki może mieć sens w przypadku krótkich testów o podobnych wskaźnikach trudności pozycji (np. kwestionariuszy osobowości). Jeśli kolejne pozycje testowe miałyby rosnące wskaźniki trudności, to przy takim podziale otrzymano by połowę łatwą i połowę trudną, a więc założenie o równoległości połówek testu byłoby złamane. Jeśli test byłby bardzo długi to nastawienie osoby badanej mogłoby być istotnie różne podczas rozwiązywania pierwszej i drugiej połowy testu (np. zmęczenie), a więc różnice w sytuacji badania mogłyby w efekcie doprowadzić do złamania założenia o równoległości połówek.
Dobór losowy sprowadza się do podzielenia pozycji do obu połówek w sposób przypadkowy. Metoda taka jest odpowiednia, jeśli poszczególne pozycje testu nie różnią się zbytnio ze względu na ich trudność. Zatem może być właściwa dla kwestionariuszy osobowości. Natomiast, jeśli trudność pozycji wzrasta, tak jak to się często zdarza w przypadku testów inteligencji, to moglibyśmy otrzymać dwie połowy testu różniące się trudnością.
Dobór parzyste-nieparzyste polega na tym, że do jednej połówki testu włącza się pozycje testowe o numerach parzystych, a do drugiej o numerach nieparzystych. Dzięki temu, przy wzrastającej trudności kolejnych pozycji, zadania łatwe i trudne rozłożą się do obu połówek równomiernie, dzięki czemu połowy testu będą do siebie zbliżone pod względem trudności.
Dobór uwzględniający właściwości pozycji testowych, polega na tym że do obu połówek przydziela się pozycje, tak aby połówki testu spełniały założenia testów równoległych. Kryterium podobieństwa może być też trudność pozycji i w efekcie związana z tym trudność obu połówek testu. Metoda ta będzie odpowiednia dla testów, których pozycje nie są równoległe, ale da się utworzyć równoległe połówki testu. Przykładem mogą być testy, których pozycje mają różny format odpowiedzi, tzn. w teście znajdują się pozycje posiadające dwu, trzy, cztero-kategorialny format odpowiedzi.
Dobór pozycji testowych do obu połówek ma zasadnicze znaczenie dla wielkości współczynnika rzetelności. Najniższa wartość współczynnika rzetelności wystąpi jeśli pozycje testu będą wysoko skorelowane w obrębie swojej połówki testu i nisko między połówkami testu. Przypadek taki otrzymalibyśmy gdyby np. w teście o rosnącej trudności pozycji zastosować prosty podział na połowy. Wtedy odpowiedzi na pozycje w obrębie połówek testu byłyby wysoko skorelowane ze sobą, natomiast korelacja między połówkami byłaby niska. Natomiast najwyższa wartość współczynnika rzetelności w metodzie połówkowej wystąpi, jeśli wysoko skorelowane pozycje zostaną rozdzielone do oddzielnych połówek testu.
Metodę połówkową zastosowano m.in. do analizy rzetelności w Teście Matryc Ravena wersja dla Zaawansowanych (Jaworowska i Szustrowa, 1992). W narzędziu tym mamy do czynienia z rosnącą trudnością zadań, a zatem autorki polskiej adaptacji zdecydowały się podzielić test na dwie połówki ze względu na pozycje parzyste i nieparzyste. Następnie oszacowały rzetelność testu przy pomocy wzoru Spearmana-Browna, uzyskując wartość 0,8.
Metoda połówkowa służy do badania rzetelności testu oraz wskazuje na stopień podobieństwa między jego połówkami. Polega na jednokrotnym badaniu testem grupy osób. |
Zgodność wewnętrzna
Inną techniką, obok metody połówkowej, oszacowania rzetelności po jednokrotnym badaniu danym testem jest estymacja zgodności wewnętrznej (ang. internal consistency). Kuder i Richardson (2005) zwrócili uwagę na niejednoznaczność wyniku procedury dzielenia na połowy. Stwierdzili, iż podział testu na dwie połówki jest arbitralny i w zależności od sposobu przepołowienia otrzymamy inne oszacowanie rzetelności.
W celu uniknięcia tego problemu przyjęli założenie, iż test składający się z n pozycji można podzielić na n części. Wynika z tego, że liczba wszystkich możliwych części testu równa jest liczbie jego pozycji. Aby otrzymać dobre oszacowanie zgodności wewnętrznej trzeba również przyjąć, że pozycje testowe są równoległe (mają równe średnie i wariancje) oraz że wszystkie pozycje w teście mierzą ten sam czynnik (cechę).
Obaj autorzy opracowali 21 wzorów, z czego najczęściej stosowane są dwa (nazywane skrótowo od ich nazwisk KR20 i KR21). Pierwszy z nich odnosi się do przypadków, w których bierze się pod uwagę średnią wariancję wszystkich pozycji testowych. Wzór ten można przedstawić w następujący sposób:
KR20 =
(5.3)
k = liczba pozycji testowych
pi = proporcja odpowiedzi diagnostycznych (zgodnych z kluczem) na i-tą pozycję testową
qi = proporcja odpowiedzi niediagnostycznych (niezgodnych z kluczem)
sc2 = wariancja wyników ogólnych testu
= suma dla k pozycji
Drugi wzór (KR21) wymaga założenia, że pozycje testowe mają taką samą trudność (równe proporcje odpowiedzi zgodnych i niezgodnych z kluczem). Ma on postać:
KR21 =
(5.4)
k = liczba pozycji w teście,
= średnia trudność pozycji testowych
=
- 1
Wykazano (Cronbach, 2005), że KR20 jest równy średniej współczynników rzetelności połówkowej, policzonych dla wszystkich możliwych podziałów testu na połówki. W praktyce oznacza to, że niektóre oszacowania rzetelności metodą połówkową będą niższe a niektóre wyższe niż współczynnik KR20.
Wzory Kudera i Richardsona przełamały problem metody połówkowej, ale miały pewne ograniczenie. Można je było stosować jedynie do testów z dwukategorialnymi odpowiedziami, czyli odpowiedziami typu: tak - nie, zgadzam się - nie zgadzam się, poprawne - niepoprawne itp. Cronbach (2005) zaproponował wzór, który da się zastosować do wszelkich testów, a więc nie tylko z dychotomicznym formatem odpowiedzi. Metoda ta, obecnie najczęściej stosowana do szacowania zgodności wewnętrznej, uznawana jest za najlepszy sposób szacowania rzetelności (Hornowska, 2003). Dlatego też poświęcimy jej więcej uwagi. Wzór, o którym mowa, znany jako alfa Cronbacha, przedstawia się następująco:
(5.5)
k = liczba pozycji testowych
sc2 = wariancja wyników ogólnych testu
= suma wariancji pozycji testowych.
Rozważmy przykład zastosowania wzoru alfa Cronbacha. W tabeli 2 zamieszczono wyniki pięciu osób z pewnego testu, w którym zakres dostępnych odpowiedzi wyrażony był na skali Likerta (od 1 do 5). W kolejnych kolumnach przedstawiono odpowiedzi każdej osoby, obliczenia wariancji dla całego testu oraz wariancji poszczególnych pozycji testowych.
W celu obliczenia wariancji należy odjąć każdy wynik od średniej, a następnie uzyskaną wartość podnieść do kwadratu. Wariancję stanowi stosunek sumy odchyleń wyników od średniej podniesionych do kwadratu do liczby osób badanych minus jeden. W tabeli 2 przedstawiono kolejne kroki obliczania wyników wariancji całego testu i poszczególnych pozycji testowych.
Kolejne kroki obliczeń, oznaczono jako A, B, C, D w dolnym wierszu tabeli. Wszystkie obliczenia przebiegają w ten sam sposób, zarówno jeżeli chodzi o wariancję całego testu, jak i poszczególnych pozycji. W kroku A należy zsumować wszystkie wyniki otrzymane (całego testu i kolejnych pozycji), a następnie (krok B) policzyć średnią tychże. Znając średnią wartość możemy odjąć od niej każdy poszczególny wynik otrzymany, jak też zostało to uczynione w kolumnie oznaczonej (X-
). Otrzymane w ten sposób wartości należy podnieść do kwadratu (wynik tego działania przedstawia w tabeli kolumna (X-
)2). W kroku C należy zsumować wszystkie wartości podniesione do kwadratu, a następnie podzielić je przez liczbę osób badanych minus jeden (krok D). W ten sposób uzyskano wariancje odpowiednio dla całego testu oraz każdej kolejnej pozycji.
Tabela 2. Wyniki poszczególnych pozycji testowych oraz wyniki ogólne dla 5 osób badanych w teście składającym się z 4 pozycji.
Osoby |
Pozycje testowe |
Cały test |
Pozycja 1 |
Pozycja 2 |
Pozycja 3 |
Pozycja 4 |
|
1 2 3 4 |
ΣXc (Xc- |
X1 (X1 - |
X2 (X2- |
X3 (X3- |
X4 (X4- |
1 2 3 4 5 |
3 1 1 2 2 4 5 4 5 5 4 5 4 2 2 3 1 3 3 1 |
7 -5 25 15 3 9 19 -7 49 11 -1 1 8 -4 16 |
3 0 0 2 -1 1 5 2 4 4 1 1 1 -2 4 |
1 -2 4 4 1 1 5 2 4 2 -1 1 3 0 0 |
1 -2 4 5 2 4 4 1 1 2 -1 1 3 0 0 |
2 -1 1 4 1 1 5 2 4 3 0 0 1 -2 4 |
Kolejne kroki A. obliczeń: B. C. D. |
Σ Xc = 60
Σ(Xc - sc2 = 25 |
Σ X1 = 15
Σ(X1- s12 = 10/4 |
Σ X2 = 15
Σ( X2 - s22 = 10/4 |
Σ X3 = 15
Σ( X3- s32 = 10/4 |
Σ X4 = 15
Σ( X4 - s42 = 10/4 |
X = wynik otrzymany przez daną osobę
= średnia wyników otrzymanych
ΣX = suma wyników otrzymanych
(X-
) = odchylenie wyniku otrzymanego przez daną osobę od średniej
(X-
)2 = kwadrat odchylenia wyniku otrzymanego przez daną osobę od średniej
Σ(X-
)2 = suma kwadratów odchyleń wyników otrzymanych od średniej
s2 = wariancja wyników
W powyższym przykładzie wariancja każdej pozycji wynosi 2,5, zatem suma wariancji wszystkich pozycji równa się 10. Wariancja całego testu wynosi 25. Podstawiając uzyskane dane do wzoru 5.5 otrzymujemy:
=0,8
Zgodność wewnętrzna wskazuje na ile dany test jest jednorodny (homogeniczny), czyli na ile wszystkie pozycje w teście odnoszą się do tej samej cechy (czynnika). Im bardziej jednorodny zbiór pytań (zadań) tworzących test (tzn. wysoko skorelowanych ze sobą), tym wyższą otrzyma się zgodność wewnętrzną.
Założenie o jednoczynnikowej strukturze testu może być szczególnie ważne w przypadku baterii testów. Przykładem takiego testu jest narzędzie do pomiaru inteligencji APIS-Z (Matczak, Jaworowska, Szustrowa i Ciechanowicz, 1995), które składa się z ośmiu podtestów. Autorki uznały, że chcąc oszacować rzetelność dla wyniku ogólnego (sumy wyników przeliczonych z poszczególnych podtestów) należy wybrać inną metodę niż zgodność wewnętrzna, gdyż w przypadku tej baterii testów trudno mówić o jej jednorodności.
Oszacowanie rzetelności metodą zgodności wewnętrznej stosowano m.in. w Inwentarzu Osobowości NEO-FFI Costy i McCrae. Narzędzie to stworzono do pomiaru tzw. Wielkiej Piątki, czyli ekstrawersji, neurotyczności, otwartości na doświadczenie, sumienności i ugodowości. Zdaniem autorów są to cechy uniwersalne, co oznacza możliwość ich wyodrębnienia niezależnie od badanej kultury, płci i wieku itd. Autorzy polskiej adaptacji (Zawadzki, Strelau, Szczepaniak i Śliwińska, 1998) zbadali zgodność wewnętrzną przy użyciu wzoru alfa Cronbacha. Wyniki, w zależności od cechy, wahały się od 0,68 do 0,86. Dokonano także oszacowania rzetelności w grupach jednorodnych ze względu na płeć i wiek. Okazało się, że w grupie kobiet i mężczyzn wartość alfa Cronbacha jest do siebie zbliżona, ale wykazuje dużą zmienność w zależności od wieku badanych. Jednorodność skal obniża się wraz z wiekiem i jest najniższa w grupie osób z przedziału wiekowego 50-80. Współczynnik alfa Cronbacha jest szczególnie niski w przypadku skali otwartości i wynosi 0,44 dla kobiet i 0,50 dla mężczyzn. Przykład ten pokazuje w jaki sposób współczynnik zgodności wewnętrznej może być zależny od konkretnej próby. W jednej grupie test może okazać się bardziej jednorodny, a w innej mniej.
Zgodność wewnętrzna służy do badania rzetelności testu oraz wskazuje na stopień w jakim pozycje testowe odnoszą się do tego samego konstruktu. Polega na jednokrotnym badaniu testem grupy osób. |
Zgodność ocen sędziów
Innym sposobem szacowania rzetelności może być stopień zgodności ocen wydawanych przez sędziów kompetentnych. Metoda ta stosowana jest najczęściej w przypadku testów, w których pytania mają charakter otwarty i nie ma klucza, pozwalającego na jednoznaczną ocenę odpowiedzi badanych. Sędziowie przyznają punkty za odpowiedzi na pozycje testowe tych samych osób. W przypadku tej metody ważne jest aby sędziowie byli dobrze zaznajomieni z przyjętymi kryteriami oceny, a także aby ich oceny były niezależne od siebie. Miarą rzetelności jest tu stopień zgodności między sędziami. Jeżeli test ocenia dwóch sędziów, najczęściej oblicza się prosty współczynnik korelacji (np. r Pearsona), w przypadku większej liczby oceniających wykorzystuje się współczynnik korelacji W Kendalla (zob. np. w Brzeziński, 1996). Wartość (od 0 do 1) współczynnika wskazuje na stopień zgodności między sędziami - im wyższa wartość tym wyższa zbieżność ocen.
Źródłem błędu omawianej metody szacowania rzetelności jest subiektywność ocen sędziów. Na współczynnik zgodności mogą bowiem wpływać różnice pomiędzy sędziami. Duża rozbieżność w ocenach wskazuje na znaczący udział czynników subiektywnych.
Przykładem narzędzia, w którym zastosowano omawianą metodę jest Test Niedokończonych Zdań Rottera (Jaworowska i Matczak, 1998). Test ten składa się z początków zdań, które osoba badana ma uzupełnić zgodnie ze swoimi skojarzeniami i odczuciami. Na podstawie przyjętych kryteriów, diagnosta przyznaje punkty za każde uzupełnienie. Jak zauważają autorki polskiego opracowania, przy tego rodzaju procedurze istnieje element subiektywizmu. Problem rzetelności wiąże się z pytaniem czy gdyby ten sam arkusz odpowiedzi oceniały różne osoby, to wynik ogólny byłby taki sam, czy też nie.
Badając rzetelność tego testu, wylosowano po 30 protokołów mężczyzn i kobiet z każdej z trzech wersji testu. Następnie odpowiedzi osób badanych oceniane były przez dwóch sędziów kompetentnych, dysponujących kryteriami oceny. W celu ustalenia zbieżności między sędziami obliczono współczynnik korelacji rangowej ρ Spearmana. Wartości korelacji wahały się od 0,89 do 0,97.
Zgodność ocen sędziów zastosowano również w Teście Płynności Figuralnej Ruffa (RFFT) (Łojek i Stańczak, 2007). W teście tym, osobie badanej prezentuje się kwadraty z rozmieszczonym w nich układem kropek oraz bodźców zakłócających. Zadaniem badanego jest połączenie linią prostą co najmniej dwóch kropek tak, aby powstała nowa figura. Badający zlicza liczbę unikalnych połączeń oraz liczbę błędów perseweracyjnych. Autorki polskiej adaptacji zwracają uwagę, że w RFFT mogą się pojawić rozbieżności w ocenianiu, wynikające z różnorodności możliwych do popełnienia pomyłek perseweracyjnych. Badacz może czasem błędnie zakwalifikować jako poprawną figurę powtórzoną lub jako niepoprawny wzór oryginalny. W związku z tym, zdecydowano się oszacować rzetelność metodą zgodności sędziów, aby określić na ile jednoznaczny jest algorytm oceniania. Uzyskany wysoki współczynnik W Kendalla wskazywał na dużą zbieżność ocen trzech sędziów oraz mały wpływ czynników subiektywnych.
Zgodność ocen sędziów służy do badania rzetelności testu oraz wskazuje na ile obiektywna jest ocena odpowiedzi osób badanych. Polega na tym, że te same arkusze odpowiedzi są oceniane przez sędziów kompetentnych. |
Porównanie metod szacowania rzetelności
Przed wybraniem którejś z omówionych metod estymacji rzetelności, należy uwzględnić specyfikę testu oraz czynniki wpływające na wartość danego współczynnika. Każdy z nich bowiem, mówi o innym, specyficznym źródle błędu. Poniżej prezentujemy skrótowe zestawienie wszystkich metod szacowania rzetelności (tabela 3).
Tabela 3. Zestawienie metod szacowania rzetelności
Metoda |
Źródło błędu specyficzne dla metody |
Informacje o teście |
Najczęstsze zastosowanie |
Wiarygodność testu |
Losowe zmiany związane ze stanem osoby badanej i sytuacją badania
|
W jakim stopniu test jest wrażliwy na przypadkowe zmiany związane z osobą badaną i sytuacją testowania |
Testy, w kórych uczenie się nie ma wpływu na wyniki np. testy motoryczne; testy na czas reakcji
|
Stabilność bezwzględna
|
Losowe zmiany związane z upływem czasu
|
W jakim stopniu wyniki testu są stałe w czasie |
Przy pomiarze cech np. kwestionariusze osobowości, testy inteligencji |
Równoważność międzytestowa
|
Dobór pozycji do wersji testu |
Stopień podobieństwa między wersjami alternatywnymi testu |
Rzadko stosowana metoda
|
Stabilność względna
|
Dobór pozycji do wersji testu
|
Stopień podobieństwa między wersjami alternatywnymi testu. W jakim stopniu pomiar jest stały w czasie |
Przy pomiarze cech np. kwestionariusze osobowości, testy inteligencji
|
Metoda połówkowa
|
Dobór pozycji do połówek testu
|
W jakim stopniu test jest jednorodny
|
Testy, w których pozycje mają różną trudność np. testy inteligencji |
Zgodność wewnętrzna
|
Niejednorodność pozycji testu
|
W jakim stopniu test jest jednorodny
|
Testy, w których pozycje są równoległe np. kwestionariusze osobowości; testy mierzące style, stany |
Zgodność ocen sędziów
|
Niejasne kryteria oceny odpowiedzi; rozbieżność ocen sędziów
|
W jakim stopniu na ocenę odpowiedzi osób badanych wpływają czynniki subiektywne związane z oceniającymi |
Testy, w których brak jednoznacznych kryteriów oceny odpowiedzi, np. metody swobodne
|
5.3.7. Metody szacowania rzetelności w SPSS
W części tej zostaną zaprezentowane procedury obliczania wyżej omówionych współczynników rzetelności, za pomocą pakietu statystycznego SPSS. Każda omówiona metoda zawiera przykład, który został policzony na danych znajdujących się na dołączonej do podręcznika płycie. W tekście, w nawiasach, znajdują się nazwy plików zawierających dane, na których był liczony konkretny przykład.
5.3.7.1. Metody dwukrotnego badania tej samej grupy osób.
W części tej zostanie opisany sposób obliczania wiarygodności testu, stabilności bezwzględnej, równoważności międzytestowej i stabilności względnej w SPSS. W metodach tych jako współczynnik rzetelności traktowana będzie wartość korelacji r Pearsona między pierwszym i drugim pomiarem danym testem (dla wiarygodności testu i stabilności bezwzględnej) albo między pomiarem testem pierwszym i drugim (dla równoważności międzytestowej i stabilności względnej). Mówiąc inaczej, miarą rzetelności testu będzie wielkość korelacji między dwoma zbiorami wyników danej grupy osób. Wymienione metody zostaną omówione razem, gdyż sposób postępowania w przypadku każdej z nich jest identyczny. Procedura postępowania zostanie omówiona na przykładzie.
W pierwszym kroku należy uzyskać dwa zbiory wyników testu na danej grupie osób i policzyć dla każdej osoby wynik otrzymany (sumaryczny wynik w teście).
Rys. 5.3.1. Okienko arkusza danych z wynikami testu przygotowanymi do analizy stabilności bezwzględnej.
W prezentowanym przykładzie (stabilnosc.sav) przebadano 100 osób dwa razy tym samym testem z tygodniową przerwą między pomiarami (czyli przeprowadzono badanie stabilności bezwzględnej). Test, którego rzetelność sprawdzono składa się z 10 pozycji. W sumie można było uzyskać od 10 do 20 punktów. Obliczono wyniki całkowite dla każdej osoby w pierwszym i drugim pomiarze tym testem, które następnie wprowadzono do arkusza danych SPSSa. Wiersze reprezentują kolejne osoby badane, a kolumny wyniki otrzymane w pierwszym i drugim badaniu (rys 5.3.1). W następnej kolejności należy obliczyć korelację między oboma zbiorami wyników. Jak wspomnieliśmy wcześniej, istotne jest również sprawdzenie równości średnich z obu pomiarów. W tym celu należy wejść w: Analiza -> Porównywanie średnich -> Test t dla prób zależnych (rys 5.3.2).
Rys. 5.3.2. Okienko wyboru testu t dla prób zależnych.
Rys. 5.3.3. Okienko testu t dla prób zależnych.
Po przerzuceniu zmiennych pomiar1 i pomiar2 należy kliknąć OK (rys. 5.3.3).
Rys. 5.3.4. Wydruk analizy testu t dla prób zależnych.
Ukaże się wydruk analizy (rys. 5.3.4). Z tabeli dolnej „Test dla prób zależnych” można odczytać istotność dwustronną, która wskazuje, czy wystąpiły różnice między średnimi pomiaru 1 i pomiaru 2. W prezentowanym przykładzie różnice nie wystąpiły, gdyż istotność dwustronna jest większe od wartości 0,05. Skoro spełnione jest założenie o równości średnich między pomiarami, możemy odczytać wartość korelacji r Pearsona z tabeli „Korelacje dla prób zależnych”. Wynosi ona 0,982 przy poziomie istotności p<0,001. Zatem rzetelność naszego testu badana metodą stabilności bezwzględnej wynosi 0,982. Ponieważ nie wystąpił żaden efekt, który powodowałby podwyższenie lub obniżenie wyników (średnie pomiarów nie różnią się), uprawnione jest stwierdzenie, że wyniki tego testu są stałe w czasie.
5.3.7.2. Metoda połówkowa w SPSS.
W części tej zostanie przedstawiony sposób obliczania rzetelności metodą połówkową Spearmana-Browna w SPSS na poniższym przykładzie.
Skonstruowano kwestionariusz osobowości, składający się z 20 pytań. Zbadano jego rzetelność za pomocą metody połówkowej. Przebadano w tym celu 60 studentów. Ich wyniki zapisano w arkuszu danych programu SPSS (połówkowa.sav). W wierszach znajdują się wyniki kolejnych osób, a w kolumnach o nagłówkach p1,p2,...,p20 znajdują się odpowiedzi na kolejne pytania (rys. 5.3.4).
Rys. 5.3.4. Okienko arkusza danych z wynikami testu przygotowanymi do analizy rzetelności metodą połówkową.
Aby obliczyć rzetelność należy wejść do: Analiza->Skalowanie->Analiza rzetelności (rys. 5.3.5). Następnie należy zaznaczyć model połówkowy oraz przerzucić wszystkie pozycje testu do okna „Elementy:” (rys. 5.3.6).
Rys. 5.3.5. Okienko wyboru analizy rzetelności.
Rys. 5.3.6. Okienko analizy rzetelności z zaznaczonym modelem połówkowym.
Wydruk analizy rzetelności metodą połówkową prezentuje rysunek 5.3.7.
Rys. 5.3.7. Wydruk analizy rzetelności metodą połówkową.
Rzetelność powyższego testu zbadana metodą połówkową wynosi 0,703. Współczynnik Spearmana-Browna w tym przykładzie jest taki sam przy założeniu równej i nierównej długości testu. Wartości te różniłyby się nieznacznie, gdyby test składał się, inaczej niż w powyższym przykładzie, z nieparzystej liczby pozycji.
Korelacja międzypołówkowa to współczynnik korelacji r Pearsona między wyodrębnionymi połowami testu. Po podstawieniu tej wartości (0,542) do wzoru 5.1, w miejsce rpp uzyskalibyśmy wyliczoną wartość współczynnika Spearmana-Browna przy założeniu o równej długości.
Poniżej znajduje się wiersz poleceń do wykonania analizy rzetelności metodą połówkową dla powyższego przykładu.
RELIABILITY
/VARIABLES=p1 p2 p3 p4 p5 p6 p7 p8 p9 p10 p11 p12 p13 p14 p15 p16 p17 p18 p19 p20
/SCALE('ALL VARIABLES') ALL/MODEL=SPLIT.
Podział na połowy dokonuje się w taki sposób, że do pierwszej części zalicza się pozycje od p1 do p10 a do drugiej pozostałe. Aby zbadać rzetelność połówkową przy innym podziale testu na połowy, np. dzieląc go na pozycje parzyste i nieparzyste, to należałoby w oknie „Elementy:” (rys. 5.3.6) wprowadzić najpierw pozycje o numerach nieparzystych (czyli 1, 3, 5 itd.) a następnie o numerach parzystych (czyli 2, 4, 6 itd.). Wiersz poleceń wyglądałby wtedy następująco:
RELIABILITY
/VARIABLES=p1 p3 p5 p7 p9 p11 p13 p15 p17 p19 p2 p4 p6 p8 p10 p12 p14 p16 p18 p20
/SCALE('ALL VARIABLES') ALL/MODEL=SPLIT.
5.3.7.3 Alfa Cronbacha w SPSS
W części tej zostanie przedstawiony sposób obliczania zgodności wewnętrznej za pomocą alfy Cronbacha w SPSS na poniższym przykładzie.
Skonstruowano kwestionariusz osobowości, składający się z 20 pytań, i zaplanowano zbadać jego zgodność wewnętrzną. Przebadano w tym celu 60 osób, a ich wyniki zapisano w arkuszu danych programu SPSS (alfa.sav). W wierszach znajdują się wyniki kolejnych osób, a w kolumnach o nagłówkach p1,p2,...,p20 znajdują się odpowiedzi na kolejne pytania. Aby policzyć alfę Cronbacha należy wejść do: Analiza-> Skalowanie-> Analiza rzetelności (rys. 5.3.5).
Wszystkie pozycje, składające się na skalę, której zgodność będzie badana, należy przerzucić do okna „Elementy:” (rys. 5.3.8). Należy zwrócić uwagę, czy w okienku „Model:” zaznaczona jest „Alfa”. Po kliknięciu przycisku „Statystyki” pokaże się okno (rys. 5.3.9), w którym warto zaznaczyć opcję „Skala przy wykluczeniu pozycji”. Opcja ta umożliwia przewidzenie wartości alfy, jeśli usunięto by daną pozycję z analizy rzetelności. Po kliknięciu „Dalej” i „OK” pojawią się wydruki przeprowadzonej analizy (rys. 5.3.10).
Rys. 5.3.8. Okienko analizy rzetelności z zaznaczoną alfą Cronbacha.
Rys. 5.3.9. Okienko statystyki w analizie rzetelności
Rys. 5.3.10. Wydruk analizy rzetelności metodą alfy Cronbacha.
Wartość alfy należy odczytać z okna „Alfa Cronbacha”. Dla analizowanego kwestionariusza wynosi ona 0,703. Z tabeli „Statystyki pozycji Ogółem” można odczytać, że zgodność wewnętrzna tego kwestionariusza wzrosłaby najbardziej, gdyby usunąć pozycję p19, i wyniosłaby wtedy 0,714. Zatem, można zwiększać zgodność wewnętrzną poprzez eliminowanie kolejnych pozycji, należy jednak pamiętać, aby operację tę przeprowadzać krok po kroku, tzn. usuwać tylko jedną pozycję na raz, następnie przeprowadzić ponowną analizę i znów usunąć pozycję, bez której zgodność skali wzrośnie najbardziej. Operację tę można kontynuować, aż usunięcie jakiejkolwiek pozycji nie spowoduje wzrostu wartości alfy.
Poniżej znajduje się wiersz poleceń do wykonania analizy rzetelności metodą alfy Cronbacha dla powyższego przykładu.
RELIABILITY
/VARIABLES=p1 p2 p3 p4 p5 p6 p7 p8 p9 p10 p11 p12 p13 p14 p15 p16 p17 p18 p19 p20
/SCALE('ALL VARIABLES') ALL/MODEL=ALPHA
/SUMMARY=TOTAL .
5.3.7.4 Rzetelność testu jako zgodność sędziów w SPSS.
W części tej zostanie przedstawiony sposób obliczania zgodności sędziów w SPSS na poniższym przykładzie.
Skonstruowano test rysunkowy do badania nasilenia depresyjności u dzieci. Polega on na poproszeniu dziecka o narysowanie domu na czystej kartce A4, standardowym, dwunastokolorowym zestawem kredek. Przebadano nim dziesięcioro dzieci. Ponieważ nie ma prostego klucza przyznawania punktów za wykonanie tego testu (tzn. nie ma szablonu, który można by przyłożyć do rysunku i zliczyć punkty), poproszono trzech sędziów o ocenę wykonania każdego testu i przyznanie odpowiedniej liczby punktów w zależności od nasilenia depresyjności. Sędziowie dysponują kryteriami do przyznawania punktów, gdzie 0 oznacza brak depresji, a 10 - wysokie jej nasilenie. Oceny testów zostały przedstawione na rysunku 5.3.11.
Rys. 5.3.11. Okienko arkusza danych z wynikami przygotowanymi do analizy zgodności sędziów.
Każdy wiersz reprezentuje sędziego, a kolumny kolejne dzieci, których testy były oceniane.
Zaznaczona komórka reprezentuje ocenę przeprowadzoną przez trzeciego sędziego, testu wykonanego przez dziecko numer 10. Tak przygotowane dane można podać analizie zgodności sędziów (zgodnosc_sedziow.sav). W tym celu należy wejść do: Analiza-> Testy nieparametryczne-> K prób zależnych (rys. 5.3.12) i przenieść wszystkie zmienne do okna „Zmienne testowane” oraz zaznaczyć na dole test „W Kendalla” (jednocześnie odznaczając „Friedman”, dla przejrzystości wydruku analiz) (rys. 5.3.13).
Rys. 5.3.12. Okienko wyboru analizy zgodności sędziów.
Rys. 5.3.13. Okienko testów dla kilku prób zależnych z zaznaczonym W Kendalla.
Rys. 5.3.14. Wydruk analizy W Kendalla
Rysunek 5.3.14 przedstawia wydruk analiz. Najbardziej interesujący jest współczynnik W Kendalla, który wynosi 0,919, przy poziomie istotności 0,003 (W=0,913;chi2(9)=24,811; p<0,01). Oznacza to, że sędziowie dość zgodnie ocenili testy wykonane przez poszczególne dzieci, co oznacza wysoką rzetelność tego testu.
Poniżej znajduje się wiersz poleceń do obliczenia współczynnika W Kendalla dla zaprezentowanego przykładu.
NPAR TESTS
/KENDALL = os1 os2 os3 os4 os5 os6 os7 os8 os9 os10
/MISSING LISTWISE.
Pytania
Wyjaśnij w jaki sposób założenie o równoległości testów odnosi się do wszystkich omówionych metod szacowania rzetelności.
Wskaż podobieństwa i różnice między współczynnikiem stabilności bezwzględnej i współczynnikiem stabilności względnej.
Zbadano dwukrotnie 100 osób pewnym kwestionariuszem osobowości w odstępie 2 tygodni. Uzyskano korelację pomiędzy pomiarami równą 0,8 oraz istotne statystycznie różnice w średnich w obu badaniach. Czy na podstawie uzyskanych wyników możemy powiedzieć, że kwestionariusz ten jest stabilny czasowo? Uzasadnij odpowiedź.
Od czego zależy długość przerwy czasowej w badaniu stabilności względnej?
Skonstruowano test inteligencji płynnej, w którym poziom trudności zadań wzrasta stopniowo. Jakiej metody szacowania rzetelności w grupie dzieci należałoby użyć w tym przypadku? Uzasadnij wybór.
Pewien psycholog skonstruował kwestionariusz osobowości mierzący towarzyskość. Przy estymacji rzetelności interesowało go, aby wszystkie pozycje w teście odnosiły się do tej samej cechy. Jaką metodą powinien oszacować rzetelność swojego kwestionariusza? Uzasadnij odpowiedź.
W pewnym teście ocenia się osobowość osób badanych na podstawie ich skojarzeń z określonymi słowami. Badani mają zapisywać wszystkie skojarzenia jakie przychodzą im do głowy w związku z danym słowem. W celu oszacowania rzetelności tego testu, arkusze odpowiedzi osób badanych przedstawiono trzem kompetentnym psychologom. Poproszono ich, aby na podstawie określonych kryteriów ocenili każdą odpowiedź badanych na skali od 1 do 3. Następnie obliczono współczynnik W-Kendalla i uzyskano wartość 0,1. O czym świadczy ten wynik?
Zadania
W pewnym teście inteligencji postanowiono obliczyć rzetelność metodą połówkową. Po zbadaniu odpowiedniej grupy osób, podzielono test na dwie połówki. W jednej znajdowały się pozycje parzyste a w drugiej nieparzyste. Następnie obliczono współczynnik korelacji między połówkami, który wynosił 0,6. Oblicz rzetelność tego testu.
Poniżej, w tabeli 4, przedstawiono wyniki pięciu osób uzyskane w pewnym kwestionariuszu osobowości. Kwestionariusz składał się z pięciu pozycji a zakres możliwych odpowiedzi wyrażony był na trójstopniowej skali (od 1 do 3). Oblicz jego zgodność wewnętrzną przy użyciu wzoru alfa Cronbacha na podstawie przedstawionych danych.
Tabela 4. Wyniki pięciu osób w kolejnych, czterech pozycjach testowych.
Osoby |
Pozycje testowe |
|
1 2 3 4 |
1 2 3 4 5 |
2 2 1 1 2 1 2 2 3 3 2 3 2 2 2 2 1 2 3 2 |
Zadania w SPSS
Poniżej prezentujemy zadania do obliczenia w SPSS. Dane zawarte są na płycie dołączonej do podręcznika.
Skonstruowano kwestionariusz mierzący pewną cechę osobowości. Przebadano nim dwukrotnie 100 osób w odstępie 3 tygodni. Uzyskane dane zawiera zbiór o nazwie „rzetelnosc1.sav”. Wybierz odpowiednią metodę i zinterpretuj uzyskany współczynnik rzetelności.
Pewnym kwestionariuszem osobowości, składającym się z 20 pytań, zbadano 120 osób. W zbiorze danych o nazwie „rzetelnosc2.sav” przedstawiono odpowiedzi badanych na każde pytanie. Założono, że wszystkie pozycje mają podobne wskaźniki trudności i są względem siebie równoległe. Wybierz najodpowiedniejszą metodę i zinterpretuj uzyskany współczynnik rzetelności.
W zbiorze danych „rzetelnosc3.sav” zawarto wyniki 60 osób uzyskanych w pewnym teście inteligencji. Test składał się z 20 zadań. W każdym z nich badani mogli uzyskać 1 punkt za poprawne rozwiązanie lub 0 za odpowiedź niepoprawną. Zadania miały rosnący stopień trudności. Wybierz odpowiednią metodę i zinterpretuj uzyskany współczynnik rzetelności.
Skonstruowano pewien test do badania pamięci wzrokowej. Polega on na tym, że osobie badanej prezentuje się pewną figurę przez 3 minuty, po czym, po 10 minutach prosi się osobę, aby odtworzyła ją z pamięci. Diagnosta, na podstawie przyjętych kryteriów, ocenia wykonanie zadania na skali od 1 do 10. W celu zbadania rzetelności tego testu poproszono trzech kompetentnych psychologów o ocenienie rysunków 20 osób. Dane z tego badania zawiera zbiór o nazwie „rzetelnosc4.sav”. Wybierz odpowiednią metodę i zinterpretuj uzyskany współczynnik rzetelności.
Bibliografia
Brzeziński, J. (1996). Metodologia badań psychologicznych. Warszawa: PWN.
Choynowski, M. (1971). Podstawy i zastosowania teorii rzetelności testów psychologicznych. W: J. Kozielecki (red.), Problemy psychologii matematycznej (s. 65-118). Warszawa: PWN.
Cronbach, L. J. (2005). Współczynnik alfa a struktura wewnętrzna testów. W: J. Brzeziński (red.), Trafność i rzetelność testów psychologicznych. Wybór tekstów. Gdańsk: GWP.
Goryńska, E. (2005). Przymiotnikowa Skala Nastroju UMACL. Podręcznik. Warszawa: Pracownia Testów Psychologicznych PTP.
Hornowska, E. (2003). Testy psychologiczne. Warszawa: Scholar.
Jaworowska, A., Matczak, A. (2008). Test Niedokończonych Zdań Rottera (RISB). Podręcznik. Warszawa: Pracownia Testów Psychologicznych PTP.
Jaworowska, A., Szustrowa, T. (1992). Podręcznik do Testu Matryc Ravena. Wersja dla Zaawansowanych. Warszawa: Pracownia Testów Psychologicznych PTP.
Kuder, F., Richardson, M. (2005). Teoria estymacji rzetelności testu. W: J. Brzeziński (red.), Trafność i rzetelność testów psychologicznych. Wybór tekstów. Gdańsk: GWP.
Łojek, E., Stańczak, J. (2007). Test płynności figuralnej Ruffa (RFFT). Podręcznik. Warszawa: Pracownia Testów Psychologicznych PTP.
Matczak, A. (2001). Testy operacyjności myślenia: diagnoza możliwości intelektualnych dziecka. Podręcznik. Warszawa: Pracownia Testów Psychologicznych PTP.
Matczak, A., Jaworowska, A., Szustrowa, T., Ciechanowicz, A. (1995). Bateria Testów APIS-Z. Podręcznik. Warszawa: Pracownia Testów Psychologicznych PTP.
Strelau, J., Jaworowska, A., Wrześniewski, K., Szczepaniak, P. (2005). Kwestionariusz radzenia sobie w sytuacjach stresowych CISS. Warszawa: Pracownia Testów Psychologicznych PTP.
Zawadzki, B., Strelau, J. (1997). Formalna Charakterystyka Zachowania - Kwestionariusz Temperamentu. Podręcznik. Warszawa: Pracownia Testów Psychologicznych PTP.
Zawadzki, B., Strelau, J., Szczepaniak, P., Śliwińska, M. (1998). Inwentarz Osobowości NEO-FFI Costy i McCrae. Adaptacja polska. Podręcznik. Warszawa: Pracownia Testów Psychologicznych PTP.
13