egzamin ppp wersja 2, Studia, Psychologia UW - materiały do zajęć, UWPsych - Podstawy pomiaru psychometrycznego - Psychometria


pojęcie testu

Testem jest narzędzie lub procedura służące ocenie. Ich istotą zaś - otrzymanie w określonych warunkach próbki zachowania osób badanych, a następnie dokonanie ich oceny zgodnie z wystandaryzowanymi regułami”.


- rodzaje testów

1). Test, w którym jednostka wykonuje specyficzne zadanie - test ten wymaga maksymalnego wykonania (testy inteligencji, zdolności, wiadomości, sprawności psychomotorycznej). Testy maksymalnego wykonania mogą być testami mocy, testami szybkości lub testami z ograniczeniem czasowym.

2). Test, w którym jednostka sama opisuje swoje zachowanie - test rejestruje samopis typowego zachowania (inwentarze, ankiety, arkusze biograficzne).

3). Test, w którym jednostka jest obserwowana w specyficznej sytuacji lub ogólniej - w wielu określonych sytuacjach - test rejestruje dane obserwacyjne typowego zachowania lub wykonania zadania w naturalnych warunkach (próbki pracy zawodowej, arkusze obserwacyjne, arkusze ocen, arkusze szacowania cech).

Testy jedno-skalowe - interpretacja w terminach intensywności cechy (diagnoza ilościowa) albo interpretacja typologiczna (diagnoza jakościowa).

Testy wielo-skalowe - interpretacja profilu testowego (model cech równorzędnych lub model hierarchiczny), który może być wykorzystany w diagnozie typologicznej lub intraindywidualnej (różnicowej).


- wymagania

Testy muszą być tak skonstruowane, aby ich zastosowanie do pomiaru cech człowieka, charakteryzowało się odpowiednio wysoką rzetelnością, trafnością, obiektywnością, standaryzacją i znormalizowaniem - test zatem musi spełniać te wymagania, by mógł być stosowany, i żeby mógł być nazwany testem.


- stronniczość

Aspekt etyczny diagnozy przy użyciu testu:

Odnosi się do konsekwencji życiowych i społecznych dla osoby badanej, wynikających z pomiaru testem.

a). stronniczość, która prowadzi do dyskryminowania (lub faworyzowania) określonych osób lub grup społecznych, np. w postaci seksizmu, rasizmu, itp.


- pomiar różnicowy, podejścia

Celem pomiaru psychologicznego jest różnicowanie ludzi - określenie ich specyfiki na tle innych osób (populacji odniesienia). Cel ten może być realizowany na dwa sposoby: podejście idiograficzne i nomotetyczne.

Celem podejścia idiograficznego jest uchwycenie specyfiki jednostki porzez wyodrębnienie cech, charakterystycznych tylko dla niej i wskutek tego wyróżniających ją z populacji.

Celem podejścia nomotetycznego jest określenie specyfiki jednostki poprzez wskazanie charakterystycznego dla niej nasilenia cech, wspólnych dla populacji.

Pomiar - proces przyporządkowywania obiektom określonych liczb w taki sposób, aby specyficzne cechy tych obiektów były odzwierciedlone przez własności liczb.

Pomiar (w psychologii) - proces przyporządkowania liczb (tzn. wyników testowych) osobom badanym w taki sposób, aby mierzone testem własności psychologiczne tych osób były odzwierciedlone przez własności liczb.


- rozkład normalny (mezokurtyczny)

Cechy psychologiczne mają rozkład normalny w populacji - jest zatem oczywiste, że testy przeznaczone do pomiaru tych cech powinny dostarczać wyników o rozkładzie normalnym. Na podstawie tego założenia „krzywa normalna” jest traktowana jako model rozkładu wyników testu (wartości ciągłe i równe różnice pomiędzy wszystkimi wartościami wyników testu).

Dla różnicowych cech ilościowych standardem (punktem odniesienia) jest średnia rozkładu normalnego, a zmienność definiowana jest poprzez odchylenie standardowe (lub wariancję) tego rozkładu (wynik sumaryczny wyników pozycji jest dla danej osoby jest informacją o nasileniu jej cechy - cechy badanej przez test).

Charakterystyka rozkładu normalnego:

Wyniki standaryzowane

Mo=0,00 oraz SDo=1,00, przy czym Mo=Me=Mmod

Rozkład symetryczny, wykazujący odpowiednie zagęszczenie wyników wokół średniej (skośność - miara asymetrii oraz kurtoza - miara zagęszczenia)

Znana jest częstość poszczególnych wyników:

Mo + 1,00 - ok. 68% wyników

Mo + 2,00 - ok. 95% wyników

z = + 1,44 (15% wyników dwustronnie)

z = + 1,96 (5% wyników dwustronnie)

z = + 2,58 (1% wyników dwustronnie)


- inne rozkłady

leptokurtyczny, platokurtyczny, dwumodalny, lewoskośny (ujemnie asymetryczny), prawoskośny (dodatnio asym.)


- co oznacza dodanie nowej pozycji

Nowa pozycja dodana do testu zwiększa znacznie wariację całkowitą, jeśli interkorelacje nowej pozycji z innymi pozycjami są dodatnie, ponieważ generuje to duże dodatnie kowariancje. Dodanie pozycji z zerowymi korelacjami zwiększa tylko trochę wariancję całkowitą (bo generuje zerowe kowariancje). Dodanie zaś pozycji o ujemnych korelacjach z innymi pozycjami obniża wariancję całkowitą (ujemne kowariancje).

Tylko pozycje z niezerowymi wariancjami oraz wysokimi pozytywnymi korelacjami powinny być dodawane do testu - znacznie zwiększają one wariancję całkowitą (uzyskanie dużego zróżnicowania wyników testu jest celem pomiaru różnicowego). Dodatnie korelacje oznaczają także, że pozycje mierzą tę samą cechę - generują one realną, a nie losową zmienność.


- teoria rzetelności

Rzetelność oznacza dokładność (precyzję) pomiaru cechy badanej przez test; rzetelność ma dwa aspekty - stabilność pomiaru (powtarzalność wyników badania) oraz konsystencję (precyzję pomiaru).

Pojęcie rzetelności jest bezpośrednio powiązane z pojęciem błędu pomiaru - nie istnieje pomiar bez błędu (zarówno w badaniach naukowych, jak i w praktyce czy ocenach prywatnych. Im większy jest błąd, tym mniejsza jest rzetelność pomiaru danym narzędziem.


- twierdzenia 2,3,4,5 z wykładu 5

T.2:

Mo = Mp + Mb = Mp

(Średnia wyników otrzymanych jest równa średniej wyników prawdziwych testu; średnia wyników otrzymanych nie jest zniekształcona przez błąd).

T.3:

So2 = Sp2 + Sb2

(Wariancja wyników otrzymanych jest równa sumie wariancji wyników prawdziwych oraz wariancji błędu; nie ma kowariancji pomiędzy wynikami prawdziwymi oraz błędem; wariancja wyników otrzymanych jest zniekształcona przez błąd).

T.4:

Sp2 Sb2

Rtt = ----- lub Rtt = 1- ------

So2 So2

(Rzetelność pomiaru testem)

T.5:

Sbp = So (1 - Rtt)

(Standardowy błąd pomiaru wyników otrzymanych)


- teoria testów równoległych

Testy równoległe: M1 = M2, S12 = S22

(mierzą tę samą cechę z taką samą dokładnością).

Testy równoważne: M1 = M2

(mierzą tę samą cechę, ale nie tak samo dokładnie).

Testy quasi-równoważne: M1 = M2 + c

(mierzą tę samą cechę wraz z dodatkowym czynnikiem).


- metody badania rzetelności

(podane wyżej)


- wzory dot. rzetelności pomiaru

(j.w.)


- wzór Spearmana-Browna, wzór Guttmana, wzór alfy Cronbacha

wzór S-B:

N Rtt

Rttn = ---------------------

1 + [ (N - 1) Rtt ]

gdzie Rttn - to rzetelność testu po przedłużeniu, N - wielkość (krotność) przedłużenia, a Rtt - rzetelność testu przed przedłużeniem (w miejsce współczynnika rzetelności można wstawiać współczynnik korelacji między połówkami testowymi)

wz. Guttmana:

(Sa2 + Sb2)

Rtt = 2 [ 1 - --------------- ]

St2

gdzie St2 to wariancja wyników całego testu, a Sa2 i Sb2 to wariancje połówek testowych

wz. Cronbacha:

N Si2

= -------- (1 - -------)

N - 1 St2

gdzie N - liczba pozycji testu, St2 - to wariancja wyników całego testu, a Si2 to suma wariancji pozycji testu


- metody badania stabilności

Stabilność bezwzględna (powtórny pomiar tym samym testem)

Stabilność względna (powtórny pomiar wersją równoległą testu)

Forma oboczna - test-retest (pomiar tym samym testem raz po razie)


- standardowy błąd estymacji

Sbe = Sbp Rtt

a wynik prawdziwy:

Xe = Rtt Xo + (1 - Rtt) Mo


- wyznaczanie przedziałów ufności

W celu wyznaczenia przedziału ufności należy wyznaczyć półprzedział, tzn. Sbp lub Sbe przemnożyć przez wartość 2,58 (99% pewność), 1,96 (95% pewność) albo 1,44 (pewność 85%, tj. 15% błąd oszacowania) oraz dodać i odjąć od wyniku otrzymanego lub oszacowanego wyniku prawdziwego - granice przedziału ufności.


- trafność pomiaru - definicja, rodzaje

Trafność pomiaru testem to:

a). stopień, w jakim test mierzy cechę, jaką ma mierzyć (trafność teoretyczna czy inaczej trafność zorientowana na konstrukt);

b). stopień dokładności przewidywania określonych kryteriów praktycznych (trafność kryterialna lub inaczej trafność podejmowanych decyzji).

Pojęcie trafności odwołuje się do założeń Klasycznej Teorii Testów, zgodnie z którymi wyniki prawdziwe i błędy pomiaru są nieskorelowane, jak i błędy są nieskorelowane (rtb = 0 oraz rbb = 0), co oznacza, że obserwowane korelacje (między pozycjami, testem i innymi testami oraz testem a kryteriami) są korelacjami wyników prawdziwych.

Trafność a rzetelność:

Rzetelność jest koniecznym , ale niewystaczającym warunkiem trafności pomiaru. Oznacza to, że test może być rzetelny i nietrafny, ale nie odwrotnie - test nierzetelny musi być nietrafny.

Rzetelność jest kresem górnym trafności, ponieważ wariancja prawdziwa jest źródłem rzetelności, ale także trafności.

Rzetelność & trafność c.d.:

Rzetelność i trafność są parametrami psychometrycznymi pomiaru testem i są wyznaczane przez podobne czynniki:

Zmiany w procedurze standaryzacji (alternatywne zastosowanie testu).

Zmiany w demograficznym składzie próby - ograniczona zmienność wyników testu lub wyników kryterialnych w grupie.


- wzór - poprawka na nierzetelność kryterium

Poprawka na nierzetelność kryterium:

rkt

rs-k = --------------

Rtt-k

rs-k - skorygowany współczynnik korelacji, rkt - współczynnik korelacji przed skorygowaniem, Rtt-k współczynnik rzetelności kryterium.


- metody szacowania trafności teoretycznej

1). Metody bazujące na analizie związku pomiędzy konstruktem a zachowaniem:

a). metoda zmian nieprzypadkowych,

b). metoda sprawdzania różnic międzygrupowych,

c). metoda badania procesu rozwiązywania testu;

2). Metody bazujące na analizie macierzy korelacji pomiędzy testem, a innymi testami przeznaczonymi do badania danego konstruktu:

a). metoda badania wewnętrznej struktury testu,

b). metoda analizy macierzy korelacji i analizy czynnikowej (eksploracyjnej i konfirmacyjnej) danego testu oraz testów, badających ten sam konstrukt;

c). badanie trafności konwergencyjnej i dyskryminacyjnej (zbieżnej i rozbieżnej) za pomocą analizy macierzy Wielu Cech- Wielu Metod wg Campbella i Fiskego


- trafność zbieżna i różnicowa

Trafność konwergencyjna (zbieżna): korelacje pomiędzy skalami różnych metod, ale badających te same cechy (te same cechy, różne metody) powinny być co najmniej przeciętne (istotne statystycznie).

Trafność dyskryminacyjna (różnicowa): korelacje skal różnych metod badających te same cechy (te same cechy, różne metody) powinny być wyższe niż:

korelacje skal mierzących różne cechy, za pomocą tej samej metody (te same cechy, różne metody);

korelacje skal mierzących różne cechy, za pomocą różnych metod (różne cechy, różne metody).


- sposoby konstruowania testu

1). teoretyczna (dedukcyjna) - podstawa teoretyczna dla strategii empirycznych, choć może też być stosowana samodzielnie (do diagnozy raczej cech).

2). zewnętrzna (kryterialna) - do diagnozy typów (eksploracyjna lub połączona z teoretyczną).

3). wewnętrzna (indukcyjna) - do diagnozy cech (eksploracyjna lub połączona z teoretyczną).

4). sekwencyjne lub połączone


- pozycja testowa, wskaźniki

Pozycja testowa to sformalizowany wskaźnik danej cechy psychologicznej, a więc zdanie (twierdzenie lub pytanie) opisujące określone zachowanie (lub zadanie wyzwalające określone zachowanie) oraz skala rejestrująca to zachowanie (opcje odpowiedzi o określonym formacie oraz reguła przekształcania odpowiedzi w wynik liczbowy).

Ocena trafności treściowej lub typowości pozycji:

Procedura analizy:

Tworzenie wskaźników;

Kwalifikowanie do konstruktów;

Ocena wskaźników na skalach ocen;

Analiza psychometryczna i walidacja procedury (muszą być możliwe do uzyskania korelacje ocen ze wskaźnikami psychometrycznymi).


- czynniki zniekształcające wyniki testu

a). zgadywanie.

b). tendencja do udzielania odpowiedzi społecznie aprobowanych albo społecznie nie aprobowanych:

- tendencja do dysymulowania (aprobata społeczna),

tendencja do symulowania;

c). style odpowiadania


- metody kontroli wpływu aprobaty

Na etapie stosowania kwestionariusza:

8). Instrukcja "szczerości",

9). Zmiana procedury badania -

10). Skala kontrolna aprobaty społecznej, na podstawie której odrzuca się respondentów o wysokich wynikach lub koryguje wyniki skal treściowych przez doliczanie tzw. poprawek korekcyjnych,

11). Wprowadzenie do diagnozy psychologicznej szacowania cech.


- poprawka na zgadywanie

statystyczna poprawka na zgadywanie:

B

K = P - ---------

m - 1

gdzie K - liczba odpowiedzi bez zgadywania, P - liczba poprawnych odpowiedzi w teście, B - liczba błędnych odpowiedzi, m - liczba opcji odpowiedzi w zadaniach testowych.


- adaptacja kulturowa

Kulturowa adaptacja testu - przystosowanie wersji oryginalnej testu do innej specyfiki kulturowej. Adaptacja testu oznacza konieczność wprowadzenia specjalnych procedur przystosowujących (decentrujących - uniwersalizujących lub centrujących na kulturze adaptacji), w przeciwnym razie stosowanie takiego narzędzia prowadzi nieuchronnie do stronniczości lub faworyzacji kulturowej.


- strategie adaptacji testów

-Transkrypcja

-Translacja

-Trawestacja

-Parafraza

-Rekonstrukcja


- adaptacja demograficzna

Adaptacja demograficzna - przystosowanie testu przeznaczonego do badania określonej grupy do stosowania w innej grupie demograficznej. Adaptacja demograficzna testu, tak jak adaptacja kulturowa, oznacza konieczność wprowadzenia specjalnych procedur przystosowujących (decentrujących - uniwersalizujących lub centrujących na kulturze danej grupy), w przeciwnym razie stosowanie testu prowadzi nieuchronnie do stronniczości lub faworyzacji demograficznej (np. seksizmu).

Jej aspekty:

Płeć

Wiek

Niepełnosprawność

Rasa

Klasa społeczna (status społeczno-ekonomiczny)?

Środowisko

Podkultura?


- normalizacja

Normy testowe są niezbędne dla poprawnej interpretacji wyników testu. Wynik surowy jest nieinterpretowalny bez informacji o wynikach, otrzymanych przez osoby badane z odpowiedniej grupy odniesienia. Są dwa rodzaje norm: wyniki progowe (pomiędzy grupami kontrastowymi) oraz normy bazujące na rozkładzie wyników testu (w grupie odniesienia - normalizacyjnej).


- typy skal, przechodzenie od jednej do drugiej skali

Typy:

a). Znormalizowana skala ciągła - jednostki "z",

b). znormalizowane skale uskokowione:

dzielące rozkład wg średniej

(-) skala stenowa

obejmujące wartość średniej

(-) skala staninowa

(-) skala tetronowa

(-) skala wyników przeliczonych (WAIS-R)

(-) skala tenowa

(-) skala dewiacyjnego ilorazu inteligencji

Formuła transformacyjna:

y = zSy + My

gdzie y - wynik w znormalizowanej skali standardowej, z - znormalizowany wynik standardowy, Sy - odchylenie standardowe danej skali standardowej, My - średnia wyników danej skali standardowej)


- zasady interpretacji

Interpretacja oznacza, że na podstawie wyników testu formułowane są wnioski psychologiczne - wynikom testu przypisywany jest sens psychologiczny.

Interpretacja wyników testu jest ściśle związana z trafnością pomiaru - odnosi się do trafności teoretycznej i/lub trafności kryterialnej.

Interpretacja może dotyczyć opisu zachowania osoby badanej (struktury cech osobowości czy zdolności intelektualnych) i/lub przewidywania zachowania w warunkach pozatestowych (funkcjonowania w realnych warunakch życiowych). Wszystkie te wnioski (interpretacje) bazują na danych otrzymanych w procesie walidacji testu.

Interpretacja może być trafna jedynie jeśli nasilenie cechy zostało prawidłowo oszacowane - oznacza to, że punktem wyjścia diagnozy psychologicznej jest ocena wyniku prawdziwego osoby badanej poprzez wyznaczenie odpowiedniego przedziału ufności.

Rodzaje interpretacji wyników testowych:

-Interpretacja kliniczna

Zakłada interpretację profilu testowego na podstawie treści psychologicznej poszczególnych skal i agregację tej treści poprzez ustalenie sensu danej konfiguracji cech. Interpretacja kliniczna wiąże się z idiograficznym podejściem do diagnostyki psychologicznej i w jej efekcie formułowane są wnioski raczej jakościowe niż ilościowe, a jeśli ilościowe - to są one mało precyzyjne.

-Interpretacja statystyczna

Zakłada raczej mechaniczne łączenie skal, poprzez tworzenie agregatów nie tyle psychologicznych, ile statystycznych, np. poprzez tworzenie baterii testów predykcyjnych określonego kryterium (stanu zdrowia psychicznego, powodzenia zawodowego, itp.). Dla każdego z tych wskaźników możliwe jest określenie pewności wnioskowania czy dokładności diagnozy. Interpretacja statystyczna wymaga sformalizowania procesu wnioskowania na podstawie uzyskanych danych. Wiąże się ona z nomotetycznym podejściem do diagnostyki psychologicznej i dostarcza przede wszystkim wyników ilościowych.

Interpretacja kliniczna a interpretacja statystyczna

Predykcja zachowania jednostki jest bardziej trafna przy podejściu statystycznym niż klinicznym. Podejście statystyczne jest jednak krytykowane za mechaniczność analizy danych i sprowadzenie udziału psychologa w diagnozie do roli “technika” rozdzielającego testy, obliczającego ich wyniki i odczytującego ich znaczenie z tabel aktuarialnych. Z tych względów postuluje się łączenie obu podejść albo akcentuje się konieczność wypracowania nowych modeli diagnostycznych.



Wyszukiwarka