Instytut spraw publicznych Te metoda i zastosowania id 217918

Testy dyskryminacyjne

– metoda i zastosowania

Kinga Wysieńska

Testy dyskryminacyjne – metoda i zastosowania

Testy dyskryminacyjne, które stanowią przedmiot analizy w niniejszym opracowaniu,

odpowiadają na zapotrzebowanie badaczy, decydentów politycznych, ekspertów z dziedziny

polityk społecznych i prawników na obiektywne dane dotyczące skali i sfer występowania

nierównego traktowania. Testy jako procedura badawcza zostały bowiem opracowane specjalnie

po to, żeby móc za ich pomocą określić, czy i do jakiego stopnia nierówności w sferze objętej

testem są wynikiem dyskryminacji, a także w celu monitorowania efektywności prawa

antydyskryminacyjnego i polityk równościowych. Testy – prowadzone zarówno w celach

badawczych, jak i na potrzeby postępowań sądowych – służą jedynie sprawdzeniu, czy w

obszarze poddanym testowi doszło do przejawów dyskryminacji, nie mogą jednak być

wykorzystywane do formułowania uogólnień statystycznych na poziomie całych populacji ani

hipotez przyczynowych na temat źródeł nierównego traktowania. Zrozumienie istoty procedury

testowej jest fundamentalne dla właściwego skonstruowania testu oraz poprawnej interpretacji i

odpowiedniego zastosowania jego wyników.

W niniejszym opracowaniu koncentrujemy się na opisaniu procedury testu

dyskryminacyjnego jako rodzaju eksperymentu. Sama procedura bywa także nazywana testem

par, eksperymentem terenowym, testem audytowym (termin ten jest używany głównie w Stanach

Zjednoczonych) lub testem sytuacyjnym. Określenie „test sytuacyjny” jest najczęściej stosowane

w literaturze anglojęzycznej, ponieważ jednak w polskiej literaturze pojęcie to zostało wcześniej

zdefiniowane w wymiarze zarządzania zasobami ludzkimi – jako rodzaj testów

kompetencyjnych, w celu zachowania przejrzystości terminologicznej będziemy używać terminu

„test dyskryminacyjny”. Poniżej analizujemy charakterystyki testów prowadzonych w celach

naukowych i do postępowań sądowych. Rozważania metodologiczne są jednak osadzone w

wymiarze różnych teorii dyskryminacji i nierównego traktowania w naukach społecznych. Ich

przedstawienie jest niezbędne, aby właściwie zrealizować test i poprawnie zinterpretować jego

wyniki. Na końcu niniejszego opracowania przedstawiamy dwa przykłady testów

przeprowadzonych ostatnio w Polsce.

Błędne koło dyskryminacji

Dyskryminacja ze względu na płeć, narodowość, pochodzenie etniczne, kolor skóry

, wiek,

orientację seksualną, niepełnosprawność, religię, wyznanie lub światopogląd – mimo że jest

zakazana prawnie (w różnym zakresie w zależności od poszczególnych przesłanek

) – nadal

determinuje szanse życiowe i pozycję społeczno-ekonomiczną członków grup mniejszościowych

wyróżnionych na podstawie wymienionych cech. Badacze z zakresu nauk społecznych i

prawnych, dziennikarze, a także sami przedstawiciele grup mających tak zwane cechy prawnie

chronione (wymienione w przywoływanej ustawie o równym traktowaniu), dostarczają każdego

dnia wielu dowodów na to, że uprzedzenia, jakie utrzymują się wśród członków różnych grup

społecznych, i nierówne traktowanie przez osoby będące w danej sytuacji lub w danej sferze

relacji społecznych na pozycji władzy (a więc podejmujące decyzje), istotnie wpływają na

możliwości osiągania korzystnych wyników przez członków grup mniejszościowych.

Członkowie tych grup, ze względu na posiadane cechy, doświadczają różnych form wykluczenia,

w tym na rynku pracy i rynku mieszkaniowym, w edukacji, w dostępie do pomocy społecznej

czy do dóbr i usług

Procesy związane z dyskryminacją i wykluczeniem tworzą swoistą reakcję łańcuchową,

prowadzącą do pogłębiania nierówności oraz umacniania systemu i kultury akceptacji uprzedzeń

i dyskryminacji. Na przykład członkowie mniejszości romskiej w Polsce, którym odmawia się

zatrudnienia lub płaci niższe stawki, nie mają innego wyboru, niż wynajmować lub przebywać w

tanich mieszkaniach i lokalizacjach. Lokalizacje te są zazwyczaj postrzegane jako niebezpieczne

i patologiczne, co umacnia dystans społeczny i uprzedzenia wobec zamieszkujących je osób.

Dzieci z rodzin romskich – nieuczęszczające do przedszkoli i dorastające w warunkach gorszych

niż ich nieromscy rówieśnicy – są zatem już na starcie w gorszej pozycji, rozpoczynając szkolną

edukację. W szkole otrzymują niższe oceny, z kolei słaby poziom wykształcenia przekreśla ich

szanse na rynku pracy. Wykluczeni często nie wierzą w możliwość zmiany swojej sytuacji, czego

W dokumentach prawnych używa się zazwyczaj pojęcia „rasa”, które należy jednak uznać za kontrowersyjne. Większość

badaczy jest zgodna, że rasa stanowi raczej konstrukt społeczny niż biologiczny, a rozróżnianie „ras” jest oparte zazwyczaj na
pewnych zewnętrznych charakterystykach (kolor skóry, kształt oczu) i nie ma nic wspólnego z genetycznym zróżnicowaniem
populacji. Dlatego w niniejszym opracowaniu używamy terminu „kolor skóry”, odnosimy się bowiem do społecznego procesu
postrzegania różnic między jednostkami.

Ustawa z dnia 3 grudnia 2010 roku o wdrożeniu niektórych przepisów Unii Europejskiej w zakresie równego traktowania

(Dz.U. z 2010 r., Nr 254, poz. 1700).

Por. między innymi: Równe traktowanie w zatrudnieniu. Przepisy a rzeczywistość, red. K. Kędziora, K. Śmiszek, M. Zima,

Polskie Towarzystwo Prawa Antydyskryminacyjnego, Warszawa 2009; Sąsiedzi czy intruzi. O dyskryminacji cudzoziemców w
Polsce, red. W. Klaus, Stowarzyszenie Interwencji Prawnej, Warszawa 2010; A. Mikulska, Rasizm w Polsce. Raport z badań
wśród osób, które doświadczyły przemocy ze względu na swoje pochodzenie etniczne, rasowe lub narodowe, Helsińska Fundacja
Praw Człowieka, Warszawa 2010.

wynikiem może być ograniczenie wysiłków na rzecz integracji lub całkowite odrzucenie

systemu. W konsekwencji różne rodzaje nierówności wzajemnie się umacniają. Dyskryminacja

nieuchronnie prowadzi zatem do rozwarstwienia społeczno-ekonomicznego i spadku

wskaźników integracji społecznej, niekiedy wiąże się także z problemami społecznymi –

przestępczością czy uzależnieniami

. Opinia publiczna rzadko zdaje sobie sprawę z

rzeczywistych przyczyn tego stanu rzeczy i upatruje ich w niedostosowaniu określonych grup do

obowiązującego porządku społecznego albo w braku pożądanych charakterystyk, motywacji czy

umiejętności. Przytoczony przykład ilustruje tak zwane błędne koło dyskryminacji: pojawienie

się uprzedzeń i dyskryminacji determinuje powstanie obserwowalnych nierówności, które

następnie są interpretowane jako dowód na to, że określona cecha oznacza mniejsze zdolności

cenione w danym systemie społecznym, co w rezultacie umacnia początkowe stereotypy i

napędza zachowania dyskryminacyjne (rysunek 1). Proces legitymizacji nierównego traktowania

i uprzedzeń, a także wzajemnego umacniania się skutków dyskryminacji w różnych sferach, jest

trudny do przerwania z kilku powodów.

Po pierwsze, poszczególni aktorzy społeczni (jednostki, grupy, instytucje) mogą być

nieświadomi, że aktywnie uczestniczą w tym procesie, ponieważ nie mają wiedzy o daleko

idących konsekwencjach swoich decyzji, a także o tym, że ich przekonania często są oparte na

stereotypach, a nie na rzeczywistych, istotnych w danej sferze życia różnicach między

jednostkami. Na przykład pracodawcy często odrzucają formułowane wobec nich zarzuty o

bezpośrednią lub pośrednią dyskryminację

kobiet, przedstawiając swoje decyzje jako wynik

racjonalnych kalkulacji dotyczących produktywności kobiet i mężczyzn oraz tłumacząc, że

zasady są jednakowe dla wszystkich.

Rysunek 1. Błędne koło dyskryminacji

F. Bovenkerk, Testing Discrimination in Natural Experiments. A manual for International Comparative Research on

Discrimination on the Grounds of „Race” and Ethnic Origin, International Labour Organization, Geneva 1992; J. Young, The
Exclusive Society, Sage, London 1999; idem, Crime and Social Exclusion, [w:] The Oxford Handbook of Criminology, red. M.
Maguire, R. Morgan, R. Reiner, Oxford University Press, Oxford 2002, s. 457–490; A.D. Witte, R. Witt, Crime Causation:
Economic Theories, [w:] Encyclopedia of Crime and Justice, red. J. Dressler –
http://www.surrey.ac.uk/economics/files/apaperspdf/ECON%2003-00.pdf [dostęp: 25 stycznia 2012 roku]; F. Bovenkerk, Y.
Yesilgoz, Crime, Ethnicity and the Multicultural Administration of Justice, [w:] Cultural Criminology Unleashed, red. J. Ferrell,
K. Hayward, W. Morrison, M. Presdee, Glasshouse Press, London 2004.

Najprościej rzecz ujmując, z dyskryminacją bezpośrednią mamy do czynienia wtedy, gdy w danej sytuacji osoby podobne pod

względem istotnych cech traktujemy odmiennie, z kolei z dyskryminacją pośrednią mamy do czynienia wtedy, gdy w danej
sytuacji, która wymaga odmiennego traktowania osób należących do różnych grup, traktujemy je podobnie.

Źródło: Opracowanie własne.

Po drugie, osoby doświadczające nierównego traktowania, a w konsekwencji wykluczone,

rzadko są świadome, że mają do czynienia z dyskryminacją, lub wypierają ten fakt. Ofiary

dyskryminacji często tłumaczą nierówne traktowanie w kategoriach innych niż dyskryminacja,

udowadniając, że określone zachowanie było uzasadnione, było skutkiem istniejących procedur

czy regulacji, i (lub) obwiniają siebie

Badania wskazują, że w ten sposób starają się one

podtrzymać poczucie własnej wartości jako członków grupy mniejszościowej i mieć poczucie

posiadania przynajmniej minimalnej kontroli nad sytuacją społeczną. Na przykład cudzoziemiec

w Polsce może nie wiedzieć, że odmowa wpuszczenia do klubu nocnego jest formą

dyskryminacji, lub tłumaczyć to swoim nieodpowiednim ubiorem.

K.M. Ruggiero, D.M. Taylor, Why minority group members perceive or do not perceive the discrimination that confronts them:

the role of self-esteem and perceived control, „Journal of Personality and Social Psychology” 1997, t. 72, nr 2, s. 373–389.

Dyskryminacja i nierówne

traktowanie skutkują

obserwowalnymi

różnicami, m.in. w

zarobkach,

poziomie i

wynikach w edukacji,

jakości

życia

Nierówności są

postrzegane jako

wynik posiadania

danej cechy

Dyskryminacja ze

względu na daną cechę

zostaje

uprawomocniona

(legitymizacja

dyskryminacji)

Pojawiają się
uprzedzenia i

dyskryminacja.

Negatywne skutki dyskryminacji są coraz wyraźniej dostrzegane przez decydentów

politycznych i grupy większościowe, a idee równości i niedyskryminacji stają się powoli częścią

porządków prawnych oraz podstawą funkcjonowania państwa i społeczności lokalnych. Nie ma

jednak uniwersalnej koncepcji równości. Działania antydyskryminacyjne zmierzają zazwyczaj do

osiągania celów sformułowanych na podstawie jednej z następujących koncepcji:

• równości formalnej, która ma charakter czysto proceduralny i wymaga takiego samego

traktowania osób bez względu na cechy prawnie chronione,

• równości szans, która zakłada wyrównywanie pozycji wyjściowych (w założeniu

następnie powinna obowiązywać równość formalna),

• równości rezultatów, która ma charakter substancjalny i wymaga konstruowania polityk

społecznych skoncentrowanych na wskaźnikach integracji społecznej (dopuszcza ona na

przykład system kwot i parytetów).

Z największą akceptacją społeczną spotykają się działania i polityki zmierzające do

zapewnienia równości formalnej. Pojęcie równości szans, która – w opinii społecznej – polega na

prostej eliminacji arbitralnych przeszkód w integracji społecznej i mobilności pionowej, również

co do zasady nie wywołuje polemik. Najwięcej kontrowersji wzbudzają zwykle działania

określone jako wyrównywanie rezultatów (dyskryminacja pozytywna, działania afirmacyjne). Jak

jednak wskazują badacze, równość szans i równość rezultatów wiążą się z bardzo podobnymi

nakładami finansowymi, a opór wobec działań afirmacyjnych wynika najczęściej z niewiedzy lub

niezrozumienia procesów dyskryminacyjnych prowadzących do nierówności społecznych

. Jak

dotąd, to jednak prawne (formalne) sposoby przeciwdziałania dyskryminacji są najbardziej

rozpowszechnione, a między innymi w celu pomiaru ich efektywności w przeciwdziałaniu

dyskryminacji wypracowano specjalną procedurę badawczą, nazywaną testem

dyskryminacyjnym.

Testy dyskryminacyjne jako metoda eksperymentalna

Testy dyskryminacyjne – jako skuteczne narzędzie wykrywania i określania skali

dyskryminacji – były rozwijane równolegle w ośrodkach naukowych i instytucjach działających

na rzecz przestrzegania zasad równego traktowania. Pierwsze testy przeprowadzono niemal

równocześnie w latach sześćdziesiątych XX wieku zgodnie z metodologią opracowaną przez

Por. D.A. Strauss, The Illusory Distinction Between Equality of Opportunity and Equality of Result, „William and Mary Law

Review” 1992, t. 34, nr 171.

brytyjskich socjologów

i działaczy organizacji na rzecz przestrzegania zasad równego

traktowania na rynku mieszkaniowym w Stanach Zjednoczonych

. Należy jednak podkreślić, że

opracowane procedury planowania i prowadzenia testów nie są zróżnicowane w zależności od

tego, gdzie powstały, ale w zależności od tego, czy służą celom naukowo-badawczym, czy też

mają być wykorzystane w działaniach litygacyjnych.

Najogólniej rzecz biorąc, niezależnie od badawczego czy litygacyjnego charakteru

przeprowadzonych obserwacji, test dyskryminacyjny jest eksperymentem przeprowadzanym w

warunkach naturalnych. Testy dyskryminacyjne są ustrukturalizowaną procedurą badawczą,

która służy skonstruowaniu kontrolowanego układu, pozwalającego zbierać dane o zachowaniach

osób mających możliwość wykluczania (przez podejmowanie określonych działań) innych

aktorów społecznych

. Innymi słowy, jak w wypadku każdego układu eksperymentalnego,

organizator testu w sposób kontrolowany wprowadza i reguluje poziomy zmiennej niezależnej

(lub zmiennych niezależnych), a następnie dokonuje rejestracji (pomiaru) poziomu zmiennej

zależnej.

Kolejność działań, kontrola i bezpośredni pomiar zmiennej zależnej są tymi właściwościami,

które stanowią, że dana sytuacja staje się eksperymentalna. W eksperymencie poziomy zmiennej

niezależnej są z góry określone i wprowadzane do sytuacji, zanim zostanie rozpoczęty proces

gromadzenia informacji o poziomie zmiennej zależnej, badacz zaś ma możliwość takiej

ingerencji w sytuację, aby dokonywać zmian w poziomie zmiennych niezależnych. Badacz

tworzy więc taką sytuację, w której występują interesujące go różnice na danym poziomie (o

danej wielkości). Możliwość kreowania sytuacji dla testu sprawia, że dane zebrane tą metodą są

wysoce trafne i rzetelne. Nie opiera się bowiem testu na szukaniu i porównywaniu dwóch

sytuacji, które wydają się podobne, tylko na konstruowaniu przez badacza (organizatora testu)

dwóch sytuacji, które są takie same we wszystkich aspektach – z wyjątkiem poziomu zmiennej

niezależnej

W badaniach dyskryminacji zmienną niezależną stanowią różne poziomy cechy nominalnej,

jaką jest przesłanką dyskryminacji, lub cechy, którą podejrzewamy, że jest przyczyną

nierównego traktowania. Jeśli na przykład sformułowaliśmy hipotezę mówiącą o tym, że osoby

W. Daniel, Racial Discrimination in England, Penguin Books, Middlesex 1968; R. Jowell, P. Prescott-Clarke, Racial

Discrimination and white-collar workers in Britain, „Race” 1970, t. 11, s. 397–417.

J. Yinger, Testing for Discrimination in Housing and Related Markets, [w:] A National Report Card on Discrimination in

America, red. M. Fix, M.A. Turner, Urban Institute, Washington 1998.

M. Bendick Jr., A.P. Nunes, Bias in Hiring, „Journal of Social Issues” 2011 [w druku].

J. Sell, M. Webster, Metody eksperymentalne w strukturalnej psychologii społecznej [mps].

różnej płci mają odmienny dostęp do społecznie cenionych zasobów (pracy, mieszkania), to w

wypadku płci możemy wyróżnić dwa poziomy: poziom „kobieta” i poziom „mężczyzna”. Przy

rozpatrywaniu takiej przesłanki, jaką jest pochodzenie etniczne, przynależność do danej grupy

etnicznej staje się poziomem zmiennej niezależnej. Z kolei zmienną zależną są zachowania

wobec osób posiadających dany poziom cechy nominalnej, hipotetycznie uznanej za przesłankę

dyskryminacji. Test dyskryminacyjny polega zatem na skonstruowaniu sytuacji, w której osoba

badana (działająca w warunkach naturalnych – typowych dla testowanego rynku) podejmuje

decyzje dotyczące osób różniących się między sobą tylko pod względem danej cechy, nie będąc

świadoma, że jej zachowanie podlega systematycznej obserwacji. Dzięki temu testy pozwalają

wykryć dyskryminację, umożliwiają bowiem powiązanie odmiennego zachowania z daną

przesłanką dyskryminacji.

O trafności testu dyskryminacyjnego decyduje to, w jakim zakresie udało się wyizolować i

wprowadzić zmienną niezależną tak, aby było możliwe stwierdzenie, że zaobserwowane różnice

w zachowaniach współzmieniają się z jej poziomem. Procedura badawcza wymaga dobrania

ocenianych przypadków w taki sposób, żeby były one możliwie jak najbardziej podobne do

siebie pod względem cech istotnych w danej sferze życia – istotnych z punktu widzenia

racjonalnych aktorów dokonujących oceny. Przy czym przypadkami ocenianymi mogą być albo

rzeczywiste osoby (jak w badaniu klubów nocnych), albo specjalnie przygotowane informacje na

temat fikcyjnych kandydatów (jak w badaniu zachowań pracodawców). Co więcej, oceniane

przypadki powinny być także identyczne lub niemal identyczne ze względu na inne cechy

uwidocznione w badaniu, które mogą wpływać na decyzje oceniających.

Na przykład racjonalni i zorientowani na minimalizację kosztów pracodawcy podejmują

decyzję o zatrudnieniu i wynagrodzeniu pracowników ze względu na ich produktywność. Innymi

słowy, biorą pod uwagę wszystkie informacje, które wskazują na kompetencje, doświadczenie i

wykształcenie kandydatów do pracy. Dlatego w wypadku planowania testu w zatrudnieniu należy

zapewnić, aby prawdziwi lub fikcyjni kandydaci na dane stanowisko, w imieniu których są

wysyłane pisemne aplikacje lub którzy osobiście stawiają się u pracodawcy w ramach

eksperymentu, byli równoważni pod względem prezentowanego wykształcenia, doświadczenia,

umiejętności i osiągnięć. Ponadto – biorąc pod uwagę, że przekazywane pracodawcy nie tylko

informacje bezpośrednie (choćby o posiadaniu dyplomu), ale także pośrednie (jak sposób

wyrażania się) są postrzegane jako niosące treść związaną z ewentualną oceną produktywności

kandydata – testerzy nie mogą różnić się pod ich względem (czyli muszą się podobnie wyrażać, a

ich życiorysy muszą być napisane w sposób wskazujący te same kompetencje werbalne,

motywacje, zainteresowania). Z kolei w wypadku testów przeprowadzanych w dostępie do dóbr i

usług czy na rynku mieszkaniowym należy podczas konstruowania eksperymentu wyeliminować

wszystkie różnice, które są widoczne i mogłyby dawać uzasadnione podstawy odmiennego

traktowania. Jeśli na przykład test dotyczy dostępu do restauracji czy klubów nocnych, to testerzy

powinni być ubrani niemal identycznie (kolory, jakość ubrań, styl) i zachowywać się niemal

identycznie – zarówno werbalnie, jak i niewerbalnie. W testach dotyczących rynku

mieszkaniowego powinni ponadto prezentować ten sam poziom dochodów i możliwości

zarobkowych lub zbliżone referencje.

Aby zapewnić wysoką trafność testu, procedura eksperymentalna wymaga spełnienia

kryteriów konkurencyjności i wiarygodności testerów (osób lub sylwetek kandydatów do pracy,

klientów, osób chętnych do wynajmu albo kupna mieszkania). Kryterium konkurencyjności

oznacza, że testerzy (dobrane osoby lub skonstruowane sylwetki) powinni być co najmniej nie

gorsi niż „typowy” aplikujący na dane stanowisko (szukający mieszkania w danej dzielnicy,

odwiedzający kluby nocne). Zapewnienie konkurencyjności (atrakcyjności) testerów wymaga

zatem zebrania przed przystąpieniem do testu informacji o tym, jakie są cechy przeciętnego

aktora społecznego działającego na danym rynku czy w danej sferze życia. Zazwyczaj w testach

dyskryminacyjnych, chcąc zagwarantować odpowiednią stopę realizacji badania (response rate),

ale nie zaburzyć trafności testu, dobiera się testerów (konstruuje sylwetki) tak, żeby byli oni

nieco lepsi niż przeciętny kandydat (klient, najmujący). Z kolei kryterium wiarygodności

oznacza, że testerzy powinni być spójni i prawdopodobni każdy z osobna i jako para. Innymi

słowy, testerzy w parze (w parach) powinni posiadać cechy swoiste (różnicujące), które

zminimalizują ryzyko powzięcia przez badanych podejrzeń co do testowego charakteru sytuacji.

Opisane wyżej wymagania związane z osiąganiem wysokiej trafności testu można również

przedstawić w skrócie jako kryterium „3 x P”: testerzy powinni być podobni (pod względem

wszystkich cech istotnych z punktu widzenia przedmiotu transakcji na danym rynku),

podobający się (w takim zakresie, żeby być konkurencyjni, atrakcyjni na danym rynku) i

prawdopodobni (spójni w zachowaniach indywidualnych i wystarczająco różni w parze).

W wypadku eksperymentów laboratoryjnych przyjmuje się, że sytuacja powinna zawierać

wyłącznie te elementy, które są potrzebne do oszacowania poprawności przewidywań

teoretycznych. Dlatego w laboratorium eliminuje się czynniki, które mogłyby rozpraszać

uczestników eksperymentu lub ewentualnie dodatkowo modyfikować ich zachowania. Nawet

jednak w laboratorium mogą się pojawić elementy, których badacz nie przewidział. Dlatego

losowo przypisuje się uczestników eksperymentu do warunków eksperymentalnych

(definiowanych przez poziomy zmiennej niezależnej). Losowe przypisanie uczestników do

różnych warunków (grup) eksperymentalnych gwarantuje, że niezależnie od wystąpienia

nieprzewidzianych zakłóceń, jakie mogą wpływać na wyniki (związanych z indywidualnymi

cechami uczestników), rozłożą się one równo między wszystkimi warunkami. Wpływ tych cech

będzie stały i zostanie potraktowany jako szum (błąd losowy) w danych, podczas gdy

systematyczny efekt wywołany przez czynniki kontrolowane będzie obserwowalny na podstawie

różnic w wynikach między warunkami (grupami) eksperymentalnymi. Ponadto randomizacja –

oznaczająca, że każdy uczestnik eksperymentu ma takie samo (z góry znane)

prawdopodobieństwo trafienia do każdej z grup eksperymentalnych – gwarantuje również

równoważność tych grup. Innymi słowy, zapewnia, że przed rozpoczęciem badania osoby

znajdujące się w danej grupie nie różniły się systematycznie od osób w innej grupie.

Takie rozwiązanie jest jednak możliwe tylko wtedy, gdy mamy do czynienia z pomiarem

jednokrotnym (jedna osoba badana ma do czynienia tylko z jednym warunkiem

eksperymentalnym). Testy dyskryminacyjne są jednak skonstruowane na planie z pomiarem

powtarzanym. Plan z pomiarem powtarzanym charakteryzuje się tym, że poszczególne rodzaje

warunków eksperymentalnych stosuje się w tej samej grupie badanych, a więc wszystkich

pomiarów dokonuje się na tych samych osobach. W układzie eksperymentalnym

skonstruowanym na takim planie nie można losowo przypisać badanych do danego warunku (na

przykład losowo przypisać pracodawców do jednej dwóch grup: tej, do której będą aplikować

tylko kobiety, i tej, do której będą aplikować tylko mężczyźni, lub też podzielić wynajmujących

mieszkania na tych, do których zwrócą się testerzy czarni, i tych, do których udadzą się testerzy

biali). Taka konstrukcja eksperymentu nie pozwoliłaby na pomiar dyskryminacji rozumianej jako

wynik preferencji dla danej cechy, która zostaje wzięta pod uwagę przy podejmowaniu decyzji.

Aby więc móc określić, że zaobserwowane zachowanie – (nie)równe traktowanie – ma charakter

systematyczny (czyli dyskryminacyjny), nie jest zaś skutkiem przypadkowym (na przykład złego

humoru selekcjonera w klubie nocnym), testy dyskryminacyjne do celów litygacyjnych

wymagają powtórzenia testu jako takiego

, z kolei w testach do celów naukowych stosuje się

miarę tak zwanej dyskryminacji netto. Dyskryminacja netto to iloraz różnicy w traktowaniu

przedstawicieli grupy większościowej i mniejszościowej (od liczby przypadków, w których

członkowie grupy większościowej zostali potraktowani lepiej, odejmuje się liczbę przypadków,

w których członkowie grupy mniejszościowej zostali potraktowani lepiej

) do liczby wszystkich

uwzględnionych obserwacji. Miara ta opiera się na założeniu, że przypadkowe zakłócenia znoszą

się przy wyciąganiu różnicy, a ta liczba, która jest wynikiem odejmowania, pokazuje efekt

systematyczny, jeśli efekty losowe są symetryczne dla grupy większościowej i mniejszościowej

(czyli jeśli tyle samo przypadków wykluczenia osób z grupy większościowej i mniejszościowej

jest wynikiem czynników losowych)

Końcowym etapem badania eksperymentalnego jest analiza wyników i wyciąganie na ich

podstawie wniosków. W wypadku eksperymentów laboratoryjnych kwestia wnioskowania jest

stosunkowo prosta. Celem takich eksperymentów jest sprawdzenie hipotez wyprowadzonych z

danej teorii. Ponieważ randomizacja gwarantuje wysoką trafność wewnętrzną (eliminuje

systematyczny wpływ czynników innych niż zmienne niezależne), badacz musi jedynie

oszacować, czy różnice między przewidywaniem teoretycznym a wynikiem obserwacji mogą być

dziełem przypadku. Badacz nie określa, jak bardzo prawdopodobne jest wystąpienie danych

wyników eksperymentalnych w konkretnej populacji – innymi słowy, nie uogólnia wprost

wyników pomiaru na zbiorowość, z której pochodzą badani („społeczeństwo”) – określa jedynie,

jak dalece zaobserwowane różnice mogą być wyjaśnione wprowadzeniem różnych poziomów

zmiennych niezależnych. Problem „generalizacji na populację” (trafności zewnętrznej) jest zatem

w wypadku testów laboratoryjnych problemem związanym z zakresem stosowalności teorii

sprawdzanej w eksperymencie (czyli z tym, w jakim zakresie teoria ta znajduje zastosowanie w

różnych sytuacjach występujących w konkretnej populacji), nie ma zaś związku z uogólnianiem

statystycznym.

Powtórzenie obserwacji w wypadku testów przeprowadzanych do celów litygacyjnych jest ponadto niezbędne, aby wykazać, że

pomiar (test) był rzetelny. W naukach empirycznych kryterium rzetelności dotyczy stabilności zbioru obserwacji uzyskanych za
pomocą danego narzędzia pomiarowego w określonych, stałych warunkach, niezależnie od tego, kto zbiera te obserwacje, gdzie i
kiedy. W wypadku testów do celów sądowych jedynym sposobem udowodnienia, że test był rzetelny, jest przedstawienie
wyników tak zwanego pomiaru powtórzonego, co w tym ujęciu oznacza przedstawienie wyniku testu przeprowadzonego w
odpowiednim czasie i miejscu na tym samym badanym, ale przy użyciu innej pary testerów spełniających kryterium „3 x P”.

Wskaźniki nierównego traktowania są ustalane każdorazowo w zależności od obszaru objętego testem. Lepsze traktowanie

może stanowić zaproszenie na rozmowę kwalifikacyjną jednego testera przy niezaproszeniu drugiego (jeśli test dotyczy
pracodawców), zaoferowanie jednej z osób testujących niższej ceny za daną usługę przy utrzymaniu ceny dla drugiej (jeśli test
dotyczy rynku dóbr i usług).

F. Bovenkerk, Testing Discrimination in Natural Experiments. A manual for International Comparative Research on

Discrimination on the Grounds of „Race” and Ethnic Origin, op. cit.

W wypadku testów dyskryminacyjnych kwestia interpretacji wyników wygląda podobnie.

Ponieważ celem testu jest jedynie odrzucenie hipotezy zerowej

o tym, że dana przesłanka nie

ma związku z decyzjami podejmowanymi przez osoby badane, należy zmierzyć poziom trafności

wewnętrznej testu, a następnie obliczyć, czy zmierzona dyskryminacja netto pozwala uznać, że

wystąpił efekt systematyczny. Jak wcześniej wspomniano, trafność wewnętrzna testu zależy od

tego, w jakim stopniu udało się skonstruować taką sytuację, w której testerzy są równoważni pod

względem wszystkich charakterystyk statusu i innych cech mogących wpływać na decyzje

badanych – z wyjątkiem przesłanki dyskryminacji, której dotyczy pomiar. Istnieje bardzo prosty

sposób sprawdzenia, czy dobór par testerów zakończył się sukcesem. Poprawna konstrukcja testu

zakłada, że żaden z testerów (żadna z sylwetek) nie jest systematycznie preferowany w danej

parze z powodów innych niż przesłanka. Jeśli na przykład wykorzystano dwie pary testerów:

dwóch przedstawicieli grupy mniejszościowej i dwóch przedstawicieli grupy większościowej, to

istnieją cztery możliwe kombinacje par i każda para uczestniczy w 25% sytuacji testowych. Jeśli

nie ma efektu konkretnej pary, to każda z nich powinna wygenerować jedną czwartą obserwacji

interpretowanych jako dyskryminacja. Jeśli pojawia się istotna rozbieżność od tego

przewidywania, to znaczy, że test nie był trafny

. W sytuacji, kiedy test prowadzono z użyciem

życiorysów (tak zwany test korespondencyjny, o którym będzie jeszcze mowa), ewentualną

rozbieżność (jeśli użyto dwóch aplikacji) szacuje się za pomocą odchylenia standardowego dla

krzywej dwumianowej. Z kolei aby przyjąć, że analizowane dane nie pozwalają odrzucić

hipotezy o braku nierównego traktowania ze względu na daną przesłankę (czyli odrzucenie

hipotezy zerowej), trzeba określić z jakim prawdopodobieństwem dyskryminacja netto jest

istotnie różna od zera

Wśród badaczy dyskryminacji stosujących testy toczy się jednak dyskusja o tym, w jaki

sposób należy obliczać efekt dyskryminacji netto. Problem tkwi w definicji równego traktowania

i wygląda następująco – istnieją cztery możliwe wyniki dla danej pary testerów złożonej z

przedstawiciela grupy większościowej i mniejszościowej:

• obaj testerzy zostają zaproszeni na rozmowę kwalifikacyjną (dostają pracę, mają

możliwość wynajęcia mieszkania w tej samej cenie, zostają wpuszczeni do klubu nocnego),

Hipoteza zerowa to poddawana testowi statystycznemu hipoteza o braku różnic między parametrami dwóch lub więcej

populacji.

Ewentualną rozbieżność wykryje test Chi

Por. F. Bovenkerk, Testing Discrimination in Natural Experiments. A manual for International Comparative Research on

Discrimination on the Grounds of „Race” and Ethnic Origin, op. cit.; M. Wood, J. Hales, S. Purdon, T. Sejersen, O. Hayllar, A
test for racial discrimination in recruitment practice in British cities, Department for Work and Pensions, London 2009.

• obaj testerzy nie dostają pracy (oferty wynajmu, zgody na wejście do klubu),

• tester z grupy większościowej zostaje potraktowany lepiej,

• tester z grupy mniejszościowej zostaje potraktowany lepiej.

Różnica zdań badaczy dotyczy tego, w jaki sposób interpretować sytuację, kiedy żaden z

testerów nie odniesie sukcesu transakcyjnego na danym rynku. Część badaczy twierdzi, że

powinny być one włączane do ogólnej analizy jako obserwacje wskazujące na równe

traktowanie, podczas gdy większość naukowców nie włącza ich do obliczeń, wykluczając jako

nietrafne lub brakujące obserwacje. Dyskusja ta nie jest trywialna, ponieważ w zależności od

tego, czy włączymy te obserwacje do analizy, czy też je pominiemy, wartość dyskryminacji netto

będzie wyższa lub niższa, a co za tym idzie – jej efekt może się okazać statystycznie istotny lub

nieistotny. Z punktu widzenia istoty testu i kryteriów jego trafności zasadne jest jednak

nieuwzględnianie tych obserwacji w analizie statystycznej. Istnieje bowiem wiele powodów, dla

których obaj testerzy mogli być odrzuceni jako partnerzy danej transakcji (interakcji), niemające

związku z przesłanką dyskryminacji, na przykład poziom bezrobocia w wypadku rynku pracy lub

liczba klubów nocnych w wypadku rynku usług. Jeśli istnieje wysoki poziom bezrobocia, to

trudno traktować niską podaż pracy jako czynnik redukujący dyskryminację (zwiększający

proporcję sytuacji symetrycznego traktowania). Ponadto na symetryczne „negatywne”

traktowanie może mieć również wpływ jakość testerów lub życiorysów. Źle przygotowani

testerzy (źle przygotowane aplikacje) wygenerują zatem więcej „równego traktowania” niż

dobrze przygotowani testerzy (dobrze przygotowane aplikacje). Źle przygotowani testerzy (źle

przygotowane aplikacje) nie spełniają jednak kryteriów przyjętych do uznania testu za trafny,

cokolwiek więc zostało zmierzone przy ich pomocy, nie było to (nie)równe traktowanie

Na jakie pytania testy dyskryminacyjne nie mogą dać odpowiedzi?

Źródła dyskryminacji – koncepcje przyczynowe

Pierwsze pytanie, jakie często się pojawia w wypadku zaobserwowania przejawów

dyskryminacji, dotyczy przyczyn tego zjawiska. W naukach społecznych istnieje wiele

konkurencyjnych teorii wyjaśniających podłoże dyskryminacji i nietolerancji. Większość z nich

koncentruje się na opisywaniu i wyjaśnianiu mechanizmów prowadzących do świadomej

Por.: F. Bovenkerk, Testing Discrimination in Natural Experiments. A manual for International Comparative Research on

Discrimination on the Grounds of „Race” and Ethnic Origin, op. cit.; P. Riach, J. Rich, Field experiments of discrimination in the
market place, „The Economic Journal” 2002, nr 112, s. 480–518; M. Bursell, What’s in a name? A field experiment test for the
existence of ethnic discrimination in the hiring process, SULCIS Working Papers Series, Stockholm 2007.

(celowej) dyskryminacji bezpośredniej, część jednak wyjaśnia zjawisko ukrytych lub pośrednich

form dyskryminacji. Dla wielu z nich konstruktem centralnym jest pojęcie uprzedzenia jako

postawy (składającej się z negatywnych emocji wobec określonej grupy społecznej, stereotypu,

czyli pewnej uproszczonej wiedzy na temat przedmiotu postawy, oraz tendencji do określonego

zachowania). Przyczyny formowania się takich negatywnych postaw wobec grup

mniejszościowych mogą być różne, za najistotniejsze badacze uznają jednak procesy

kategoryzacji i tożsamości społecznej, dystans oraz konflikt społeczny.

Według teorii kategoryzacji i tożsamości społecznej, jednostki – aby zredukować liczbę

przetwarzanych informacji i (lub) podtrzymać pozytywną samoocenę – kategoryzują siebie i

innych na podstawie widocznych lub istotnych z indywidualnego punktu widzenia podobieństw i

różnic. Wynikiem kategoryzacji jest postrzeganie siebie jako jednostkę należącą do danej

kategorii lub grupy społecznej. Porównując następnie siebie z innymi, jednostki klasyfikują

osoby podobne jako należące do grupy własnej (in-group), a odmienne – jako należące do grupy

obcej (out-group), i zaczynają wyolbrzymiać podobieństwa osób zaklasyfikowanych jako grupa

własna oraz odmienność zaklasyfikowanych jako grupa obca. Uaktywnienie się określonych

kategorii klasyfikacji zależy od okoliczności i motywacji jednostek

Teorie dystansu społecznego wskazują z kolei nieznajomość przedstawicieli grup

mniejszościowych, brak relacji z nimi na określonych płaszczyznach i społeczną segregację osób

należących do odmiennych kategorii jako czynniki determinujące formowanie postaw

negatywnych. Przykładem takiej segregacji może być opisywana niżej segregacja zawodowa ze

względu na płeć. Istnienie takich kategorii społecznych, jak „kobieta” i „mężczyzna”, dla których

sformułowano określone oczekiwania co do „odpowiednich” aktywności, powoduje, że zadania

nie są definiowane jako neutralne płciowo, funkcjonuje także podział na stanowiska „kobiece” i

„męskie”. Utrzymywanie tego podziału powoduje z kolei wzmacnianie oczekiwań co do ról

płciowych i postawy niechętne lub wrogie wobec osób, które w pewien sposób starają się go

naruszyć lub działać niezgodnie z oczekiwaniami

. Podobnie ma się rzecz z kategoriami

etnicznymi. Członkowie odmiennych grup etnicznych mają tendencję do dobrowolnej segregacji,

na przykład pod względem miejsca zamieszkania, aby wchodzić w interakcje z osobami bliskimi

H. Tajfel, Differentiation between social groups: Studies in the social psychology of intergroup relations, Academic Press,

London 1978; H. Tajfel, J.C. Turner, The social identity theory of inter-group behavior, [w:] Psychology of Intergroup Relations,
red. S. Worchel, W.G. Austin, Burnham, Chicago 1986, s. 7–24.

G.A. Akerlof, R.E. Kranton, Economics and Identity, „The Quarterly Journal of Economics” 2000, nr 65, s. 715–753.

kulturowo. Segregacja ta nasila się następnie pod wpływem narastających stereotypów i

uprzedzeń wynikających z braku wzajemnego kontaktu.

Teorie konfliktu jako przyczynę kształtowania uprzedzeń traktują konkurencję o ograniczone

zasoby (na przykład pracę czy mieszkania). Istnieją liczne wyniki badań (zarówno korelacyjnych,

jak i eksperymentalnych), które ilustrują trafność tego wyjaśnienia. Ponadto w literaturze

przedmiotu można znaleźć opisy wielu rezultatów badań empirycznych, pokazujących społeczne

mechanizmy uczenia się i nabywania stereotypów czy uprzedzeń – uczestnictwo w danej kulturze

oznacza socjalizację do przekonań tej kultury na temat grupy własnej (in-group) i innych grup

(out-groups).

Bez względu na czynniki generujące uprzedzenia, istnieje związek między taką postawą a

zachowaniem dyskryminacyjnym. Związek ten nie ma jednak charakteru zależności liniowej.

Innymi słowy, uprzedzenia wpływają na tendencję do zachowania dyskryminującego, nie

przekładają się na nie jednak bezpośrednio i nie można na ich podstawie przewidywać

pojedynczych aktów dyskryminacji. Są osoby uprzedzone, które mimo to nie dyskryminują, i są

osoby nieuprzedzone, które dyskryminują. Relacja między negatywną postawą a zachowaniem

jest bowiem modyfikowana przez czynniki sytuacyjne i kulturowe, które wpływają na „koszt”

zachowania dyskryminacyjnego. Takimi czynnikami są na przykład poziom społecznej

akceptacji dla zachowań dyskryminacyjnych i przejawów nietolerancji lub ewentualne sankcje

prawne.

Różne przejawy zachowań dyskryminacyjnych nie muszą mieć zatem charakteru celowego,

wynikającego z uprzedzeń. Są one często wynikiem obojętności lub nieuświadamiania sobie

tego, jaki skutek wywołuje dana decyzja, określone zachowanie, konkretna procedura lub brak

działania (zaniechanie). Zwyczajowe praktyki lub bezrefleksyjnie powielane procedury

instytucjonalne przyczyniają się do nierównego traktowania w równie dużym stopniu jak

działania intencjonalne

. Pokazują to choćby wyniki badań na temat wiedzy pracodawców o

procedurach zatrudniania obcokrajowców lub osób niepełnosprawnych.

Dyskryminacja oparta na stereotypach (nie zaś na uprzedzeniach, takich jak rasizm, seksizm,

ageizm czy homofobia) jest często nazywana dyskryminacją statystyczną. Teorie dyskryminacji

statystycznej przyjmują, że osoby podejmujące różne decyzje działają racjonalnie i kierują się

informacjami na temat pewnych typowych charakterystyk danej grupy, działają bowiem w

T. Makkonen, Multiple, Compound and Intersectional Discrimination, Institute for Human Rights, Abo Akademi University,

Turku 2002.

sytuacji braku informacji lub niepełnych informacji i ograniczonego czasu na podjęcie decyzji.

Na przykład pracodawcy przedkładają pracowników pochodzących z określonej grupy

(mężczyzn) nad innych (kobiety), gdyż grupy te są zróżnicowane pod względem średniego

poziomu produktywności (mean model of statistical discrimination) lub wariancji w poziomie

produktywności (variance model of statistical discrimination). Ponieważ pracodawcy podejmują

decyzje w warunkach ryzyka (braku danych o indywidualnym poziomie produktywności

kandydata do pracy), zatrudniają osoby należące do grupy o wyższej średniej produktywności lub

niższej wariancji produktywności (przy założeniu, że określenie indywidualnej produktywności

jest kosztowne, a pracodawcy unikają ryzyka)

. Podobnie wyjaśniają dyskryminację teorie

statusowe, z tym, że upatrują one źródła nierównego traktowania w uproszczonych heurystykach

(błędach) o charakterze poznawczym (cognitive bias), nie zaś informacyjnym (informational

bias). Według tych teorii, pracodawcy, formułując oczekiwania zadaniowe wobec kandydatów,

odwołują się do powszechnie podzielanych przekonań kulturowych na temat relatywnych

kompetencji osób należących do określonych grup i preferują te osoby, co do których

oczekiwania są wyższe

Innym rodzajem dyskryminacji, również wynikającym z braku wiedzy, nie zaś z uprzedzeń,

jest tak zwana dyskryminacja społeczna (societal discrimination), która polega na opieraniu

swojej decyzji na przekonaniu, że inne osoby w otoczeniu jednostki mają określone preferencje i

oczekiwania. Przekonanie to (mimo braku osobistych postaw negatywnych wobec danej grupy)

powoduje podejmowanie decyzji krzywdzących przedstawicieli określonych grup (na przykład

„nie wynajmę mieszkania parze homoseksualnej, bo sąsiedzi będą niezadowoleni”).

W opozycji do przedstawionych wyżej wyjaśnień, nieupatrujących źródeł zróżnicowanych

wyników w uprzedzeniach, znajduje się teoria dyskryminacji opartej na preferencjach,

sformułowana przez Gary’ego S. Beckera

. Według tej koncepcji, na przykład pracodawcy

dyskryminują, ponieważ oni sami, zatrudnieni pracownicy albo konsumenci wyraźnie preferują

pracowników pochodzących z określonych grup. Teoria dyskryminacji opartej na preferencjach

opisuje mechanizm występowania zjawiska nierównego traktowania w krótkiej perspektywie, ale

nie jest w stanie wyjaśnić utrzymywania się oraz stabilności preferencji i dyskryminacji w

E. Phelps, The statistical theory of racism and sexism, „American Economic Review” 1972, t. 62, s. 659–661.

S.J. Correll, S. Benard, Biased Estimators? Comparing Status and Statistical Theories of Gender Discrimination, [w:] Social

Psychology of the Workplace, red. S. Thye, E. Lawler, Elsevier, Oxford 2006, s. 89–116.

G.S. Becker, The Economics of Discrimination, University of Chicago, Chicago 1957; M. Foschi, Double Standards of

Competence: Theory and Research, „Annual Review of Sociology” 2000, t. 26, s. 21–42; K.J. Arrow, What has economics to say
about racial discrimination, „Journal of Economic Perspectives” 1998, t. 12, s. 91–100.

dłuższym przedziale czasu (na rynku idealnym podejmowanie decyzji na podstawie cechy

niezwiązanej z produktywnością powinno prowadzić do nieefektywności, w konsekwencji zaś –

do wyeliminowania danego pracodawcy z rynku przez niedyskryminujących, czyli

efektywniejszych pracodawców).

Koncepcje przyczynowe a testy

Testy dyskryminacyjne nie są metodą pozwalającą odpowiedzieć na pytanie o przyczyny

(naturę) dyskryminacji, przede wszystkim dlatego, że – w odróżnieniu od eksperymentów

laboratoryjnych – nie zapewniają możliwości pełnej kontroli całego procesu, którego rezultatem

jest określone zachowanie. Nie wiemy na przykład, ile osób (i jakie były to osoby) ubiegało się o

to samo stanowisko lub starało się wynająć to samo mieszkanie co testerzy. Nie wiadomo zatem,

jakie dokładnie informacje zostały wzięte pod uwagę przez podejmujących decyzję. Nie sposób

również określić, jaki był poziom istotnych zmiennych wyjaśniających, na przykład jakie

standardy zostały uwzględnione przy ocenie aplikantów lub jaka jest treść stereotypów wśród

badanych osób. Mówiąc inaczej, testy dyskryminacyjne pozwalają stwierdzić, czy badani

dyskryminują, nie umożliwiają jednak ustalenia, dlaczego tak się dzieje. Sprawdzenie, który z

omówionych modeli przyczynowych najlepiej wyjaśnia i opisuje mechanizmy dyskryminacji w

określonych warunkach, wymagałoby skonstruowania wielu eksperymentów laboratoryjnych

testujących trafność konkurencyjnych hipotez wyprowadzonych z poszczególnych teorii lub

zgromadzenia szczegółowych danych empirycznych, między innymi na temat krańcowej

produktywności poszczególnych osób starających się o pracę lub preferencji decyzyjnych osób

wynajmujących mieszkania.

Nie oznacza to jednak, że testy nie dają podstaw formułowaniu hipotez na temat przyczyn

zaobserwowanego odmiennego traktowania. Biorąc pod uwagę, że testy systematycznie

wykazują dyskryminację w zatrudnieniu osób o niebiałym kolorze skóry i kobiet niezależnie od

ich doświadczeń, wykształcenia czy kompetencji kulturowych, twierdzenie o wyższej średniej

produktywności osób białych czy mężczyzn, stanowiące fundament decyzji pracodawców,

wydaje się nieuzasadnione (a zatem teoria dyskryminacji statystycznej raczej nie wyjaśnia

zaobserwowanych wyników). Spójność wyników testów prowadzonych w różnych obszarach

rynku pracy potwierdza raczej trafność koncepcji Gary’ego S. Beckera (uprzedzenia są podstawą

decyzji pracodawców) lub teorii dystansu społecznego George’a A. Akerlofa

(pracodawcy

preferują osoby podobne do nich pod względem społeczno-kulturowym, a podstawą tej

preferencji nie jest kalkulacja ekonomiczna, ale komfort społeczny). Hipotezy te wymagają

jednak dalszej weryfikacji empirycznej, gdyż – co warto jeszcze raz podkreślić – test

dyskryminacyjny nie jest metodą weryfikowania hipotez na temat mechanizmów dyskryminacji.

Dlatego, mimo że testy są uznanym sposobem na sprawdzenie efektywności podejmowanych

działań (w tym regulacji prawnych) zmierzających do redukcji dyskryminacji, to ich wyniki –

jeśli wskażą, że działania te są nieefektywne – nie mówią nic o tym, jakie rozwiązanie

alternatywne (w sensie wskazania przyczyn) byłoby lepsze.

Uogólnianie wyników testów

Wyniki testów dyskryminacyjnych powinny być traktowane tak, jak wyniki wszystkich

eksperymentów – jako podstawa przyjęcia lub odrzucenia sprawdzanej hipotezy. W wypadku

testów hipoteza dotyczy występowania albo niewystępowania dyskryminacji ze względu na

określoną przesłankę na konkretnym rynku lub w danej sferze. Znając wyniki testów, można

więc sformułować wniosek o istnieniu dyskryminacji, ustalić, jaka jest jej skala i czy konkretny

pracodawca (wynajmujący, klub) dyskryminuje, nie można jednak sformułować wniosków na

temat tego, ilu pracodawców (właścicieli) w danym kraju dyskryminuje, czy w jednym kraju jest

więcej dyskryminacji niż w innym i czy dyskryminacja w danej sferze albo ze względu na

określoną przesłankę jest wyższa czy niższa niż w innej sferze lub ze względu na inną

przesłankę. Podobnie ograniczone są możliwości porównywania zmian w poziomie

dyskryminacji w czasie. Tak jak absurdem byłoby na podstawie słynnego eksperymentu

Salomona Ascha

nad konformizmem wysuwać wniosek, że ludzie podają błędne odpowiedzi

pod wpływem innych osób w jednej trzeciej wszystkich sytuacji życiowych, tak samo

niedorzecznością byłoby twierdzić na podstawie wyników testów, że jedna trzecia pracodawców

w danym kraju dyskryminuje albo że co czwarty właściciel klubu nocnego nierówno traktuje

swoich klientów. Kilka czynników wpływa na niemożność bezpośredniego uogólnienia na całą

populację.

G.A. Akerlof, Social Distance and Social Decisions, „Econometrica” 1997, t. 65, nr 5, s. 1005–1027.

W eksperymencie Salomona Ascha uczestnicy badania mieli wskazać, który z przedstawionych trzech odcinków jest długością

najbardziej zbliżony do odcinka wzorcowego. Uczestnik podawał swoją odpowiedź po tym, jak podały ją inne osoby obecne
podczas badania (w rzeczywistości pomocnicy eksperymentatora), które wskazywały wyraźnie błędne odpowiedzi. Szerzej – por.
S.E. Asch, Opinions and social pressure, „Scientific American” 1955, t. 193, s. 31–35.

Po pierwsze, w wypadku eksperymentów uogólnienie dotyczy teorii, nie zaś obserwacji.

Innymi słowy, można stosować teoretyczne twierdzenia do wyjaśniania różnych zjawisk

spełniających warunki zakresowe teorii, ale nie sam wynik pomiaru. O ile zatem można przyjąć,

że skoro test wykazał istnienie nierównego traktowania ze względu na określoną przesłankę, to ta

cecha stanowi podstawę nierównego traktowania w danej sferze, o tyle jednak nie można

twierdzić, że stanowi ona podstawę działania określonego procenta pracodawców albo że jest w

określonym procencie prawdopodobne, że dana osoba zostanie nierówno potraktowana ze

względu na przynależność do grupy mniejszościowej.

Po drugie, dobór badanych (pracodawców w określonych zawodach, wynajmujących

mieszkania, klubów) nie ma charakteru losowego. Testerów lub aplikacje wysyła się w

odpowiedzi na pojawiające się oferty, nie zaś do losowo wybranej reprezentatywnej grupy

aktorów rynkowych. Sytuacja na danym rynku (stosunek popytu do podaży), typ zawodu,

standard mieszkania może więc zaważyć na wynikach i ich porównywalności w czasie. Aby móc

uogólnić wyniki przynajmniej na konkretny typ pracodawców (zawodów, wynajmujących,

klubów) w danym okresie, trzeba by przeprowadzić test na wszystkich członkach danej populacji

(zawodów, pracodawców, właścicieli) lub ich losowej próbie, przy czym braki w obserwacjach

musiałyby mieć charakter błędu losowego. Z kolei niemożność porównywania w przestrzeni,

czasie i między rynkami albo przesłankami dyskryminacji wynika z tego, że procedura testu

dyskryminacyjnego nie umożliwia kontrolowania zmiennych, o których wiemy, że korelują się z

poziomem dyskryminacji. W różnych krajach (albo nawet w tym samym regionie) rozmaite

mniejszości mają odmienne historie. Zmieniają się poziomy podaży i popytu. Inne zawody (inni

pracodawcy lub właściciele) są podmiotami badanymi w różnych testach.

Na jakie pytania testy dyskryminacyjne dają odpowiedź?

Ograniczenia procedury eksperymentalnej nie zmieniają tego, że jest wiele zalet stosowania

testów dyskryminacyjnych. Pozwalają one wyjaśnić przynajmniej części obserwowanych

nierówności w określonej sferze życia. Najczęściej bowiem oprócz pytań o to, co generuje

zachowania dyskryminacyjne, pojawiają się pytania o to, z jaką formą dyskryminacji mamy do

czynienia, na podstawie jakiej cechy dana osoba doświadczyła dyskryminacji i w jakiej sferze.

Wbrew pozorom, odpowiedź na te pytania nie jest oczywista. Na przykład dysproporcje na rynku

pracy (w zarobkach czy w strukturze zatrudnienia) mogą, ale nie muszą być wynikiem zachowań

dyskryminacyjnych ze strony zatrudniających. Tak samo nierówny dostęp do mieszkań może, ale

nie musi być wynikiem bezpośredniej dyskryminacji ze strony wynajmujących. Część badaczy

zwraca uwagę, że różnice w obserwowalnych wskaźnikach sytuacji różnych grup

demograficznych mogą być wynikiem rzeczywistych różnic między jednostkami, które z kolei są

determinowane poziomem i rodzajem wykształcenia, doświadczenia, kultury czy naturalnych

zdolności poznawczych. Te zaś mogą być rezultatem nierównego traktowania członków

konkretnej grupy nie w sferze, w jakiej zaobserwowaliśmy nierówność, ale w zupełnie innym

obszarze życia. Na przykład nierówna sytuacja na rynku pracy może być wynikiem nie tyle

dyskryminacji przez pracodawców osób należących do określonych kategorii społecznych

(przedstawicieli grup mniejszościowych), ile dyskryminacji w systemie edukacji, nierównego

traktowania w okresie dorastania czy wychowania.

Aby wykryć i określić zakres zjawiska nierównego traktowania w zatrudnieniu, zazwyczaj

dokonuje się obserwacji, pomiaru i porównania różnic w zarobkach między grupami (wage

differential) i (lub) różnic w uczestnictwie w rynku pracy (compositional differences). Te ostatnie

mogą być mierzone na różnych poziomach: po pierwsze, osoby pochodzące z różnych grup mogą

być w różnym stopniu obecne na rynku pracy, a zatem inny będzie poziom bezrobocia lub

(nie)aktywności zawodowej między grupami, po drugie, odmienne mogą być proporcje

przedstawicieli grup w określonych zawodach (inter-occupational segregation) albo na

określonych pozycjach w hierarchii służbowej (intra-occupational segregation/authority gap)

Różne sposoby pomiaru nierówności w zatrudnieniu muszą uwzględniać to, że obserwowalne

różnice na rynku pracy niekoniecznie wynikają z nierównego traktowania. Najczęściej stosowany

sposób pomiaru dyskryminacji – technika dekompozycji Alana Blindera i Ronalda Oaxaca

–

nie spełnia jednak w pełni tego warunku. W technice tej traktuje się różnice w zarobkach między

określonymi grupami jako zmienną zależną, a następnie wybiera zestaw zmiennych

niezależnych, które mogą wpływać na produktywność (na przykład wykształcenie i

doświadczenie zawodowe). Jeśli różnic w zarobkach między grupami nie można w pełni

wyjaśnić za pomocą wybranych zmiennych niezależnych, tę „niewyjaśnioną” część różnic w

zarobkach przypisuje się dyskryminacji. Główne ograniczenie tej techniki, jak zresztą większości

Por. B. Reskin, The Realities of Affirmative Action in Employment, American Sociological Association, Washington 1998; A.

Aguirre, D.V. Baker, Structured Inequality in the United States: Discussions on the Continuing Significance of the Race, Ethnicity
and Gender, Prentice Hall, Upper Saddle River 2000.

Por. R. Oaxaca, Male-Female Wage Differentials in Urban Labor Markets, „International Economic Review” 1973, t. 14, nr 3,

s. 693–709; A.S. Blinder, Wage Discrimination: Reduced Form and Structural Estimates, „Journal of Human Resources” 1973, t.
8, s. 436–455.

tak zwanych równań zarobków, polega na tym, że przyjęte zmienne wyjaśniające (niezależne)

mogą nie zawierać wszystkich czynników wpływających na produktywność. Innymi słowy,

pewna część niewyjaśnionej różnicy może wynikać nie tyle z dyskryminacji, ile z różnic w

wydajności nieuwzględnionych przez badacza. Podobny problem występuje w wypadku

wyjaśniania segregacji zawodowej. W mniejszym bowiem stopniu chodzi o stwierdzenie jej

występowania (jest wiele miar, których można użyć, na przykład zmodyfikowany współczynnik

Giniego lub indeks rozbieżności), w większym zaś – o powiązanie jej z dyskryminacją.

Oddzielenie wpływu dyskryminacji od indywidualnych preferencji, wykształcenia, presji

społecznej i innych czynników, jakie mogą wpływać na koncentrację mniejszości w określonych

zawodach, jest jednak trudne

Testy dyskryminacyjne pozwalają odizolować wpływ dyskryminacji od oddziaływania różnic

w produktywności w wypadku rynku pracy (a w wypadku innych rynków – od istotnych w nim

różnic, na przykład dochodu na rynku mieszkaniowym czy rynku dóbr i usług). Nie umożliwiają

co prawda odrzucenia hipotezy, że różnice w produktywności (lub innych cechach związanych z

określoną sferą) wyjaśniają przynajmniej część różnic w zarobkach lub innych wskaźnikach

sytuacji grupy mniejszościowej i większościowej, pozwalają jednak wykryć zachowania

dyskryminacyjne ze względu na daną cechę lub kombinację cech w testowanym obszarze.

Testy umożliwiają także obserwację różnych typów i form zachowań dyskryminacyjnych

wśród tych samych lub różnych aktorów, którzy mają wpływ na sytuację mniejszości w

konkretnym obszarze. Podczas gdy badania całych populacji dotyczą zazwyczaj jednego

wskaźnika nierówności – na przykład (w wypadku rynku mieszkaniowego) segregacji

mieszkaniowej, decyzji o przyznaniu kredytu hipotecznego czy przeciętnej wysokości czynszu –

to testy pozwalają sprawdzić, w jakim stopniu poszczególni aktorzy rynkowi nierówno traktują

osoby należące do grup prawnie chronionych (właściciele mieszkań, pośrednicy handlu

nieruchomościami czy agencje najmu) i jaką formę przyjmuje nierówne traktowanie.

Dyskryminacja może bowiem mieć charakter odebrania jakiejkolwiek szansy na transakcję

(opportunity denying – na przykład odmowa pokazania mieszkania) lub zmniejszenia szansy na

R.M. Blackburn, Measuring Occupational Segregation and Its Dimensions of Inequality and Difference, Social Science

Research Group Politics, Psychology, Sociology and International Studies, Cambridge University, Cambridge 2009.

transakcję (opportunity diminishing – na przykład zaoferowanie mniej korzystnych warunków

najmu)

Procedura testowa do pewnego stopnia umożliwia także określenie, w jakim obszarze i wśród

jakich aktorów rynkowych powinny być podjęte działania na rzecz przestrzegania prawa

dotyczącego równego traktowania. Jeśli bowiem test wykaże wysoki poziom dyskryminacji w

danych zawodach, na konkretnych stanowiskach czy w określonych sąsiedztwach lub

dyskryminację przez konkretnego pracodawcę czy właściciela klubu, to może to stanowić

podstawę skoncentrowania uwagi i działań zarówno badawczych, jak i interwencyjnych wśród

określonych typów pracodawców, wobec danego właściciela czy w konkretnej dzielnicy.

Testy dyskryminacyjne do celów badawczych i litygacyjnych

Jak już wspomniano, procedury testowe różnią się pod kilkoma względami w zależności od

tego, czy test jest przeprowadzany w celach poznawczych, czy też na potrzeby dowodzenia w

postępowaniach sądowych. Różnice te dotyczą głównie trzech elementów:

• testerów,

• rejestracji przebiegu testu,

• wyboru badanych

Testerzy

Istnieją trzy sposoby przeprowadzania testów dyskryminacyjnych – przy udziale osób

(aktorów lub ochotników), przez telefon i za pomocą pisemnych aplikacji. W wypadku badań

prowadzonych do celów naukowych – ze względu na stopień kontroli sytuacji eksperymentalnej,

jaki wiąże się z każdym ze sposobów – na tych rynkach, na których jest to możliwe, preferuje się

testy pisemne (nazywane testami korespondencyjnymi). Najmniej preferowane są testy z

udziałem prawdziwych osób. Z kolei w testach prowadzonych do celów prawnych jedyna

dopuszczalna ich forma wymaga udziału fizycznie istniejących testerów. Warunek ten wynika z

kwestii regulacji prawnych – musi istnieć realny poszkodowany (ofiara dyskryminacji) i (lub)

P. Riach, J. Rich, Field experiments of discrimination in the market place, op. cit.; J. Yinger, Testing for Discrimination in

Housing and Related Markets, op. cit.

O możliwościach wykorzystywania testów dyskryminacyjnych w postępowaniach sądowych – por. K. Wencel, Owoc zatrutego

drzewa?

Wyniki eksperymentów naturalnych jako dowód w sprawach o dyskryminację, [w:] Sąsiedzi czy Intruzi? O dyskryminacji

cudzoziemców w Polsce, op. cit.

R.V.O. Boggs, J.M. Sellers, M. Bendick, Use of Testing in Civil Rights Enforcement, [w:] Clear and Convincing Evidence.

Measurement of Discrimination in America, Urban Institute Press, Washington 1993.

fizyczny świadek nierównego traktowania. W wypadku testów do celów sądowych testerzy

występują bowiem albo jako powodowie, albo świadkowie dyskryminacji. Z tego powodu oprócz

takich cech, jak obiektywność, spostrzegawczość i dokładność, oczekiwanych także w badaniach

naukowych, testerzy muszą się ponadto charakteryzować nieposzlakowaną opinią, umiejętnością

formułowania precyzyjnych relacji dotyczących objętych testem zdarzeń, a także mieć chęć i

możliwość uczestniczenia w postępowaniu sądowym. Co więcej, oczekuje się również, że

testerzy nie będą w żaden sposób powiązani z ofiarą dyskryminacji ani uprzedzeni wobec

podmiotu badanego (jeśli test jest prowadzony, aby uprawdopodobnić powództwo osoby, która

twierdzi, że doświadczyła nierównego traktowania), ani że nie odniosą żadnej bezpośredniej

korzyści w związku z określonym wynikiem (jeśli test jest prowadzony po to, żeby określić, czy

dany podmiot przestrzega przepisów antydyskryminacyjnych)

We wszystkich rodzajach testów musi być spełnione kryterium „3 x P”, przy czym w testach

do celów litygacyjnych osoba należąca do grupy prawnie chronionej zazwyczaj jest nieco

bardziej konkurencyjna („atrakcyjna”) niż osoba należąca do grupy większościowej. Taka

praktyka została przyjęta, aby wzmocnić dowód świadczący o wystąpieniu zjawiska nierównego

traktowania. Z tego samego powodu osoba należąca do grupy mniejszościowej uczestniczy w

sytuacji testowej przed osobą z grupy kontrolnej (większościowej).

W testach do celów zarówno naukowych, jak i sądowych testerzy przechodzą intensywny

trening przygotowujący ich do sytuacji, w których będą uczestniczyć (na przykład rozmów

kwalifikacyjnych czy dotyczących wynajmu mieszkania). Trening taki obejmuje ćwiczenie

zachowań charakterystycznych dla danej interakcji, postrzeganie i rejestrowanie jej przebiegu

oraz radzenie sobie z różnego typu reakcjami osób badanych. Ponadto testerzy w danej parze

ćwiczą razem, aby upodobnić swoje zachowania i reakcje. W wypadku testów do celów

litygacyjnych testerzy są również informowani o możliwym przebiegu postępowania sądowego.

Rejestracja przebiegu testu

W testach do celów sądowych najważniejsza jest kompletność i ścisłość opisu przebiegu testu,

a także identyczność zachowań w obrębie pary. Podczas gdy w testach do celów naukowych

pewne działania są zestandaryzowane między wszystkimi parami testerów (na przykład to, ile

razy testerzy dzwonią do pracodawcy z pytaniem o wynik rozmowy kwalifikacyjnej), to w

Ibidem. Por. także: I. Rorive, Proving Discrimination Cases – the Role of Situation Testing, Migration Policy Group, Centre for

Equal Rights, Brussels 2009.

testach litygacyjnych testerzy powinni zachować się adekwatnie do konkretnej sytuacji testowej i

przede wszystkim spójnie w obrębie pary (na przykład w jednej parze testerzy mogą zadzwonić

do pracodawcy tylko raz, a w innej – trzy razy). Oznacza to potrzebę ściślejszej współpracy z

administratorem testu, który jest jedyną osobą posiadającą informacje na temat przebiegu sytuacji

testowej i działań osób w parze. Testerzy nie powinni mieć bowiem kontaktu ze sobą w trakcie

trwania testu, aby nie wpływać na ewentualny jego przebieg – na przykład przez referowanie

sobie emocji związanych z doświadczeniem interakcyjnym z osobą badaną.

Opis emocji, a także inne osobiste relacje dotyczące przebiegu sytuacji znajdą się z kolei w

protokole przebiegu testu, który w wypadku testów litygacyjnych ma charakter częściowo

ustrukturyzowany, a w wypadku badań naukowych – zazwyczaj w pełni ustrukturyzowany.

Wymagania dotyczące dowodów prezentowanych w sądzie determinują także ilość i dokładność

informacji zawartych w protokole przebiegu eksperymentu. Naukowców interesują przede

wszystkim kwestie dotyczące przyjętych w badaniu wskaźników nierównego traktowania

(wpuszczono do klubu – nie wpuszczono do klubu, pokazano mieszkanie – nie pokazano

mieszkania). Z kolei w trakcie postępowań sądowych istotny jest cały przebieg zdarzenia, użyte

słowa czy gesty, zadane pytania, długość trwania interakcji, dlatego organizator testu powinien

zadbać, żeby wszystkie te szczegóły zostały precyzyjnie opisane.

Wybór badanych

W testach do celów naukowych badani są dobierani spośród wszystkich aktorów

sygnalizujących chęć zawarcia transakcji na danym rynku (pracodawców ogłaszających

rekrutację, właścicieli mieszkań umieszczających ogłoszenia o chęci wynajmu lokali, osób

oferujących swoje usługi publicznie). Nie ma znaczenia, czy dany aktor był lub jest

podejrzewany o nierówne traktowanie. W wypadku testów prowadzonych do celów postępowań

sądowych badani nie są wybierani przypadkowo – powinno się nawet unikać testów

proaktywnych (czyli eksploracyjnych, wśród dowolnie dobranych badanych) ze względu na

możliwe oskarżenie o prowokację. Test, który ma służyć jako dowód w postępowaniu sądowym,

powinien być przeprowadzony tam, gdzie istnieje domniemanie dyskryminacji. Domniemanie to

może być wynikiem zgłoszenia się do organizatora testów osoby twierdzącej, że została

nierówno potraktowana, uprzednio odnotowanych zdarzeń dyskryminacyjnych w określonym

miejscu (przez daną osobę) lub innych faktów wskazujących na nierówne traktowanie

Przykłady testów

Dwa przedstawione poniżej testy zostały dobrane tak, aby stanowić ilustrację odmiennych

procedur konstruowania sytuacji eksperymentalnych do celów naukowych i do celów

litygacyjnych. Pierwszy z nich to pilotażowy test korespondencyjny mierzący dyskryminację w

zatrudnieniu, przeprowadzony przez badaczy Instytutu Spraw Publicznych. Drugi to test mający

na celu dokonanie pomiaru dyskryminacji w dostępie do klubów nocnych, przeprowadzony w

ramach tak zwanej nocy testów przez badaczy Instytutu Spraw Publicznych, Stowarzyszenia

Interwencji Prawnej oraz Forum na rzecz Różnorodności Społecznej.

Test korespondencyjny do celów naukowych

Test korespondencyjny polega na wysłaniu uprzednio przygotowanych aplikacji fikcyjnych

kandydatów w odpowiedzi na oferty pracy umieszczone przez autentycznych pracodawców, a

następnie na monitorowaniu liczby i rodzaju reakcji ze strony rekrutujących. Opisywana

procedura została zastosowana do pomiaru dyskryminacji w rekrutacji osób o statusie

cudzoziemca. Zmienna niezależna miała zatem dwa poziomy: Polak i cudzoziemiec. Poziom

zmiennej niezależnej został wprowadzony do sytuacji przez podanie na początku CV imienia,

nazwiska, miejsca i kraju urodzenia oraz – na końcu CV (pod formułką o zgodzie na

przetwarzanie danych osobowych w związku z rekrutacją) – informacji o posiadaniu prawa do

podejmowania legalnej pracy bez dodatkowych zezwoleń. Podanie tej ostatniej informacji było

niezbędne nie tylko po to, aby wprowadzić zmienną niezależną, ale także po to, żeby zapewnić

pracodawcę, że zatrudnienie cudzoziemca nie wiąże się w tym wypadku z dodatkowym kosztem

uzyskania zezwolenia na pracę, co stanowiłoby czynnik związany z ewentualną oceną

produktywności kandydatów.

Aby zapewnić wysoką trafność wewnętrzną testu, w następujący sposób zapewniono

spełnienie kryterium „3 x P”.

Podobieństwo. Kandydaci w każdej parze wysyłanych życiorysów byli w tym samym lub

niemal tym samym wieku (różnica wieku wynosiła mniej niż rok), mieli ukończone kierunki

I. Rorive, Proving Discrimination Cases – the Role of Situation Testing, op. cit.

studiów uznane za równoważne albo szkoły uznane za równoważne w wypadku stanowisk, na

których wyższe wykształcenie nie było wymagane. Obaj kandydaci mieli także tyle samo

miesięcy doświadczenia zawodowego u dwóch różnych pracodawców (aplikacje były wysyłane

tylko w odpowiedzi na ogłoszenia o pracę na stanowiskach niższego szczebla). Wszyscy

kandydaci posiadali prawo jazdy kategorii B, mówili płynnie w języku angielskim i byli podobni

pod względem dodatkowych umiejętności i odbytych szkoleń

. We wszystkich wysłanych

życiorysach identyczna była kolejność i liczba podanych informacji, różniły je tylko czcionki i

nagłówki. W każdym z CV przy nazwie aktualnego lub ostatniego pracodawcy pojawiała się

notatka, że referencje mogą być dostarczone na życzenie. Została ona dołączona po to, aby

zminimalizować ryzyko kontaktu między potencjalnym pracodawcą a firmą wymienioną w

życiorysie.

Prawdopodobieństwo. Cechą różnicującą kandydatów były ich zainteresowania, przy czym

zostały one przypisane kandydatom losowo, aby zminimalizować ewentualny systematyczny

efekt określonego zestawu zainteresowań. Ponadto doświadczenie zawodowe było zdobywane u

różnych pracodawców.

Identyczna struktura została zastosowana w listach motywacyjnych przygotowanych dla

aplikantów – w każdym liście nawiązano do cech lub umiejętności wymaganych przez

pracodawcę w ogłoszeniu oraz przedstawiono wizję rozwoju. Jeśli pracodawca prosił o podanie

oczekiwań finansowych, we wszystkich aplikacjach podawano ten sam poziom oczekiwanych

zarobków (poziom ten określano na podstawie informacji o średnich zarobkach na danym

stanowisku w tej branży i opinii ekspertów).

Podobanie się (konkurencyjność). Wszyscy kandydaci aplikowali na stanowiska

niewymagające specjalistycznego doświadczenia (było ono jedynie „mile widziane”), do

pewnego stopnia jednak je posiadali. Zawsze przynajmniej u jednego pracodawcy zakres

obowiązków lub wykonywane czynności pokrywały się z opisem stanowiska, na które były

wysyłane aplikacje. Wszyscy kandydaci ukończyli także szkoły lub uniwersytety plasujące się w

pierwszej piątce rankingu dla danego kierunku.

Ostatnim etapem przygotowania dokumentów aplikacyjnych było stworzenie fikcyjnych

tożsamości – nadanie kandydatom konkretnych imion i nazwisk, przypisanie adresów, numerów

Wszystkie użyte aplikacje zostały skonstruowane przy udziale specjalistów lub osób rekrutujących w danych zawodach i

poddane pretestowi. Por. K. Wysieńska, Nguyen, Serhij czy Piotr? Pilotażowe badanie audytowe dyskryminacji cudzoziemców w
rekrutacji, [w:] Sąsiedzi czy Intruzi? O dyskryminacji cudzoziemców w Polsce, op. cit.

telefonów i adresów e-mail oraz opracowanie gotowego zestawu dokumentów dla kandydatów z

danej pary. Preferowaną formą kontaktu, co było sygnalizowane w liście motywacyjnym, był

kontakt telefoniczny lub za pomocą poczty elektronicznej. Jako adresów użyto miejsc

zamieszkania trzech spośród badaczy zaangażowanych w projekt, które były tak samo oddalone

od centrum Warszawy – kryterium odległości wprowadzono dlatego, że niektórzy pracodawcy

uwzględniają czas dojazdu do pracy przy ocenie kandydatów (podobieństwo). W różnych

zawodach aplikantom przypisano odmienne imiona, nazwiska i miejsca urodzenia z

przygotowanej puli nazwisk. Rotacja imion i nazwisk między zawodami została wprowadzona,

aby wyeliminować ryzyko wykrycia, że osoba o identycznym nazwisku szuka pracy na różnych

stanowiskach lub w różnych zawodach (prawdopodobieństwo). Na koniec, według schematu

pozwalającego uniknąć efektu przypisania danej narodowości do konkretnej aplikacji i aby

wyeliminować efekt par, losowano życiorys dla aplikanta.

Do ostatecznej selekcji ogłoszeń zastosowano specjalną procedurę. Najpierw badacze

wyszukiwali adekwatne do danego zawodu i stanowiska oferty na trzech wybranych portalach

(Pracuj.pl, Gazetapraca.pl, Goldenline.pl). Następnie sprawdzali, czy ogłoszenie spełnia przyjęte

wcześniej warunki, to jest: (1) czy pochodzi bezpośrednio od pracodawcy, (2) czy dotyczy

zatrudnienia na umowę o pracę, (3) czy wystarczająca jest elektroniczna forma aplikacji, (4) czy

są wymagane jedynie dokumenty w języku polskim. Ogłoszenia, w których proszono o aplikacje

w języku angielskim, były odrzucane. Po pierwsze, pretestowane i poddane ocenie ekspertów

były wyłącznie aplikacje w języku polskim. Tłumaczenie dokumentów pociągałoby za sobą

konieczność sprawdzenia rzetelności takiego tłumaczenia. Po drugie, przy aplikowaniu w języku

angielskim pojawiłaby się kwestia precyzyjnego określenia poziomu znajomości języka

polskiego u cudzoziemca. Bez sprawdzenia efektu różnicy między przymiotnikami „native” a

„fluent” nie można by założyć równoważności kandydatur, a co za tym idzie – orzekać o

trafności testu.

Między 15 lipca a 13 września 2010 roku, mimo trwających wakacji, zespół badaczy

zaangażowanych w realizację projektu wybrał 194 ogłoszenia w pięciu branżach i wysłał 361

aplikacji (na 27 ofert, z różnych powodów, udało się wysłać tylko jedną aplikację).

W teście korespondencyjnym za wskaźnik nierównego traktowania (zmienną zależną)

przyjmuje się różnicę w liczbie zaproszeń na rozmowę kwalifikacyjną. Inne zachowania i

przejawy nierównego traktowania ze strony pracodawców również mogą być zaobserwowane w

trakcie trwania testu. Dlatego wszystkie reakcje ze strony potencjalnego pracodawcy wobec

kandydatów były rejestrowane i analizowane. Reakcje te obejmowały między innymi

potwierdzenia otrzymania aplikacji, telefony z zapytaniem o oczekiwania finansowe, próby

przeprowadzenia rozmowy kwalifikacyjnej przez telefon oraz listy z zadaniami do rozwiązania

przez aplikanta. Po odrzuceniu automatycznie generowanych potwierdzeń otrzymania aplikacji

pozostałe typy reakcji zostały zakwalifikowane jako reakcja pozytywna i włączone do ostatecznej

analizy danych. Z wyjątkiem automatycznie generowanych informacji o przyjęciu zgłoszenia, na

każdy inny kontakt ze strony pracodawcy odpowiadano telefonicznie lub przez e-mail, że

aplikacja jest już nieaktualna. Na 167 ogłoszeń, na które udało się wysłać zestaw dwóch

aplikacji, zarejestrowano łącznie 26 pozytywnych reakcji (16%). Liczba ważnych obserwacji nie

pozwoliła na przeprowadzenie analiz statystycznych, ale sam sposób przeprowadzenia testu

ilustruje, jakie działania muszą być podjęte, aby osiągnąć wysoką trafność.

Test z udziałem ochotników na potrzeby pomiaru efektywności przepisów antydyskryminacyjnych

W nocy z 5 na 6 marca 2011 roku w kilkunastu miastach europejskich pary ochotników

testowały przestrzeganie zakazu dyskryminacji ze względu na kolor skóry lub pochodzenie

etniczne w dostępie do klubów nocnych i restauracji (rynek usług). Testy sprawdzające zakres

nierównego traktowania w sferze „codziennych transakcji” mają długą tradycję w gronie badaczy

dyskryminacji. Dość wspomnieć testy prowadzone wśród sprzedawców samochodów (mierzono

poziom dyskryminacji ze względu na płeć i pochodzenie etniczne), kierowców taksówek

(mierzono poziom dyskryminacji ze względu na pochodzenie etniczne) czy selekcjonerów w

klubach nocnych (mierzono przede wszystkim poziom dyskryminacji ze względu na pochodzenie

etniczne, ale także inne uwidocznione cechy prawnie chronione). Rezultaty testów w wielu

wypadkach stały się podstawą postępowań sądowych, które doprowadziły do zmian w przepisach

ogólnych lub praktykach poszczególnych korporacji. Mimo że test przeprowadzony w ramach

ogólnoeuropejskiej akcji w 2011 roku miał przede wszystkim na celu podniesienie świadomości

na temat form dyskryminacji i testów jako takich, nie zaś wszczynanie postępowań sądowych,

dołożono wszelkich starań, aby był on trafny i przygotowany zgodnie z procedurą testów

prowadzonych do celów litygacyjnych.

Testerami w przeprowadzonym badaniu byli młodzi wykształceni mężczyźni o

nieposzlakowanej opinii – studenci lub wolontariusze w organizacjach pozarządowych. Wszyscy

ochotnicy uczestniczyli w dwóch spotkaniach szkoleniowych. W ich trakcie zostali

poinformowani, na czym będzie polegało ich zadanie i jak będzie wyglądał cały test.

Powiedziano im, że jego celem nie jest udowodnienie jakiejkolwiek z góry przyjętej tezy, i że

niezależnie od wyniku samo jego przeprowadzenie będzie sukcesem. Podczas spotkań

szkoleniowych przećwiczono zachowanie przy wejściu do klubu – co i jak mówić, co zrobić, gdy

selekcjoner odmówi wpuszczenia do klubu, jak się wycofać, jeśli osoba zostanie wpuszczona –

wszystko po to, aby ujednolicić werbalne i niewerbalne zachowania testerów. Testerzy otrzymali

również informację o konieczności sporządzenia protokołu po każdym zdarzeniu testowym

(każdej próbie wejścia do klubu). Dodatkowo zostali wyposażeni w dyktafony do rejestrowania

przebiegu interakcji. W trakcie spotkań ustalono, w co mają być ubrani ochotnicy w noc testu,

aby zapewnić jak największe podobieństwo między wszystkimi testerami. W celu

maksymalizacji podobieństwa między testerami do danej pary testowej

dobrano osoby zbliżone

pod względem wzrostu, budowy ciała i atrakcyjności fizycznej. Zapewnienie

prawdopodobieństwa testerów zostało osiągnięte przez rekrutację osób w „klubowym” wieku i

przez naturalne, ale nieistotne dla rynku usług różnice między ochotnikami. Konkurencyjność

testerów została osiągnięta za pomocą odpowiedniego ubioru.

Kluby nie zostały wybrane do badania losowo. Testerzy odwiedzili te lokale, na które

najczęściej – według informacji pochodzących od organizacji pozarządowych – skarżyli się

cudzoziemcy i osoby o niebiałym kolorze skóry. Test nie miał więc charakteru proaktywnego.

Ponadto, żeby zapewnić pełną obiektywność testu, ochotnicy byli pytani, czy kiedykolwiek mieli

problem ze wstępem do konkretnego klubu lub mają jakąś historię związaną z danym miejscem.

Jeśli odpowiedź była twierdząca, osoba ta była wysyłana do innego klubu.

Sam przebieg sytuacji testowej również był zaplanowany w taki sposób, aby osiągnąć wysoką

trafność. Pierwsi do lokalu próbowali wejść testerzy czarni, a dopiero w odległości od trzech do

pięciu osób w kolejce do „bramki” – testerzy biali. W trakcie oczekiwania w kolejce para testowa

nie komunikowała się w żaden sposób ze sobą. Kolejność testerów i odległość między nimi ma

znaczenie dla trafności testu, gdyż w wypadku zbyt dużego odstępu lub odwrotnej kolejności

mogłaby zajść istotna zmiana w sytuacji wewnątrz klubu (na przykład przepełnienie), co

mogłoby dać podstawy formułowania hipotezy alternatywnej wobec hipotezy dyskryminacji. Z

Para testowa składała się z czterech osób: dwóch osób białych i dwóch osób czarnych. Ponieważ przedmiotem testu w

Warszawie była dyskryminacja w dostępie do klubów ze względu na kolor skóry, istotne dla trafności testu było spełnienie
kryterium „3 x P” między parą białą i czarną. Wszystkie uwagi dotyczące sposobu konstrukcji testu dotyczą więc pary testowej,
nie zaś pary osób o tym samym kolorze skóry.

kolei zbyt mała odległość między parami mogłaby sprowokować próby formułowania hipotezy o

braku niezależności między obserwacjami (a więc braku czystego efektu koloru skóry). Mówiąc

inaczej, możliwe byłoby wtedy twierdzenie, że biali testerzy zredukowali szanse wejścia testerów

czarnych, a co za tym idzie – że nie zmierzono wpływu koloru skóry, tylko to, w jaki sposób

obecność podobnej pary białej wpłynęła na szansę wejścia pary czarnej. Przebieg sytuacji

testowych w wypadku każdej pary był obserwowany przez niezależnych obserwatorów

(przedstawicieli mediów, pełnomocnika prezydenta miasta stołecznego Warszawy do spraw

równego traktowania, przedstawicieli organizacji pozarządowych). Po zakończeniu

eksperymentu został sporządzony szczegółowy protokół o doświadczeniach każdej pary testowej.

W trakcie nocy testów w Warszawie odwiedzono osiem klubów, a w całej Europie – prawie

sto. We wszystkich miastach stwierdzono wypadki dyskryminacji. Zebrane w ten sposób dane

nie pozwalają jednak orzekać o tym, czy dyskryminacja w danym mieście jest wyższa czy niższa

niż w innym miejscu w Europie, z powodów, o których była mowa wcześniej – miasta

europejskie są różne, historie mniejszości i migrantów są różne, sytuacje testowe były do

pewnego stopnia różne (na przykład testerami byli przedstawiciele różnych grup etnicznych). Nie

można także na podstawie wyników nocy testów wysuwać wniosków na temat nietolerancji lub

dyskryminacji wśród Polaków czy Europejczyków – badanie nie było prowadzone na

reprezentatywnej próbie losowej. Możliwości uogólnienia i porównywania wyników nie są

jednak niezbędne, aby docenić funkcję testów – jeśli są trafne i rzetelne, pozwalają jednoznacznie

stwierdzić przejawy dyskryminacji.

Za treść publikacji odpowiada Instytutu Spraw Publicznych, poglądy w niej wyrażone nie
odzwierciedlają oficjalnego stanowiska Unii Europejskiej

Projekt: „Polskie Forum Integracyjne” jest współfinansowany ze środków
Europejskiego Funduszu na Rzecz Integracji Obywateli Państw Trzecich
oraz z budżetu państwa

Copyright by Fundacja Instytut Spraw Publicznych, Warszawa 2010. Przedruk materiałów Instytutu Spraw Publicznych
w całości lub części możliwy jest wyłącznie za zgodą Instytutu. Cytowanie oraz wykorzystanie danych
empirycznych dozwolone jest z podaniem źródła.

Instytut Spraw Publicznych

ul. Szpitalna 5 lok. 22, 00-031 Warszawa

tel. +48 022 556 42 99, fax +48 022 556 42 62

e- mail: isp@isp.org.pl

www.isp.org.pl

Wyszukiwarka

Podobne podstrony:
INSTYTUT SPRAW PUBLICZNYCH
Królewski Instytut Spraw Międzynarodowych, Publicystyka, NWO
Metoda PEST id 294420 Nieznany
Metoda Eurela id 294267 Nieznany
metoda grupowa id 294297 Nieznany
metoda sil 2 id 294543 Nieznany
kp, ART 94(3) KP, Wyrok Sądu Najwyższego - Izba Pracy, Ubezpieczeń Społecznych i Spraw Publicznych z
02 opis metoda Lehmanna[1]id 3914
Królewski Instytut Spraw Międzynarodowych
kp, ART 18(3d) KP, Wyrok Sądu Najwyższego - Izba Pracy, Ubezpieczeń Społecznych i Spraw Publicznych
kp, ART 11(3) KP, Wyrok Sądu Najwyższego - Izba Pracy, Ubezpieczeń Społecznych i Spraw Publicznych z
METODA FIBERGLASS id 294273 Nieznany
azbest i jego zastosowanie id 7 Nieznany
kp, ART 241(26) KP, Wyrok Sądu Najwyższego - Izba Pracy, Ubezpieczeń Społecznych i Spraw Publicznych
Finanse publiczne 2006 04 26 id Nieznany
Konstrukcja zalamana w planie Metoda sil id 246188
metoda Rockwella id 294505 Nieznany

więcej podobnych podstron