background image

Testy dyskryminacyjne

– metoda i zastosowania

Kinga Wysieńska

background image

Kinga Wysieńska 

 

Testy dyskryminacyjne – metoda i zastosowania 

 

Testy dyskryminacyjne, które stanowią przedmiot analizy w niniejszym opracowaniu, 

odpowiadają na zapotrzebowanie badaczy, decydentów politycznych, ekspertów z dziedziny 

polityk społecznych i prawników na obiektywne dane dotyczące skali i sfer występowania 

nierównego traktowania. Testy jako procedura badawcza zostały bowiem opracowane specjalnie 

po to, żeby móc za ich pomocą określić, czy i do jakiego stopnia nierówności w sferze objętej 

testem są wynikiem dyskryminacji, a także w celu monitorowania efektywności prawa 

antydyskryminacyjnego i polityk równościowych. Testy – prowadzone zarówno w celach 

badawczych, jak i na potrzeby postępowań  sądowych – służą jedynie sprawdzeniu, czy w 

obszarze poddanym testowi doszło do przejawów dyskryminacji, nie mogą jednak być 

wykorzystywane do formułowania uogólnień statystycznych na poziomie całych populacji ani 

hipotez przyczynowych na temat źródeł nierównego traktowania. Zrozumienie istoty procedury 

testowej jest fundamentalne dla właściwego skonstruowania testu oraz poprawnej interpretacji i 

odpowiedniego zastosowania jego wyników. 

W niniejszym opracowaniu koncentrujemy się na opisaniu procedury testu 

dyskryminacyjnego jako rodzaju eksperymentu. Sama procedura bywa także nazywana testem 

par, eksperymentem terenowym, testem audytowym (termin ten jest używany głównie w Stanach 

Zjednoczonych) lub testem sytuacyjnym. Określenie „test sytuacyjny” jest najczęściej stosowane 

w literaturze anglojęzycznej, ponieważ jednak w polskiej literaturze pojęcie to zostało wcześniej 

zdefiniowane w wymiarze zarządzania zasobami ludzkimi – jako rodzaj testów 

kompetencyjnych, w celu zachowania przejrzystości terminologicznej będziemy używać terminu 

„test dyskryminacyjny”. Poniżej analizujemy charakterystyki testów prowadzonych w celach 

naukowych i do postępowań  sądowych. Rozważania metodologiczne są jednak osadzone w 

wymiarze różnych teorii dyskryminacji i nierównego traktowania w naukach społecznych. Ich 

przedstawienie jest niezbędne, aby właściwie zrealizować test i poprawnie zinterpretować jego 

wyniki. Na końcu niniejszego opracowania przedstawiamy dwa przykłady testów 

przeprowadzonych ostatnio w Polsce. 

 

background image

Błędne koło dyskryminacji

 

Dyskryminacja ze względu na płeć, narodowość, pochodzenie etniczne, kolor skóry

1

, wiek, 

orientację seksualną, niepełnosprawność, religię, wyznanie lub światopogląd – mimo że jest 

zakazana prawnie (w różnym zakresie w zależności od poszczególnych przesłanek

2

) – nadal 

determinuje szanse życiowe i pozycję społeczno-ekonomiczną członków grup mniejszościowych 

wyróżnionych na podstawie wymienionych cech. Badacze z zakresu nauk społecznych i 

prawnych, dziennikarze, a także sami przedstawiciele grup mających tak zwane cechy prawnie 

chronione (wymienione w przywoływanej ustawie o równym traktowaniu), dostarczają każdego 

dnia wielu dowodów na to, że uprzedzenia, jakie utrzymują się  wśród członków różnych grup 

społecznych, i nierówne traktowanie przez osoby będące w danej sytuacji lub w danej sferze 

relacji społecznych na pozycji władzy (a więc podejmujące decyzje), istotnie wpływają na 

możliwości osiągania korzystnych wyników przez członków grup mniejszościowych. 

Członkowie tych grup, ze względu na posiadane cechy, doświadczają różnych form wykluczenia, 

w tym na rynku pracy i rynku mieszkaniowym, w edukacji, w dostępie do pomocy społecznej 

czy do dóbr i usług

3

Procesy związane z dyskryminacją i wykluczeniem tworzą swoistą reakcję  łańcuchową, 

prowadzącą do pogłębiania nierówności oraz umacniania systemu i kultury akceptacji uprzedzeń 

i dyskryminacji. Na przykład członkowie mniejszości romskiej w Polsce, którym odmawia się 

zatrudnienia lub płaci niższe stawki, nie mają innego wyboru, niż wynajmować lub przebywać w 

tanich mieszkaniach i lokalizacjach. Lokalizacje te są zazwyczaj postrzegane jako niebezpieczne 

i patologiczne, co umacnia dystans społeczny i uprzedzenia wobec zamieszkujących je osób. 

Dzieci z rodzin romskich – nieuczęszczające do przedszkoli i dorastające w warunkach gorszych 

niż ich nieromscy rówieśnicy – są zatem już na starcie w gorszej pozycji, rozpoczynając szkolną 

edukację. W szkole otrzymują niższe oceny, z kolei słaby poziom wykształcenia przekreśla ich 

szanse na rynku pracy. Wykluczeni często nie wierzą w możliwość zmiany swojej sytuacji, czego 
                                                 

1

 W dokumentach prawnych używa się zazwyczaj pojęcia „rasa”, które należy jednak uznać za kontrowersyjne. Większość 

badaczy jest zgodna, że rasa stanowi raczej konstrukt społeczny niż biologiczny, a rozróżnianie „ras” jest oparte zazwyczaj na 
pewnych zewnętrznych charakterystykach (kolor skóry, kształt oczu) i nie ma nic wspólnego z genetycznym zróżnicowaniem 
populacji. Dlatego w niniejszym opracowaniu używamy terminu „kolor skóry”, odnosimy się bowiem do społecznego procesu 
postrzegania różnic między jednostkami. 

2

 Ustawa z dnia 3 grudnia 2010 roku o wdrożeniu niektórych przepisów Unii Europejskiej w zakresie równego traktowania 

(Dz.U. z 2010 r., Nr 254, poz. 1700). 

3

 Por.  między innymi: Równe traktowanie w zatrudnieniu. Przepisy a rzeczywistość, red. K. Kędziora, K. Śmiszek, M. Zima, 

Polskie Towarzystwo Prawa Antydyskryminacyjnego, Warszawa 2009; Sąsiedzi czy intruzi. O dyskryminacji cudzoziemców w 
Polsce
, red. W. Klaus, Stowarzyszenie Interwencji Prawnej, Warszawa 2010; A. Mikulska, Rasizm w Polsce. Raport z badań 
wśród osób, które doświadczyły przemocy ze względu na swoje pochodzenie etniczne, rasowe lub narodowe
, Helsińska Fundacja 
Praw Człowieka, Warszawa 2010. 

background image

wynikiem może być ograniczenie wysiłków na rzecz integracji lub całkowite odrzucenie 

systemu. W konsekwencji różne rodzaje nierówności wzajemnie się umacniają. Dyskryminacja 

nieuchronnie prowadzi zatem do rozwarstwienia społeczno-ekonomicznego i spadku 

wskaźników integracji społecznej, niekiedy wiąże się także z problemami społecznymi – 

przestępczością czy uzależnieniami

4

. Opinia publiczna rzadko zdaje sobie sprawę z 

rzeczywistych przyczyn tego stanu rzeczy i upatruje ich w niedostosowaniu określonych grup do 

obowiązującego porządku społecznego albo w braku pożądanych charakterystyk, motywacji czy 

umiejętności. Przytoczony przykład ilustruje tak zwane błędne koło dyskryminacji: pojawienie 

się uprzedzeń i dyskryminacji determinuje powstanie obserwowalnych nierówności, które 

następnie są interpretowane jako dowód na to, że określona cecha oznacza mniejsze zdolności 

cenione w danym systemie społecznym, co w rezultacie umacnia początkowe stereotypy i 

napędza zachowania dyskryminacyjne (rysunek 1). Proces legitymizacji nierównego traktowania 

i uprzedzeń, a także wzajemnego umacniania się skutków dyskryminacji w różnych sferach, jest 

trudny do przerwania z kilku powodów. 

Po pierwsze, poszczególni aktorzy społeczni (jednostki, grupy, instytucje) mogą być 

nieświadomi,  że aktywnie uczestniczą w tym procesie, ponieważ nie mają wiedzy o daleko 

idących konsekwencjach swoich decyzji, a także o tym, że ich przekonania często są oparte na 

stereotypach, a nie na rzeczywistych, istotnych w danej sferze życia różnicach między 

jednostkami. Na przykład pracodawcy często odrzucają formułowane wobec nich zarzuty o 

bezpośrednią lub pośrednią dyskryminację

5

 kobiet,  przedstawiając swoje decyzje jako wynik 

racjonalnych kalkulacji dotyczących produktywności kobiet i mężczyzn oraz tłumacząc,  że 

zasady są jednakowe dla wszystkich. 

 

Rysunek 1. Błędne koło dyskryminacji 

                                                 

4

 F.  Bovenkerk,  Testing Discrimination in Natural Experiments. A manual for International Comparative Research on 

Discrimination on the Grounds of „Race” and Ethnic Origin, International Labour Organization, Geneva 1992; J. Young, The 
Exclusive Society
, Sage, London 1999; idem, Crime and Social Exclusion, [w:] The Oxford Handbook of Criminology, red. M. 
Maguire, R. Morgan, R. Reiner, Oxford University Press, Oxford 2002, s. 457–490; A.D. Witte, R. Witt, Crime Causation: 
Economic Theories
, [w:] Encyclopedia of Crime and Justice, red. J. Dressler – 
http://www.surrey.ac.uk/economics/files/apaperspdf/ECON%2003-00.pdf [dostęp: 25 stycznia 2012 roku]; F. Bovenkerk, Y. 
Yesilgoz, Crime, Ethnicity and the Multicultural Administration of Justice, [w:] Cultural Criminology Unleashed, red. J. Ferrell, 
K. Hayward, W. Morrison, M. Presdee, Glasshouse Press, London 2004. 

5

 Najprościej rzecz ujmując, z dyskryminacją bezpośrednią mamy do czynienia wtedy, gdy w danej sytuacji osoby podobne pod 

względem istotnych cech traktujemy odmiennie, z kolei z dyskryminacją pośrednią mamy do czynienia wtedy, gdy w danej 
sytuacji, która wymaga odmiennego traktowania osób należących do różnych grup, traktujemy je podobnie. 

background image

 

Źródło: Opracowanie własne. 

 

Po drugie, osoby doświadczające nierównego traktowania, a w konsekwencji wykluczone, 

rzadko są  świadome,  że mają do czynienia z dyskryminacją, lub wypierają ten fakt. Ofiary 

dyskryminacji często tłumaczą nierówne traktowanie w kategoriach innych niż dyskryminacja, 

udowadniając, że określone zachowanie było uzasadnione, było skutkiem istniejących procedur 

czy regulacji, i (lub) obwiniają siebie

6

.

 

Badania wskazują,  że w ten sposób starają się one 

podtrzymać poczucie własnej wartości jako członków grupy mniejszościowej i mieć poczucie 

posiadania przynajmniej minimalnej kontroli nad sytuacją społeczną. Na przykład cudzoziemiec 

w Polsce może nie wiedzieć,  że odmowa wpuszczenia do klubu nocnego jest formą 

dyskryminacji, lub tłumaczyć to swoim nieodpowiednim ubiorem. 

                                                 

6

 K.M. Ruggiero, D.M. Taylor, Why minority group members perceive or do not perceive the discrimination that confronts them: 

the role of self-esteem and perceived control, „Journal of Personality and Social Psychology” 1997, t. 72, nr 2, s. 373–389. 

Dyskryminacja i nierówne 

traktowanie skutkują 

obserwowalnymi 

różnicami, m.in. w 

zarobkach,

 

poziomie i 

wynikach w edukacji, 

jakości

 

życia 

Nierówności są 

postrzegane jako 

wynik posiadania 

danej cechy 

Dyskryminacja ze 

względu na daną cechę 

zostaje 

uprawomocniona 

(legitymizacja 

dyskryminacji) 

Pojawiają się 
uprzedzenia i 

dyskryminacja. 

background image

Negatywne skutki dyskryminacji są coraz wyraźniej dostrzegane przez decydentów 

politycznych i grupy większościowe, a idee równości i niedyskryminacji stają się powoli częścią 

porządków prawnych oraz podstawą funkcjonowania państwa i społeczności lokalnych. Nie ma 

jednak uniwersalnej koncepcji równości. Działania antydyskryminacyjne zmierzają zazwyczaj do 

osiągania celów sformułowanych na podstawie jednej z następujących koncepcji: 

• równości formalnej, która ma charakter czysto proceduralny i wymaga takiego samego 

traktowania osób bez względu na cechy prawnie chronione, 

• równości szans, która zakłada wyrównywanie pozycji wyjściowych (w założeniu 

następnie powinna obowiązywać równość formalna), 

• równości rezultatów, która ma charakter substancjalny i wymaga konstruowania polityk 

społecznych skoncentrowanych na wskaźnikach integracji społecznej (dopuszcza ona na 

przykład system kwot i parytetów). 

Z największą akceptacją społeczną spotykają się działania i polityki zmierzające do 

zapewnienia równości formalnej. Pojęcie równości szans, która – w opinii społecznej – polega na 

prostej eliminacji arbitralnych przeszkód w integracji społecznej i mobilności pionowej, również 

co do zasady nie wywołuje polemik. Najwięcej kontrowersji wzbudzają zwykle działania 

określone jako wyrównywanie rezultatów (dyskryminacja pozytywna, działania afirmacyjne). Jak 

jednak wskazują badacze, równość szans i równość rezultatów wiążą się z bardzo podobnymi 

nakładami finansowymi, a opór wobec działań afirmacyjnych wynika najczęściej z niewiedzy lub 

niezrozumienia procesów dyskryminacyjnych prowadzących do nierówności społecznych

7

. Jak 

dotąd, to jednak prawne (formalne) sposoby przeciwdziałania dyskryminacji są najbardziej 

rozpowszechnione, a między innymi w celu pomiaru ich efektywności w przeciwdziałaniu 

dyskryminacji wypracowano specjalną procedurę badawczą, nazywaną testem 

dyskryminacyjnym. 

 

Testy dyskryminacyjne jako metoda eksperymentalna

 

Testy dyskryminacyjne – jako skuteczne narzędzie wykrywania i określania skali 

dyskryminacji – były rozwijane równolegle w ośrodkach naukowych i instytucjach działających 

na rzecz przestrzegania zasad równego traktowania. Pierwsze testy przeprowadzono niemal 

równocześnie w latach sześćdziesiątych XX wieku zgodnie z metodologią opracowaną przez 
                                                 

7

 Por. D.A. Strauss, The Illusory Distinction Between Equality of Opportunity and Equality of Result, „William and Mary Law 

Review” 1992, t. 34, nr 171. 

background image

brytyjskich socjologów

8

 i  działaczy organizacji na rzecz przestrzegania zasad równego 

traktowania na rynku mieszkaniowym w Stanach Zjednoczonych

9

. Należy jednak podkreślić, że 

opracowane procedury planowania i prowadzenia testów nie są zróżnicowane w zależności od 

tego, gdzie powstały, ale w zależności od tego, czy służą celom naukowo-badawczym, czy też 

mają być wykorzystane w działaniach litygacyjnych. 

Najogólniej rzecz biorąc, niezależnie od badawczego czy litygacyjnego charakteru 

przeprowadzonych obserwacji, test dyskryminacyjny jest eksperymentem przeprowadzanym w 

warunkach naturalnych. Testy dyskryminacyjne są ustrukturalizowaną procedurą badawczą, 

która służy skonstruowaniu kontrolowanego układu, pozwalającego zbierać dane o zachowaniach 

osób mających możliwość wykluczania (przez podejmowanie określonych działań) innych 

aktorów społecznych

10

. Innymi słowy, jak w wypadku każdego układu eksperymentalnego, 

organizator testu w sposób kontrolowany wprowadza i reguluje poziomy zmiennej niezależnej 

(lub zmiennych niezależnych), a następnie dokonuje rejestracji (pomiaru) poziomu zmiennej 

zależnej. 

Kolejność działań, kontrola i bezpośredni pomiar zmiennej zależnej są tymi właściwościami, 

które stanowią, że dana sytuacja staje się eksperymentalna. W eksperymencie poziomy zmiennej 

niezależnej są z góry określone i wprowadzane do sytuacji, zanim zostanie rozpoczęty proces 

gromadzenia informacji o poziomie zmiennej zależnej, badacz zaś ma możliwość takiej 

ingerencji w sytuację, aby dokonywać zmian w poziomie zmiennych niezależnych. Badacz 

tworzy więc taką sytuację, w której występują interesujące go różnice na danym poziomie (o 

danej wielkości). Możliwość kreowania sytuacji dla testu sprawia, że dane zebrane tą metodą są 

wysoce trafne i rzetelne. Nie opiera się bowiem testu na szukaniu i porównywaniu dwóch 

sytuacji, które wydają się podobne, tylko na konstruowaniu przez badacza (organizatora testu) 

dwóch sytuacji, które są takie same we wszystkich aspektach – z wyjątkiem poziomu zmiennej 

niezależnej

11

W badaniach dyskryminacji zmienną niezależną stanowią różne poziomy cechy nominalnej, 

jaką jest przesłanką dyskryminacji, lub cechy, którą podejrzewamy, że jest przyczyną 

nierównego traktowania. Jeśli na przykład sformułowaliśmy hipotezę mówiącą o tym, że osoby 
                                                 

8

 W.  Daniel,  Racial Discrimination in England, Penguin Books, Middlesex 1968; R. Jowell, P. Prescott-Clarke, Racial 

Discrimination and white-collar workers in Britain, „Race” 1970, t. 11, s. 397–417. 

9

 J.  Yinger,  Testing for Discrimination in Housing and Related Markets, [w:] A National Report Card on Discrimination in 

America, red. M. Fix, M.A. Turner, Urban Institute, Washington 1998. 

10

 M. Bendick Jr., A.P. Nunes, Bias in Hiring, „Journal of Social Issues” 2011 [w druku]. 

11

 J. Sell, M. Webster, Metody eksperymentalne w strukturalnej psychologii społecznej [mps]. 

background image

różnej płci mają odmienny dostęp do społecznie cenionych zasobów (pracy, mieszkania), to w 

wypadku płci możemy wyróżnić dwa poziomy: poziom „kobieta” i poziom „mężczyzna”. Przy 

rozpatrywaniu takiej przesłanki, jaką jest pochodzenie etniczne, przynależność do danej grupy 

etnicznej staje się poziomem zmiennej niezależnej. Z kolei zmienną zależną  są zachowania 

wobec osób posiadających dany poziom cechy nominalnej, hipotetycznie uznanej za przesłankę 

dyskryminacji. Test dyskryminacyjny polega zatem na skonstruowaniu sytuacji, w której osoba 

badana (działająca w warunkach naturalnych – typowych dla testowanego rynku) podejmuje 

decyzje dotyczące osób różniących się między sobą tylko pod względem danej cechy, nie będąc 

świadoma,  że jej zachowanie podlega systematycznej obserwacji. Dzięki temu testy pozwalają 

wykryć dyskryminację, umożliwiają bowiem powiązanie odmiennego zachowania z daną 

przesłanką dyskryminacji. 

O trafności testu dyskryminacyjnego decyduje to, w jakim zakresie udało się wyizolować i 

wprowadzić zmienną niezależną tak, aby było możliwe stwierdzenie, że zaobserwowane różnice 

w zachowaniach współzmieniają się z jej poziomem. Procedura badawcza wymaga dobrania 

ocenianych przypadków w taki sposób, żeby były one możliwie jak najbardziej podobne do 

siebie pod względem cech istotnych w danej sferze życia – istotnych z punktu widzenia 

racjonalnych aktorów dokonujących oceny. Przy czym przypadkami ocenianymi mogą być albo 

rzeczywiste osoby (jak w badaniu klubów nocnych), albo specjalnie przygotowane informacje na 

temat fikcyjnych kandydatów (jak w badaniu zachowań pracodawców). Co więcej, oceniane 

przypadki powinny być także identyczne lub niemal identyczne ze względu na inne cechy 

uwidocznione w badaniu, które mogą wpływać na decyzje oceniających. 

Na przykład racjonalni i zorientowani na minimalizację kosztów pracodawcy podejmują 

decyzję o zatrudnieniu i wynagrodzeniu pracowników ze względu na ich produktywność. Innymi 

słowy, biorą pod uwagę wszystkie informacje, które wskazują na kompetencje, doświadczenie i 

wykształcenie kandydatów do pracy. Dlatego w wypadku planowania testu w zatrudnieniu należy 

zapewnić, aby prawdziwi lub fikcyjni kandydaci na dane stanowisko, w imieniu których są 

wysyłane pisemne aplikacje lub którzy osobiście stawiają się u pracodawcy w ramach 

eksperymentu, byli równoważni pod względem prezentowanego wykształcenia, doświadczenia, 

umiejętności i osiągnięć. Ponadto – biorąc pod uwagę,  że przekazywane pracodawcy nie tylko 

informacje bezpośrednie (choćby o posiadaniu dyplomu), ale także pośrednie (jak sposób 

wyrażania się) są postrzegane jako niosące treść związaną z ewentualną oceną produktywności 

background image

kandydata – testerzy nie mogą różnić się pod ich względem (czyli muszą się podobnie wyrażać, a 

ich  życiorysy muszą być napisane w sposób wskazujący te same kompetencje werbalne, 

motywacje, zainteresowania). Z kolei w wypadku testów przeprowadzanych w dostępie do dóbr i 

usług czy na rynku mieszkaniowym należy podczas konstruowania eksperymentu wyeliminować 

wszystkie różnice, które są widoczne i mogłyby dawać uzasadnione podstawy odmiennego 

traktowania. Jeśli na przykład test dotyczy dostępu do restauracji czy klubów nocnych, to testerzy 

powinni być ubrani niemal identycznie (kolory, jakość ubrań, styl) i zachowywać się niemal 

identycznie – zarówno werbalnie, jak i niewerbalnie. W testach dotyczących rynku 

mieszkaniowego powinni ponadto prezentować ten sam poziom dochodów i możliwości 

zarobkowych lub zbliżone referencje. 

Aby zapewnić wysoką trafność testu, procedura eksperymentalna wymaga spełnienia 

kryteriów konkurencyjności i wiarygodności testerów (osób lub sylwetek kandydatów do pracy, 

klientów, osób chętnych do wynajmu albo kupna mieszkania). Kryterium konkurencyjności 

oznacza,  że testerzy (dobrane osoby lub skonstruowane sylwetki) powinni być co najmniej nie 

gorsi niż „typowy” aplikujący na dane stanowisko (szukający mieszkania w danej dzielnicy, 

odwiedzający kluby nocne). Zapewnienie konkurencyjności (atrakcyjności) testerów wymaga 

zatem zebrania przed przystąpieniem do testu informacji o tym, jakie są cechy przeciętnego 

aktora społecznego działającego na danym rynku czy w danej sferze życia. Zazwyczaj w testach 

dyskryminacyjnych, chcąc zagwarantować odpowiednią stopę realizacji badania (response rate), 

ale nie zaburzyć trafności testu, dobiera się testerów (konstruuje sylwetki) tak, żeby byli oni 

nieco lepsi niż przeciętny kandydat (klient, najmujący). Z kolei kryterium wiarygodności 

oznacza,  że testerzy powinni być spójni i prawdopodobni każdy z osobna i jako para. Innymi 

słowy, testerzy w parze (w parach) powinni posiadać cechy swoiste (różnicujące), które 

zminimalizują ryzyko powzięcia przez badanych podejrzeń co do testowego charakteru sytuacji. 

Opisane wyżej wymagania związane z osiąganiem wysokiej trafności testu można również 

przedstawić w skrócie jako kryterium „3 x P”: testerzy powinni być  podobni (pod względem 

wszystkich cech istotnych z punktu widzenia przedmiotu transakcji na danym rynku), 

podobający się (w takim zakresie, żeby być konkurencyjni, atrakcyjni na danym rynku) i 

prawdopodobni (spójni w zachowaniach indywidualnych i wystarczająco różni w parze). 

W wypadku eksperymentów laboratoryjnych przyjmuje się,  że sytuacja powinna zawierać 

wyłącznie te elementy, które są potrzebne do oszacowania poprawności przewidywań 

background image

teoretycznych. Dlatego w laboratorium eliminuje się czynniki, które mogłyby rozpraszać 

uczestników eksperymentu lub ewentualnie dodatkowo modyfikować ich zachowania. Nawet 

jednak w laboratorium mogą się pojawić elementy, których badacz nie przewidział. Dlatego 

losowo przypisuje się uczestników eksperymentu do warunków eksperymentalnych 

(definiowanych przez poziomy zmiennej niezależnej). Losowe przypisanie uczestników do 

różnych warunków (grup) eksperymentalnych gwarantuje, że niezależnie od wystąpienia 

nieprzewidzianych zakłóceń, jakie mogą wpływać na wyniki (związanych z indywidualnymi 

cechami uczestników), rozłożą się one równo między wszystkimi warunkami. Wpływ tych cech 

będzie stały i zostanie potraktowany jako szum (błąd losowy) w danych, podczas gdy 

systematyczny efekt wywołany przez czynniki kontrolowane będzie obserwowalny na podstawie 

różnic w wynikach między warunkami (grupami) eksperymentalnymi. Ponadto randomizacja – 

oznaczająca,  że każdy uczestnik eksperymentu ma takie samo (z góry znane) 

prawdopodobieństwo trafienia do każdej z grup eksperymentalnych – gwarantuje również 

równoważność tych grup. Innymi słowy, zapewnia, że przed rozpoczęciem badania osoby 

znajdujące się w danej grupie nie różniły się systematycznie od osób w innej grupie. 

Takie rozwiązanie jest jednak możliwe tylko wtedy, gdy mamy do czynienia z pomiarem 

jednokrotnym (jedna osoba badana ma do czynienia tylko z jednym warunkiem 

eksperymentalnym). Testy dyskryminacyjne są jednak skonstruowane na planie z pomiarem 

powtarzanym. Plan z pomiarem powtarzanym charakteryzuje się tym, że poszczególne rodzaje 

warunków eksperymentalnych stosuje się w tej samej grupie badanych, a więc wszystkich 

pomiarów dokonuje się na tych samych osobach. W układzie eksperymentalnym 

skonstruowanym na takim planie nie można losowo przypisać badanych do danego warunku (na 

przykład losowo przypisać pracodawców do jednej dwóch grup: tej, do której będą aplikować 

tylko kobiety, i tej, do której będą aplikować tylko mężczyźni, lub też podzielić wynajmujących 

mieszkania na tych, do których zwrócą się testerzy czarni, i tych, do których udadzą się testerzy 

biali). Taka konstrukcja eksperymentu nie pozwoliłaby na pomiar dyskryminacji rozumianej jako 

wynik preferencji dla danej cechy, która zostaje wzięta pod uwagę przy podejmowaniu decyzji. 

Aby więc móc określić, że zaobserwowane zachowanie – (nie)równe traktowanie – ma charakter 

systematyczny (czyli dyskryminacyjny), nie jest zaś skutkiem przypadkowym (na przykład złego 

humoru selekcjonera w klubie nocnym), testy dyskryminacyjne do celów litygacyjnych 

background image

wymagają powtórzenia testu jako takiego

12

, z kolei w testach do celów naukowych stosuje się 

miarę tak zwanej dyskryminacji netto. Dyskryminacja netto to iloraz różnicy w traktowaniu 

przedstawicieli grupy większościowej i mniejszościowej (od liczby przypadków, w których 

członkowie grupy większościowej zostali potraktowani lepiej, odejmuje się liczbę przypadków, 

w których członkowie grupy mniejszościowej zostali potraktowani lepiej

13

) do liczby wszystkich 

uwzględnionych obserwacji. Miara ta opiera się na założeniu, że przypadkowe zakłócenia znoszą 

się przy wyciąganiu różnicy, a ta liczba, która jest wynikiem odejmowania, pokazuje efekt 

systematyczny, jeśli efekty losowe są symetryczne dla grupy większościowej i mniejszościowej 

(czyli jeśli tyle samo przypadków wykluczenia osób z grupy większościowej i mniejszościowej 

jest wynikiem czynników losowych)

14

Końcowym etapem badania eksperymentalnego jest analiza wyników i wyciąganie na ich 

podstawie wniosków. W wypadku eksperymentów laboratoryjnych kwestia wnioskowania jest 

stosunkowo prosta. Celem takich eksperymentów jest sprawdzenie hipotez wyprowadzonych z 

danej teorii. Ponieważ randomizacja gwarantuje wysoką trafność wewnętrzną (eliminuje 

systematyczny wpływ czynników innych niż zmienne niezależne), badacz musi jedynie 

oszacować, czy różnice między przewidywaniem teoretycznym a wynikiem obserwacji mogą być 

dziełem przypadku. Badacz nie określa, jak bardzo prawdopodobne jest wystąpienie danych 

wyników eksperymentalnych w konkretnej populacji – innymi słowy, nie uogólnia wprost 

wyników pomiaru na zbiorowość, z której pochodzą badani („społeczeństwo”) – określa jedynie, 

jak dalece zaobserwowane różnice mogą być wyjaśnione wprowadzeniem różnych poziomów 

zmiennych niezależnych. Problem „generalizacji na populację” (trafności zewnętrznej) jest zatem 

w wypadku testów laboratoryjnych problemem związanym z zakresem stosowalności teorii 

sprawdzanej w eksperymencie (czyli z tym, w jakim zakresie teoria ta znajduje zastosowanie w 

różnych sytuacjach występujących w konkretnej populacji), nie ma zaś związku z uogólnianiem 

statystycznym. 
                                                 

12

 Powtórzenie obserwacji w wypadku testów przeprowadzanych do celów litygacyjnych jest ponadto niezbędne, aby wykazać, że 

pomiar (test) był rzetelny. W naukach empirycznych kryterium rzetelności dotyczy stabilności zbioru obserwacji uzyskanych za 
pomocą danego narzędzia pomiarowego w określonych, stałych warunkach, niezależnie od tego, kto zbiera te obserwacje, gdzie i 
kiedy. W wypadku testów do celów sądowych jedynym sposobem udowodnienia, że test był rzetelny, jest przedstawienie 
wyników tak zwanego pomiaru powtórzonego, co w tym ujęciu oznacza przedstawienie wyniku testu przeprowadzonego w 
odpowiednim czasie i miejscu na tym samym badanym, ale przy użyciu innej pary testerów spełniających kryterium „3 x P”. 

13

 Wskaźniki nierównego traktowania są ustalane każdorazowo w zależności od obszaru objętego testem. Lepsze traktowanie 

może stanowić zaproszenie na rozmowę kwalifikacyjną jednego testera przy niezaproszeniu drugiego (jeśli test dotyczy 
pracodawców), zaoferowanie jednej z osób testujących niższej ceny za daną usługę przy utrzymaniu ceny dla drugiej (jeśli test 
dotyczy rynku dóbr i usług). 

14

 F.  Bovenkerk,  Testing Discrimination in Natural Experiments. A manual for International Comparative Research on 

Discrimination on the Grounds of „Race” and Ethnic Originop. cit

background image

W wypadku testów dyskryminacyjnych kwestia interpretacji wyników wygląda podobnie. 

Ponieważ celem testu jest jedynie odrzucenie hipotezy zerowej

15

 o tym, że dana przesłanka nie 

ma związku z decyzjami podejmowanymi przez osoby badane, należy zmierzyć poziom trafności 

wewnętrznej testu, a następnie obliczyć, czy zmierzona dyskryminacja netto pozwala uznać, że 

wystąpił efekt systematyczny. Jak wcześniej wspomniano, trafność wewnętrzna testu zależy od 

tego, w jakim stopniu udało się skonstruować taką sytuację, w której testerzy są równoważni pod 

względem wszystkich charakterystyk statusu i innych cech mogących wpływać na decyzje 

badanych – z wyjątkiem przesłanki dyskryminacji, której dotyczy pomiar. Istnieje bardzo prosty 

sposób sprawdzenia, czy dobór par testerów zakończył się sukcesem. Poprawna konstrukcja testu 

zakłada,  że  żaden z testerów (żadna z sylwetek) nie jest systematycznie preferowany w danej 

parze z powodów innych niż przesłanka. Jeśli na przykład wykorzystano dwie pary testerów: 

dwóch przedstawicieli grupy mniejszościowej i dwóch przedstawicieli grupy większościowej, to 

istnieją cztery możliwe kombinacje par i każda para uczestniczy w 25% sytuacji testowych. Jeśli 

nie ma efektu konkretnej pary, to każda z nich powinna wygenerować jedną czwartą obserwacji 

interpretowanych jako dyskryminacja. Jeśli pojawia się istotna rozbieżność od tego 

przewidywania, to znaczy, że test nie był trafny

16

. W sytuacji, kiedy test prowadzono z użyciem 

życiorysów (tak zwany test korespondencyjny, o którym będzie jeszcze mowa), ewentualną 

rozbieżność (jeśli użyto dwóch aplikacji) szacuje się za pomocą odchylenia standardowego dla 

krzywej dwumianowej. Z kolei aby przyjąć,  że analizowane dane nie pozwalają odrzucić 

hipotezy o braku nierównego traktowania ze względu na daną przesłankę (czyli odrzucenie 

hipotezy zerowej), trzeba określić z jakim prawdopodobieństwem dyskryminacja netto jest 

istotnie różna od zera

17

Wśród badaczy dyskryminacji stosujących testy toczy się jednak dyskusja o tym, w jaki 

sposób należy obliczać efekt dyskryminacji netto. Problem tkwi w definicji równego traktowania 

i wygląda następująco – istnieją cztery możliwe wyniki dla danej pary testerów złożonej z 

przedstawiciela grupy większościowej i mniejszościowej: 

• obaj testerzy zostają zaproszeni na rozmowę kwalifikacyjną (dostają pracę, mają 

możliwość wynajęcia mieszkania w tej samej cenie, zostają wpuszczeni do klubu nocnego), 

                                                 

15

 Hipoteza zerowa to poddawana testowi statystycznemu hipoteza o braku różnic między parametrami dwóch lub więcej 

populacji. 

16

 Ewentualną rozbieżność wykryje test Chi

2

17

 Por. F. Bovenkerk, Testing Discrimination in Natural Experiments. A manual for International Comparative Research on 

Discrimination on the Grounds of „Race” and Ethnic Originop. cit.; M. Wood, J. Hales, S. Purdon, T. Sejersen, O. Hayllar, 
test for racial discrimination in recruitment practice in British cities
, Department for Work and Pensions, London 2009. 

background image

• obaj testerzy nie dostają pracy (oferty wynajmu, zgody na wejście do klubu), 

• tester z grupy większościowej zostaje potraktowany lepiej, 

• tester z grupy mniejszościowej zostaje potraktowany lepiej. 

Różnica zdań badaczy dotyczy tego, w jaki sposób interpretować sytuację, kiedy żaden z 

testerów nie odniesie sukcesu transakcyjnego na danym rynku. Część badaczy twierdzi, że 

powinny być one włączane do ogólnej analizy jako obserwacje wskazujące na równe 

traktowanie, podczas gdy większość naukowców nie włącza ich do obliczeń, wykluczając jako 

nietrafne lub brakujące obserwacje. Dyskusja ta nie jest trywialna, ponieważ w zależności od 

tego, czy włączymy te obserwacje do analizy, czy też je pominiemy, wartość dyskryminacji netto 

będzie wyższa lub niższa, a co za tym idzie – jej efekt może się okazać statystycznie istotny lub 

nieistotny. Z punktu widzenia istoty testu i kryteriów jego trafności zasadne jest jednak 

nieuwzględnianie tych obserwacji w analizie statystycznej. Istnieje bowiem wiele powodów, dla 

których obaj testerzy mogli być odrzuceni jako partnerzy danej transakcji (interakcji), niemające 

związku z przesłanką dyskryminacji, na przykład poziom bezrobocia w wypadku rynku pracy lub 

liczba klubów nocnych w wypadku rynku usług. Jeśli istnieje wysoki poziom bezrobocia, to 

trudno traktować niską podaż pracy jako czynnik redukujący dyskryminację (zwiększający 

proporcję sytuacji symetrycznego traktowania). Ponadto na symetryczne „negatywne” 

traktowanie może mieć również wpływ jakość testerów lub życiorysów.  Źle przygotowani 

testerzy (źle przygotowane aplikacje) wygenerują zatem więcej „równego traktowania” niż 

dobrze przygotowani testerzy (dobrze przygotowane aplikacje). Źle przygotowani testerzy (źle 

przygotowane aplikacje) nie spełniają jednak kryteriów przyjętych do uznania testu za trafny, 

cokolwiek więc zostało zmierzone przy ich pomocy, nie było to (nie)równe traktowanie

18

 

Na jakie pytania testy dyskryminacyjne nie mogą dać odpowiedzi?

 

Źródła dyskryminacji – koncepcje przyczynowe 

Pierwsze pytanie, jakie często się pojawia w wypadku zaobserwowania przejawów 

dyskryminacji, dotyczy przyczyn tego zjawiska. W naukach społecznych istnieje wiele 

konkurencyjnych teorii wyjaśniających podłoże dyskryminacji i nietolerancji. Większość z nich 

koncentruje się na opisywaniu i wyjaśnianiu mechanizmów prowadzących do świadomej 
                                                 

18

 Por.: F. Bovenkerk, Testing Discrimination in Natural Experiments. A manual for International Comparative Research on 

Discrimination on the Grounds of „Race” and Ethnic Originop. cit.; P. Riach, J. Rich, Field experiments of discrimination in the 
market place
, „The Economic Journal” 2002, nr 112, s. 480–518; M. Bursell, What’s in a name? A field experiment test for the 
existence of ethnic discrimination in the hiring process
, SULCIS Working Papers Series, Stockholm 2007. 

background image

(celowej) dyskryminacji bezpośredniej, część jednak wyjaśnia zjawisko ukrytych lub pośrednich 

form dyskryminacji. Dla wielu z nich konstruktem centralnym jest pojęcie uprzedzenia jako 

postawy (składającej się z negatywnych emocji wobec określonej grupy społecznej, stereotypu, 

czyli pewnej uproszczonej wiedzy na temat przedmiotu postawy, oraz tendencji do określonego 

zachowania). Przyczyny formowania się takich negatywnych postaw wobec grup 

mniejszościowych mogą być różne, za najistotniejsze badacze uznają jednak procesy 

kategoryzacji i tożsamości społecznej, dystans oraz konflikt społeczny. 

Według teorii kategoryzacji i tożsamości społecznej, jednostki – aby zredukować liczbę 

przetwarzanych informacji i (lub) podtrzymać pozytywną samoocenę – kategoryzują siebie i 

innych na podstawie widocznych lub istotnych z indywidualnego punktu widzenia podobieństw i 

różnic. Wynikiem kategoryzacji jest postrzeganie siebie jako jednostkę należącą do danej 

kategorii lub grupy społecznej. Porównując następnie siebie z innymi, jednostki klasyfikują 

osoby podobne jako należące do grupy własnej (in-group), a odmienne – jako należące do grupy 

obcej (out-group), i zaczynają wyolbrzymiać podobieństwa osób zaklasyfikowanych jako grupa 

własna oraz odmienność zaklasyfikowanych jako grupa obca. Uaktywnienie się określonych 

kategorii klasyfikacji zależy od okoliczności i motywacji jednostek

19

Teorie dystansu społecznego wskazują z kolei nieznajomość przedstawicieli grup 

mniejszościowych, brak relacji z nimi na określonych płaszczyznach i społeczną segregację osób 

należących do odmiennych kategorii jako czynniki determinujące formowanie postaw 

negatywnych. Przykładem takiej segregacji może być opisywana niżej segregacja zawodowa ze 

względu na płeć. Istnienie takich kategorii społecznych, jak „kobieta” i „mężczyzna”, dla których 

sformułowano określone oczekiwania co do „odpowiednich” aktywności, powoduje, że zadania 

nie są definiowane jako neutralne płciowo, funkcjonuje także podział na stanowiska „kobiece” i 

„męskie”. Utrzymywanie tego podziału powoduje z kolei wzmacnianie oczekiwań co do ról 

płciowych i postawy niechętne lub wrogie wobec osób, które w pewien sposób starają się go 

naruszyć lub działać niezgodnie z oczekiwaniami

20

. Podobnie ma się rzecz z kategoriami 

etnicznymi. Członkowie odmiennych grup etnicznych mają tendencję do dobrowolnej segregacji, 

na przykład pod względem miejsca zamieszkania, aby wchodzić w interakcje z osobami bliskimi 

                                                 

19

 H.  Tajfel,  Differentiation between social groups: Studies in the social psychology of intergroup relations, Academic Press, 

London 1978; H. Tajfel, J.C. Turner, The social identity theory of inter-group behavior, [w:] Psychology of Intergroup Relations
red. S. Worchel, W.G. Austin, Burnham, Chicago 1986, s. 7–24. 

20

 G.A. Akerlof, R.E. Kranton, Economics and Identity, „The Quarterly Journal of Economics” 2000, nr 65, s. 715–753. 

background image

kulturowo. Segregacja ta nasila się następnie pod wpływem narastających stereotypów i 

uprzedzeń wynikających z braku wzajemnego kontaktu. 

Teorie konfliktu jako przyczynę kształtowania uprzedzeń traktują konkurencję o ograniczone 

zasoby (na przykład pracę czy mieszkania). Istnieją liczne wyniki badań (zarówno korelacyjnych, 

jak i eksperymentalnych), które ilustrują trafność tego wyjaśnienia. Ponadto w literaturze 

przedmiotu można znaleźć opisy wielu rezultatów badań empirycznych, pokazujących społeczne 

mechanizmy uczenia się i nabywania stereotypów czy uprzedzeń – uczestnictwo w danej kulturze 

oznacza socjalizację do przekonań tej kultury na temat grupy własnej (in-group) i innych grup 

(out-groups). 

Bez względu na czynniki generujące uprzedzenia, istnieje związek między taką postawą a 

zachowaniem dyskryminacyjnym. Związek ten nie ma jednak charakteru zależności liniowej. 

Innymi słowy, uprzedzenia wpływają na tendencję do zachowania dyskryminującego, nie 

przekładają się na nie jednak bezpośrednio i nie można na ich podstawie przewidywać 

pojedynczych aktów dyskryminacji. Są osoby uprzedzone, które mimo to nie dyskryminują, i są 

osoby nieuprzedzone, które dyskryminują. Relacja między negatywną postawą a zachowaniem 

jest bowiem modyfikowana przez czynniki sytuacyjne i kulturowe, które wpływają na „koszt” 

zachowania dyskryminacyjnego. Takimi czynnikami są na przykład poziom społecznej 

akceptacji dla zachowań dyskryminacyjnych i przejawów nietolerancji lub ewentualne sankcje 

prawne. 

Różne przejawy zachowań dyskryminacyjnych nie muszą mieć zatem charakteru celowego, 

wynikającego z uprzedzeń. Są one często wynikiem obojętności lub nieuświadamiania sobie 

tego, jaki skutek wywołuje dana decyzja, określone zachowanie, konkretna procedura lub brak 

działania (zaniechanie). Zwyczajowe praktyki lub bezrefleksyjnie powielane procedury 

instytucjonalne przyczyniają się do nierównego traktowania w równie dużym stopniu jak 

działania intencjonalne

21

. Pokazują to choćby wyniki badań na temat wiedzy pracodawców o 

procedurach zatrudniania obcokrajowców lub osób niepełnosprawnych. 

Dyskryminacja oparta na stereotypach (nie zaś na uprzedzeniach, takich jak rasizm, seksizm, 

ageizm czy homofobia) jest często nazywana dyskryminacją statystyczną. Teorie dyskryminacji 

statystycznej przyjmują,  że osoby podejmujące różne decyzje działają racjonalnie i kierują się 

informacjami na temat pewnych typowych charakterystyk danej grupy, działają bowiem w 
                                                 

21

 T. Makkonen, Multiple, Compound and Intersectional Discrimination, Institute for Human Rights, Abo Akademi University, 

Turku 2002. 

background image

sytuacji braku informacji lub niepełnych informacji i ograniczonego czasu na podjęcie decyzji. 

Na przykład pracodawcy przedkładają pracowników pochodzących z określonej grupy 

(mężczyzn) nad innych (kobiety), gdyż grupy te są zróżnicowane pod względem  średniego 

poziomu produktywności (mean model of statistical discrimination) lub wariancji w poziomie 

produktywności (variance model of statistical discrimination). Ponieważ pracodawcy podejmują 

decyzje w warunkach ryzyka (braku danych o indywidualnym poziomie produktywności 

kandydata do pracy), zatrudniają osoby należące do grupy o wyższej średniej produktywności lub 

niższej wariancji produktywności (przy założeniu, że określenie indywidualnej produktywności 

jest kosztowne, a pracodawcy unikają ryzyka)

22

. Podobnie wyjaśniają dyskryminację teorie 

statusowe, z tym, że upatrują one źródła nierównego traktowania w uproszczonych heurystykach 

(błędach) o charakterze poznawczym (cognitive bias), nie zaś informacyjnym (informational 

bias). Według tych teorii, pracodawcy, formułując oczekiwania zadaniowe wobec kandydatów, 

odwołują się do powszechnie podzielanych przekonań kulturowych na temat relatywnych 

kompetencji osób należących do określonych grup i preferują te osoby, co do których 

oczekiwania są wyższe

23

Innym rodzajem dyskryminacji, również wynikającym z braku wiedzy, nie zaś z uprzedzeń, 

jest tak zwana dyskryminacja społeczna (societal discrimination), która polega na opieraniu 

swojej decyzji na przekonaniu, że inne osoby w otoczeniu jednostki mają określone preferencje i 

oczekiwania. Przekonanie to (mimo braku osobistych postaw negatywnych wobec danej grupy) 

powoduje podejmowanie decyzji krzywdzących przedstawicieli określonych grup (na przykład 

„nie wynajmę mieszkania parze homoseksualnej, bo sąsiedzi będą niezadowoleni”). 

W opozycji do przedstawionych wyżej wyjaśnień, nieupatrujących  źródeł zróżnicowanych 

wyników w uprzedzeniach, znajduje się teoria dyskryminacji opartej na preferencjach, 

sformułowana przez Gary’ego S. Beckera

24

. Według tej koncepcji, na przykład pracodawcy 

dyskryminują, ponieważ oni sami, zatrudnieni pracownicy albo konsumenci wyraźnie preferują 

pracowników pochodzących z określonych grup. Teoria dyskryminacji opartej na preferencjach 

opisuje mechanizm występowania zjawiska nierównego traktowania w krótkiej perspektywie, ale 

nie jest w stanie wyjaśnić utrzymywania się oraz stabilności preferencji i dyskryminacji w 
                                                 

22

 E. Phelps, The statistical theory of racism and sexism, „American Economic Review” 1972, t. 62, s. 659–661. 

23

 S.J. Correll, S. Benard, Biased Estimators? Comparing Status and Statistical Theories of Gender Discrimination, [w:] Social 

Psychology of the Workplace, red. S. Thye, E. Lawler, Elsevier, Oxford 2006, s. 89–116. 

24

 G.S.  Becker,  The Economics of Discrimination, University of Chicago, Chicago 1957; M. Foschi, Double Standards of 

Competence: Theory and Research, „Annual Review of Sociology” 2000, t. 26, s. 21–42; K.J. Arrow, What has economics to say 
about racial discrimination
, „Journal of Economic Perspectives” 1998, t. 12, s. 91–100. 

background image

dłuższym przedziale czasu (na rynku idealnym podejmowanie decyzji na podstawie cechy 

niezwiązanej z produktywnością powinno prowadzić do nieefektywności, w konsekwencji zaś – 

do wyeliminowania danego pracodawcy z rynku przez niedyskryminujących, czyli 

efektywniejszych pracodawców). 

 

Koncepcje przyczynowe a testy 

Testy dyskryminacyjne nie są metodą pozwalającą odpowiedzieć na pytanie o przyczyny 

(naturę) dyskryminacji, przede wszystkim dlatego, że – w odróżnieniu od eksperymentów 

laboratoryjnych – nie zapewniają możliwości pełnej kontroli całego procesu, którego rezultatem 

jest określone zachowanie. Nie wiemy na przykład, ile osób (i jakie były to osoby) ubiegało się o 

to samo stanowisko lub starało się wynająć to samo mieszkanie co testerzy. Nie wiadomo zatem, 

jakie dokładnie informacje zostały wzięte pod uwagę przez podejmujących decyzję. Nie sposób 

również określić, jaki był poziom istotnych zmiennych wyjaśniających, na przykład jakie 

standardy zostały uwzględnione przy ocenie aplikantów lub jaka jest treść stereotypów wśród 

badanych osób. Mówiąc inaczej, testy dyskryminacyjne pozwalają stwierdzić, czy badani 

dyskryminują, nie umożliwiają jednak ustalenia, dlaczego tak się dzieje. Sprawdzenie, który z 

omówionych modeli przyczynowych najlepiej wyjaśnia i opisuje mechanizmy dyskryminacji w 

określonych warunkach, wymagałoby skonstruowania wielu eksperymentów laboratoryjnych 

testujących trafność konkurencyjnych hipotez wyprowadzonych z poszczególnych teorii lub 

zgromadzenia szczegółowych danych empirycznych, między innymi na temat krańcowej 

produktywności poszczególnych osób starających się o pracę lub preferencji decyzyjnych osób 

wynajmujących mieszkania. 

Nie oznacza to jednak, że testy nie dają podstaw formułowaniu hipotez na temat przyczyn 

zaobserwowanego odmiennego traktowania. Biorąc pod uwagę,  że testy systematycznie 

wykazują dyskryminację w zatrudnieniu osób o niebiałym kolorze skóry i kobiet niezależnie od 

ich doświadczeń, wykształcenia czy kompetencji kulturowych, twierdzenie o wyższej  średniej 

produktywności osób białych czy mężczyzn, stanowiące fundament decyzji pracodawców, 

wydaje się nieuzasadnione (a zatem teoria dyskryminacji statystycznej raczej nie wyjaśnia 

zaobserwowanych wyników). Spójność wyników testów prowadzonych w różnych obszarach 

rynku pracy potwierdza raczej trafność koncepcji Gary’ego S. Beckera (uprzedzenia są podstawą 

background image

decyzji pracodawców) lub teorii dystansu społecznego George’a A. Akerlofa

25

 (pracodawcy 

preferują osoby podobne do nich pod względem społeczno-kulturowym, a podstawą tej 

preferencji nie jest kalkulacja ekonomiczna, ale komfort społeczny). Hipotezy te wymagają 

jednak dalszej weryfikacji empirycznej, gdyż – co warto jeszcze raz podkreślić – test 

dyskryminacyjny nie jest metodą weryfikowania hipotez na temat mechanizmów dyskryminacji. 

Dlatego, mimo że testy są uznanym sposobem na sprawdzenie efektywności podejmowanych 

działań (w tym regulacji prawnych) zmierzających do redukcji dyskryminacji, to ich wyniki – 

jeśli wskażą,  że działania te są nieefektywne – nie mówią nic o tym, jakie rozwiązanie 

alternatywne (w sensie wskazania przyczyn) byłoby lepsze. 

 

Uogólnianie wyników testów 

Wyniki testów dyskryminacyjnych powinny być traktowane tak, jak wyniki wszystkich 

eksperymentów – jako podstawa przyjęcia lub odrzucenia sprawdzanej hipotezy. W wypadku 

testów hipoteza dotyczy występowania albo niewystępowania dyskryminacji ze względu na 

określoną przesłankę na konkretnym rynku lub w danej sferze. Znając wyniki testów, można 

więc sformułować wniosek o istnieniu dyskryminacji, ustalić, jaka jest jej skala i czy konkretny 

pracodawca (wynajmujący, klub) dyskryminuje, nie można jednak sformułować wniosków na 

temat tego, ilu pracodawców (właścicieli) w danym kraju dyskryminuje, czy w jednym kraju jest 

więcej dyskryminacji niż w innym i czy dyskryminacja w danej sferze albo ze względu na 

określoną przesłankę jest wyższa czy niższa niż w innej sferze lub ze względu na inną 

przesłankę. Podobnie ograniczone są możliwości porównywania zmian w poziomie 

dyskryminacji w czasie. Tak jak absurdem byłoby na podstawie słynnego eksperymentu 

Salomona Ascha

26

 nad konformizmem wysuwać wniosek, że ludzie podają  błędne odpowiedzi 

pod wpływem innych osób w jednej trzeciej wszystkich sytuacji życiowych, tak samo 

niedorzecznością byłoby twierdzić na podstawie wyników testów, że jedna trzecia pracodawców 

w danym kraju dyskryminuje albo że co czwarty właściciel klubu nocnego nierówno traktuje 

swoich klientów. Kilka czynników wpływa na niemożność bezpośredniego uogólnienia na całą 

populację. 

                                                 

25

 G.A. Akerlof, Social Distance and Social Decisions, „Econometrica” 1997, t. 65, nr 5, s. 1005–1027. 

26

 W eksperymencie Salomona Ascha uczestnicy badania mieli wskazać, który z przedstawionych trzech odcinków jest długością 

najbardziej zbliżony do odcinka wzorcowego. Uczestnik podawał swoją odpowiedź po tym, jak podały ją inne osoby obecne 
podczas badania (w rzeczywistości pomocnicy eksperymentatora), które wskazywały wyraźnie błędne odpowiedzi. Szerzej – por. 
S.E. Asch, Opinions and social pressure, „Scientific American” 1955, t. 193, s. 31–35. 

background image

Po pierwsze, w wypadku eksperymentów uogólnienie dotyczy teorii, nie zaś obserwacji. 

Innymi słowy, można stosować teoretyczne twierdzenia do wyjaśniania różnych zjawisk 

spełniających warunki zakresowe teorii, ale nie sam wynik pomiaru. O ile zatem można przyjąć, 

że skoro test wykazał istnienie nierównego traktowania ze względu na określoną przesłankę, to ta 

cecha stanowi podstawę nierównego traktowania w danej sferze, o tyle jednak nie można 

twierdzić, że stanowi ona podstawę działania określonego procenta pracodawców albo że jest w 

określonym procencie prawdopodobne, że dana osoba zostanie nierówno potraktowana ze 

względu na przynależność do grupy mniejszościowej. 

Po drugie, dobór badanych (pracodawców w określonych zawodach, wynajmujących 

mieszkania, klubów) nie ma charakteru losowego. Testerów lub aplikacje wysyła się w 

odpowiedzi na pojawiające się oferty, nie zaś do losowo wybranej reprezentatywnej grupy 

aktorów rynkowych. Sytuacja na danym rynku (stosunek popytu do podaży), typ zawodu, 

standard mieszkania może więc zaważyć na wynikach i ich porównywalności w czasie. Aby móc 

uogólnić wyniki przynajmniej na konkretny typ pracodawców (zawodów, wynajmujących, 

klubów) w danym okresie, trzeba by przeprowadzić test na wszystkich członkach danej populacji 

(zawodów, pracodawców, właścicieli) lub ich losowej próbie, przy czym braki w obserwacjach 

musiałyby mieć charakter błędu losowego. Z kolei niemożność porównywania w przestrzeni, 

czasie i między rynkami albo przesłankami dyskryminacji wynika z tego, że procedura testu 

dyskryminacyjnego nie umożliwia kontrolowania zmiennych, o których wiemy, że korelują się z 

poziomem dyskryminacji. W różnych krajach (albo nawet w tym samym regionie) rozmaite 

mniejszości mają odmienne historie. Zmieniają się poziomy podaży i popytu. Inne zawody (inni 

pracodawcy lub właściciele) są podmiotami badanymi w różnych testach. 

 

Na jakie pytania testy dyskryminacyjne dają odpowiedź?

 

Ograniczenia procedury eksperymentalnej nie zmieniają tego, że jest wiele zalet stosowania 

testów dyskryminacyjnych. Pozwalają one wyjaśnić przynajmniej części obserwowanych 

nierówności w określonej sferze życia. Najczęściej bowiem oprócz pytań o to, co generuje 

zachowania dyskryminacyjne, pojawiają się pytania o to, z jaką formą dyskryminacji mamy do 

czynienia, na podstawie jakiej cechy dana osoba doświadczyła dyskryminacji i w jakiej sferze. 

Wbrew pozorom, odpowiedź na te pytania nie jest oczywista. Na przykład dysproporcje na rynku 

pracy (w zarobkach czy w strukturze zatrudnienia) mogą, ale nie muszą być wynikiem zachowań 

background image

dyskryminacyjnych ze strony zatrudniających. Tak samo nierówny dostęp do mieszkań może, ale 

nie musi być wynikiem bezpośredniej dyskryminacji ze strony wynajmujących. Część badaczy 

zwraca uwagę,  że różnice w obserwowalnych wskaźnikach sytuacji różnych grup 

demograficznych mogą być wynikiem rzeczywistych różnic między jednostkami, które z kolei są 

determinowane poziomem i rodzajem wykształcenia, doświadczenia, kultury czy naturalnych 

zdolności poznawczych. Te zaś mogą być rezultatem nierównego traktowania członków 

konkretnej grupy nie w sferze, w jakiej zaobserwowaliśmy nierówność, ale w zupełnie innym 

obszarze  życia. Na przykład nierówna sytuacja na rynku pracy może być wynikiem nie tyle 

dyskryminacji przez pracodawców osób należących do określonych kategorii społecznych 

(przedstawicieli grup mniejszościowych), ile dyskryminacji w systemie edukacji, nierównego 

traktowania w okresie dorastania czy wychowania. 

Aby wykryć i określić zakres zjawiska nierównego traktowania w zatrudnieniu, zazwyczaj 

dokonuje się obserwacji, pomiaru i porównania różnic w zarobkach między grupami (wage 

differential) i (lub) różnic w uczestnictwie w rynku pracy (compositional differences). Te ostatnie 

mogą być mierzone na różnych poziomach: po pierwsze, osoby pochodzące z różnych grup mogą 

być w różnym stopniu obecne na rynku pracy, a zatem inny będzie poziom bezrobocia lub 

(nie)aktywności zawodowej między grupami, po drugie, odmienne mogą być proporcje 

przedstawicieli grup w określonych zawodach (inter-occupational segregation) albo na 

określonych pozycjach w hierarchii służbowej (intra-occupational segregation/authority gap)

27

Różne sposoby pomiaru nierówności w zatrudnieniu muszą uwzględniać to, że obserwowalne 

różnice na rynku pracy niekoniecznie wynikają z nierównego traktowania. Najczęściej stosowany 

sposób pomiaru dyskryminacji – technika dekompozycji Alana Blindera i Ronalda Oaxaca

28

 – 

nie spełnia jednak w pełni tego warunku. W technice tej traktuje się różnice w zarobkach między 

określonymi grupami jako zmienną zależną, a następnie wybiera zestaw zmiennych 

niezależnych, które mogą wpływać na produktywność (na przykład wykształcenie i 

doświadczenie zawodowe). Jeśli różnic w zarobkach między grupami nie można w pełni 

wyjaśnić za pomocą wybranych zmiennych niezależnych, tę „niewyjaśnioną” część różnic w 

zarobkach przypisuje się dyskryminacji. Główne ograniczenie tej techniki, jak zresztą większości 
                                                 

27

 Por. B. Reskin, The Realities of Affirmative Action in Employment, American Sociological Association, Washington 1998; A. 

Aguirre, D.V. Baker, Structured Inequality in the United States: Discussions on the Continuing Significance of the Race, Ethnicity 
and Gender
, Prentice Hall, Upper Saddle River 2000. 

28

 Por. R. Oaxaca, Male-Female Wage Differentials in Urban Labor Markets, „International Economic Review” 1973, t. 14, nr 3, 

s. 693–709; A.S. Blinder, Wage Discrimination: Reduced Form and Structural Estimates, „Journal of Human Resources” 1973, t. 
8, s. 436455. 

background image

tak zwanych równań zarobków, polega na tym, że przyjęte zmienne wyjaśniające (niezależne) 

mogą nie zawierać wszystkich czynników wpływających na produktywność. Innymi słowy, 

pewna część niewyjaśnionej różnicy może wynikać nie tyle z dyskryminacji, ile z różnic w 

wydajności nieuwzględnionych przez badacza. Podobny problem występuje w wypadku 

wyjaśniania segregacji zawodowej. W mniejszym bowiem stopniu chodzi o stwierdzenie jej 

występowania (jest wiele miar, których można użyć, na przykład zmodyfikowany współczynnik 

Giniego lub indeks rozbieżności), w większym zaś – o powiązanie jej z dyskryminacją. 

Oddzielenie wpływu dyskryminacji od indywidualnych preferencji, wykształcenia, presji 

społecznej i innych czynników, jakie mogą wpływać na koncentrację mniejszości w określonych 

zawodach, jest jednak trudne

29

Testy dyskryminacyjne pozwalają odizolować wpływ dyskryminacji od oddziaływania różnic 

w produktywności w wypadku rynku pracy (a w wypadku innych rynków – od istotnych w nim 

różnic, na przykład dochodu na rynku mieszkaniowym czy rynku dóbr i usług). Nie umożliwiają 

co prawda odrzucenia hipotezy, że różnice w produktywności (lub innych cechach związanych z 

określoną sferą) wyjaśniają przynajmniej część różnic w zarobkach lub innych wskaźnikach 

sytuacji grupy mniejszościowej i większościowej, pozwalają jednak wykryć zachowania 

dyskryminacyjne ze względu na daną cechę lub kombinację cech w testowanym obszarze. 

Testy umożliwiają także obserwację różnych typów i form zachowań dyskryminacyjnych 

wśród tych samych lub różnych aktorów, którzy mają wpływ na sytuację mniejszości w 

konkretnym obszarze. Podczas gdy badania całych populacji dotyczą zazwyczaj jednego 

wskaźnika nierówności – na przykład (w wypadku rynku mieszkaniowego) segregacji 

mieszkaniowej, decyzji o przyznaniu kredytu hipotecznego czy przeciętnej wysokości czynszu – 

to testy pozwalają sprawdzić, w jakim stopniu poszczególni aktorzy rynkowi nierówno traktują 

osoby należące do grup prawnie chronionych (właściciele mieszkań, pośrednicy handlu 

nieruchomościami czy agencje najmu) i jaką formę przyjmuje nierówne traktowanie. 

Dyskryminacja może bowiem mieć charakter odebrania jakiejkolwiek szansy na transakcję 

(opportunity denying – na przykład odmowa pokazania mieszkania) lub zmniejszenia szansy na 

                                                 

29

 R.M.  Blackburn,  Measuring Occupational Segregation and Its Dimensions of Inequality and Difference, Social Science 

Research Group Politics, Psychology, Sociology and International Studies, Cambridge University, Cambridge 2009. 

background image

transakcję  (opportunity diminishing – na przykład zaoferowanie mniej korzystnych warunków 

najmu)

30

Procedura testowa do pewnego stopnia umożliwia także określenie, w jakim obszarze i wśród 

jakich aktorów rynkowych powinny być podjęte działania na rzecz przestrzegania prawa 

dotyczącego równego traktowania. Jeśli bowiem test wykaże wysoki poziom dyskryminacji w 

danych zawodach, na konkretnych stanowiskach czy w określonych sąsiedztwach lub 

dyskryminację przez konkretnego pracodawcę czy właściciela klubu, to może to stanowić 

podstawę skoncentrowania uwagi i działań zarówno badawczych, jak i interwencyjnych wśród 

określonych typów pracodawców, wobec danego właściciela czy w konkretnej dzielnicy. 

 

Testy dyskryminacyjne do celów badawczych i litygacyjnych

31

 

Jak już wspomniano, procedury testowe różnią się pod kilkoma względami w zależności od 

tego, czy test jest przeprowadzany w celach poznawczych, czy też na potrzeby dowodzenia w 

postępowaniach sądowych. Różnice te dotyczą głównie trzech elementów: 

• testerów, 

• rejestracji przebiegu testu, 

• wyboru badanych

32

 

Testerzy 

Istnieją trzy sposoby przeprowadzania testów dyskryminacyjnych – przy udziale osób 

(aktorów lub ochotników), przez telefon i za pomocą pisemnych aplikacji. W wypadku badań 

prowadzonych do celów naukowych – ze względu na stopień kontroli sytuacji eksperymentalnej, 

jaki wiąże się z każdym ze sposobów – na tych rynkach, na których jest to możliwe, preferuje się 

testy pisemne (nazywane testami korespondencyjnymi). Najmniej preferowane są testy z 

udziałem prawdziwych osób. Z kolei w testach prowadzonych do celów prawnych jedyna 

dopuszczalna ich forma wymaga udziału fizycznie istniejących testerów. Warunek ten wynika z 

kwestii regulacji prawnych – musi istnieć realny poszkodowany (ofiara dyskryminacji) i (lub) 

                                                 

30

 P. Riach, J. Rich, Field experiments of discrimination in the market place,  op. cit.; J. Yinger, Testing for Discrimination in 

Housing and Related Marketsop. cit

31

 O możliwościach wykorzystywania testów dyskryminacyjnych w postępowaniach sądowych – por. K. Wencel, Owoc zatrutego 

drzewa?

 

Wyniki eksperymentów naturalnych jako dowód w sprawach o dyskryminację, [w:] Sąsiedzi czy Intruzi? O dyskryminacji 

cudzoziemców w Polsceop. cit

32

 R.V.O. Boggs, J.M. Sellers, M. Bendick, Use of Testing in Civil Rights Enforcement, [w:] Clear and Convincing Evidence. 

Measurement of Discrimination in America, Urban Institute Press, Washington 1993. 

background image

fizyczny  świadek nierównego traktowania. W wypadku testów do celów sądowych testerzy 

występują bowiem albo jako powodowie, albo świadkowie dyskryminacji. Z tego powodu oprócz 

takich cech, jak obiektywność, spostrzegawczość i dokładność, oczekiwanych także w badaniach 

naukowych, testerzy muszą się ponadto charakteryzować nieposzlakowaną opinią, umiejętnością 

formułowania precyzyjnych relacji dotyczących objętych testem zdarzeń, a także mieć chęć i 

możliwość uczestniczenia w postępowaniu sądowym. Co więcej, oczekuje się również,  że 

testerzy nie będą w żaden sposób powiązani z ofiarą dyskryminacji ani uprzedzeni wobec 

podmiotu badanego (jeśli test jest prowadzony, aby uprawdopodobnić powództwo osoby, która 

twierdzi,  że doświadczyła nierównego traktowania), ani że nie odniosą  żadnej bezpośredniej 

korzyści w związku z określonym wynikiem (jeśli test jest prowadzony po to, żeby określić, czy 

dany podmiot przestrzega przepisów antydyskryminacyjnych)

33

We wszystkich rodzajach testów musi być spełnione kryterium „3 x P”, przy czym w testach 

do celów litygacyjnych osoba należąca do grupy prawnie chronionej zazwyczaj jest nieco 

bardziej konkurencyjna („atrakcyjna”) niż osoba należąca do grupy większościowej. Taka 

praktyka została przyjęta, aby wzmocnić dowód świadczący o wystąpieniu zjawiska nierównego 

traktowania. Z tego samego powodu osoba należąca do grupy mniejszościowej uczestniczy w 

sytuacji testowej przed osobą z grupy kontrolnej (większościowej). 

W testach do celów zarówno naukowych, jak i sądowych testerzy przechodzą intensywny 

trening przygotowujący ich do sytuacji, w których będą uczestniczyć (na przykład rozmów 

kwalifikacyjnych czy dotyczących wynajmu mieszkania). Trening taki obejmuje ćwiczenie 

zachowań charakterystycznych dla danej interakcji, postrzeganie i rejestrowanie jej przebiegu 

oraz radzenie sobie z różnego typu reakcjami osób badanych. Ponadto testerzy w danej parze 

ćwiczą razem, aby upodobnić swoje zachowania i reakcje. W wypadku testów do celów 

litygacyjnych testerzy są również informowani o możliwym przebiegu postępowania sądowego. 

 

Rejestracja przebiegu testu 

W testach do celów sądowych najważniejsza jest kompletność i ścisłość opisu przebiegu testu, 

a także identyczność zachowań w obrębie pary. Podczas gdy w testach do celów naukowych 

pewne działania są zestandaryzowane między wszystkimi parami testerów (na przykład to, ile 

razy testerzy dzwonią do pracodawcy z pytaniem o wynik rozmowy kwalifikacyjnej), to w 
                                                 

33

 Ibidem. Por. także: I. Rorive, Proving Discrimination Cases – the Role of Situation Testing, Migration Policy Group, Centre for 

Equal Rights, Brussels 2009. 

background image

testach litygacyjnych testerzy powinni zachować się adekwatnie do konkretnej sytuacji testowej i 

przede wszystkim spójnie w obrębie pary (na przykład w jednej parze testerzy mogą zadzwonić 

do pracodawcy tylko raz, a w innej – trzy razy). Oznacza to potrzebę  ściślejszej współpracy z 

administratorem testu, który jest jedyną osobą posiadającą informacje na temat przebiegu sytuacji 

testowej i działań osób w parze. Testerzy nie powinni mieć bowiem kontaktu ze sobą w trakcie 

trwania testu, aby nie wpływać na ewentualny jego przebieg – na przykład przez referowanie 

sobie emocji związanych z doświadczeniem interakcyjnym z osobą badaną. 

Opis emocji, a także inne osobiste relacje dotyczące przebiegu sytuacji znajdą się z kolei w 

protokole przebiegu testu, który w wypadku testów litygacyjnych ma charakter częściowo 

ustrukturyzowany, a w wypadku badań naukowych – zazwyczaj w pełni ustrukturyzowany. 

Wymagania dotyczące dowodów prezentowanych w sądzie determinują także ilość i dokładność 

informacji zawartych w protokole przebiegu eksperymentu. Naukowców interesują przede 

wszystkim kwestie dotyczące przyjętych w badaniu wskaźników nierównego traktowania 

(wpuszczono do klubu – nie wpuszczono do klubu, pokazano mieszkanie – nie pokazano 

mieszkania). Z kolei w trakcie postępowań sądowych istotny jest cały przebieg zdarzenia, użyte 

słowa czy gesty, zadane pytania, długość trwania interakcji, dlatego organizator testu powinien 

zadbać, żeby wszystkie te szczegóły zostały precyzyjnie opisane. 

 

Wybór badanych 

W testach do celów naukowych badani są dobierani spośród wszystkich aktorów 

sygnalizujących chęć zawarcia transakcji na danym rynku (pracodawców ogłaszających 

rekrutację, właścicieli mieszkań umieszczających ogłoszenia o chęci wynajmu lokali, osób 

oferujących swoje usługi publicznie). Nie ma znaczenia, czy dany aktor był lub jest 

podejrzewany o nierówne traktowanie. W wypadku testów prowadzonych do celów postępowań 

sądowych badani nie są wybierani przypadkowo – powinno się nawet unikać testów 

proaktywnych (czyli eksploracyjnych, wśród dowolnie dobranych badanych) ze względu na 

możliwe oskarżenie o prowokację. Test, który ma służyć jako dowód w postępowaniu sądowym, 

powinien być przeprowadzony tam, gdzie istnieje domniemanie dyskryminacji. Domniemanie to 

może być wynikiem zgłoszenia się do organizatora testów osoby twierdzącej,  że została 

background image

nierówno potraktowana, uprzednio odnotowanych zdarzeń dyskryminacyjnych w określonym 

miejscu (przez daną osobę) lub innych faktów wskazujących na nierówne traktowanie

34

 

Przykłady testów

 

Dwa przedstawione poniżej testy zostały dobrane tak, aby stanowić ilustrację odmiennych 

procedur konstruowania sytuacji eksperymentalnych do celów naukowych i do celów 

litygacyjnych. Pierwszy z nich to pilotażowy test korespondencyjny mierzący dyskryminację w 

zatrudnieniu, przeprowadzony przez badaczy Instytutu Spraw Publicznych. Drugi to test mający 

na celu dokonanie pomiaru dyskryminacji w dostępie do klubów nocnych, przeprowadzony w 

ramach tak zwanej nocy testów przez badaczy Instytutu Spraw Publicznych, Stowarzyszenia 

Interwencji Prawnej oraz Forum na rzecz Różnorodności Społecznej. 

 

Test korespondencyjny do celów naukowych 

Test korespondencyjny polega na wysłaniu uprzednio przygotowanych aplikacji fikcyjnych 

kandydatów w odpowiedzi na oferty pracy umieszczone przez autentycznych pracodawców, a 

następnie na monitorowaniu liczby i rodzaju reakcji ze strony rekrutujących. Opisywana 

procedura została zastosowana do pomiaru dyskryminacji w rekrutacji osób o statusie 

cudzoziemca. Zmienna niezależna miała zatem dwa poziomy: Polak i cudzoziemiec. Poziom 

zmiennej niezależnej został wprowadzony do sytuacji przez podanie na początku CV imienia, 

nazwiska, miejsca i kraju urodzenia oraz – na końcu CV (pod formułką o zgodzie na 

przetwarzanie danych osobowych w związku z rekrutacją) – informacji o posiadaniu prawa do 

podejmowania legalnej pracy bez dodatkowych zezwoleń. Podanie tej ostatniej informacji było 

niezbędne nie tylko po to, aby wprowadzić zmienną niezależną, ale także po to, żeby zapewnić 

pracodawcę, że zatrudnienie cudzoziemca nie wiąże się w tym wypadku z dodatkowym kosztem 

uzyskania zezwolenia na pracę, co stanowiłoby czynnik związany z ewentualną oceną 

produktywności kandydatów. 

Aby zapewnić wysoką trafność wewnętrzną testu, w następujący sposób zapewniono 

spełnienie kryterium „3 x P”. 

Podobieństwo. Kandydaci w każdej parze wysyłanych  życiorysów byli w tym samym lub 

niemal tym samym wieku (różnica wieku wynosiła mniej niż rok), mieli ukończone kierunki 

                                                 

34

 I. Rorive, Proving Discrimination Cases – the Role of Situation Testingop. cit

background image

studiów uznane za równoważne albo szkoły uznane za równoważne w wypadku stanowisk, na 

których wyższe wykształcenie nie było wymagane. Obaj kandydaci mieli także tyle samo 

miesięcy doświadczenia zawodowego u dwóch różnych pracodawców (aplikacje były wysyłane 

tylko w odpowiedzi na ogłoszenia o pracę na stanowiskach niższego szczebla). Wszyscy 

kandydaci posiadali prawo jazdy kategorii B, mówili płynnie w języku angielskim i byli podobni 

pod względem dodatkowych umiejętności i odbytych szkoleń

35

. We wszystkich wysłanych 

życiorysach identyczna była kolejność i liczba podanych informacji, różniły je tylko czcionki i 

nagłówki. W każdym z CV przy nazwie aktualnego lub ostatniego pracodawcy pojawiała się 

notatka,  że referencje mogą być dostarczone na życzenie. Została ona dołączona po to, aby 

zminimalizować ryzyko kontaktu między potencjalnym pracodawcą a firmą wymienioną w 

życiorysie. 

Prawdopodobieństwo. Cechą różnicującą kandydatów były ich zainteresowania, przy czym 

zostały one przypisane kandydatom losowo, aby zminimalizować ewentualny systematyczny 

efekt określonego zestawu zainteresowań. Ponadto doświadczenie zawodowe było zdobywane u 

różnych pracodawców. 

Identyczna struktura została zastosowana w listach motywacyjnych przygotowanych dla 

aplikantów – w każdym liście nawiązano do cech lub umiejętności wymaganych przez 

pracodawcę w ogłoszeniu oraz przedstawiono wizję rozwoju. Jeśli pracodawca prosił o podanie 

oczekiwań finansowych, we wszystkich aplikacjach podawano ten sam poziom oczekiwanych 

zarobków (poziom ten określano na podstawie informacji o średnich zarobkach na danym 

stanowisku w tej branży i opinii ekspertów). 

Podobanie się (konkurencyjność). Wszyscy kandydaci aplikowali na stanowiska 

niewymagające specjalistycznego doświadczenia (było ono jedynie „mile widziane”), do 

pewnego stopnia jednak je posiadali. Zawsze przynajmniej u jednego pracodawcy zakres 

obowiązków lub wykonywane czynności pokrywały się z opisem stanowiska, na które były 

wysyłane aplikacje. Wszyscy kandydaci ukończyli także szkoły lub uniwersytety plasujące się w 

pierwszej piątce rankingu dla danego kierunku. 

Ostatnim etapem przygotowania dokumentów aplikacyjnych było stworzenie fikcyjnych 

tożsamości – nadanie kandydatom konkretnych imion i nazwisk, przypisanie adresów, numerów 

                                                 

35

 Wszystkie  użyte aplikacje zostały skonstruowane przy udziale specjalistów lub osób rekrutujących w danych zawodach i 

poddane pretestowi. Por. K. Wysieńska, Nguyen, Serhij czy Piotr? Pilotażowe badanie audytowe dyskryminacji cudzoziemców w 
rekrutacji
, [w:] Sąsiedzi czy Intruzi? O dyskryminacji cudzoziemców w Polsceop. cit

background image

telefonów i adresów e-mail oraz opracowanie gotowego zestawu dokumentów dla kandydatów z 

danej pary. Preferowaną formą kontaktu, co było sygnalizowane w liście motywacyjnym, był 

kontakt telefoniczny lub za pomocą poczty elektronicznej. Jako adresów użyto miejsc 

zamieszkania trzech spośród badaczy zaangażowanych w projekt, które były tak samo oddalone 

od centrum Warszawy – kryterium odległości wprowadzono dlatego, że niektórzy pracodawcy 

uwzględniają czas dojazdu do pracy przy ocenie kandydatów (podobieństwo). W różnych 

zawodach aplikantom przypisano odmienne imiona, nazwiska i miejsca urodzenia z 

przygotowanej puli nazwisk. Rotacja imion i nazwisk między zawodami została wprowadzona, 

aby wyeliminować ryzyko wykrycia, że osoba o identycznym nazwisku szuka pracy na różnych 

stanowiskach lub w różnych zawodach (prawdopodobieństwo). Na koniec, według schematu 

pozwalającego uniknąć efektu przypisania danej narodowości do konkretnej aplikacji i aby 

wyeliminować efekt par, losowano życiorys dla aplikanta. 

Do ostatecznej selekcji ogłoszeń zastosowano specjalną procedurę. Najpierw badacze 

wyszukiwali adekwatne do danego zawodu i stanowiska oferty na trzech wybranych portalach 

(Pracuj.pl, Gazetapraca.pl, Goldenline.pl). Następnie sprawdzali, czy ogłoszenie spełnia przyjęte 

wcześniej warunki, to jest: (1) czy pochodzi bezpośrednio od pracodawcy, (2) czy dotyczy 

zatrudnienia na umowę o pracę, (3) czy wystarczająca jest elektroniczna forma aplikacji, (4) czy 

są wymagane jedynie dokumenty w języku polskim. Ogłoszenia, w których proszono o aplikacje 

w języku angielskim, były odrzucane. Po pierwsze, pretestowane i poddane ocenie ekspertów 

były wyłącznie aplikacje w języku polskim. Tłumaczenie dokumentów pociągałoby za sobą 

konieczność sprawdzenia rzetelności takiego tłumaczenia. Po drugie, przy aplikowaniu w języku 

angielskim pojawiłaby się kwestia precyzyjnego określenia poziomu znajomości języka 

polskiego u cudzoziemca. Bez sprawdzenia efektu różnicy między przymiotnikami „native” a 

fluent” nie można by założyć równoważności kandydatur, a co za tym idzie – orzekać o 

trafności testu. 

Między 15 lipca a 13 września 2010 roku, mimo trwających wakacji, zespół badaczy 

zaangażowanych w realizację projektu wybrał 194 ogłoszenia w pięciu branżach i wysłał 361 

aplikacji (na 27 ofert, z różnych powodów, udało się wysłać tylko jedną aplikację). 

W teście korespondencyjnym za wskaźnik nierównego traktowania (zmienną zależną) 

przyjmuje się różnicę w liczbie zaproszeń na rozmowę kwalifikacyjną. Inne zachowania i 

przejawy nierównego traktowania ze strony pracodawców również mogą być zaobserwowane w 

background image

trakcie trwania testu. Dlatego wszystkie reakcje ze strony potencjalnego pracodawcy wobec 

kandydatów były rejestrowane i analizowane. Reakcje te obejmowały między innymi 

potwierdzenia otrzymania aplikacji, telefony z zapytaniem o oczekiwania finansowe, próby 

przeprowadzenia rozmowy kwalifikacyjnej przez telefon oraz listy z zadaniami do rozwiązania 

przez aplikanta. Po odrzuceniu automatycznie generowanych potwierdzeń otrzymania aplikacji 

pozostałe typy reakcji zostały zakwalifikowane jako reakcja pozytywna i włączone do ostatecznej 

analizy danych. Z wyjątkiem automatycznie generowanych informacji o przyjęciu zgłoszenia, na 

każdy inny kontakt ze strony pracodawcy odpowiadano telefonicznie lub przez e-mail, że 

aplikacja jest już nieaktualna. Na 167 ogłoszeń, na które udało się wysłać zestaw dwóch 

aplikacji, zarejestrowano łącznie 26 pozytywnych reakcji (16%). Liczba ważnych obserwacji nie 

pozwoliła na przeprowadzenie analiz statystycznych, ale sam sposób przeprowadzenia testu 

ilustruje, jakie działania muszą być podjęte, aby osiągnąć wysoką trafność. 

 

Test z udziałem ochotników na potrzeby pomiaru efektywności przepisów antydyskryminacyjnych 

W nocy z 5 na 6 marca 2011 roku w kilkunastu miastach europejskich pary ochotników 

testowały przestrzeganie zakazu dyskryminacji ze względu na kolor skóry lub pochodzenie 

etniczne w dostępie do klubów nocnych i restauracji (rynek usług). Testy sprawdzające zakres 

nierównego traktowania w sferze „codziennych transakcji” mają długą tradycję w gronie badaczy 

dyskryminacji. Dość wspomnieć testy prowadzone wśród sprzedawców samochodów (mierzono 

poziom dyskryminacji ze względu na płeć i pochodzenie etniczne), kierowców taksówek 

(mierzono poziom dyskryminacji ze względu na pochodzenie etniczne) czy selekcjonerów w 

klubach nocnych (mierzono przede wszystkim poziom dyskryminacji ze względu na pochodzenie 

etniczne, ale także inne uwidocznione cechy prawnie chronione). Rezultaty testów w wielu 

wypadkach stały się podstawą postępowań sądowych, które doprowadziły do zmian w przepisach 

ogólnych lub praktykach poszczególnych korporacji. Mimo że test przeprowadzony w ramach 

ogólnoeuropejskiej akcji w 2011 roku miał przede wszystkim na celu podniesienie świadomości 

na temat form dyskryminacji i testów jako takich, nie zaś wszczynanie postępowań  sądowych, 

dołożono wszelkich starań, aby był on trafny i przygotowany zgodnie z procedurą testów 

prowadzonych do celów litygacyjnych. 

Testerami w przeprowadzonym badaniu byli młodzi wykształceni mężczyźni o 

nieposzlakowanej opinii – studenci lub wolontariusze w organizacjach pozarządowych. Wszyscy 

background image

ochotnicy uczestniczyli w dwóch spotkaniach szkoleniowych. W ich trakcie zostali 

poinformowani, na czym będzie polegało ich zadanie i jak będzie wyglądał cały test. 

Powiedziano im, że jego celem nie jest udowodnienie jakiejkolwiek z góry przyjętej tezy, i że 

niezależnie od wyniku samo jego przeprowadzenie będzie sukcesem. Podczas spotkań 

szkoleniowych przećwiczono zachowanie przy wejściu do klubu – co i jak mówić, co zrobić, gdy 

selekcjoner odmówi wpuszczenia do klubu, jak się wycofać, jeśli osoba zostanie wpuszczona – 

wszystko po to, aby ujednolicić werbalne i niewerbalne zachowania testerów. Testerzy otrzymali 

również informację o konieczności sporządzenia protokołu po każdym zdarzeniu testowym 

(każdej próbie wejścia do klubu). Dodatkowo zostali wyposażeni w dyktafony do rejestrowania 

przebiegu interakcji. W trakcie spotkań ustalono, w co mają być ubrani ochotnicy w noc testu, 

aby zapewnić jak największe  podobieństwo między wszystkimi testerami. W celu 

maksymalizacji podobieństwa między testerami do danej pary testowej

36

 dobrano osoby zbliżone 

pod względem wzrostu, budowy ciała i atrakcyjności fizycznej. Zapewnienie 

prawdopodobieństwa testerów zostało osiągnięte przez rekrutację osób w „klubowym” wieku i 

przez naturalne, ale nieistotne dla rynku usług różnice między ochotnikami. Konkurencyjność 

testerów została osiągnięta za pomocą odpowiedniego ubioru. 

Kluby nie zostały wybrane do badania losowo. Testerzy odwiedzili te lokale, na które 

najczęściej – według informacji pochodzących od organizacji pozarządowych – skarżyli się 

cudzoziemcy i osoby o niebiałym kolorze skóry. Test nie miał więc charakteru proaktywnego. 

Ponadto, żeby zapewnić pełną obiektywność testu, ochotnicy byli pytani, czy kiedykolwiek mieli 

problem ze wstępem do konkretnego klubu lub mają jakąś historię związaną z danym miejscem. 

Jeśli odpowiedź była twierdząca, osoba ta była wysyłana do innego klubu. 

Sam przebieg sytuacji testowej również był zaplanowany w taki sposób, aby osiągnąć wysoką 

trafność. Pierwsi do lokalu próbowali wejść testerzy czarni, a dopiero w odległości od trzech do 

pięciu osób w kolejce do „bramki” – testerzy biali. W trakcie oczekiwania w kolejce para testowa 

nie komunikowała się w żaden sposób ze sobą. Kolejność testerów i odległość między nimi ma 

znaczenie dla trafności testu, gdyż w wypadku zbyt dużego odstępu lub odwrotnej kolejności 

mogłaby zajść istotna zmiana w sytuacji wewnątrz klubu (na przykład przepełnienie), co 

mogłoby dać podstawy formułowania hipotezy alternatywnej wobec hipotezy dyskryminacji. Z 
                                                 

36

 Para  testowa  składała się z czterech osób: dwóch osób białych i dwóch osób czarnych. Ponieważ przedmiotem testu w 

Warszawie była dyskryminacja w dostępie do klubów ze względu na kolor skóry, istotne dla trafności testu było spełnienie 
kryterium „3 x P” między parą białą i czarną. Wszystkie uwagi dotyczące sposobu konstrukcji testu dotyczą więc pary testowej, 
nie zaś pary osób o tym samym kolorze skóry. 

background image

kolei zbyt mała odległość między parami mogłaby sprowokować próby formułowania hipotezy o 

braku niezależności między obserwacjami (a więc braku czystego efektu koloru skóry). Mówiąc 

inaczej, możliwe byłoby wtedy twierdzenie, że biali testerzy zredukowali szanse wejścia testerów 

czarnych, a co za tym idzie – że nie zmierzono wpływu koloru skóry, tylko to, w jaki sposób 

obecność podobnej pary białej wpłynęła na szansę wejścia pary czarnej. Przebieg sytuacji 

testowych w wypadku każdej pary był obserwowany przez niezależnych obserwatorów 

(przedstawicieli mediów, pełnomocnika prezydenta miasta stołecznego Warszawy do spraw 

równego traktowania, przedstawicieli organizacji pozarządowych). Po zakończeniu 

eksperymentu został sporządzony szczegółowy protokół o doświadczeniach każdej pary testowej. 

W trakcie nocy testów w Warszawie odwiedzono osiem klubów, a w całej Europie – prawie 

sto. We wszystkich miastach stwierdzono wypadki dyskryminacji. Zebrane w ten sposób dane 

nie pozwalają jednak orzekać o tym, czy dyskryminacja w danym mieście jest wyższa czy niższa 

niż w innym miejscu w Europie, z powodów, o których była mowa wcześniej – miasta 

europejskie są różne, historie mniejszości i migrantów są różne, sytuacje testowe były do 

pewnego stopnia różne (na przykład testerami byli przedstawiciele różnych grup etnicznych). Nie 

można także na podstawie wyników nocy testów wysuwać wniosków na temat nietolerancji lub 

dyskryminacji wśród Polaków czy Europejczyków – badanie nie było prowadzone na  

reprezentatywnej próbie losowej. Możliwości uogólnienia i porównywania wyników nie są 

jednak niezbędne, aby docenić funkcję testów – jeśli są trafne i rzetelne, pozwalają jednoznacznie 

stwierdzić przejawy dyskryminacji. 

 

 

 

 

 

 

 

 

 

 

 

background image

 

Za treść publikacji odpowiada Instytutu Spraw Publicznych, poglądy w niej wyrażone nie 
odzwierciedlają oficjalnego stanowiska Unii Europejskiej 
 

 

Projekt: „Polskie Forum Integracyjne” jest współfinansowany ze środków 
Europejskiego Funduszu na Rzecz Integracji Obywateli Państw Trzecich 
oraz z budżetu państwa 
 
 
 
 
 
 

 
 
 
 
 
 
 
Copyright by Fundacja Instytut Spraw Publicznych, Warszawa 2010. Przedruk materiałów Instytutu Spraw Publicznych 
w całości lub części możliwy jest wyłącznie za zgodą Instytutu. Cytowanie oraz wykorzystanie danych 
empirycznych dozwolone jest z podaniem źródła. 
 

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Instytut Spraw Publicznych 

ul. Szpitalna 5 lok. 22, 00-031 Warszawa 

tel. +48 022 556 42 99, fax +48 022 556 42 62 

e- mail: isp@isp.org.pl 

www.isp.org.pl