top of page

Test t-Studenta czy U Manna-Whitneya? Kiedy stosować i jak uzasadnić

  • Zdjęcie autora: Marta Rokosa
    Marta Rokosa
  • 17 gru 2025
  • 5 minut(y) czytania

Zaktualizowano: 18 gru 2025

Przy pierwszych zetknięciach ze statystyką testową z pewnością pojawiają się dwa klasyki: test t-Studenta oraz test U Manna-Whitneya. Oba są popularne w analizach statystycznych do prac dyplomowych w psychologii, pielęgniarstwie, dietetyce, fizjoterapii czy innych dziedzinach, ale każdy z nich odpowiada na trochę inne pytanie i wymaga innego zestawu założeń.


ree

Skąd się wzięły te testy?

Test t-Studenta wywodzi się z pracy opublikowanej w 1908 roku w Biometrice pod pseudonimem „Student” (Student, 1908). Test U Manna-Whitneya opisano w 1947 roku w Annals of Mathematical Statistics (Mann i Whitney, 1947).


Czym się różni test t-Studenta od Manna-Whitneya?

Oba testy służą do porównanie dwóch niezależnych grup, np. grupa badana vs kontrolna, dwie metody terapii, dwa oddziały, dwie diety, kobiety i mężczyźni. Różnią się przede wszystkim tym, że pierwszy jest parametryczny, a drugi nieparametryczny, co ma konkretne konsekwencje dla doboru metody, interpretacji i raportowania.


Test parametryczny

To, że test jest parametryczny w praktyce oznacza tyle, że zakładasz określony model dla danych. Najczęściej chodzi po prostu o normalność rozkładu w grupach lub normalność reszt. Następnie, w analizie wnioskujesz o parametrach tego modelu, przede wszystkim o średniej. W efekcie test t odpowiada na pytanie: „czy średnie w dwóch populacjach różnią się?”


Test nieparametryczny

Z kolei to, że test jest nieparametryczny nie znaczy „bez założeń”.  W tym przypadku analizy nie opierasz na konkretnym rozkładzie (np. normalnym) i zwykle pracujesz na rangach. Test U Manna-Whitneya odpowiada więc bardziej na pytanie: „czy wyniki w jednej grupie mają tendencję do bycia wyższymi niż w drugiej?”. To podejście bywa bardziej naturalne dla danych porządkowych i dla rozkładów dalekich od krzywej dzwonowej.


Co testują? Średnia w teście t-Studenta vs ranga w teście Manna-Whitneya

W testach parametrycznych łatwo zapamiętać, że test t jest o średnich. To proste. Niemniej jednak schody zaczynają się przy wariancie nieparametrycznym. Test Manna-Whitneya jest bardzo często jest opisywany jako alternatywa dla testu t, gdy nie ma normalności i bywa traktowany jako „test median”. Tyle że test ten nie jest po prostu testem median. Gdy rozkłady w grupach różnią się nie tylko położeniem, ale też rozproszeniem lub kształtem, test może wyjść istotny nawet wtedy, gdy mediany są takie same (Hart, 2001; Fay i Proschan, 2010; Divine i in., 2018).


Jak dobrać test do rodzaju danych?


Zmienna ilościowa

Niemniej jednak...

Jeśli Twoja zmienna jest ilościowa (np. BMI, stężenie glukozy, czas reakcji, zakres ruchu, wynik testu funkcjonalnego, czas hospitalizacji), a Twoje pytanie badawcze dotyczy różnicy średnich, to naturalnym wyborem jest test t-Studenta. Oczywiście, nadal musisz zadbać o sensowność założeń, a mianowicie niezależność obserwacji i normalność rozkładów (czyli notabene brak skrajnie patologicznych rozkładów przy małych próbach). Parametry te warto ocenić rozsądnie, a nie rutynowo.

ree

Rozsądnie, a nie rutynowo? Czyli jak? Otóż, w praktyce oprócz testów normalności (np. Shapiro-Wilk) bardzo często patrzy się na skośność i kurtozę oraz na wykresy rozkładu. Skośność mówi, czy rozkład jest symetryczny czy ciągnie w jedną stronę (Joanes i Gill, 1998). Kurtoza (w uproszczeniu) informuje, czy rozkład ma relatywnie dużo obserwacji ekstremalnych w stosunku do rozkładu normalnego (Joanes i Gill, 1998). W badaniach i podręcznikach funkcjonują popularne progi (to ważne: są to tylko reguły przyjęte przez praktyków a nie prawa rządzące statystyką). Często cytowane są np. wskazania, że |SKE| > 2 lub |K| > 7 mogą sugerować większe odstępstwa od rozkładu normalnego (West, Finch i Curran, 1995; Kim, 2013). W związku z tym, jeśli wartości dla Twoich zmiennych są wyraźnie poniżej tych progów, łatwiej uzasadnić, że rozkład nie odbiega istotnie od normalnego, co umożliwia zastosowanie metod parametrycznych.


Zmienna porządkowa

Jeżeli natomiast zmienna jest porządkowa, np. pojedynczy item w skali Likerta 1-5, stopnie nasilenia objawów, oceny w kategoriach, to test U Manna-Whitneya zwykle jest metodologicznie lepszym wyborem, bo nie wymaga traktowania odstępów między kategoriami jako równych. W takiej sytuacji już samo sprawdzanie normalności bywa mało sensowne, bo normalność dotyczy naturalnie danych ciągłych, a nie kilku w pewnym sensie sztywnych poziomów odpowiedzi.


Jest jednak ważny wyjątek, który w pracach dyplomowych pojawia się bardzo często, a mianowicie wynik skali jako suma/średnia wielu pozycji w skali Likerta. Wtedy często traktuje się wynik jako quasi-ciągły i stosuje metody parametryczne, argumentując ich odporność oraz praktyczną interpretowalność (Norman, 2010). Dodatkowo sugeruje się, że dla takich danych zarówno test t, jak i test Manna-Whitneya często zachowują się podobnie pod względem błędów I i II rodzaju, zależnie od rozkładu i liczebności (de Winter i Dodou, 2010). W praktyce najbezpieczniejsze podejście jest takie: pojedynczy item w skali Likerta traktujesz porządkowo i wybierasz test Manna-Whitneya, a wynik sumaryczny/uśredniony skali składającej się z kilku pozycji rozważasz jako ilościowy i testujesz jego normalność.


Normalność rozkładu: kiedy ją sprawdzać?

Jak wspomniano, testy normalności nie powinny być wyrocznią. To zwykle zbyt duże uproszczenie. Sensowniejsze jest podejście obejmujące sprawdzenie rozkładu wykresem (histogram), ocena wartości odstających, ocena skali i liczebności oraz dopiero wtedy zdecydowanie, czy parametryczne wnioskowanie o średniej jest rozsądne.


Dla danych porządkowych (zwłaszcza pojedynczych itemów w skali Likerta) testy normalności nie powinny być punktem startowym. Zmienne porządkowe to inny typ informacji niż miara ciągła. Sedno danych porządkowych jest takie, że niosą informację o kolejności, ale nie gwarantują informacji o odległościach między kolejnymi kategoriami. Skala Likerta 1-5 mówi, że 4 to więcej niż 3, ale nie daje pewności, że różnica między 1 a 2 jest równa różnicy między 4 a 5. To właśnie jest różnica między skalą porządkową a interwałową.


Pojęcia takie jak normalność rozkładu, średnia i odchylenie standardowe mają najwięcej sensu wtedy, gdy skala ma odpowiednie własności arytmetyczne, czyli takie umożliwiające wykonywanie na niej działań arytmetycznych. Dlatego dla pojedynczych itemów w skali Likerta zaleca się ostrożność (Jamieson, 2004; Sullivan i Artino, 2013). Sprawdzenie normalności w takiej sytuacji nie rozwiązuje problemu podstawowego, ponieważ nawet jeśli rozkład wygląda symetrycznie, to nadal nie masz gwarancji, że możesz traktować odległości między kategoriami jako równe.


Jednocześnie praktyka badawcza dopuszcza analizę parametryczną, gdy pracujesz na wyniku sumarycznym/uśrednionym z wielu pozycji w skali Likerta i masz argumenty, że taki wynik zachowuje się bardziej jak zmienna ciągła (Norman, 2010; Sullivan i Artino, 2013).


Jak przedstawiać wyniki w pracy naukowej?

O tym jak stworzyc dobra tabelę z wynikami badania naukowego już było (Jak stworzyć dobrą tabelę z wynikami badania naukowego? Praktyczny poradnik i darmowy szablon), ale...

Jeżeli używasz testu t-Studenta, opisuj grupy przez średnią i odchylenie standardowe (M, SD) oraz liczebności, a wynik przez t, stopnie swobody (df) i p-value. Stopnie swobody w teście t są standardem raportowania i warto je podawać zawsze, bo pozwalają odtworzyć analizę i ocenić jej kontekst.


ree

Jeżeli używasz testu U Manna-Whitneya, opisuj grupy przez medianę i rozstęp międzykwartylowy (Me, IQR) oraz liczebności, a wynik raportuj jako U (lub Z) i p-value. Stopni swobody tu nie podajesz, bo ten test nie jest zbudowany na rozkładzie t.


ree

Dodatkowo, w obu przypadkach coraz częściej oczekuje się także wielkości efektu i przedziałów ufności, bo samo wyszło/nie wyszło istotnie nie mówi, czy różnica ma znaczenie praktyczne (Wilkinson, 1999; Lakens, 2013).


Źródła

  1. de Winter, J. C. F., & Dodou, D. (2010). Five-point Likert items: t test versus Mann–Whitney–Wilcoxon. Practical Assessment, Research, and Evaluation, 15(11), 1–12.

  2. Divine, G. W., Norton, H. J., Barón, A. E., & Juarez-Colunga, E. (2018). The Wilcoxon–Mann–Whitney procedure fails as a test of medians. The American Statistician, 72(3), 278–286.

  3. Fay, M. P., & Proschan, M. A. (2010). Wilcoxon–Mann–Whitney or t-test? On assumptions for hypothesis tests and multiple interpretations of decision rules. Statistics Surveys, 4, 1–39.

  4. Hart, A. (2001). Mann-Whitney test is not just a test of medians: differences in spread can be important. Bmj, 323(7309), 391-393.

  5. Lakens, D. (2013). Calculating and reporting effect sizes to facilitate cumulative science: a practical primer for t-tests and ANOVAs. Frontiers in psychology, 4, 863.

  6. Mann, H. B., & Whitney, D. R. (1947). On a test of whether one of two random variables is stochastically larger than the other. The annals of mathematical statistics, 18(1), 50-60.

  7. Norman, G. (2010). Likert scales, levels of measurement and the “laws” of statistics. Advances in health sciences education, 15(5), 625-632.

  8. Shapiro, S. S., & Wilk, M. B. (1965). An analysis of variance test for normality (complete samples). Biometrika, 52(3–4), 591–611.

  9. Student. (1908). The probable error of a mean. Biometrika, 1-25.

  10. Wilkinson, L. (1999). Statistical methods in psychology journals: Guidelines and explanations. American Psychologist, 54(8), 594–604.

 
 
 

Komentarze


bottom of page