Miary tendencji centralnej

Marta Rokosa
1 mar
4 minut(y) czytania

Średnia to nie wszystko

Jeśli w analizie danych masz wskazać jedną liczbę, która w pewien sposób streszcza zbiór wyników, to twoim zadaniem jest skorzystanie z miar tendencji centralnej. Ich główną rolą jest pokazanie, gdzie leży środek danych. Problem w tym, że środek można rozumieć na kilka sposobów, a sam wybór miary potrafi zmienić interpretację wyników, zwłaszcza w badaniach ankietowych.

W tym tekście przejdziemy przez najważniejsze miary tendencji centralnej: średnią, medianę i dominantę (modę). Pokażę też, jak policzyć je w Excelu i jak sensownie interpretować w kontekście badań ankietowych, bo to właśnie tam najczęściej pojawiają się nieporozumienia.

Czym są miary tendencji centralnej w statystyce opisowej?

Miary tendencji centralnej opisują typową wartość w zbiorze danych. Inaczej rzecz ujmując, jeśli masz rozkład odpowiedzi, to te miary mówią, gdzie jest jego centrum.

Najczęściej używa się ich, gdy:

porównujesz grupy (np. dwie uczelnie, dwa kierunki, dwa segmenty klientów),
prezentujesz wyniki ankiety,
robisz raport, w którym nie prezentujesz wyników jednostkowych.

Najważniejsze jest to, że różne miary centralne są wrażliwe na różne zjawiska, takie jak wartości odstające, skośność rozkładu, wiązanie się odpowiedzi na jednej kategorii w skali Likerta itd.

Średnia arytmetyczna

Średnia arytmetyczna to suma wartości podzielona przez ich liczbę.

Stosuje się ją, gdy dane są w skali co najmniej przedziałowej (np. czas, kwota, punkty, wzrost). Ważne jest także, aby rozkład nie był skrajnie skośny i nie miał wyraźnych punktów odstających których nie da się wyjaśnić merytoryczne. Przykład: jeśli 9 osób zarabia 5 tys., a jedna 100 tys., średnia mówi „~14,5 tys.”, ale mało kto tak zarabia. Tu średnia może wprowadzać w błąd.

Mediana

Mediana to wartość środkowa po uporządkowaniu danych. Połowa obserwacji jest poniżej, połowa powyżej. Jest odporna na wartości odstające. Lepiej opisuje typowość zbioru, gdy rozkład jest skośny (np. dochody, czas reakcji, czas dojazdu). Medianę najczęściej prezentuje się w przypadku skali Likerta, która jest skalą porządkową, odpowiedzi udzielane na takiej skali bywają skupione wokół części wartości.

Dominanta (moda)

Dominanta (często mówi się „moda”) to wartość występująca najczęściej. Wykorzystuje się ją w danych kategorycznych: płeć, kierunek studiów, wybór opcji A/B/C. Warto pamiętać, że mogą występować rozkłady wielomodalne, czyli takie w których występuje więcej niż jedna dominanta. Może także się zdarzyć, że dominanty nie będzie wcale – wówczas wszystkie wartości występują równie często.

Jak obliczać miary tendencji centralnej w Excelu?

Poniżej zaprezentowano skrócony poradnik obliczania miar tendencji centralnej w Excelu. Warto je wykorzystać przy obliczaniu statystyk do pracy magisterskiej. Jeżeli chcesz dowiedzieć się jak dobrać test statystyczny do analizy sprawdź: Praktyczny przewodnik do analiz statystycznych.

Jak interpretować te miary w badaniach ankietowych?

W ankietach kluczowe jest dopasowanie miary do skali i rozkładu odpowiedzi. Jeśli masz klasyczną skalę Likerta, mediana i dominanta często są bardziej naturalne w interpretacji niż średnia, bo odpowiadają realnym kategoriom odpowiedzi. Średnia nadal może być użyteczna jako syntetyczny wskaźnik poziomu, ale dobrze jest zestawiać ją z rozkładem odpowiedzi (choćby prostym wykresem słupkowym), żeby nie wpaść w pułapkę średniej bez kontekstu.

W przypadku odpowiedzi udzielanych na skali Likerta mediana i moda często mówią więcej niż średnia. Jeśli większość osób zaznacza „4”, a część „5”, to: moda powie, że najczęściej wybierano 4, mediana pewnie też będzie 4. Z kolei średnia wskazać może np. wartość „4,3” co przy skali porządkowej może niewiele powiedzieć (bo 4 to np. „często”, a 5 – „bardzo często”).

Inne podejście zakłada prezentowanie średnie wraz z procentowym rozkładem odpowiedzi. Niemniej jednak sensowne jest dodawanie również mediany/mody, szczególnie przy małych skalach.

Medianę lepiej również zastosować w przypadku bardzo skośnych rozkładów. Przy pytaniach liczbowych (np. ile godzin nauki, ile razy w tygodniu) często zobaczysz skośność, tj. większość osób ma umiarkowane wartości, a kilka osób bardzo wysokie. Wtedy mediana zwykle lepiej opisuje typowego respondenta, a średnia lepiej oddaje ogólny poziom w sensie sumarycznym, ale będzie zniekształcana przez skrajności. W praktyce najbezpieczniej jest raportować obie: średnią i medianę, bo różnica między nimi sama w sobie mówi coś o rozkładzie.

Jeśli chcesz dowiedzieć się jak poprawnie napisać wnioski do pracy magisterskiej sprawdź nasz artykuł: Wnioski z badań – jak je poprawnie sformułować w pracy dyplomowej?

Najczęstsze błędy w obliczeniach i wnioskowaniu

Traktowanie średniej jako „prawdy objawionej” - średnia jest wygodna, ale nie zawsze reprezentatywna. Jeśli dane są skośne lub mają odstające wartości, średnia może opowiadać historię, której nikt realnie nie doświadcza.
Liczenie średniej na danych kategorycznych - średnia z kodów kategorii (np. 1=Kobieta, 2=Mężczyzna) nie ma sensu merytorycznego. Tu wchodzą moda i rozkłady częstości, a nie średnia.
Zastępowanie braków danych zerem i liczenie średniej - zwykle zaniża średnią, bo brak odpowiedzi nie oznacza wartości 0. W ankietach 1–5 wprowadza to nawet wartości spoza skali i fałszuje wnioski. Lepsze podejście: zostawić braki jako braki (pominąć w obliczeniach).

Pisanie wniosków to ostatni etap badań – moment, w którym z danych wyciągamy to, co naprawdę istotne. Ale żeby dojść do tego miejsca, potrzebne są rzetelnie zebrane i dobrze przeanalizowane wyniki. A to właśnie tutaj wielu studentów i badaczy traci najwięcej czasu – przy tworzeniu ankiety, porządkowaniu danych i pracy w Excelu.

Dlatego przygotowaliśmy e-book „Ankiety badawcze. Tworzenie kwestionariuszy w Formularzach Google i analiza wyników w Excelu”. To praktyczny przewodnik, który pokazuje, jak krok po kroku przejść od pierwszych pytań ankietowych do uporządkowanych wyników, na podstawie których można napisać solidne, wiarygodne wnioski.