Mediana

Mediana to, w najprostszych słowach, wartość, która dzieli zbiór danych na pół. Połowa elementów tego zbioru przyjmuje wartości mniejsze, a połowa większe od mediany. Czasami nazywa się ją też “wartością środkową” i ta nazwa chyba najlepiej oddaje to, czym mediana w istocie jest.

Sposób wyliczania - na przykładzie

Wyobraźmy sobie firmę zatrudniającą 6 osób. Ich pensje (netto) to odpowiednio 2000, 2500, 3000, 4000, 4500 i 44000 złotych. Ponieważ mamy parzystą liczbę pracowników, to nie ma jednej “wartości środkowej”. Po środku hierarchii płac są pracownicy zarabiający 3 i 4 tysiące. W takiej sytuacji przyjmuje się, że mediana jest równa średniej z tych dwóch wartości, a więc 3,5 tys. zł. I rzeczywiście: połowa pracowników zarabia powyżej, a połowa poniżej tej kwoty.

Sposób wyliczania - na drugim przykładzie

Wyobraźmy sobie teraz 5 koszykarzy. Ich wzrost to odpowiednio 201, 205, 207, 208 i 215 cm. Ponieważ mamy nieparzystą liczbę koszykarzy, to istnieje “wartość środkowa”. Po środku rankingu wzrostu jest koszykarz mierzący 207 cm. I to jest nasza mediana. Ale czy aby na pewno? Przecież zdanie “połowa koszykarzy jest niższa a połowa wyższa niż 207 cm” nie jest prawdą! Niższych niż 207 cm jest tylko 2 z 5 koszykarzy i, tak samo, wyższych niż 207 cm jest tylko 2 z 5 koszykarzy. Przyznaję się! Troszkę za bardzo uprościłem definicję z pierwszego akapitu. Powinna ona brzmieć “Co najmniej połowa elementów tego zbioru przyjmuje wartości mniejsze lub równe medianie i co najmniej połowa przyjmuje wartości większe lub równe medianie”. To jednak detal, który w sytuacji, gdy obserwacji jest dużo ma marginalne znaczenie. Pewnym kompromisem jest stwierdzenie, że “około połowy elementów tego zbioru przyjmuje wartości mniejsze, a około połowy, większe od mediany.”

Kwartyle

Mediana dzieli zbiór obserwacji na połowy. Kwartyle zaś dzielą te połowy na… połowy. Kwartyl dolny, nazywany też “pierwszym” lub kwantylem rzędu 0,25 (tak, kwaNtylem), dzieli na połowy zbiór obserwacji mniejszych lub równych medianie, a kwartyl górny (“trzeci”, kwantyl rzędu 0,75), dzieli na połowy zbiór obserwacji większych lub równych medianie.

Interpretacja kwartyli

Zgodnie z powyższymi (nieformalnymi) definicjami, wartości poniżej dolnego kwartyla będzie miało 25% “najmniejszych” obserwacji (bo podzielił on obserwacje poniżej mediany - 50% najniższych wartości - na pół). Analogicznie, wartości powyżej górnego kwartyla będzie miało 25% “największych” obserwacji (bo podzielił on obserwacje powyżej mediany - 50% najwyższych wartości - na pół). Pomiędzy kwartylami znajdzie się więc (zadanie domowe!) 50% obserwacji o najbardziej “przeciętnych” wartościach.

Dygresja: Czy średnia nie byłaby lepsza od mediany?

Wróćmy do firmy, której pracownicy zarabiają 2000, 2500, 3000, 4000, 4500 i 44000 złotych. Mediana zarobków wynosi, jak policzyliśmy, 3500 zł. Ile wynosi średnia? Dodajemy pensje wszystkich pracowników (2000+2500+3000+4000+4500+44000 = 60000) i dzielimy przez 6. średnie zarobki wynoszą więc 10 tys. zł. To dużo więcej niż mediana. Prezes (to on zarabia 44000 zł) zapewne chwaliłby się średnimi zarobkami w swojej firmie. Niezbyt zadowolony pracownik opowiadałby zapewne o medianie. Który z nich przekazywałby obraz bliższy rzeczywistości?

Zróbmy eksperyment. Dajmy podwyżkę… prezesowi! Niech zarabia 104 tys. zł. Zobaczmy, że mediana zarobków to nadal 3500 zł (“wartość środkowa” w zbiorze 2000, 2500, 3000, 4000, 4500, 104000, to nadal średnia z 3000 i 4000)! Zaś średnia to już 20 tys. zł (2000+2500+3000+4000+4500+104000 = 120000 i 120 tys. dzielone na 6 to 20 tys.). Mediana okazała się więc “odporna” na podwyżkę dla prezesa. Ogólnie, jest ona odporna na obecność obserwacji odstających. Tego samego nie można powiedzieć o średniej, na którą, jak widzieliśmy, nawet pojedyncza odstająca wartość może mieć duży wpływ. Medianę warto więc podać wtedy, gdy spodziewamy się występowania obserwacji odstających.