Pewien problem…

Wyobraźmy sobie, że dostaliśmy za zadanie oszacować średnie zarobki absolwentów naszej Alma Mater. Jak się za to zabrać? Oczywiście, trzeba dotrzeć do pewnej liczby absolwentów, zapytać ich o pensję i wyliczyć średnią. Z pozoru nic trudnego, ale wynik jaki otrzymamy będzie zależał od tego do ilu i jakich osób dotrzemy. Jeśli nie mamy możliwości objąć naszym badaniem wszystkich absolwentów, nie dostaniemy dokładnej wartości średnich zarobków. Co więcej, w okresie od rozesłania zapytań do policzenia i opublikowania średniej, nasza uczelnia może “wyprodukować” nowych absolwentów, a część “starych” może dostać podwyżki lub stracić pracę.

Wartość w próbie i wartość w populacji

Zbiór osób, które objęliśmy naszym badaniem, nazywamy “próbą” lub “próbką”. Ich średnie zarobki to więc “średnia w próbie”. Z kolei zbiór wszystkich absolwentów uczelni nazywamy “populacją”. Ich średnie zarobki to więc “średnia w populacji”.

W ogólnym przypadku, nie musimy wcale mówić o średniej. Możemy mieć dowolny współczynnik “w próbce” i “w populacji”: może to być jakiś odsetek, mediana, współczynnik korelacji, parametr regresji liniowej czy nawet jeszcze bardziej skomplikowane twory. Zawsze jednak wartość w próbce będzie:

  • łatwa do wyliczenia,
  • losowa (zależna od “składu” naszej próbki; jeśli powtórzymy badanie na innej próbce, dostaniemy inne wyniki),
  • zupełnie nieciekawa (nikogo nie interesują “średnie zarobki osób, do których dotarliśmy”).
Z kolei wartość w populacji zawsze będzie:
  • niemożliwa do wyliczenia (bo populacja jest zwykle duża i dynamicznie się zmienia),
  • stała (to jest jedno z “niemych” założeń analizy statystycznej),
  • bardzo ciekawa (wszyscy chcą znać “średnie zarobki absolwentów”).

Przedział ufności

Zadanie polega więc na tym, aby na podstawie wartości w próbce powiedzieć coś na temat wartości w populacji. Wartość w populacji jest niemożliwa do wyliczenia, nie możemy więc powiedzieć, że ze 100-procentową pewnością wynosi ona tyle a tyle. Możemy jednak spróbować powiedzieć, że z pewnym prawdopodobieństwem (oznaczmy je grecką literą alfa - \(\alpha\)) wartość w populacji leży w przedziale od A do B. Taki przedział nazywamy właśnie \(\alpha\)-procentowym przedziałem ufności (ang. confidence interval - CI). Zwykle wylicza się przedziały 95-procentowe.

Najczęściej popełniane błędy

Może to być zaskakujące, ale błędne interpretacje przedziału ufności zdarzają się bardzo często, nawet w renomowanych czasopismach naukowych. Przypomnijmy więc: 95-procentowy przedział ufności z prawdopodobieństwem 95% zawiera wartość naszego parametru w całej populacji.

Powiedzmy, że w naszym badaniu uzyskaliśmy średnią pensję absolwenta na poziomie 3000 zł z 95-procentowym przedziałem ufności 1800-4200 zł. Oznacza to, że w naszej próbce absolwentów średnie zarobki wyniosły 3000 zł, zaś średnie zarobki w całej populacji absolwentów są nieznane, ale z prawdopodobieństwem 95% leżą w przedziale 1800-4200 zł.

Poniższe interpretacje będą więc nieprawidłowe:
  • 95% absolwentów zarabia od 1800 do 4200 zł.
  • Jestem absolwentem tej uczelni i zarabiam 5000 zł, to bardzo dużo, jak na moją uczelnię.
  • Mój życiowy cel to zarabiać 5000 zł. Powinienem więc wybrać inną uczelnię.
  • Jeśli powtórzę eksperyment, biorąc nową próbkę z populacji absolwentów i policzę średnie zarobki, to z prawdopodobieństwem 95% dostanę wynik między 1800 a 4200 zł.
  • Zapewne średnie zarobki absolwentów są różne w różnych rocznikach, ale 95% “średnich rocznikowych” leży w przedziale 1800-4200 zł.
  • Spotkaliśmy się po latach z naszą grupą ćwiczeniową i wyszło nam, że średnio zarabiamy 5000 zł. To dużo, jak na naszą uczelnię.

Dlaczego powyższe interpretacje są nieprawidłowe? W pierwszych trzech wnioski dotyczą zarobków pojedynczej osoby (pojedynczego członka populacji), w kolejnych trzech wnioski dotyczą średnich zarobków różnych grupek ludzi (próbek z populacji). Przedział ufności zaś mówi jedynie o średniej wartości naszego parametru (zarobków) w całej populacji.