Wyobraźmy sobie, że dostaliśmy za zadanie oszacować średnie zarobki absolwentów naszej Alma Mater. Jak się za to zabrać? Oczywiście, trzeba dotrzeć do pewnej liczby absolwentów, zapytać ich o pensję i wyliczyć średnią. Z pozoru nic trudnego, ale wynik jaki otrzymamy będzie zależał od tego do ilu i jakich osób dotrzemy. Jeśli nie mamy możliwości objąć naszym badaniem wszystkich absolwentów, nie dostaniemy dokładnej wartości średnich zarobków. Co więcej, w okresie od rozesłania zapytań do policzenia i opublikowania średniej, nasza uczelnia może “wyprodukować” nowych absolwentów, a część “starych” może dostać podwyżki lub stracić pracę.
Zbiór osób, które objęliśmy naszym badaniem, nazywamy “próbą” lub “próbką”. Ich średnie zarobki to więc “średnia w próbie”. Z kolei zbiór wszystkich absolwentów uczelni nazywamy “populacją”. Ich średnie zarobki to więc “średnia w populacji”.
W ogólnym przypadku, nie musimy wcale mówić o średniej. Możemy mieć dowolny współczynnik “w próbce” i “w populacji”: może to być jakiś odsetek, mediana, współczynnik korelacji, parametr regresji liniowej czy nawet jeszcze bardziej skomplikowane twory. Zawsze jednak wartość w próbce będzie:
Zadanie polega więc na tym, aby na podstawie wartości w próbce powiedzieć coś na temat wartości w populacji. Wartość w populacji jest niemożliwa do wyliczenia, nie możemy więc powiedzieć, że ze 100-procentową pewnością wynosi ona tyle a tyle. Możemy jednak spróbować powiedzieć, że z pewnym prawdopodobieństwem (oznaczmy je grecką literą alfa - \(\alpha\)) wartość w populacji leży w przedziale od A do B. Taki przedział nazywamy właśnie \(\alpha\)-procentowym przedziałem ufności (ang. confidence interval - CI). Zwykle wylicza się przedziały 95-procentowe.
Może to być zaskakujące, ale błędne interpretacje przedziału ufności zdarzają się bardzo często, nawet w renomowanych czasopismach naukowych. Przypomnijmy więc: 95-procentowy przedział ufności z prawdopodobieństwem 95% zawiera wartość naszego parametru w całej populacji.
Powiedzmy, że w naszym badaniu uzyskaliśmy średnią pensję absolwenta na poziomie 3000 zł z 95-procentowym przedziałem ufności 1800-4200 zł. Oznacza to, że w naszej próbce absolwentów średnie zarobki wyniosły 3000 zł, zaś średnie zarobki w całej populacji absolwentów są nieznane, ale z prawdopodobieństwem 95% leżą w przedziale 1800-4200 zł.
Poniższe interpretacje będą więc nieprawidłowe:Dlaczego powyższe interpretacje są nieprawidłowe? W pierwszych trzech wnioski dotyczą zarobków pojedynczej osoby (pojedynczego członka populacji), w kolejnych trzech wnioski dotyczą średnich zarobków różnych grupek ludzi (próbek z populacji). Przedział ufności zaś mówi jedynie o średniej wartości naszego parametru (zarobków) w całej populacji.