Przypomnijmy przykład interpretacji regresji liniowej.
Badamy wpływ stażu pracy, liczby ukończonych kursów podyplomowych, wzrostu, wykształcenia i miejsca zamieszkania na wysokość zarobków pielęgniarek. Przykładowe wyniki wyglądają tak:
Zmienna | Parametr regresji | 95% CI | p | ||
---|---|---|---|---|---|
Staż pracy (lata) | 62,41 | 31,22 | 93,60 | <0,001 | |
Liczba kursów podyplomowych | 48,33 | 14,11 | 82,44 | 0,023 | |
Wzrost (cm) | 1,83 | -12,01 | 13,84 | 0,486 | |
Wykształcenie | Średnie medyczne | poz. ref. | |||
Licencjat | 13,20 | -2,33 | 15,53 | 0,137 | |
Magisterium | 458,63 | 141,41 | 775,85 | 0,016 | |
Miejsce zamieszkania | Miasto | poz. ref. | |||
Wieś | -372,78 | -684,22 | -61,34 | 0,038 |
Powiedzmy jednak, że tak naprawdę interesuje nas tylko wpływ stażu pracy, ale chcemy usunąć z niego wpływ zmiennych, które mogą go zaburzyć: liczby ukończonych kursów podyplomowych, wzrostu, wykształcenia i miejsca zamieszkania. Takie zmienne (nazywamy je “zaburzającymi”) możemy wziąć do regresji mimo tego, że ich wpływ nas tak naprawdę nie interesuje.
Dzięki temu interesujący nas parametr dla stażu pracy może być interpretowany jako wpływ tegoż stażu przy niezmienionych zmiennych zaburzających. W tabeli powyżej parametr regresji dla stażu pracy wynosi 62,41. Oznacza to, że, przy niezmienionej liczbie ukończonych kursów podyplomowych, wzroście, wykształceniu i miejscu zamieszkania, każdy dodatkowy rok pracy zwiększa pensję średnio o 62,41 zł. Taki parametr nazywamy “skorygowanym” (ang. adjusted).
Parametrów dla liczby ukończonych kursów podyplomowych, wzrostu, wykształcenia i miejsca zamieszkania interpretować nie musimy, gdyż tak naprawdę nas nie interesują. A więc zamiast pokazywać całą tabelę, możemy pokazać jedynie współczynnik dla stażu pracy i zaznaczyć, że został on skorygowany o liczbę ukończonych kursów podyplomowych, wzrost, wykształcenie i miejsce zamieszkania:
Zmienna | Parametr regresji * | 95% CI | p | ||
---|---|---|---|---|---|
Staż pracy (lata) | 62,41 | 31,22 | 93,60 | <0,001 |
Tak naprawdę w każdej analizie wieloczynnikowej. A więc w regresji liniowej, regresji logistycznej, w modelu Coxa i w wielu innych miejscach.
Zmienna | OR | 95% CI | p | ||
---|---|---|---|---|---|
Długość włosów (cm) | 1,05 | 1,03 | 1,09 | 0,004 |
Z powyższej tabeli wynika, że każdy dodatkowy centymetr włosów podnosi szanse dożycia 80-tki o 5%. Liczby są, oczywiście, zmyślone, ale wnioski już nie: w dniu 40-tych urodzin, bowiem, długie włosy mają zazwyczaj kobiety. Z drugiej strony, żyją one dłużej od mężczyzn, więc i szanse dożycia 80-tki mają większe. Czyli to nie długość włosów, a płeć tak naprawdę wpływa na długość życia.
Jeśli teraz naszą analizę skorygujemy o płeć (tj. dołączymy ją do regresji, ale nie będziemy pokazywać wyników dla niej), tabela może wyglądać tak:
Zmienna | OR * | 95% CI | p | ||
---|---|---|---|---|---|
Długość włosów (cm) | 1,001 | 0,746 | 3,645 | 0,674 |
Zgodnie z oczekiwaniami, długość włosów, po korekcie o płeć, nie ma wpływu na szanse dożycia 80-tki.