Regresja liniowa - przykład

Przypomnijmy przykład interpretacji regresji liniowej.

Badamy wpływ stażu pracy, liczby ukończonych kursów podyplomowych, wzrostu, wykształcenia i miejsca zamieszkania na wysokość zarobków pielęgniarek. Przykładowe wyniki wyglądają tak:

Zmienna Parametr regresji 95% CI p
Staż pracy (lata) 62,41 31,22 93,60 <0,001
Liczba kursów podyplomowych 48,33 14,11 82,44 0,023
Wzrost (cm) 1,83 -12,01 13,84 0,486
Wykształcenie Średnie medyczne poz. ref.
Licencjat 13,20 -2,33 15,53 0,137
Magisterium 458,63 141,41 775,85 0,016
Miejsce zamieszkania Miasto poz. ref.
Wieś -372,78 -684,22 -61,34 0,038

Współczynniki skorygowane

Powiedzmy jednak, że tak naprawdę interesuje nas tylko wpływ stażu pracy, ale chcemy usunąć z niego wpływ zmiennych, które mogą go zaburzyć: liczby ukończonych kursów podyplomowych, wzrostu, wykształcenia i miejsca zamieszkania. Takie zmienne (nazywamy je “zaburzającymi”) możemy wziąć do regresji mimo tego, że ich wpływ nas tak naprawdę nie interesuje.

Dzięki temu interesujący nas parametr dla stażu pracy może być interpretowany jako wpływ tegoż stażu przy niezmienionych zmiennych zaburzających. W tabeli powyżej parametr regresji dla stażu pracy wynosi 62,41. Oznacza to, że, przy niezmienionej liczbie ukończonych kursów podyplomowych, wzroście, wykształceniu i miejscu zamieszkania, każdy dodatkowy rok pracy zwiększa pensję średnio o 62,41 zł. Taki parametr nazywamy “skorygowanym” (ang. adjusted).

Parametrów dla liczby ukończonych kursów podyplomowych, wzrostu, wykształcenia i miejsca zamieszkania interpretować nie musimy, gdyż tak naprawdę nas nie interesują. A więc zamiast pokazywać całą tabelę, możemy pokazać jedynie współczynnik dla stażu pracy i zaznaczyć, że został on skorygowany o liczbę ukończonych kursów podyplomowych, wzrost, wykształcenie i miejsce zamieszkania:

Zmienna Parametr regresji * 95% CI p
Staż pracy (lata) 62,41 31,22 93,60 <0,001
* skorygowany o liczbę ukończonych kursów podyplomowych, wzrost, wykształcenie i miejsce zamieszkania

Gdzie jeszcze mogą pojawić się współczynniki skorygowane?

Tak naprawdę w każdej analizie wieloczynnikowej. A więc w regresji liniowej, regresji logistycznej, w modelu Coxa i w wielu innych miejscach.

Jeszcze jeden przykład na koniec

Czy długość włosów człowieka w dniu jego 40-tych urodzin jest powiązana z szansami dożycia 80 lat? Wyniki regresji logistycznej mogą być następujące:

Zmienna OR 95% CI p
Długość włosów (cm) 1,05 1,03 1,09 0,004

Z powyższej tabeli wynika, że każdy dodatkowy centymetr włosów podnosi szanse dożycia 80-tki o 5%. Liczby są, oczywiście, zmyślone, ale wnioski już nie: w dniu 40-tych urodzin, bowiem, długie włosy mają zazwyczaj kobiety. Z drugiej strony, żyją one dłużej od mężczyzn, więc i szanse dożycia 80-tki mają większe. Czyli to nie długość włosów, a płeć tak naprawdę wpływa na długość życia.

Jeśli teraz naszą analizę skorygujemy o płeć (tj. dołączymy ją do regresji, ale nie będziemy pokazywać wyników dla niej), tabela może wyglądać tak:

Zmienna OR * 95% CI p
Długość włosów (cm) 1,001 0,746 3,645 0,674
* skorygowany o płeć

Zgodnie z oczekiwaniami, długość włosów, po korekcie o płeć, nie ma wpływu na szanse dożycia 80-tki.