Do czego służy regresja logistyczna?

Regresja logistyczna jest to metoda statystyczna pozwalająca ocenić wpływ wielu różnych cech (nazywanych zmiennymi niezależnymi lub objaśniającymi) na szanse zajścia jakiegoś zdarzenia, np. zachorowania na jakąś chorobę, terminowej spłaty kredytu, zakupu jakiegoś produktu.

Szansa, ryzyko, prawdopodobieństwo - czyli słownik wyrazów bliskoznacznych

Zanim przejdziemy do regresji logistycznej, kilka zdań wyjaśnienia. Na co dzień słów “szansa” i “prawdopodobieństwo” używamy wymiennie. Jednak w statystyce (lub szerzej: w matematyce) te dwa pojęcia znaczą coś nieco innego. Wyobraźmy sobie pudełko z trzema białymi i jedną czarną kulką. Prawdopodobieństwo wylosowania tej czarnej wynosi 25%, czyli 0,25. Z kolei szansa jej wylosowania to 1:3 (jeden do trzech) czyli 0,3333…

Nieco bardziej formalnie można powiedzieć, że prawdopodobieństwo zestawia interesujące nas zdarzenia ze wszystkimi możliwymi zdarzeniami (czyli jedna czarna kulka przy łącznie czterech kulkach w pudełku) a szansa zestawia interesujące nas zdarzenia ze zdarzeniami nas nieintersującymi (czyli jedna czarna kulka przy trzech białych). Regresja logistyczna pozwala ocenić wpływ wielu różnych cech na szanse zajścia jakiegoś zdarzenia.

Powiedzmy jeszcze o “ryzyku”. W mowie potocznej oznacza ono szansę zajścia niekorzystnego zdarzenia. “Szansa zgonu” nie brzmi dobrze, częściej mówimy o “ryzyku zgonu”. W statystyce to słowo oznacza jednak prawdopodobieństwo zajścia niekorzystnego zdarzenia, a więc w kontekście regresji logistycznej bezpieczniej go nie używać. Nie mamy jednak (Anglosasi też nie) innego słowa na szansę zajścia niekorzystnego zdarzenia. Dlatego też czasem można usłyszeć i przeczytać o ryzyku w kontekście regresji logistycznej. Jest to jednak mocno nieformalne określenie. Będę więc konsekwentnie pisał o “szansie zawału” mając świadomość jak źle to brzmi.

Przykład

Powiedzmy, że chcemy zbadać wpływ masy ciała, wzrostu, poziomów LDL i HDL (tzw. “zły” i “dobry” cholesterol), wykształcenia oraz miejsca zamieszkania na szansę wystąpienia zawału serca u 60-letnich mężczyzn. Przykładowe wyniki wyglądają tak:

Zmienna OR 95% CI p
Masa ciała (kg) 1,059 1,010 1,110 0,017
Wzrost (cm) 0,937 0,848 1,036 0,202
LDL (mmol/l) 3,145 2,765 3,942 0,002
HDL (mmol/l) 0,722 0,659 0,801 0,014
Wykształcenie Podstawowe poz. ref.
Zawodowe 1,005 0,657 3,245 0,367
Średnie 1,365 0,897 2,001 0,164
Wyższe 0,973 0,942 0,994 0,046
Miejsce zamieszkania Wieś poz. ref.
Miasto 2,192 1,745 4,112 0,026

Zasady interpretacji wyników

Zacznijmy od masy ciała. Parametr OR wynosi dla niej 1,059. Skrót OR oznacza iloraz szans (Odds Ratio). OR=1,059 mówi nam, że każdy dodatkowy kilogram wagi podnosi, przy niezmienionych pozostałych cechach ujętych w analizie, szansę zawału o 5,9% (bo w liczbie 1,059 ponad 1 “wystaje” 0,059, czyli 5,9%). Obok mamy 95-procentowy przedział ufności dla OR (CI = Confidence Interval). Jego zakres to 1,010-1,110 lub inaczej 1-11%. W ostatniej kolumnie mamy wartość p, mówiącą nam, czy nasza zmienna (masa ciała) ma istotny wpływ na szansę zawału. p mniejsze od 0,050 oznacza, że wpływ jest istotny, p większe od 0,050 oznacza, że istotnego wpływu nie udało nam się pokazać. U nas p dla masy ciała to 0,017, czyli mniej niż 0,050, a więc wpływa ona istotnie na szansę zawału.

Podsumowując: masa ciała ma istotny wpływ na szansę zawału. Każdy kilogram wagi podnosi (przy niezmienionych: wzroście, poziomach LDL i HDL, wykształceniu i miejscu zamieszkania), szansę zawału o 5,9% (95% CI = 1-11%).

Wzrost nie ma z kolei istotnego wpływu na szansę zawału (bo p jest dla niego większe niż 0,050).

Wpływ LDL na szansę zawału jest istotny statystycznie (bo p<0,050). OR wynosi 3,145, a więc każdy dodatkowy mmol/l podnosi, przy niezmienionych pozostałych cechach ujętych w analizie, szansę zawału o 214,5% (bo w liczbie 3,145 ponad 1 “wystaje” 2,145, czyli 214,5%). Nieco “zgrabniej” jest jednak powiedzieć, że szansa zawału rośnie 3,145-krotnie. Lub jeszcze krócej: rośnie ponad 3-krotnie.

Wpływ HDL również jest istotny (p<0,050). OR wynosi 0,722, a więc każdy dodatkowy mmol/l obniża, przy niezmienionych pozostałych cechach ujętych w analizie, szansę zawału o 27,8% (bo w liczbie 0,722 do 1 brakuje 0,278, czyli 27,8%).

Popatrzmy teraz na wykształcenie. Jest to zmienna jakościowa (tzn. jest wyrażona opisem, a nie liczbą). W takim przypadku należy ustalić wartość referencyjną. Jest do wartość, do której będą porównywane pozostałe wartości tej zmiennej. Jest wiele szkół: jedni radzą wziąć tą wartość, która występuje najczęściej, inni mówią, żeby brać pierwszą z brzegu. Większość programów statystycznych, jeśli nie każe im się inaczej, bierze jako wartość referencyjną pierwszą wartość w kolejności alfabetycznej. Często jednak wartość referencyjna “narzuca się sama”. W przypadku wykształcenia warto wziąć wykształcenie podstawowe jako referencyjne i porównywać do niego wykształcenie zawodowe, średnie i wyższe. Dzięki temu będziemy mogli pokazać, jak szansa zawału zmienia się wraz z rosnącym poziomem wykształcenia.

Wpływ wykształcenia zawodowego i średniego okazuje się nieistotny statystycznie (p powyżej 0,050). Zaś zdobycie wykształcenia wyższego obniża szansę zawału (przy niezmienionych: masie ciała, wzroście, LDL, HDL i miejscu zamieszkania) o 2,7% (95% CI = 0,6-5,8%). Jest to spadek w stosunku do poziomu referencyjnego, a więc wykształcenia podstawowego!

Na koniec miejsce zamieszkania. To jest także zmienna jakościowa więc potrzebuje poziomu referencyjnego (tu została nim Wieś). Wpływ miejsca zamieszkania na szansę zawału jest istotny (p poniżej 0,050). OR wynosi 2,192. Można więc stwierdzić, że mieszkanie w mieście nieco ponad 2-krotnie podnosi szansę zawału (przy niezmienionych: masie ciała, wzroście, LDL, HDL i wykształceniu). Lub inaczej: 60-letni mężczyźni mieszkający w mieście mają nieco ponad 2-krotnie większą szansę zawału niż ich koledzy ze wsi, którzy mają taką samą masę ciała, wzrost, takie same poziomy LDL i HDL oraz takie samo wykształcenie.