Prawdopodobieństwo czy szansa?

W problemie klasyfikacji binarnej etykietę możemy opisać jako zmienną losową z rozkładu dwumianowego o prawdopodobieństwie sukcesu $p$.

Dla $i$-tej obserwacji zapiszemy to jako

yiB(pi,1) y_i \sim B(p_i, 1)

Interesuje nas opisanie prawdopodobieństwa $p_i$ jako funkcji wektora obserwacji $X$

pi=f(Xi). p_i = f(X_i). Ponieważ $X_i$ jest znane, gdybyśmy znali $f()$ moglibyśmy lepiej przewidywać wartości $y_i$.

Bezpośrednie modelowanie prawdopodobieństwa $p_i$ potrafi być trudne, z uwagi na to, że prawdopodobieństwo przyjmuje wartości na ograniczonym przedziale $(0,1)$. Dlatego w modelowaniu często zamiast prawdopodobieństwa modeluje się logarytm szansy.

Szansa

Szansa wystąpienia zdarzenia to iloraz prawdopodobieństwa, że to zdarzenie wystąpi do prawdopodobieństwa, że nie wystąpi.

oddsi=pi1pi odds_i = \frac{p_i}{1-p_i} Szansa przyjmuje wartości w przedziale $(0, \infty)$. Wartość 1 oznacza, że tak samo prawdopodobne jest wystąpienie i nie wystąpienie określonego zdarzenia.

Log-szansa

Log-szansa to logarytm z szansy.

log(oddsi)=log(pi1pi)=logpilog(1pi) \log(odds_i) = \log\left(\frac{p_i}{1-p_i}\right) = \log p_i - \log (1-p_i) Log-szansa przyjmuje wartości w przedziale $(-\infty, \infty)$. Wartość 0 oznacza, że tak samo prawdopodobne jest wystąpienie i nie wystąpienie określonego zdarzenia.

Szansa prawdopodobieństwo - prawdopodobieństwo szansa

Prawdopodobieństwo można jednoznacznie przekształcić na log-szanse. log(oddsi)=log(pi1pi) \log(odds_i) = \log\left(\frac{p_i}{1-p_i}\right)

Log-szanse można jednoznacznie przekształcić na prawdopodobieństwo. pi=11+exp(log(oddsi)) p_i = \frac{1}{1 + \exp(- \log ({odds}_i))}