Bayesova věta

Ilustrace pomocí dvou spojených třídimenzionálních stromových diagramů Bayesovy věty

Bayesova věta (alternativně Bayesova formule, Bayesův vzorec) je věta teorie pravděpodobnosti, která udává, jak podmíněná pravděpodobnost nějakého jevu souvisí s opačnou podmíněnou pravděpodobností.[1] Poprvé na tuto souvislost upozornil anglický duchovní Thomas Bayes (1702–1761) v posmrtně vydaném článku An Essay towards solving a Problem in the Doctrine of Chances (1763). Roku 1774 větu znovu objevil francouzský matematik a fyzik Pierre-Simon Laplace, nicméně postupně upadla v zapomnění a rozšířila se až v 2. polovině 20. století.[2] Frekvenční interpretace pravděpodobnosti se poté nazývá klasická či Laplaceova, právě podle Pierre-Simona Laplace.

Jedno z mnoha použití Bayesovy věty je v oblasti statistické inference (konkrétně Bayesova inference). Věta taktéž položila základy relativně novému směru statistiky – Bayesovská statistika.[3]

Znění věty

Nechť A {\displaystyle A} a B {\displaystyle B} jsou náhodné jevy a P ( B ) 0 {\displaystyle \mathrm {P} (B)\neq 0} . Potom platí

P ( A B ) = P ( B A ) P ( A ) P ( B ) {\displaystyle \mathrm {P} (A\mid B)={\frac {\mathrm {P} (B\mid A)\,\mathrm {P} (A)}{\mathrm {P} (B)}}} .

Důkaz

Důkaz věty vychází z definice podmíněné pravděpodobnosti:

P ( A B ) = P ( A B ) P ( B ) {\displaystyle \mathrm {P} (A\mid B)={\frac {\mathrm {P} (A\cap B)}{\mathrm {P} (B)}}} , pokud P ( B ) 0 {\displaystyle \mathrm {P} (B)\neq 0} . Symetricky P ( B A ) = P ( A B ) P ( A ) {\displaystyle \mathrm {P} (B\mid A)={\frac {\mathrm {P} (A\cap B)}{\mathrm {P} (A)}}} , pokud P ( A ) 0 {\displaystyle \mathrm {P} (A)\neq 0} .

Vyjádřením pravděpodobnosti průniku v obou rovnicích získáváme P ( A B ) P ( B ) = P ( A B ) = P ( B A ) P ( A ) {\displaystyle \mathrm {P} (A\mid B)\mathrm {P} (B)=\mathrm {P} (A\cap B)=\mathrm {P} (B\mid A)\mathrm {P} (A)} . Vyjádřením P ( A B ) {\displaystyle \mathrm {P} (A\mid B)} obdržíme Bayesovu formuli:

P ( A B ) = P ( B A ) P ( A ) P ( B ) {\displaystyle \mathrm {P} (A\mid B)={\frac {\mathrm {P} (B\mid A)\mathrm {P} (A)}{\mathrm {P} (B)}}} , pokud P ( B ) 0 {\displaystyle \mathrm {P} (B)\neq 0} .

Alternativní formy Bayesovy věty

Pro všechny alternativní formy Bayesovy věty uvažujme nenulovost jmenovatele.

Rozšířené znění

Mějme náhodné jevy A {\displaystyle A} a B j {\displaystyle B_{j}} , pro j = 1 , . . . , k {\displaystyle j={1,...,k}} . Nechť jsou jevy B j {\displaystyle B_{j}} po dvou disjunktní pro každé j {\displaystyle j} a nechť tvoří celý pravděpodobnostní prostor, tedy i = 1 k P ( B i ) = 1 {\displaystyle {\sum _{i=1}^{k}\mathrm {P} (B_{i})=1}} . Potom platí

P ( B j A ) = P ( A B j ) P ( B j ) P ( A ) {\displaystyle \mathrm {P} (B_{j}\mid A)={\frac {\mathrm {P} (A\mid B_{j})\,\mathrm {P} (B_{j})}{\mathrm {P} (A)}}} .

Využití doplňku

Při počítání s Bayesovou formulí je výhodné znát následující úpravu, jelikož nemusíme znát pravděpodobnost náhodných jevů, nýbrž pouze jejich pravděpodobnosti podmíněné.

Tato formule spočívá ve vhodné úpravě jmenovatele, tedy

P ( B ) = P ( B A ) P ( A ) + P ( B A c ) P ( A c ) {\displaystyle \mathrm {P} (B)=\mathrm {P} (B\mid A)\mathrm {P} (A)+\mathrm {P} (B\mid A^{c})\mathrm {P} (A^{c})} , kde využíváme vztahu B = ( B A ) ( B A c ) {\displaystyle B=(B\cap A)\cup (B\cap A^{c})} .

Po dosazení do původní věty dostáváme

P ( A B ) = P ( B A ) P ( A ) P ( B A ) P ( A ) + P ( B A c ) P ( A c ) {\displaystyle \mathrm {P} (A\mid B)={\frac {\mathrm {P} (B\mid A)\mathrm {P} (A)}{\mathrm {P} (B\mid A)\mathrm {P} (A)+\mathrm {P} (B\mid A^{c})\mathrm {P} (A^{c})}}} .[4]

Rodělení doplňku

Tato forma Bayesovy věty vychází z předpokladu Bayesovy věty, tedy že platí i = 1 k P ( B i ) = 1 {\displaystyle \sum _{i=1}^{k}\mathrm {P} (B_{i})=1} . Lze ale vyjádřit pravděpodobnost i {\displaystyle i} -tého členu P ( B i ) = j = 1 i 1 P ( B j ) + j = i + 1 k P ( B j ) = P ( 1 B i ) = P ( B c ) {\displaystyle \mathrm {P} (B_{i})=\sum _{j=1}^{i-1}\mathrm {P} (B_{j})+\sum _{j=i+1}^{k}\mathrm {P} (B_{j})=\mathrm {P} (1-B_{i})=\mathrm {P} (B^{c})} . Tedy získáváme upravenou verzi Bayesovy věty využívající doplněk. Pro rozložení podmíněné pravděpodobnosti na pravé straně rovnice lze využít větu o úplné pravděpodobnosti.

Mějme neslučitelné náhodné jevy B n {\displaystyle B_{n}} , kde n = 1 , . . . , k {\displaystyle n={1,...,k}} takové, že pro ně platí P ( n = 1 k B n ) = 1 {\displaystyle \mathrm {P} (\bigcup _{n=1}^{k}B_{n})=1} . Pak platí

P ( B n A ) = P ( A B n ) P ( B n ) j P ( A B j ) P ( B j ) {\displaystyle \mathrm {P} (B_{n}\mid A)={\frac {\mathrm {P} (A\mid B_{n})\mathrm {P} (B_{n})}{\sum _{j}\mathrm {P} (A\mid B_{j})\mathrm {P} (B_{j})}}} .[5]

Verzi věty lze z konečného počtu náhodných jevů rozšířit i na nekonečně spočetně jevů.

Přidání historie

Přidání jednoho prvku

Formu, která bere v potaz historii, lze odvodit zavedením substituce B = C H {\displaystyle B=C\cap H} a dosazení do znění Bayesovy věty. Získáváme tedy

P ( A C H ) = P ( C H A ) P ( A ) P ( C H ) = P ( C H A ) P ( C H ) = P ( C A H ) P ( A H ) P ( C H ) P ( H ) = P ( C A H ) P ( A H ) P ( H ) P ( C H ) P ( H ) = P ( C A H ) P ( A H ) P ( C H ) {\displaystyle \mathrm {P} (A\mid C\cap H)={\frac {\mathrm {P} (C\cap H\mid A)\,\mathrm {P} (A)}{\mathrm {P} (C\cap H)}}={\frac {\mathrm {P} (C\cap H\cap A)}{\mathrm {P} (C\cap H)}}={\frac {\mathrm {P} (C\mid A\cap H)\,\mathrm {P} (A\cap H)}{\mathrm {P} (C\mid H)\,\mathrm {P} (H)}}={\frac {\mathrm {P} (C\mid A\cap H)\,\mathrm {P} (A\mid H)\,\mathrm {P} (H)}{\mathrm {P} (C\mid H)\,\mathrm {P} (H)}}={\frac {\mathrm {P} (C\mid A\cap H)\,\mathrm {P} (A\mid H)}{\mathrm {P} (C\mid H)}}} , z čehož získáváme vzorec
P ( A C H ) = P ( C A H ) P ( A H ) P ( C H ) {\displaystyle \mathrm {P} (A\mid C\cap H)={\frac {\mathrm {P} (C\mid A\cap H)\,\mathrm {P} (A\mid H)}{\mathrm {P} (C\mid H)}}} , ze kterého přeznačením (pro konzistenci) získáváme formu Bayesovy věty zobecňující prvek historie H {\displaystyle H} v následující podobě:
P ( A B H ) = P ( B A H ) P ( A H ) P ( B H ) {\displaystyle \mathrm {P} (A\mid B\cap H)={\frac {\mathrm {P} (B\mid A\cap H)\,\mathrm {P} (A\mid H)}{\mathrm {P} (B\mid H)}}} .

Přidání více prvků

Obdobným způsobem lze přidat konečně mnoho prvků historie H i {\displaystyle H_{i}} , respektive i nekonečně spočetně. Můžeme H {\displaystyle {\mathcal {H}}} definovat pomocí součtů jako H = i = 1 n H i {\displaystyle {\mathcal {H}}=\sum _{i=1}^{n}H_{i}} (respektive H = i = 1 H i {\displaystyle {\mathcal {H}}=\sum _{i=1}^{\infty }H_{i}} ).

Tato forma Bayesovy věty může být užitečná, pokud v příkladu testování na drogy budu mít více testovaných lidí, pak obecně H i {\displaystyle H_{i}} označíme výsledek i {\displaystyle i} -tého testu, tedy pokud byl první test pozitivní, výsledek do historie zaneseme například jako H 1 = 1 {\displaystyle H_{1}=1} , pokud by byl negativní, pak bychom položili H 1 = 0 {\displaystyle H_{1}=0} .

Výsledná forma zobecňující všechny výsledky má podobu

P ( A B H ) = P ( B A H ) P ( A H ) P ( B H ) {\displaystyle \mathrm {P} (A\mid B\cap {\mathcal {H}})={\frac {\mathrm {P} (B\mid A\cap {\mathcal {H}})\,\mathrm {P} (A\mid {\mathcal {H}})}{\mathrm {P} (B\mid {\mathcal {H}})}}} .

Šancová forma Bayesovy věty

Z definice šance Š ( A ) = P ( A ) P ( A c ) = P ( A ) 1 P ( A ) {\displaystyle \mathrm {\mbox{Š}} (A)={\frac {\mathrm {P} (A)}{\mathrm {P} (A^{c})}}={\frac {\mathrm {P} (A)}{1-\mathrm {P} (A)}}} lze odvodit vzorec poměrů pravděpodobností P ( H 1 D ) : P ( H 2 D ) {\displaystyle \mathrm {P} (H_{1}\mid D):\mathrm {P} (H_{2}\mid D)} , který má tvar

P ( H 1 D ) P ( H 2 D ) = P ( H 1 ) P ( H 2 ) P ( D H 1 ) P ( D H 2 ) {\displaystyle {\frac {\mathrm {P} (H_{1}\mid D)}{\mathrm {P} (H_{2}\mid D)}}={\frac {\mathrm {P} (H_{1})}{\mathrm {P} (H_{2})}}\cdot {\frac {\mathrm {P} (D\mid H_{1})}{\mathrm {P} (D\mid H_{2})}}} , tedy slovně aposteriorní šance hypotézy H 1 {\displaystyle H_{1}} proti hypotéze H 2 {\displaystyle H_{2}} je rovna součinu apriorní šance hypotézy H 1 {\displaystyle H_{1}} proti hypotéze H 2 {\displaystyle H_{2}} a poměru věrohodností hypotézy H 1 {\displaystyle H_{1}} proti hypotéze H 2 {\displaystyle H_{2}} .

Bayesova věta pro spojité náhodné vektory

Bayesovu větu lze popsat i pomocí hustoty spojitých náhodných vektorů X {\displaystyle \mathbf {X} } a Y {\displaystyle \mathbf {Y} } . Tedy podmíněná hustota ρ X ( x y ) {\displaystyle \rho _{\mathbf {X} }(x\mid y)} spojitého náhodného vektoru X {\displaystyle \mathbf {X} } vzhledem k Y {\displaystyle \mathbf {Y} } je rovna

ρ X ( x y ) = { ρ Y ( y x ) f X ( x ) f Y ( y )  pro  f Y ( y ) 0 0  jinak. {\displaystyle \rho _{\mathbf {X} }(x\mid y)={\begin{cases}{\frac {\rho _{\mathbf {Y} }(y\mid x)\,f_{\mathbf {X} }(x)}{f_{\mathbf {Y} }(y)}}{\mbox{ pro }}f_{\mathbf {Y} }(y)\neq 0\\0{\mbox{ jinak.}}\end{cases}}}

Podobu Bayesovy věty pro spojité náhodné vektory lze odvodit dosazením vztahu f ( x , y ) = h Y ( y x ) f X ( x ) {\displaystyle f(x,y)=h_{\mathbf {Y} }(y\mid x)f_{\mathbf {X} }(x)} do vztahu podmíněné hustoty X {\displaystyle \mathbf {X} } vzhledem k Y {\displaystyle \mathbf {Y} } , tedy h X ( x y ) = f ( x , y ) f Y ( y ) {\displaystyle h_{\mathbf {X} }(x\mid y)={\frac {f(x,y)}{f_{\mathbf {Y} }(y)}}} .[6]

Příklady použití

Testování na drogy

Nyní si ukažme příklad použití Bayesova pravidla při testování na drogy. Vyjdeme z předpokladů, že test na prokázání drog má senzitivitu 99 % a specificitu 99 %. Test se na první pohled zdá být docela přesný, ale pomocí Bayesovy věty lze ukázat, že netriviální procento testovaných může být nesprávně označeno za uživatele drog. Nechť je v testovaném podniku prevalence 0,5 %, tj. 0,5 % ze zaměstnanců drogy opravdu užívá.

Jaká je pravděpodobnost, že osoba s pozitivním testem drogy opravdu používá?

Označme si uživatele drog jako "A", "N" všechny ostatní. Nechť "+" znamená pozitivní test. Popišme si následující veličiny:

  • P ( A ) {\displaystyle \mathrm {P} (A)} pravděpodobnost, že osoba je uživatelem drog (prevalence), tj. 0.005 {\displaystyle 0.005}
  • P ( N ) {\displaystyle \mathrm {P} (N)} pravděpodobnost, že osoba není uživatelem drog; zjistíme pomocí doplňkového jevu, tzn. 1 P ( A ) = 0.995 {\displaystyle 1-\mathrm {P} (A)=0.995}
  • P ( + A ) {\displaystyle \mathrm {P} (+\mid A)} pravděpodobnost, že test je pozitivní, když je osoba uživatelem drog; jinými slovy sensitivita testu: 0.99 {\displaystyle 0.99}
  • P ( + N ) {\displaystyle \mathrm {P} (+\mid N)} je pravděpodobnost, že test bude pozitivní, i přesto, že osoba není uživatelem drog; lze interpretovat jako doplněk k specificitě testu: 0.01 {\displaystyle 0.01}
  • P ( + ) {\displaystyle \mathrm {P} (+)} je pravděpodobnost, že test bude pozitivní.

Pravděpodobnost P ( + ) {\displaystyle \mathrm {P} (+)} sice zadanou nemáme, ale lze ji vypočítat dle výše zmíněné formule:

P ( + ) = P ( + A ) P ( A ) + P ( + N ) P ( N ) {\displaystyle \mathrm {P} (+)=\mathrm {P} (+\mid A)\cdot \mathrm {P} (A)+\mathrm {P} (+\mid N)\cdot \mathrm {P} (N)}

Po dosazení dostáváme výsledek 1,49 %:

P ( + ) = 0.99 × 0.005 + 0.01 × 0.995 = 0.0149. {\displaystyle \mathrm {P} (+)=0.99\times 0.005+0.01\times 0.995=0.0149.}

Díky těmto údajům můžeme vypočítat žádanou pravděpodobnost P ( A + ) {\displaystyle \mathrm {P} (A\mid +)} pomocí Bayesovy věty:

P ( A + ) = P ( + A ) P ( A ) P ( + ) = 0.99 × 0.005 0.0149 = 0.3322. {\displaystyle \mathrm {P} (A\mid +)={\frac {\mathrm {P} (+\mid A)\mathrm {P} (A)}{\mathrm {P} (+)}}={\frac {0.99\times 0.005}{0.0149}}=0.3322.}

Všimněme si, že i přes vysokou specificitu a senzitivitu je výsledek testu poměrně nepřesný. U zaměstnance podniku s pozitivním testem je jen 33% pravděpodobnost, že je skutečně uživatelem drog.

Specificita a senzitivita

Senzitivita testu (také citlivost testu) nám udává úspěšnost, s níž test zachytí přítomnost sledovaného stavu (nemoci) u daného subjektu. V našem příkladu to znamená, že test správně identifikuje skutečné uživatele drog v 99 % případů.

Specificita testu nám vyjadřuje úspěšnost, s níž test určí případy, u nichž zkoumaný stav (nemoc) nenastává. 99% specificita testu znamená, že test s 99% pravděpodobností správně vyloučí osobu, která drogy nepoužívá.

Odkazy

Reference

  1. OBERHELMAN, David D. Stanford Encyclopedia of Philosophy. Reference Reviews. 2001-06-01, roč. 15, čís. 6, s. 9–9. ISSN 0950-4125. DOI 10.1108/rr.2001.15.6.9.311. (anglicky) 
  2. A History of Bayes' Theorem. www.lesswrong.com [online]. lesswrong.com, 2011-08-29 [cit. 2024-02-19]. Dostupné online. (anglicky) 
  3. BERNARDO, José M.; SMITH, Adrian F. M. Bayesian Theory. Hoboken: John Wiley & Sons, Ltd., 2009. ISBN 9780470317716, ISBN 047031771X. (anglicky) 
  4. BAZETT, Trefor. Introduction to Bayes’ Theorem. Cham: Springer International Publishing Dostupné online. ISBN 978-3-030-95792-6. 
  5. HRON, Karel; KUNDEROVÁ, Pavla; VENCÁLEK, Ondřej. Základy počtu pravděpodobnosti a metod matematické statistiky. Redakce Tereza Vintrová. 4., doplněné vyd. Olomouc: Univerzita Palackého v Olomouci, 2021. 346 s. ISBN 978-80-244-5990-5. Kapitola Podmíněná pravděpodobnost, s. 37–38. 
  6. HRON, Karel; KUNDEROVÁ, Pavla; VENCÁLEK, Ondřej. Základy počtu pravděpodobnosti a metod matematické statistiky. Redakce Tereza Vintrová. 4., doplněné vyd. Olomouc: Univerzita Palackého v Olomouci, 2021. 346 s. ISBN 978-80-244-5990-5. Kapitola Podmíněné rozdělení, s. 125. 

Související články

Externí odkazy

  • Logo Wikimedia Commons Obrázky, zvuky či videa k tématu Bayesova věta na Wikimedia Commons
  • Seeing Theory - Bayesian Inference – vizualizace Bayesovy věty na několika příkladech (anglicky)
Autoritní data Editovat na Wikidatech