T-test

T-test (Studentův t-test) je metodou matematické statistiky, která umožňuje ověřit některou z následujících hypotéz:

zda normální rozdělení, z něhož pochází určitý náhodný výběr, má určitou konkrétní střední hodnotu, přičemž rozptyl je neznámý
zda dvě normální rozdělení mající stejný (byť neznámý) rozptyl, z nichž pocházejí dva nezávislé náhodné výběry, mají stejné střední hodnoty (resp. rozdíl těchto středních hodnot je roven určitému danému číslu)

V prvním případě může být náhodný výběr tvořen buď jednotlivými hodnotami (pak se jedná o jednovýběrový t-test), anebo dvojicemi hodnot, u nichž se zkoumají jejich rozdíly (pak se jedná o párový t-test). Ve druhém případě jde o dvouvýběrový t-test.

V praxi se t-test často používá k porovnání, zda se výsledky měření na jedné skupině významně liší od výsledků měření na druhé skupině.

Princip t-testu

Pokud náhodný výběr pochází z normálního rozdělení, pak výběrový průměr má také normální rozdělení se stejnou střední hodnotou. Rozdíl výběrového průměru a střední hodnoty normovaný pomocí skutečného rozptylu by pak měl normální rozdělení s nulovou střední hodnotou a jednotkovým rozptylem. Skutečný rozptyl však není znám. Pokud je nahrazen odhadem pomocí výběrového rozptylu, vznikne T rozdělení, které s rostoucím počtem stupňů volnosti konverguje k normálnímu rozdělení.

Jednovýběrový t-test

Označme jednotlivé hodnoty náhodného výběru jako $x_{1},x_{2},...,x_{n}$ , výběrový průměr jako ${\overline {X}}$ a výběrový rozptyl jako $S^{2}$ (výběrové verze jsou definovány jako ${\textstyle {\frac {1}{n-1}}\sum _{i=1}^{n}{\ ...}}$ ). Test testuje hypotézu, že střední hodnota normálního rozdělení, z něhož výběr pochází, se rovná $\mu {}_{0}$ .

Platí-li hypotéza, má náhodná veličina $T={\frac {{\overline {X}}-\mu _{0}}{S}}{\sqrt {n}}$ T rozdělení s n-1 stupni volnosti. Hypotézu zamítáme, je-li T příliš velké nebo příliš malé (výběrový průměr se příliš liší od očekávané střední hodnoty). Konkrétně se T porovná s kritickou hodnotou T rozdělení pro předem stanovenou hladinu významnosti.

Příklad jednovýběrového t-testu

Mužové (smyšleného) kmene Orlů mají podle literatury mít průměrnou výšku 175 cm. Antropolog, který kmen navštívil, změřil výšky deseti náhodně vybraných mužů kmene. V pořadí velikosti to byli muži vysocí 153, 156, 156, 161, 166, 167, 168, 174, 175 a 181 cm. Na hladině významnosti α = 0,05 máme testovat, zda údaj v literatuře odpovídá antropologovým měřením. Předpokládáme, že výšky členů nějaké skupiny lidí jsou přibližně normálně rozdělené.

Využijeme statistický software R a zadáme následující příkazy:

orlove <- c(153, 156, 156, 161, 166, 167, 168, 174, 175, 181)
t.test(orlove, mu = 175)

Výstup programu je:

	One Sample t-test
data:  orlove
t = -3.1834, df = 9, p-value = 0.01112
alternative hypothesis: true mean is not equal to 175
95 percent confidence interval:
 159.0914 172.3086
sample estimates:
mean of x 
    165.7

Testová statistika t tedy nabývá hodnoty -3,1834 při devíti stupních volnosti (počet stupňů volnosti je v tomto testu o jednu nižší než počet měření). Odpovídající p-hodnota je 0,01112, což je menší než 0,05, a tak můžeme nulovou hypotézu na zadané hladině významnosti zamítnout a říci, že střední hodnota výšky mužů kmene Orlů není 175 cm, ale zřejmě o něco menší: Program vypsal aritmetický průměr výšek měřené skupiny jako 165,7 cm a jeho 95% konfidenční interval přibližně 159,1 až 172,3 cm, takže skutečná střední hodnota výšek bude nejspíše někde v uvedeném intervalu.

Párový t-test

Párový t-test se od jednovýběrového liší pouze v tom, že náhodný výběr poskytuje dvojice hodnot $(y_{1},z_{1}),(y_{2},z_{2}),...,(y_{n},z_{n})$ , přičemž uvnitř každé dvojice nemusí jít o nezávislé veličiny. V párovém t-testu ověřujeme, zda rozdíl středních hodnot rozdělení pro veličiny y a rozdělení pro veličiny z je roven určitému číslu (často nule). Předpokladem je, že tento rozdíl (nikoli nutně samotné y a z) má normální rozdělení.

Položíme-li $x_{i}=y_{i}-z_{i}$ a označíme-li $\mu {}_{0}$ jako číslo, kterému se má rovnat rozdíl středních hodnot, můžeme párový test zcela převést na případ jednovýběrového t-testu.

Dvouvýběrový t-test

Označme jednotlivé hodnoty prvního náhodného výběru jako $x_{1},x_{2},...,x_{n}$ , výběrový průměr jako ${\overline {X}}$ a výběrový rozptyl jako $S_{x}^{2}$ . Obdobně označme jednotlivé hodnoty druhého náhodného výběru jako $y_{1},y_{2},...,y_{m}$ , výběrový průměr jako ${\overline {Y}}$ a výběrový rozptyl jako $S_{y}^{2}$ . Oba výběry musejí být vzájemně nezávislé. Nakonec označme $\delta$ číslo, které se má rovnat rozdílu středních hodnot základního souboru $\mu {}_{1}-\mu {}_{2}$ (jak již bylo řečeno, často $\delta =0$ ).

Potom veličina
$T={\frac {{\overline {X}}-{\overline {Y}}-\delta }{\sqrt {(n-1)S_{x}^{2}+(m-1)S_{y}^{2}}}}{\sqrt {\frac {nm(n+m-2)}{n+m}}}$
má za platnosti hypotézy, že se rozdíl středních hodnot rovná $\delta$ , T rozdělení o n+m-2 stupních volnosti. Hypotéza se tedy zamítá v případě, že veličina T překročí kritickou hodnotu T rozdělení o uvedeném počtu stupňů volnosti.

Příklad dvouvýběrového t-testu

Mužové (smyšleného) kmene Orlů mají podle literatury mít stejnou průměrnou výšku jako mužové sousedního kmene Býků. Antropolog, který oba kmeny navštívil, změřil výšky deseti náhodně vybraných mužů každého kmene. V pořadí velikosti to byli muži vysocí u Orlů 153, 156, 156, 161, 166, 167, 168, 174, 175 a 181 cm a u Býků 160, 165, 168, 170, 171, 174, 176, 181, 181 a 183 cm. Na 5% hladině významnosti máme testovat, zda údaj v literatuře odpovídá antropologovým měřením za předpokladu, že variabilita výšek obou skupin je stejná.

Opět využijeme software R a zadáme příkazy:

orlove <- c(153, 156, 156, 161, 166, 167, 168, 174, 175, 181)
byci <- c(160, 165, 168, 170, 171, 174, 176, 181, 181, 183)
t.test(orlove, byci, var.equal = TRUE)

Po spuštění testu dostaneme výstup:

    Two Sample t-test
data:  orlove and byci
t = -1.9114, df = 18, p-value = 0.07201
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -15.1137829   0.7137829
sample estimates:
mean of x mean of y 
    165.7     172.9

V tomto případě je p-hodnota rovna 0.07201, což je více než 0,05 - hypotézu o stejnosti středních hodnot výšek mužů obou kmenů tedy nezamítáme. Testová statistika je rovna -1,9114 při 18 stupních volnosti (18 je počet měření snížený o dvě). Konfidenční interval rozdílu středních hodnot výšek Orlů a Býků je přibližně -15,1 až 0,7 cm, a nemožnost zamítnout nulovou hypotézu plyne i z toho, že tento interval obsahuje nulu, tj. možnost, že mezi středními výškami není žádný rozdíl. Poslední řádek výstupu obsahuje aritmetické průměry výšek změřených zástupců obou kmenů.

Poznámky

Předpoklad, že oba výběry pocházejí z normálního rozdělení, nemusí být za každou cenu dodržen. T-test totiž pracuje s průměry obou výběrů, a ty již při rozsahu výběru v řádu desítek mají přibližně normální rozdělení díky centrální limitní větě za předpokladu, že data pocházejí z poměrně málo šikmých a špičatých rozdělení (výchozí rozdělení samozřejmě musí plnit předpoklady centrální limitní věty, jinak aritmetické průměry k ničemu nekonvergují, a nelze tedy provádět jejich statistické testování).

Před provedením t-testu by mělo být prověřeno, že oba náhodné výběry mají stejný rozptyl. K tomu může posloužit F-test. Existují i modifikace t-testu pro výběry s různými rozptyly.

Pokud je rozsah výběru (resp. obou výběrů) velký (v řádu stovek a víc), lze místo kritických hodnot T rozdělení použít kritické hodnoty normálního rozdělení, tedy vlastně provést z-test.

Je-li skupin hodnot (tj. náhodných výběrů) víc než dva, bývá obvykle vhodnější provést simultánní porovnání pomocí analýzy rozptylu než opakované t-testy po dvojicích.