Стандардна девијација и променљив су статистичке мере расипања
Формула за стандардну девијацију и варијанцу често се изражава користећи:
Варијанса скупа н подједнако вероватне вредности могу се записати као:
Стандардна девијација је квадратни корен варијансе:
Формуле с грчким словима изгледају застрашујуће, али то је мање компликовано него што се чини. Да бисте то поставили у једноставним корацима:
То даје варијансу. Узмите квадратни корен варијанце да бисте пронашли стандардно одступање.
Овај одличан видео са Академије Кхан објашњава концепте варијансе и стандардне девијације:
Рецимо да скуп података укључује висину шест маслачака: 3 инча, 4 инча, 5 инча, 4 инча, 11 инча и 6 инча.
Прво пронађите средњу вредност података: (3 + 4 + 5 + 4 + 11 + 7) / 6 = 5,5
Дакле, средња висина је 5,5 инча. Сада су нам потребна одступања, па проналазимо разлику сваке биљке од средње вредности: -2,5, -1,5, -,5, -1,5, 5,5, 1,5
Сада квадратните свако одступање и пронађите њихов збир: 6,25 + 2,25 + .25 + 2,25 + 30,25 + 2,25 = 43,5
Сада поделите збир квадрата са бројем података, у овом случају биљке: 43,5 / 6 = 7,25
Дакле, варијанца овог скупа података је 7,25, што је прилично произвољан број. Да бисте га претворили у мерење у стварном свету, узмите квадратни корен 7,25 да бисте пронашли стандардну девијацију у инчима.
Стандардно одступање је око 2,69 инча. То значи да је за узорак било који маслачак у границама 2,69 инча (5,5 инча) "нормалан".
Одступања су квадратна како би се спречило да негативне вредности (одступања испод средње вредности) пониште позитивне вредности. Ово функционише зато што негативни број квадрата постаје позитивна вредност. Ако сте имали једноставан скуп података са одступањима од средње вредности +5, +2, -1 и -6, збир одступања ће изаћи као нула ако вредности нису у квадрату (тј. 5 + 2 - 1 - 6 = 0).
Варијанса се изражава као математичка дисперзија. Пошто је то произвољни број у односу на оригинална мерења скупа података, тешко је то визуализовати и применити у стварном смислу. Проналажење варијанце је обично само последњи корак пре проналаска стандардног одступања. Вриједности варијанце се понекад користе у финансијским и статистичким формулама.
Стандардно одступање, које се изражава у оригиналним јединицама скупа података, много је интуитивније и ближе вредностима оригиналног скупа података. Најчешће се користи за анализу демографије или узорака популације да би се добио осећај шта је нормално у популацији.
У нормалној дистрибуцији, око 68% популације (или вредности) падне унутар 1 стандардне девијације (1σ) од просечне вредности, а око 94% падне унутар 2σ. Вриједности које се разликују од средње вриједности за 1.7σ или више, обично се сматрају одласцима.
У пракси, системи квалитета попут Сик Сигма покушавају смањити стопу грешака, тако да грешке постају вансеријске. Израз "шест сигма процеса" потиче од идеје да ако једна има шест стандардних одступања између средње вредности процеса и најближе границе спецификације, практично ниједна ставка неће успети да испуни спецификације.[1]
У стварним апликацијама, скупови података обично представљају узорке становништва, а не читаве популације. Лагано модификована формула користи се ако се закључци за читаву популацију изводе из парцијалног узорка.
'Узорак стандардне девијације' користи се ако је све узорак, али желите да дате изјаву о стандардној девијацији становништва из које је узорак извучен
Једини начин на који се стандардна формула одступања узорка разликује од формуле стандардног одступања је „-1“ у називнику.
Користећи пример маслачка, ова формула би нам била потребна ако бисмо узорковали само 6 маслачака, али желели смо да користимо тај узорак да наведемо стандардно одступање за цело поље са стотинама маслачака..
Збир квадрата сада би био подељен са 5 уместо са 6 (н - 1), што даје одступање од 8,7 (уместо 7,25) и стандардно одступање узорка од 2,95 инча, уместо 2,69 инча за првобитно стандардно одступање. Ова промена користи се за проналажење грешке у узорку (у овом случају 9%).