Статистически интервални вариационни серии. Решение: I. Нека направим вариационна серия - Решение. История на развитието на теста за проби, свързани с Wilcoxon

Вариационни серии: определение, видове, основни характеристики. Метод на изчисление
режим, медиана, средно аритметично в медицинските и статистически изследвания
(покажете с условен пример).

Вариационна серия е поредица от числени стойности на изследваната характеристика, различаващи се една от друга по величина и подредени в определена последователност (във възходящ или низходящ ред). Всяка числена стойност на серия се нарича вариант (V), а числата, показващи колко често се среща определен вариант в дадена серия, се наричат ​​честота (p).

Общият брой случаи на наблюдение, които съставляват вариационната серия, се обозначава с буквата n. Разликата в значението на изследваните характеристики се нарича вариация. Ако варираща характеристика няма количествена мярка, вариацията се нарича качествена, а серията на разпределение се нарича атрибутивна (например разпределение по изход от заболяване, здравен статус и т.н.).

Ако варираща характеристика има количествен израз, такава вариация се нарича количествена, а серията на разпределение се нарича вариационна.

Вариационните серии се разделят на прекъснати и непрекъснати - въз основа на характера на количествената характеристика; прости и претеглени - въз основа на честотата на поява на варианта.

В проста вариационна серия всяка опция се появява само веднъж (p=1), в претеглена серия същата опция се среща няколко пъти (p>1). Примери за такива серии ще бъдат разгледани по-нататък в текста. Ако количествената характеристика е непрекъсната, т.е. Между цели числа има междинни дробни количества; вариационният ред се нарича непрекъснат.

Например: 10.0 – 11.9

14,0 – 15,9 и т.н.

Ако количествената характеристика е прекъсната, т.е. отделните му стойности (варианти) се различават една от друга с цяло число и нямат междинни дробни стойности; вариационната серия се нарича прекъсната или дискретна.

Използвайки данните за пулса от предишния пример

за 21 ученика ще изградим вариационна серия (Таблица 1).

Таблица 1

Разпределение на студентите по медицина по сърдечна честота (bpm)

По този начин да се конструира вариационна серия означава да се систематизират и организират наличните числени стойности (варианти), т.е. подреждат в определена последователност (във възходящ или низходящ ред) със съответните им честоти. В разглеждания пример опциите са подредени във възходящ ред и са изразени като цели прекъснати (дискретни) числа, всяка опция се среща няколко пъти, т.е. имаме работа с претеглени, прекъснати или дискретни вариационни серии.

Като правило, ако броят на наблюденията в статистическата съвкупност, която изучаваме, не надвишава 30, тогава е достатъчно да подредите всички стойности на изследваната характеристика във възходяща серия от вариации, както в табл. 1, или в низходящ ред.

При голям брой наблюдения (n>30) броят на срещащите се варианти може да бъде много голям, в този случай се съставя интервална или групирана вариационна серия, в която за опростяване на последващата обработка и изясняване на естеството на разпределението; вариантите се комбинират в групи.

Обикновено броят на груповите опции варира от 8 до 15.

Трябва да са поне 5, защото... в противен случай ще бъде твърде грубо, прекомерно уголемяване, което изкривява цялостната картина на вариациите и силно влияе върху точността на средните стойности. Когато броят на груповите варианти е повече от 20-25, точността на изчисляване на средните стойности се увеличава, но характеристиките на вариацията на характеристиката са значително изкривени и математическата обработка става по-сложна.

При съставянето на групирана серия е необходимо да се вземе предвид

− групите опции трябва да бъдат подредени в определен ред (възходящ или низходящ);

− интервалите в групите опции трябва да са еднакви;

− стойностите на границите на интервала не трябва да съвпадат, т.к ще бъде неясно в кои групи да се класифицират отделните варианти;

− необходимо е да се вземат предвид качествените характеристики на събрания материал при определяне на границите на интервала (например при изследване на теглото на възрастни е приемлив интервал от 3-4 kg, а за деца от първите месеци от живота - не трябва да надвишава 100 g)

Нека изградим групирана (интервална) поредица, характеризираща данните за пулса (удара в минута) на 55 студенти по медицина преди изпита: 64, 66, 60, 62,

64, 68, 70, 66, 70, 68, 62, 68, 70, 72, 60, 70, 74, 62, 70, 72, 72,

64, 70, 72, 76, 76, 68, 70, 58, 76, 74, 76, 76, 82, 76, 72, 76, 74,

79, 78, 74, 78, 74, 78, 74, 74, 78, 76, 78, 76, 80, 80, 80, 78, 78.

За да изградите групирана серия, имате нужда от:

1. Определете размера на интервала;

2. Определяне на средата, началото и края на групите от вариационната серия.

● Размерът на интервала (i) се определя от броя на предполагаемите групи (r), чийто брой се задава в зависимост от броя на наблюденията (n) съгласно специална таблица

Брой групи в зависимост от броя на наблюденията:

В нашия случай за 55 ученика можете да създадете от 8 до 10 групи.

Стойността на интервала (i) се определя по следната формула -

i = V max-V min/r

В нашия пример стойността на интервала е 82-58/8= 3.

Ако стойността на интервала е дроб, резултатът трябва да се закръгли до най-близкото цяло число.

Има няколко вида средни стойности:

● средно аритметично,

● средно геометрично,

● средна хармонична стойност,

● среден квадрат,

● средно прогресивен,

● медиана

В медицинската статистика най-често се използват средните аритметични стойности.

Средно аритметичното (M) е обобщаваща величина, която определя какво е характерно за цялата съвкупност. Основните методи за изчисляване на М са: методът на средната аритметична стойност и методът на моментите (условните отклонения).

Методът на средната аритметична стойност се използва за изчисляване на простата средна аритметична и среднопретеглена аритметична стойност. Изборът на метод за изчисляване на средната аритметична стойност зависи от вида на вариационния ред. В случай на проста вариационна серия, в която всяка опция се среща само веднъж, средноаритметичната проста проста се определя по формулата:

където: M – средноаритметична стойност;

V – стойност на вариращата характеристика (варианти);

Σ – показва действието – сумиране;

n – общ брой наблюдения.

Пример за изчисляване на простата средна аритметична стойност. Дихателна честота (брой дихателни движения в минута) при 9 мъже на възраст 35 години: 20, 22, 19, 15, 16, 21, 17, 23, 18.

За да се определи средното ниво на дихателна честота при мъже на възраст 35 години, е необходимо:

1. Конструирайте вариационна серия, подреждайки всички опции във възходящ или низходящ ред Получихме проста вариационна серия, т.к стойностите на опциите се появяват само веднъж.

M = ∑V/n = 171/9 = 19 вдишвания в минута

Заключение. Дихателната честота при мъжете на възраст 35 години е средно 19 дихателни движения в минута.

Ако отделните стойности на даден вариант се повтарят, няма нужда да записвате всеки вариант в ред; достатъчно е да изброите срещащите се размери на варианта (V) и до него да посочите броя на техните повторения (p ). Такава вариационна серия, в която опциите са, така да се каже, претеглени от броя на честотите, съответстващи на тях, се нарича претеглена вариационна серия, а изчислената средна стойност е среднопретеглената аритметична стойност.

Среднопретеглената аритметична се определя по формулата: M= ∑Vp/n

където n е броят на наблюденията, равен на сумата от честотите – Σр.

Пример за изчисляване на среднопретеглената аритметична стойност.

Продължителността на нетрудоспособността (в дни) при 35 пациенти с остри респираторни заболявания (ОРЗ), лекувани от местен лекар през първото тримесечие на текущата година, е: 6, 7, 5, 3, 9, 8, 7, 5, 6 , 4, 9, 8, 7, 6, 6, 9, 6, 5, 10, 8, 7, 11, 13, 5, 6, 7, 12, 4, 3, 5, 2, 5, 6, 6 , 7 дни.

Методът за определяне на средната продължителност на инвалидността при пациенти с остри респираторни инфекции е както следва:

1. Нека изградим претеглена вариационна серия, защото Индивидуалните стойности на опцията се повтарят няколко пъти. За да направите това, можете да подредите всички опции във възходящ или низходящ ред със съответните им честоти.

В нашия случай опциите са подредени във възходящ ред

2. Изчислете средноаритметичното претеглено по формулата: M = ∑Vp/n = 233/35 = 6,7 дни

Разпределение на пациентите с остри респираторни инфекции по продължителност на инвалидизацията:

Продължителност на увреждането (V) Брой пациенти (p) Vp
∑p = n = 35 ∑Vp = 233

Заключение. Продължителността на инвалидността при пациенти с остри респираторни заболявания е средно 6,7 дни.

Режим (Mo) е най-често срещаната опция в серията вариации. За разпределението, представено в таблицата, режимът отговаря на опция, равна на 10; среща се по-често от останалите - 6 пъти.

Разпределение на пациентите по продължителност на престоя на болнично легло (в дни)

V
стр

Понякога е трудно да се определи точната величина на модата, защото може да има няколко „най-често срещани“ наблюдения в данните, които се изследват.

Медианата (Me) е непараметричен индикатор, който разделя вариационната серия на две равни половини: еднакъв брой варианти се намират от двете страни на медианата.

Например за разпределението, показано в таблицата, медианата е 10, т.к от двете страни на тази стойност има 14 опции, т.е. числото 10 заема централно място в тази редица и е нейната медиана.

Като се има предвид, че броят на наблюденията в този пример е четен (n=34), медианата може да се определи, както следва:

Аз = 2+3+4+5+6+5+4+3+2/2 = 34/2 = 17

Това означава, че средата на редицата попада на седемнадесетата опция, която съответства на медиана, равна на 10. За представеното в таблицата разпределение средноаритметичната стойност е равна на:

M = ∑Vp/n = 334/34 = 10,1

И така, за 34 наблюдения от табл. 8, получаваме: Mo=10, Me=10, средноаритметичното (M) е 10,1. В нашия пример и трите показателя се оказаха еднакви или близки един до друг, въпреки че са напълно различни.

Средно аритметичното е резултантната сума на всички влияния, в нейното формиране участват всички варианти, включително екстремни, често нетипични за дадено явление или популация.

Режимът и медианата, за разлика от средната аритметична стойност, не зависят от стойността на всички индивидуални стойности на вариращата характеристика (стойностите на екстремните варианти и степента на дисперсия на серията). Средната аритметична характеризира цялата маса от наблюдения, модата и медианата характеризират по-голямата част

Нека извикаме различните примерни стойности опциисерия от стойности и обозначават: X 1 , X 2,…. На първо място ще произвеждаме вариращиопции, т.е. тяхното подреждане във възходящ или низходящ ред. За всяка опция е посочено собственото й тегло, т.е. число, което характеризира приноса на дадена опция към общата съвкупност. Честотите или честотите действат като тежести.

Честота n i опция x iе число, което показва колко пъти се среща дадена опция в разглежданата извадка.

Честота или относителна честота w i опция x iе число, равно на съотношението на честотата на даден вариант към сумата от честотите на всички варианти. Честотата показва каква част от единиците в извадката имат даден вариант.

Поредица от опции със съответните им тегла (честоти или честоти), записани във възходящ (или низходящ) ред, се нарича вариационна серия.

Вариационните редове са дискретни и интервални.

За серия от дискретни вариации са посочени точкови стойности на характеристиката, за серия от интервали, стойностите на характеристиките са посочени под формата на интервали. Вариационните серии могат да показват разпределението на честотите или относителните честоти (честоти), в зависимост от това каква стойност е посочена за всяка опция - честота или честота.

Дискретни вариационни серии на честотното разпределениеима формата:

Честотите се намират по формулата, i = 1, 2, …, м.

w 1 +w 2 + … + w m = 1.

Пример 4.1. За даден набор от числа

4, 6, 6, 3, 4, 9, 6, 4, 6, 6

конструиране на дискретни вариационни серии на честота и честотни разпределения.

Решение . Обемът на населението е равен на п= 10. Серията с дискретно честотно разпределение има формата

Интервалните серии имат подобна форма на запис.

Интервални вариационни серии на честотното разпределениесе записва като:

Сумата от всички честоти е равна на общия брой наблюдения, т.е. общ обем: п = п 1 +п 2 + … + пм.

Интервални вариационни серии на разпределението на относителните честоти (честоти)има формата:

Честотата се намира по формулата, i = 1, 2, …, м.

Сумата от всички честоти е равна на единица: w 1 +w 2 + … + w m = 1.

Най-често в практиката се използват интервални серии. Ако има много статистически извадкови данни и техните стойности се различават една от друга с произволно малка сума, тогава дискретна серия за тези данни ще бъде доста тромава и неудобна за по-нататъшно изследване. В този случай се използва групиране на данни, т.е. Интервалът, съдържащ всички стойности на атрибута, се разделя на няколко частични интервала и чрез изчисляване на честотата за всеки интервал се получава интервална серия. Нека запишем по-подробно схемата за изграждане на интервална серия, като приемем, че дължините на частичните интервали ще бъдат еднакви.

2.2 Построяване на интервален ред

За да изградите интервална серия, трябва:

Определете броя на интервалите;

Определете дължината на интервалите;

Определете местоположението на интервалите върху оста.

За определяне брой интервали к Има формула на Стърджис, според която

,

Къде п- обемът на целия агрегат.

Например, ако има 100 стойности на характеристика (вариант), тогава се препоръчва да се вземе броят на интервалите, равен на интервалите, за да се изгради интервална серия.

Въпреки това много често на практика броят на интервалите се избира от самия изследовател, като се има предвид, че този брой не трябва да бъде много голям, за да не е тромава серията, но и не много малък, за да не се загубят някои свойства на разпространение.

Дължина на интервала ч определя се по следната формула:

,

Къде хмакс и х min е най-голямата и най-малката стойност на опциите, съответно.

Размер наречен обхватред.

За да се конструират самите интервали, те действат по различни начини. Един от най-простите начини е следният. За начало на първия интервал се приема
. Тогава останалите граници на интервалите се намират по формулата. Очевидно краят на последния интервал а m+1 трябва да отговаря на условието

След като бъдат намерени всички граници на интервалите, се определят честотите (или честотите) на тези интервали. За да разрешите този проблем, прегледайте всички опции и определете броя на опциите, които попадат в определен интервал. Нека да разгледаме пълното изграждане на интервална серия, използвайки пример.

Пример 4.2. За следните статистически данни, записани във възходящ ред, изградете интервална серия с брой интервали, равен на 5:

11, 12, 12, 14, 14, 15, 21, 21, 22, 23, 25, 38, 38, 39, 42, 42, 44, 45, 50, 50, 55, 56, 58, 60, 62, 63, 65, 68, 68, 68, 70, 75, 78, 78, 78, 78, 80, 80, 86, 88, 90, 91, 91, 91, 91, 91, 93, 93, 95, 96.

Решение. Общо п=50 вариантни стойности.

Броят на интервалите е посочен в постановката на проблема, т.е. к=5.

Дължината на интервалите е
.

Нека да определим границите на интервалите:

а 1 = 11 − 8,5 = 2,5; а 2 = 2,5 + 17 = 19,5; а 3 = 19,5 + 17 = 36,5;

а 4 = 36,5 + 17 = 53,5; а 5 = 53,5 + 17 = 70,5; а 6 = 70,5 + 17 = 87,5;

а 7 = 87,5 +17 = 104,5.

За да определим честотата на интервалите, ние преброяваме броя на опциите, които попадат в даден интервал. Например първият интервал от 2,5 до 19,5 включва опции 11, 12, 12, 14, 14, 15. Техният брой е 6, следователно честотата на първия интервал е п 1 =6. Честотата на първия интервал е . Вторият интервал от 19.5 до 36.5 включва опции 21, 21, 22, 23, 25, чийто брой е 5. Следователно честотата на втория интервал е п 2 =5 и честота . След като намерихме честотите и честотите за всички интервали по подобен начин, получаваме следната интервална серия.

Интервалът на честотното разпределение има формата:

Сумата от честотите е 6+5+9+11+8+11=50.

Интервалът на честотното разпределение има формата:

Сумата от честотите е 0,12+0,1+0,18+0,22+0,16+0,22=1. ■

При построяването на интервални редове в зависимост от конкретните условия на разглежданата задача могат да се прилагат и други правила, а именно

1. Интервалните вариационни серии могат да се състоят от частични интервали с различна дължина. Неравномерните дължини на интервалите позволяват да се подчертаят свойствата на статистическа съвкупност с неравномерно разпределение на характеристиката. Например, ако границите на интервалите определят броя на жителите в градовете, тогава е препоръчително в този проблем да се използват интервали с различна дължина. Очевидно за малките градове малката разлика в броя на жителите е важна, но за големите градове разлика от десетки или стотици жители не е значителна. Интервални серии с различни дължини на частични интервали се изучават главно в общата теория на статистиката и тяхното разглеждане е извън обхвата на това ръководство.

2. В математическата статистика понякога се разглеждат интервални серии, за които лявата граница на първия интервал се приема за равна на –∞, а дясната граница на последния интервал +∞. Това се прави с цел да се доближи статистическото разпределение до теоретичното.

3. При конструиране на интервални серии може да се окаже, че стойността на някоя опция съвпада точно с границата на интервала. Най-доброто нещо, което можете да направите в този случай е следното. Ако има само едно такова съвпадение, считайте, че разглежданата опция с нейната честота е попаднала в интервала, разположен по-близо до средата на интервалната серия; ако има няколко такива опции, тогава или всички те са присвоени на интервалите към вдясно от тези опции или всички те са присвоени вляво.

4. След определяне на броя на интервалите и тяхната дължина, подреждането на интервалите може да стане и по друг начин. Намерете средната аритметична стойност на всички разгледани стойности на опциите Xср и изградете първия интервал по такъв начин, че тази средна стойност на извадката да бъде вътре в някакъв интервал. Така получаваме интервала от Xср – 0,5 чкъм Xср.. + 0,5 ч. След това наляво и надясно, добавяйки дължината на интервала, изграждаме останалите интервали, докато хмин. и х max няма да попада съответно в първия и последния интервал.

5. Интервалните серии с голям брой интервали са удобно написани вертикално, т.е. пишете интервали не в първия ред, а в първата колона и честоти (или честоти) във втората колона.

Примерните данни могат да се разглеждат като стойности на някаква случайна променлива X. Случайната променлива има свой собствен закон на разпределение. От теорията на вероятностите е известно, че законът за разпределение на дискретна случайна променлива може да бъде зададен под формата на серия на разпределение, а за непрекъсната - с помощта на функцията на плътността на разпределението. Съществува обаче универсален закон за разпределение, който важи както за дискретни, така и за непрекъснати случайни променливи. Този закон на разпределение е даден като функция на разпределение Е(х) = П(X<х). За примерни данни можете да посочите аналог на функцията на разпределение - емпиричната функция на разпределение.

Съвкупност от обекти или явления, обединени от някакъв общ признак или свойство от качествен или количествен характер, се нарича обект на наблюдение .

Всеки обект на статистическо наблюдение се състои от отделни елементи - единици за наблюдение .

Резултатите от статистическото наблюдение представляват числена информация - данни . Статистика - това е информация за това какви стойности е взела характеристиката, която интересува изследователя, в статистическата популация.

Ако стойностите на дадена характеристика са изразени в числа, тогава характеристиката се извиква количествен .

Ако знакът характеризира някакво свойство или състояние на елементите на популацията, тогава знакът се нарича високо качество .

Ако всички елементи на съвкупността подлежат на изследване (непрекъснато наблюдение), тогава се нарича статистическа съвкупност общ

Ако част от елементите на генералната съвкупност подлежи на изследване, тогава се нарича статистическа съвкупност селективен (вземане на проби) . Извадка от съвкупност се тегли на случаен принцип, така че всеки от n елемента в извадката да има равен шанс да бъде избран.

Стойностите на дадена характеристика се променят (варират) при преминаване от един елемент на съвкупността към друг, следователно в статистиката се наричат ​​също различни стойности на характеристика опции . Опциите обикновено се обозначават с малки латински букви x, y, z.

Извиква се поредният номер на опцията (характерна стойност). ранг . x 1 - 1-ва опция (1-ва стойност на атрибута), x 2 - 2-ра опция (2-ра стойност на атрибута), x i - i-та опция (i-та стойност на атрибута).

Поредица от стойности на атрибути (опции), подредени във възходящ или низходящ ред със съответните им тегла, се нарича вариационни серии (серии на разпределение).

като везни се появяват честоти или честоти.

Честота(m i) показва колко пъти тази или онази опция (стойност на атрибут) се среща в статистическата популация.

Честота или относителна честота(w i) показва каква част от единиците на съвкупността имат една или друга опция. Честотата се изчислява като съотношението на честотата на определена опция към сумата от всички честоти на серията.

. (6.1)

Сумата от всички честоти е 1.

. (6.2)

Вариационните редове са дискретни и интервални.

Дискретни вариационни серииТе обикновено се конструират, ако стойностите на изследваната характеристика могат да се различават една от друга с не по-малко от определена крайна сума.

В сериите с дискретни вариации са посочени точкови стойности на характеристиката.

Общият изглед на серията с дискретни вариации е показан в таблица 6.1.

Таблица 6.1

където i = 1, 2, …, л.

В интервалните вариационни серии във всеки интервал се разграничават горната и долната граница на интервала.

Разликата между горната и долната граница на интервала се нарича интервална разлика или дължина (стойност) на интервала .

Стойността на първия интервал k 1 се определя по формулата:

k 1 = a 2 - a 1;

второ: k 2 = а 3 - а 2; ...

последно: k l = a l - a l -1 .

Като цяло интервална разлика k i се изчислява по формулата:

k i = x i (макс.) - x i (мин.) . (6.3)

Ако даден интервал има и двете граници, тогава той се извиква затворен .

Първият и последният интервал могат да бъдат отворен , т.е. имат само една граница.

Например, първият интервал може да бъде зададен като "до 100", вторият - "100-110", ..., вторият до последен - "190-200", последният - "200 и повече". Очевидно първият интервал няма долна граница, а последният няма горна граница и двата са отворени.

Често отворените интервали трябва да бъдат условно затворени. За да направите това, обикновено стойността на първия интервал се приема равна на стойността на втория, а стойността на последния - на стойността на предпоследния. В нашия пример стойността на втория интервал е 110-100=10, следователно долната граница на първия интервал условно ще бъде 100-10=90; стойността на предпоследния интервал е 200-190=10, следователно горната граница на последния интервал условно ще бъде 200+10=210.

Освен това в серия от интервални вариации може да има интервали с различна дължина. Ако интервалите във вариационна серия имат еднаква дължина (интервална разлика), те се извикват равни по размер , иначе - неравномерни по размер.

При конструирането на интервална вариационна серия често възниква проблемът с избора на размера на интервалите (интервална разлика).

За да определите оптималния размер на интервалите (в случай, че серия е конструирана с равни интервали), използвайте Формула на Стърджис:

, (6.4)

където n е броят на единиците в популацията,

x (max) и x (min) - най-големите и най-малките стойности на серийните опции.

За характеризиране на вариационните серии, заедно с честотите и честотите, се използват натрупани честоти и честоти.

Натрупани честоти (честоти)покажете колко единици от съвкупността (коя част от тях) не надвишават дадена стойност (опция) x.

Натрупани честоти ( v i) въз основа на данни от дискретна серия може да се изчисли по следната формула:

. (6.5)

За серия от интервални вариации това е сборът от честотите (честотите) на всички интервали, които не надвишават този.

Серия от дискретни вариации може да бъде представена графично с помощта на честотен полигон или честоти.

При конструирането на полигон на разпределение стойностите на характеристиката (вариантите) се нанасят по абсцисната ос, а честотите или честотите се нанасят по ординатната ос. В пресечната точка на стойностите на атрибута и съответните честоти (честоти) се поставят точки, които от своя страна са свързани чрез сегменти. Получената прекъсната линия се нарича честотен (честотен) разпределителен полигон.

x k
х 2
x 1 x i


ориз. 6.1.

Интервалните вариационни серии могат да бъдат представени графично с помощта на хистограми, т.е. стълбовидна диаграма.

При конструирането на хистограма стойностите на изследваната характеристика (интервални граници) се нанасят по абсцисната ос.

В случай, че интервалите са с еднакъв размер, честотите или честотите могат да бъдат нанесени по ординатната ос.

Ако интервалите имат различни размери, стойностите на абсолютната или относителната плътност на разпределение трябва да бъдат нанесени по ординатната ос.

Абсолютна плътност- отношение на честотата на интервала към размера на интервала:

; (6.6)

където: f(a) i - абсолютна плътност на i-тия интервал;

m i - честота на i-тия интервал;

k i - стойността на i-тия интервал (интервална разлика).

Абсолютната плътност показва колко единици от населението има на единичен интервал.

Относителна плътност- отношение на честотата на интервала към размера на интервала:

; (6.7)

където: f(o) i - относителна плътност на i-тия интервал;

w i - честота на i-тия интервал.

Относителната плътност показва каква част от единиците на съвкупността се падат на единица от интервала.

a l
a 1 x i
а 2

Както дискретните, така и интервалните вариационни серии могат да бъдат представени графично под формата на кумулати и огиви.

При изграждане кумулираспоред данните от дискретна серия, стойностите на характеристиката (варианти) се нанасят по оста x, а натрупаните честоти или честоти се нанасят по ординатната ос. В пресечната точка на стойностите на атрибута (варианти) и съответните натрупани честоти (честоти) се изграждат точки, които от своя страна са свързани чрез сегменти или крива. Получената начупена линия (крива) се нарича кумулативна (кумулативна крива).

При конструиране на кумулации въз основа на данни от интервална серия, границите на интервалите се нанасят по абсцисната ос. Абсцисите на точките са горните граници на интервалите. Ординатите формират натрупаните честоти (честоти) на съответните интервали. Често се добавя друга точка, чиято абциса е долната граница на първия интервал, а ординатата е нула. Свързвайки точките с отсечки или крива, получаваме кумулат.

Огивасе конструира подобно на кумулата с единствената разлика, че точките, съответстващи на натрупаните честоти (честоти), са нанесени на абсцисната ос, а стойностите на характеристиката (вариантите) са нанесени на ординатната ос.

При обработката на големи количества информация, което е особено важно при извършването на съвременни научни разработки, изследователят е изправен пред сериозната задача за правилно групиране на изходните данни. Ако данните са дискретни по природа, тогава, както видяхме, не възникват проблеми - просто трябва да изчислите честотата на всяка характеристика. Ако изследваната характеристика има непрекъснатохарактер (което е по-често срещано в практиката), тогава изборът на оптимален брой интервали за групиране на признаци в никакъв случай не е тривиална задача.

За групиране на непрекъснати случайни променливи целият вариационен диапазон на характеристиката се разделя на определен брой интервали до.

Групиран интервал (непрекъснато) вариационна сериясе наричат ​​интервали, класирани по стойността на атрибута (), където броят на наблюденията, попадащи в i-тия интервал, или относителните честоти (), са посочени заедно със съответните честоти ():

Интервали на характерни стойности

mi честота

ХистограмаИ кумулативен (ogiva),вече разгледани подробно от нас, са отлично средство за визуализация на данни, което ви позволява да получите първична представа за структурата на данните. Такива графики (фиг. 1.15) се конструират за непрекъснати данни по същия начин, както за дискретни данни, само като се вземе предвид фактът, че непрекъснатите данни напълно запълват областта на възможните си стойности, приемайки всякакви стойности.

ориз. 1.15.

Ето защо колоните на хистограмата и кумулацията трябва да се допират една до друга и да нямат области, където стойностите на атрибута не попадат във всички възможни(т.е. хистограмата и кумулатите не трябва да имат „дупки“ по абсцисната ос, които не съдържат стойностите на изследваната променлива, както на фиг. 1.16). Височината на лентата съответства на честотата – броят наблюдения, попадащи в даден интервал, или относителната честота – делът на наблюденията. Интервали не трябва да се пресичати обикновено са с еднаква ширина.

ориз. 1.16.

Хистограмата и многоъгълникът са приближения на кривата на плътност на вероятността (диференциална функция) f(x)теоретично разпределение, разглеждано в курса по теория на вероятностите. Ето защо тяхната конструкция е толкова важна при първичната статистическа обработка на количествени непрекъснати данни - по външния им вид може да се съди за хипотетичния закон на разпределение.

Cumulate – крива на натрупаните честоти (честоти) на интервална вариационна серия. Графиката на кумулативната функция на разпределение се сравнява с кумулативната F(x), също обсъдени в курса по теория на вероятностите.

По принцип понятията хистограма и кумулация се свързват конкретно с непрекъснати данни и техните серии от интервални вариации, тъй като техните графики са емпирични оценки на функцията на плътност на вероятността и функцията на разпределение, съответно.

Изграждането на интервална вариационна серия започва с определяне на броя на интервалите к.И тази задача е може би най-трудната, важна и противоречива в разглежданата проблематика.

Броят на интервалите не трябва да е твърде малък, тъй като това ще направи хистограмата твърде гладка ( прекалено загладен),губи всички характеристики на променливостта на оригиналните данни - на фиг. 1.17 можете да видите как същите данни, върху които графиките на фиг. 1.15, използван за конструиране на хистограма с по-малък брой интервали (лявата графика).

В същото време броят на интервалите не трябва да бъде твърде голям - в противен случай няма да можем да оценим плътността на разпределението на изследваните данни по цифровата ос: хистограмата ще бъде недостатъчно изгладена (незагладен),с празни интервали, неравномерни (виж Фиг. 1.17, дясна графика).

ориз. 1.17.

Как да определите най-предпочитания брой интервали?

Още през 1926 г. Хърбърт Стърджис предложи формула за изчисляване на броя на интервалите, на които е необходимо да се раздели първоначалният набор от стойности на изследваната характеристика. Тази формула наистина стана изключително популярна - повечето статистически учебници я предлагат и много статистически пакети я използват по подразбиране. Доколко това е оправдано и във всички случаи е много сериозен въпрос.

И така, на какво се основава формулата на Стърджис?

Разгледайте биномното разпределение)

Публикации по темата