Статистически интервални вариационни серии. Решение: I. Съставете вариационна редица – Решение. История на развитието на теста на Wilcoxon за свързани проби

Вариационни серии: определение, видове, основни характеристики. Метод на изчисление
мода, медиана, средно аритметично в медицински и статистически изследвания
(Покажете на условен пример).

Вариационна серия е поредица от числени стойности на изследваната черта, които се различават една от друга по своята величина и са подредени в определена последователност (във възходящ или низходящ ред). Всяка числена стойност на серията се нарича вариант (V), а числата, показващи колко често се среща този или онзи вариант в състава на тази серия, се наричат ​​честота (p).

Общият брой случаи на наблюдения, от които се състои вариационната серия, се обозначава с буквата n. Разликата в значението на изследваните характеристики се нарича вариация. Ако променливият признак няма количествена мярка, вариацията се нарича качествена, а редът на разпределение се нарича атрибутивен (например разпределение по изход от заболяване, здравословно състояние и др.).

Ако променлив знак има количествено изражение, такова изменение се нарича количествено, а редът на разпределение се нарича вариационен.

Вариационните серии се делят на прекъснати и непрекъснати - според характера на количествения признак, прости и претеглени - според честотата на срещане на варианта.

В простата вариационна серия всеки вариант се среща само веднъж (p=1), в претеглената една и съща вариант се среща няколко пъти (p>1). Примери за такива серии ще бъдат разгледани по-нататък в текста. Ако количественият признак е непрекъснат, т.е. между целочислени стойности има междинни дробни стойности, вариационната серия се нарича непрекъсната.

Например: 10.0 - 11.9

14,0 - 15,9 и т.н.

Ако количественият признак е прекъснат, т.е. неговите индивидуални стойности (опции) се различават една от друга с цяло число и нямат междинни дробни стойности, вариационната серия се нарича прекъсната или дискретна.

Използвайки данните от предишния пример за сърдечната честота

за 21 ученика ще изградим вариационна серия (Таблица 1).

маса 1

Разпределение на студентите по медицина по пулс (bpm)

По този начин, изграждането на вариационна серия означава систематизиране, рационализиране на съществуващите числени стойности (опции), т.е. подреждат в определена последователност (във възходящ или низходящ ред) със съответните им честоти. В разглеждания пример опциите са подредени във възходящ ред и са изразени като прекъснати (дискретни) цели числа, всяка опция се среща няколко пъти, т.е. имаме работа с претеглена, прекъсната или дискретна вариационна серия.

Като правило, ако броят на наблюденията в статистическата популация, която изучаваме, не надвишава 30, тогава е достатъчно да подредите всички стойности на изследваната черта във вариационна серия в нарастващ ред, както е в табл. 1, или в низходящ ред.

При голям брой наблюдения (n>30) броят на възникващите варианти може да бъде много голям, в този случай се съставя интервал или групирана вариационна серия, в която, за да се опрости последващата обработка и да се изясни естеството на разпределението, вариантите се комбинират в групи.

Обикновено броят на груповите опции варира от 8 до 15.

Трябва да са поне 5, т.к. в противен случай това ще бъде твърде грубо, прекомерно уголемяване, което изкривява цялостната картина на вариацията и силно влияе върху точността на средните стойности. Когато броят на груповите опции е повече от 20-25, точността на изчисляване на средните стойности се увеличава, но характеристиките на вариацията на атрибута са значително изкривени и математическата обработка става по-сложна.

При съставянето на групирана серия е необходимо да се вземе предвид

− групите варианти трябва да бъдат поставени в определен ред (възходящ или низходящ);

- интервалите във вариантните групи да са еднакви;

− стойностите на границите на интервалите не трябва да съвпадат, т.к няма да е ясно в кои групи да се припишат отделни опции;

- необходимо е да се вземат предвид качествените характеристики на събрания материал при определяне на границите на интервалите (например при изследване на теглото на възрастни е допустим интервал от 3-4 kg, а за деца през първите месеци живот не трябва да надвишава 100 g.)

Нека изградим групирана (интервална) серия, която характеризира данните за пулса (брой удари в минута) за 55 студенти по медицина преди изпита: 64, 66, 60, 62,

64, 68, 70, 66, 70, 68, 62, 68, 70, 72, 60, 70, 74, 62, 70, 72, 72,

64, 70, 72, 76, 76, 68, 70, 58, 76, 74, 76, 76, 82, 76, 72, 76, 74,

79, 78, 74, 78, 74, 78, 74, 74, 78, 76, 78, 76, 80, 80, 80, 78, 78.

За да създадете групирана поредица, трябва:

1. Определете стойността на интервала;

2. Определяне на средата, началото и края на групите от варианта на вариационната серия.

● Стойността на интервала (i) се определя от броя на очакваните групи (r), чийто брой се задава в зависимост от броя на наблюденията (n) съгласно специална таблица

Брой групи в зависимост от броя на наблюденията:

В нашия случай при 55 ученика е възможно да се съставят от 8 до 10 групи.

Стойността на интервала (i) се определя по следната формула -

i = Vmax-Vmin/r

В нашия пример стойността на интервала е 82-58/8= 3.

Ако стойността на интервала е дробно число, резултатът трябва да се закръгли до цяло число.

Има няколко вида средни стойности:

● средно аритметично,

● средно геометрично,

● средна хармонична стойност,

● среден квадрат,

● средно прогресивен,

● медиана

В медицинската статистика най-често се използват средните аритметични стойности.

Средно аритметичното (M) е обобщаваща стойност, която определя типичната стойност, характерна за цялата съвкупност. Основните методи за изчисляване на М са: методът на средната аритметична стойност и методът на моментите (условните отклонения).

Методът на средната аритметична стойност се използва за изчисляване на простата средна аритметична и среднопретеглена аритметична стойност. Изборът на метод за изчисляване на средноаритметичната стойност зависи от вида на вариационната серия. В случай на проста вариационна серия, в която всеки вариант се среща само веднъж, простата средна аритметична стойност се определя по формулата:

където: М – средноаритметична стойност;

V е стойността на променливата характеристика (опции);

Σ - обозначава действието - сумиране;

n е общият брой наблюдения.

Пример за изчисляване на средната аритметична стойност е прост. Дихателна честота (брой вдишвания в минута) при 9 мъже на възраст 35 години: 20, 22, 19, 15, 16, 21, 17, 23, 18.

За да се определи средното ниво на дихателна честота при мъже на 35 години, е необходимо:

1. Изградете вариационна серия, като поставите всички опции във възходящ или низходящ ред. Получихме проста вариационна серия, т.к. стойностите на варианта се срещат само веднъж.

M = ∑V/n = 171/9 = 19 вдишвания в минута

Заключение. Дихателната честота при мъжете на 35 години е средно 19 вдишвания в минута.

Ако отделните стойности на даден вариант се повтарят, няма нужда да изписвате всеки вариант в ред; достатъчно е да изброите размерите на варианта, които се срещат (V), а след това да посочите броя на техните повторения (p ). такава вариационна серия, в която опциите са, така да се каже, претеглени според броя на честотите, съответстващи на тях, се нарича претеглена вариационна серия, а изчислената средна стойност е средноаритметично претеглена.

Средноаритметично претеглената стойност се определя по формулата: M= ∑Vp/n

където n е броят на наблюденията, равен на сумата от честотите - Σр.

Пример за изчисляване на среднопретеглената аритметична стойност.

Продължителността на нетрудоспособността (в дни) при 35 пациенти с остри респираторни заболявания (ОРЗ), лекувани от местен лекар през първото тримесечие на текущата година, е: 6, 7, 5, 3, 9, 8, 7, 5, 6 , 4, 9, 8, 7, 6, 6, 9, 6, 5, 10, 8, 7, 11, 13, 5, 6, 7, 12, 4, 3, 5, 2, 5, 6, 6 , 7 дни.

Методологията за определяне на средната продължителност на нетрудоспособността при пациенти с остри респираторни инфекции е следната:

1. Нека изградим претеглена вариационна серия, защото индивидуалните стойности на варианта се повтарят няколко пъти. За да направите това, можете да подредите всички опции във възходящ или низходящ ред със съответните им честоти.

В нашия случай опциите са във възходящ ред.

2. Изчислете средноаритметичното претеглено по формулата: M = ∑Vp/n = 233/35 = 6,7 дни

Разпределение на пациентите с остри респираторни инфекции по продължителност на инвалидизацията:

Продължителност на неработоспособността (V) Брой пациенти (p) vp
∑p = n = 35 ∑Vp = 233

Заключение. Продължителността на инвалидността при пациенти с остри респираторни заболявания е средно 6,7 дни.

Режимът (Mo) е най-често срещаният вариант в серията вариации. За разпределението, представено в таблицата, режимът съответства на вариант, равен на 10, той се среща по-често от останалите - 6 пъти.

Разпределение на пациентите по продължителност на престоя на болнично легло (в дни)

V
стр

Понякога е трудно да се определи точната стойност на режима, тъй като може да има няколко наблюдения в изследваните данни, които се срещат „най-често“.

Медиана (Me) е непараметричен индикатор, който разделя вариационната серия на две равни половини: еднакъв брой опции се намират от двете страни на медианата.

Например за разпределението, показано в таблицата, медианата е 10, защото от двете страни на тази стойност се намира на 14-та опция, т.е. числото 10 заема централно място в тази редица и е нейната медиана.

Като се има предвид, че броят на наблюденията в този пример е четен (n=34), медианата може да се определи, както следва:

Аз = 2+3+4+5+6+5+4+3+2/2 = 34/2 = 17

Това означава, че средата на редицата попада на седемнадесетата опция, която съответства на медиана 10. За разпределението, представено в таблицата, средноаритметичната стойност е:

M = ∑Vp/n = 334/34 = 10,1

И така, за 34 наблюдения от табл. 8, получаваме: Mo=10, Me=10, средноаритметичното (M) е 10,1. В нашия пример и трите показателя се оказаха еднакви или близки един до друг, въпреки че са напълно различни.

Средно аритметичното е резултантната сума от всички влияния; във формирането му участват всички варианти без изключение, включително екстремни, често нетипични за дадено явление или съвкупност.

Режимът и медианата, за разлика от средната аритметична стойност, не зависят от стойността на всички индивидуални стойности на променливия атрибут (стойностите на екстремните варианти и степента на разсейване на серията). Средната аритметична характеризира цялата маса от наблюдения, модата и медианата характеризират по-голямата част

Нека извикаме различни примерни стойности настроикипоредица от стойности и обозначават: х 1 , х 2, …. Първо, нека направим вариращиопции, т.е. подредете ги във възходящ или низходящ ред. За всяка опция е посочено собственото й тегло, т.е. число, което характеризира приноса на тази опция към общото население. Честотите или честотите действат като тежести.

Честота n i опция x iнаречено число, показващо колко пъти се среща тази опция в разглежданата извадкова популация.

Честота или относителна честота w i опция x iсе нарича число, равно на съотношението на честотата на даден вариант към сумата от честотите на всички варианти. Честотата показва каква част от единиците на извадката има даден вариант.

Поредицата от опции със съответните им тегла (честоти или честоти), записани във възходящ (или низходящ) ред, се нарича вариационни серии.

Вариационните редове са дискретни и интервални.

За дискретна вариационна серия са посочени точковите стойности на атрибута, за интервалната серия стойностите на атрибута са посочени под формата на интервали. Вариационните серии могат да показват разпределението на честотите или относителните честоти (честоти), в зависимост от това каква стойност е посочена за всяка опция - честота или честота.

Дискретни вариационни серии на честотното разпределениеизглежда като:

Честотите се намират по формулата , i = 1, 2, …, м.

w 1 +w 2 + … + w m = 1.

Пример 4.1. За даден набор от числа

4, 6, 6, 3, 4, 9, 6, 4, 6, 6

изграждане на дискретни вариационни серии от честота и честотни разпределения.

Решение . Обемът на населението е н= 10. Серията с дискретно разпределение на честотата има формата

Интервалните серии имат подобна форма на запис.

Интервални вариационни серии на честотното разпределениесе записва като:

Сумата от всички честоти е равна на общия брой наблюдения, т.е. общ обем: н = н 1 +н 2 + … + нм .

Интервални вариационни серии на разпределението на относителните честоти (честоти)изглежда като:

Честотата се намира по формулата , i = 1, 2, …, м.

Сумата от всички честоти е равна на единица: w 1 +w 2 + … + w m = 1.

Най-често в практиката се използват интервални серии. Ако има много статистически извадкови данни и техните стойности се различават една от друга с произволно малка сума, тогава дискретната серия за тези данни ще бъде доста тромава и неудобна за по-нататъшно изследване. В този случай се използва групиране на данни, т.е. интервалът, съдържащ всички стойности на атрибута, се разделя на няколко частични интервала и след изчисляване на честотата за всеки интервал се получава интервална серия. Нека запишем по-подробно схемата за изграждане на интервална серия, като приемем, че дължините на частичните интервали ще бъдат еднакви.

2.2 Изграждане на интервална серия

За да изградите интервална серия, трябва:

Определете броя на интервалите;

Определете дължината на интервалите;

Определете местоположението на интервалите върху оста.

За определяне брой интервали к Съществува формула на Стърджис, според която

,

където н- обемът на съвкупността.

Например, ако има 100 характерни стойности (вариант), тогава се препоръчва да се вземе броят на интервалите, равен на интервалите, за да се изгради интервална серия.

Въпреки това много често на практика броят на интервалите се избира от самия изследовател, като се има предвид, че този брой не трябва да бъде много голям, така че серията да не е тромава, но и не много малка, за да не се загубят някои свойства на разпространение.

Дължина на интервала ч се определя по следната формула:

,

където хмакс и х min е най-голямата и най-малката стойност на опциите, съответно.

стойността Наречен в голям мащабред.

За да се конструират самите интервали, те действат по различни начини. Един от най-лесните начини е следният. Стойността се приема като начало на първия интервал
. Тогава останалите граници на интервалите се намират по формулата . Очевидно краят на последния интервал а m+1 трябва да отговаря на условието

След като бъдат намерени всички граници на интервалите, се определят честотите (или честотите) на тези интервали. За да решат този проблем, те разглеждат всички опции и определят броя на опциите, които попадат в определен интервал. Ще разгледаме пълното изграждане на интервална серия, използвайки пример.

Пример 4.2. За следните статистики, записани във възходящ ред, изградете интервална серия с брой интервали, равен на 5:

11, 12, 12, 14, 14, 15, 21, 21, 22, 23, 25, 38, 38, 39, 42, 42, 44, 45, 50, 50, 55, 56, 58, 60, 62, 63, 65, 68, 68, 68, 70, 75, 78, 78, 78, 78, 80, 80, 86, 88, 90, 91, 91, 91, 91, 91, 93, 93, 95, 96.

Решение. Обща сума н=50 вариантни стойности.

Броят на интервалите е посочен в условието на проблема, т.е. к=5.

Дължината на интервалите е
.

Нека да определим границите на интервалите:

а 1 = 11 − 8,5 = 2,5; а 2 = 2,5 + 17 = 19,5; а 3 = 19,5 + 17 = 36,5;

а 4 = 36,5 + 17 = 53,5; а 5 = 53,5 + 17 = 70,5; а 6 = 70,5 + 17 = 87,5;

а 7 = 87,5 +17 = 104,5.

За да определим честотата на интервалите, ние преброяваме броя на опциите, които попадат в този интервал. Например в първия интервал от 2,5 до 19,5 попадат опциите 11, 12, 12, 14, 14, 15. Техният брой е 6, следователно честотата на първия интервал е н 1=6. Честотата на първия интервал е . Във втория интервал от 19.5 до 36.5 попадат варианти 21, 21, 22, 23, 25, чийто брой е 5. Следователно честотата на втория интервал е н 2 =5 и честотата . След като намерихме по подобен начин честотите и честотите за всички интервали, получаваме следната интервална серия.

Интервалният ред на честотното разпределение има формата:

Сумата от честотите е 6+5+9+11+8+11=50.

Интервалният ред на честотното разпределение има формата:

Сумата от честотите е 0,12+0,1+0,18+0,22+0,16+0,22=1. ■

При построяването на интервални редове в зависимост от конкретните условия на разглежданата задача могат да се прилагат и други правила, а именно

1. Интервалните вариационни серии могат да се състоят от частични интервали с различна дължина. Неравномерните дължини на интервалите позволяват да се отделят свойствата на статистическа съвкупност с неравномерно разпределение на признак. Например, ако границите на интервалите определят броя на жителите в градовете, тогава е препоръчително в този проблем да се използват интервали, които са различни по дължина. Очевидно за малките градове е важна и малката разлика в броя на жителите, а за големите градове разлика от десетки и стотици жители не е съществена. Интервални серии с различни дължини на частични интервали се изучават главно в общата теория на статистиката и тяхното разглеждане е извън обхвата на това ръководство.

2. В математическата статистика понякога се разглеждат интервални серии, за които лявата граница на първия интервал се приема за –∞, а дясната граница на последния интервал е +∞. Това се прави с цел да се доближи статистическото разпределение до теоретичното.

3. При конструиране на интервални серии може да се окаже, че стойността на някой вариант съвпада точно с границата на интервала. Най-доброто нещо, което можете да направите в този случай е следното. Ако има само едно такова съвпадение, считайте, че разглежданият вариант с неговата честота е попаднал в интервала, разположен по-близо до средата на интервалната поредица, ако има няколко такива варианта, тогава или всички те са приписани на интервалите към отдясно на тези варианти или всички отляво.

4. След определяне на броя на интервалите и тяхната дължина, разположението на интервалите може да се извърши по друг начин. Намерете средната аритметична стойност на всички разгледани стойности на опциите хвж. и изградете първия интервал по такъв начин, че тази примерна средна стойност да бъде вътре в някакъв интервал. Така получаваме интервала от хвж. – 0,5 чпреди хср. + 0,5 ч. След това наляво и надясно, добавяйки дължината на интервала, изграждаме останалите интервали, докато хмин. и х max няма да попада съответно в първия и последния интервал.

5. Интервалните серии с голям брой интервали са удобно написани вертикално, т.е. записвайте интервали не в първия ред, а в първата колона и честоти (или честоти) във втората колона.

Примерните данни могат да се разглеждат като стойности на някаква случайна променлива х. Случайната променлива има свой собствен закон на разпределение. От теорията на вероятностите е известно, че законът за разпределение на дискретна случайна променлива може да бъде определен като серия на разпределение, а за непрекъсната - с помощта на функцията на плътността на разпределението. Съществува обаче универсален закон за разпределение, който важи както за дискретни, така и за непрекъснати случайни променливи. Този закон на разпределение е даден като функция на разпределение Е(х) = П(х<х). За примерни данни можете да посочите аналог на функцията на разпределение - емпиричната функция на разпределение.

Съвкупност от обекти или явления, обединени от някакъв общ признак или свойство от качествен или количествен характер, се нарича обект на наблюдение .

Всеки обект на статистическо наблюдение се състои от отделни елементи - единици за наблюдение .

Резултатите от статистическото наблюдение са числена информация - данни . Статистически данни - това е информация за това какви стойности е приела интересната за изследователя черта в статистическата популация.

Ако стойностите на характеристика са изразени като числа, тогава функцията се извиква количествен .

Ако признак характеризира някакво свойство или състояние на елементите на популацията, тогава признакът се нарича качество .

Ако всички елементи на съвкупността подлежат на изследване (непрекъснато наблюдение), тогава се нарича статистическа съвкупност общ.

Ако част от елементите на генералната съвкупност подлежи на изследване, тогава се нарича статистическа съвкупност избирателен (селективен) . Извадка от съвкупността се тегли на случаен принцип, така че всеки от n членове на извадката да има равен шанс да бъде избран.

Стойностите на атрибута се променят (варират) при преминаване от един елемент на популацията към друг, следователно в статистиката се наричат ​​също различни стойности на атрибута настроики . Опциите обикновено се обозначават с малки латински букви x, y, z.

Извиква се поредният номер на варианта (характерна стойност). ранг . x 1 - 1-ва опция (1-ва стойност на характеристиката), x 2 - 2-ра опция (2-ра стойност на характеристиката), x i - i-та опция (i-та стойност на характеристиката).

Поредица от стойности на атрибути (опции), подредени във възходящ или низходящ ред със съответните им тегла, се нарича вариационни серии (серии на разпределение).

Като везни се появяват честоти или честоти.

Честота(m i) показва колко пъти този или онзи вариант (стойност на признака) се среща в статистическата популация.

Честота или относителна честота(w i) показва каква част от единиците на съвкупността имат един или друг вариант. Честотата се изчислява като съотношението на честотата на един или друг вариант към сумата от всички честоти в серията.

. (6.1)

Сумата от всички честоти е 1.

. (6.2)

Вариационните редове са дискретни и интервални.

Дискретни вариационни сериите обикновено се изграждат в случай, че стойностите на изследваната характеристика могат да се различават една от друга с поне някаква крайна стойност.

В дискретни вариационни серии се посочват точкови стойности на характеристика.

Общият изглед на серията с дискретни вариации е показан в таблица 6.1.

Таблица 6.1

където i = 1, 2, …, л.

В интервалните вариационни серии във всеки интервал се разграничават горната и долната граница на интервала.

Разликата между горната и долната граница на интервала се нарича интервална разлика или дължината (размера) на интервала .

Стойността на първия интервал k 1 се определя по формулата:

k 1 = a 2 - a 1;

второ: k 2 = а 3 - а 2; …

последно: k l = a l - a l -1 .

Общо взето интервална разлика k i се изчислява по формулата:

k i \u003d x i (макс.) - x i (мин.) . (6.3)

Ако даден интервал има и двете граници, тогава той се извиква затворен .

Първият и последният интервал могат да бъдат отворен , т.е. имат само една граница.

Например, първият интервал може да бъде определен като "до 100", вторият - "100-110", ... , предпоследният - "190-200", последният - "200 и повече". Очевидно е, че първият интервал няма долна граница, а последният няма горна граница, и двата са отворени.

Често отворените интервали трябва да бъдат условно затворени. За да направите това, обикновено стойността на първия интервал се приема равна на стойността на втория, а стойността на последния - на стойността на предпоследния. В нашия пример стойността на втория интервал е 110-100=10, следователно долната граница на първия интервал условно ще бъде 100-10=90; стойността на предпоследния интервал е 200-190=10, следователно горната граница на последния интервал условно ще бъде 200+10=210.

В допълнение, интервали с различна дължина могат да се появят в серията с вариации на интервали. Ако интервалите във вариационната серия имат еднаква дължина (интервална разлика), те се извикват равни по размер , в противен случай - неравен.

При конструирането на интервална вариационна серия често възниква проблемът с избора на размера на интервалите (интервална разлика).

За да определите оптималния размер на интервалите (в случай, че серия е конструирана с равни интервали), приложете Формула на Стърджис:

, (6.4)

където n е броят на популационните единици,

x (max) и x (min) - най-големите и най-малките стойности на вариантите на серията.

За характеризиране на вариационните редове, наред с честотите и честотите, се използват натрупаните честоти и честоти.

Кумулативни честоти (Честоти)покажете колко единици от съвкупността (каква част от тях) не надвишават дадена стойност (вариант) x.

Натрупани честоти ( v i) според данните от дискретната серия може да се изчисли по следната формула:

. (6.5)

За серия от интервални вариации това е сумата от честотите (честотите) на всички интервали, които не надвишават тази.

Дискретна вариационна серия може да бъде представена графично с помощта на многоъгълно разпределение на честотите или честотите.

При конструирането на разпределителен полигон стойностите на атрибута (опциите) се нанасят по абсцисната ос, а честотите или честотите се нанасят по ординатната ос. В пресечната точка на характерните стойности и съответните им честоти (честоти) се нанасят точки, които от своя страна са свързани със сегменти. Така получената прекъсната линия се нарича полигон на разпределението на честотите (честотите).

x k
x2
x 1 x i


Ориз. 6.1.

Интервалните вариационни серии могат да бъдат представени графично с помощта на хистограми, т.е. стълбовидна диаграма.

При конструирането на хистограма по абсцисата се нанасят стойностите на изследваната характеристика (интервални граници).

В случай, че интервалите са с еднакъв размер, честотите или честотите могат да бъдат нанесени по оста y.

Ако интервалите имат различни стойности, е необходимо да се начертаят стойностите на абсолютната или относителната плътност на разпределение по оста y.

Абсолютна плътност- съотношението на честотата на интервала към размера на интервала:

; (6.6)

където: f(a) i - абсолютна плътност на i-тия интервал;

m i - честота на i-тия интервал;

k i - стойността на i-тия интервал (интервална разлика).

Абсолютната плътност показва колко единици от съвкупността са на единичен интервал.

Относителна плътност- съотношението на честотата на интервала към размера на интервала:

; (6.7)

където: f(o) i - относителна плътност на i-тия интервал;

w i - честота на i-тия интервал.

Относителната плътност показва каква част от единиците на съвкупността попадат в интервалната единица.

a l
a 1 x i
а 2

Както дискретните, така и интервалните вариационни серии могат да бъдат графично представени като кумулативни и огивни.

При изграждане кумулираСпоред данните от дискретната серия, абсцисата показва стойностите на атрибута (опции), а ординатата показва натрупаните честоти или честоти. В пресечната точка на стойностите на характеристиката (опциите) и натрупаните честоти (честоти), съответстващи на тях, се изграждат точки, които от своя страна са свързани чрез сегменти или крива. Така получената начупена линия (крива) се нарича кумулативна (кумулативна крива).

При конструирането на кумулата по данните от интервалните серии границите на интервалите се нанасят по абсцисата. Абсцисите на точките са горните граници на интервалите. Ординатите образуват натрупаните честоти (честоти) на съответните интервали. Често се добавя още една точка, чиято абциса е долната граница на първия интервал, а ординатата е нула. Свързвайки точките със сегменти или крива, получаваме кумулата.

Огивасе конструира подобно на кумулата с единствената разлика, че точките, съответстващи на натрупаните честоти (честоти), са нанесени на абсцисната ос, а характерните стойности (опции) са нанесени по ординатната ос.

При обработката на големи количества информация, което е особено важно при провеждането на съвременни научни разработки, изследователят е изправен пред сериозната задача за правилно групиране на изходните данни. Ако данните са дискретни, тогава, както видяхме, няма проблеми - просто трябва да изчислите честотата на всяка характеристика. Ако изследваната черта има непрекъснатохарактер (което е по-често срещано в практиката), то изборът на оптимален брой интервали за групиране на признак никак не е тривиална задача.

За групиране на непрекъснати случайни променливи целият диапазон на вариация на характеристиката се разделя на определен брой интервали да се.

Групиран интервал (непрекъснато) вариационни сериинаречени интервали, класирани по стойността на характеристиката (), където е посочен заедно със съответните честоти () броят на наблюденията, които са попаднали в r"-ия интервал, или относителните честоти ():

Интервали на характерни стойности

mi честота

стълбовидна диаграмаи кумулативен (ogiva),вече разгледани подробно от нас, са отличен инструмент за визуализация на данни, който ви позволява да получите първоначално разбиране на структурата на данните. Такива графики (фиг. 1.15) се изграждат за непрекъснати данни по същия начин, както за дискретни данни, само като се вземе предвид фактът, че непрекъснатите данни напълно запълват областта на възможните им стойности, като приемат всякакви стойности.

Ориз. 1.15.

Ето защо колоните на хистограмата и кумулата трябва да са в контакт, да нямат области, където стойностите на атрибута не попадат във всички възможни(т.е. хистограмата и кумулацията не трябва да имат "дупки" по абсцисната ос, в които стойностите на изследваната променлива не попадат, както на фиг. 1.16). Височината на лентата съответства на честотата - броят на наблюденията, които попадат в дадения интервал, или на относителната честота - делът на наблюденията. Интервали не трябва да пресичаи обикновено са с еднаква ширина.

Ориз. 1.16.

Хистограмата и многоъгълникът са приближения на кривата на плътност на вероятността (диференциална функция) f(x)теоретично разпределение, разглеждано в курса по теория на вероятностите. Поради това тяхната конструкция е от такова значение при първичната статистическа обработка на количествени непрекъснати данни - по формата им може да се съди за хипотетичния закон на разпределение.

Cumulate - кривата на натрупаните честоти (честоти) на интервалната вариационна серия. Графиката на интегралната функция на разпределение се сравнява с кумулативната F(x), също разглеждани в курса на теорията на вероятностите.

По принцип понятията хистограма и кумулати се свързват точно с непрекъснати данни и техните интервални вариационни серии, тъй като техните графики са емпирични оценки на функцията на плътност на вероятността и функцията на разпределение, съответно.

Изграждането на интервална вариационна серия започва с определяне на броя на интервалите к.И тази задача е може би най-трудната, важна и противоречива в разглежданата проблематика.

Броят на интервалите не трябва да е твърде малък, тъй като хистограмата ще бъде твърде гладка ( прекалено загладен),губи всички характеристики на променливостта на изходните данни - на фиг. 1.17 можете да видите как същите данни, върху които графиките на фиг. 1.15 се използват за изграждане на хистограма с по-малък брой интервали (лявата графика).

В същото време броят на интервалите не трябва да бъде твърде голям - в противен случай няма да можем да оценим плътността на разпределението на изследваните данни по цифровата ос: хистограмата ще се окаже недостатъчно изгладена (недостатъчно загладен)с незапълнени интервали, неравномерно (виж Фиг. 1.17, дясна графика).

Ориз. 1.17.

Как да определите най-предпочитания брой интервали?

През 1926 г. Хърбърт Стърджис предложи формула за изчисляване на броя на интервалите, на които е необходимо да се раздели първоначалният набор от стойности на изследвания атрибут. Тази формула наистина стана супер популярна - повечето статистически учебници я предлагат и много статистически пакети я използват по подразбиране. Дали това е оправдано и във всички случаи е много сериозен въпрос.

И така, на какво се основава формулата на Sturges?

Разгледайте биномното разпределение )

Свързани публикации