سلسلة تباين الفاصل الإحصائي. الحل: I. إنشاء سلسلة متنوعة - الحل. تاريخ تطور اختبار ويلكوكسون للعينات ذات الصلة

سلسلة التباين: التعريف والأنواع والخصائص الرئيسية. طريقة الحساب
الموضة والوسيط والمتوسط ​​الحسابي في الدراسات الطبية والإحصائية
(اعرض على مثال مشروط).

السلسلة التغايرية هي سلسلة من القيم العددية للصفة محل الدراسة والتي تختلف عن بعضها البعض في حجمها ويتم ترتيبها بتسلسل معين (تصاعدي أو تنازلي). تسمى كل قيمة عددية للسلسلة متغيرًا (V)، والأرقام التي توضح عدد مرات حدوث هذا المتغير أو ذاك في تكوين هذه السلسلة تسمى التردد (p).

يُشار إلى العدد الإجمالي لحالات الملاحظات، التي تتكون منها سلسلة الاختلاف، بالحرف n. ويسمى الاختلاف في معنى الخصائص المدروسة بالتباين. إذا لم يكن لعلامة المتغير مقياس كمي، فإن الاختلاف يسمى نوعيًا، وتسمى سلسلة التوزيع عائدًا (على سبيل المثال، التوزيع حسب نتائج المرض، والحالة الصحية، وما إلى ذلك).

إذا كانت علامة المتغير تحتوي على تعبير كمي، فإن هذا الاختلاف يسمى كميًا، وتسمى سلسلة التوزيع متغيرًا.

تنقسم السلاسل المتغيرة إلى متقطعة ومستمرة - حسب طبيعة السمة الكمية، وبسيطة ومرجحة - حسب تكرار حدوث المتغير.

في سلسلة متباينة بسيطة، يحدث كل متغير مرة واحدة فقط (ع = 1)، وفي السلسلة الموزونة، يحدث نفس المتغير عدة مرات (ع> 1). سيتم مناقشة أمثلة على هذه السلسلة لاحقًا في النص. إذا كانت السمة الكمية مستمرة، أي. بين القيم الصحيحة هناك قيم كسرية متوسطة، وتسمى السلسلة المتغيرة مستمرة.

على سبيل المثال: 10.0 - 11.9

14.0 - 15.9، إلخ.

إذا كانت العلامة الكمية متقطعة، أي. تختلف قيمها الفردية (الخيارات) عن بعضها البعض بعدد صحيح ولا تحتوي على قيم كسرية متوسطة، وتسمى سلسلة التباين متقطعة أو منفصلة.

استخدام البيانات من المثال السابق حول معدل ضربات القلب

لـ 21 طالبًا، سنقوم ببناء سلسلة متنوعة (الجدول 1).

الجدول 1

توزيع طلاب الطب حسب معدل النبض (نبضة في الدقيقة)

وبالتالي، فإن بناء سلسلة متباينة يعني تنظيم وتبسيط القيم العددية الموجودة (الخيارات)، أي. ترتيبها في تسلسل معين (تصاعدي أو تنازلي) مع الترددات المقابلة لها. في المثال قيد النظر، يتم ترتيب الخيارات بترتيب تصاعدي ويتم التعبير عنها كأعداد صحيحة متقطعة (منفصلة)، ويتكرر كل خيار عدة مرات، أي. نحن نتعامل مع سلسلة متباينة مرجحة أو متقطعة أو منفصلة.

وكقاعدة عامة، إذا كان عدد المشاهدات في المجتمع الإحصائي الذي ندرسه لا يتجاوز 30، فإنه يكفي ترتيب جميع قيم السمة قيد الدراسة في سلسلة تباينية بترتيب تصاعدي، كما في الجدول. 1، أو بالترتيب التنازلي.

مع وجود عدد كبير من الملاحظات (ن > 30)، يمكن أن يكون عدد المتغيرات التي تحدث كبيرًا جدًا، وفي هذه الحالة يتم تجميع فاصل زمني أو سلسلة متغيرة مجمعة، حيث، لتبسيط المعالجة اللاحقة وتوضيح طبيعة التوزيع، يتم دمج المتغيرات في مجموعات.

عادة ما يتراوح عدد خيارات المجموعة من 8 إلى 15.

يجب أن يكون هناك 5 منهم على الأقل، لأنه. وإلا فسيكون تكبيرًا قاسيًا ومفرطًا للغاية، مما يشوه الصورة العامة للتباين ويؤثر بشكل كبير على دقة القيم المتوسطة. عندما يكون عدد خيارات المجموعة أكثر من 20-25، تزداد دقة حساب متوسط ​​القيم، ولكن يتم تشويه ميزات تباين السمة بشكل كبير وتصبح المعالجة الرياضية أكثر تعقيدًا.

عند تجميع سلسلة مجمعة، من الضروري أن تأخذ بعين الاعتبار

- يجب وضع مجموعات المتغيرات بترتيب محدد (تصاعدي أو تنازلي)؛

- يجب أن تكون الفواصل الزمنية في المجموعات المتغيرة هي نفسها؛

- يجب ألا تتطابق قيم حدود الفواصل الزمنية، لأن ولن يكون من الواضح أي المجموعات ستنسب إليها الخيارات الفردية؛

- من الضروري مراعاة الخصائص النوعية للمادة التي تم جمعها عند تحديد حدود الفواصل الزمنية (على سبيل المثال، عند دراسة وزن البالغين، يكون الفاصل الزمني 3-4 كجم مقبولاً، وبالنسبة للأطفال في الأشهر الأولى من الحياة يجب ألا يتجاوز 100 جرام.)

دعونا نبني سلسلة مجمعة (فاصل زمني) تميز البيانات المتعلقة بمعدل النبض (عدد النبضات في الدقيقة) لـ 55 طالب طب قبل الامتحان: 64، 66، 60، 62،

64, 68, 70, 66, 70, 68, 62, 68, 70, 72, 60, 70, 74, 62, 70, 72, 72,

64, 70, 72, 76, 76, 68, 70, 58, 76, 74, 76, 76, 82, 76, 72, 76, 74,

79, 78, 74, 78, 74, 78, 74, 74, 78, 76, 78, 76, 80, 80, 80, 78, 78.

لبناء سلسلة مجمعة، تحتاج إلى:

1. تحديد قيمة الفاصل الزمني.

2. تحديد منتصف وبداية ونهاية مجموعات متغير سلسلة التباين.

● يتم تحديد قيمة الفاصل الزمني (i) بعدد المجموعات المتوقعة (r) والتي يتم تحديد عددها حسب عدد المشاهدات (n) وفق جدول خاص

عدد المجموعات حسب عدد الملاحظات:

في حالتنا، بالنسبة لـ 55 طالبًا، من الممكن تكوين من 8 إلى 10 مجموعات.

يتم تحديد قيمة الفاصل الزمني (i) بالصيغة التالية -

أنا = Vmax-Vmin/r

في مثالنا، قيمة الفاصل الزمني هي 82-58/8= 3.

إذا كانت قيمة الفاصل الزمني عبارة عن رقم كسري، فيجب تقريب النتيجة إلى عدد صحيح.

هناك عدة أنواع من المتوسطات:

● الوسط الحسابي،

● الوسط الهندسي،

● المتوسط ​​التوافقي،

● جذر متوسط ​​المربع،

● متوسطة التقدمية،

● الوسيط

في الإحصاءات الطبية، غالبا ما تستخدم المتوسطات الحسابية.

المتوسط ​​الحسابي (M) هو قيمة تعميمية تحدد القيمة النموذجية المميزة لجميع السكان. الطرق الرئيسية لحساب M هي: طريقة الوسط الحسابي وطريقة اللحظات (الانحرافات الشرطية).

يتم استخدام طريقة الوسط الحسابي لحساب الوسط الحسابي البسيط والوسط الحسابي المرجح. يعتمد اختيار طريقة حساب القيمة المتوسطة الحسابية على نوع سلسلة التباين. في حالة المتسلسلة المتغيرة البسيطة، التي يحدث فيها كل متغير مرة واحدة فقط، يتم تحديد المتوسط ​​الحسابي البسيط بالصيغة:

حيث: M – القيمة المتوسطة الحسابية؛

V هي قيمة الميزة المتغيرة (الخيارات)؛

Σ - يشير إلى الإجراء - الجمع؛

n هو العدد الإجمالي للملاحظات.

مثال لحساب الوسط الحسابي بسيط. معدل التنفس (عدد الأنفاس في الدقيقة) لدى 9 رجال بعمر 35 سنة: 20، 22، 19، 15، 16، 21، 17، 23، 18.

لتحديد متوسط ​​مستوى معدل التنفس لدى الرجال بعمر 35 سنة، من الضروري:

1. قم ببناء سلسلة متباينة، مع وضع جميع الخيارات في ترتيب تصاعدي أو تنازلي، وحصلنا على سلسلة متباينة بسيطة، لأن القيم المتغيرة تحدث مرة واحدة فقط.

M = ∑V/n = 171/9 = 19 نفسًا في الدقيقة

خاتمة. يبلغ معدل التنفس لدى الرجال بعمر 35 عامًا في المتوسط ​​19 نفسًا في الدقيقة.

إذا تكررت قيم فردية لمتغير فلا داعي لكتابة كل متغير في سطر، يكفي ذكر أحجام المتغير الذي يحدث (V) ومن ثم الإشارة إلى عدد تكراراتها (ص) ). تسمى هذه السلسلة المتغيرة، التي يتم فيها ترجيح الخيارات وفقًا لعدد الترددات المقابلة لها، بالسلسلة المتغيرة الموزونة، والقيمة المتوسطة المحسوبة هي المتوسط ​​​​المرجح الحسابي.

يتم تحديد المتوسط ​​الحسابي المرجح بواسطة الصيغة: M= ∑Vp/n

حيث n هو عدد الملاحظات المساوية لمجموع الترددات - Σр.

مثال لحساب المتوسط ​​المرجح الحسابي.

بلغت مدة العجز (بالأيام) لدى 35 مريضاً مصاباً بأمراض تنفسية حادة عالجهم طبيب محلي خلال الربع الأول من العام الحالي: 6، 7، 5، 3، 9، 8، 7، 5، 6 , 4, 9, 8, 7, 6, 6, 9, 6, 5, 10, 8, 7, 11, 13, 5, 6, 7, 12, 4, 3, 5, 2, 5, 6, 6 , 7 أيام .

طريقة تحديد متوسط ​​مدة العجز لدى مرضى التهابات الجهاز التنفسي الحادة هي كما يلي:

1. دعونا نبني سلسلة متباينة مرجحة، لأن تتكرر قيم المتغيرات الفردية عدة مرات. للقيام بذلك، يمكنك ترتيب جميع الخيارات بترتيب تصاعدي أو تنازلي مع تردداتها المقابلة.

في حالتنا، الخيارات مرتبة تصاعديًا.

2. احسب المتوسط ​​الحسابي المرجح باستخدام الصيغة: M = ∑Vp/n = 233/35 = 6.7 أيام

توزيع مرضى الالتهابات التنفسية الحادة حسب مدة العجز:

مدة العجز عن العمل (الخامس) عدد المرضى (ع) نائب الرئيس
∑ع = ن = 35 ∑Vp = 233

خاتمة. وبلغ متوسط ​​مدة العجز في المرضى الذين يعانون من أمراض الجهاز التنفسي الحادة 6.7 يوما.

الوضع (Mo) هو المتغير الأكثر شيوعًا في سلسلة الأشكال. بالنسبة للتوزيع الموضح في الجدول، يتوافق الوضع مع متغير يساوي 10، ويحدث في كثير من الأحيان أكثر من غيره - 6 مرات.

توزيع المرضى حسب مدة الإقامة في سرير المستشفى (بالأيام)

الخامس
ص

في بعض الأحيان يكون من الصعب تحديد القيمة الدقيقة للوضع، حيث قد تكون هناك العديد من الملاحظات في البيانات قيد الدراسة والتي تحدث "في أغلب الأحيان".

الوسيط (Me) هو مؤشر غير معلمي يقسم سلسلة التباين إلى نصفين متساويين: يوجد نفس عدد الخيارات على جانبي الوسيط.

على سبيل المثال، بالنسبة للتوزيع الموضح في الجدول، الوسيط هو 10 لأن على جانبي هذه القيمة يقع على الخيار الرابع عشر، أي. يحتل الرقم 10 موقعًا مركزيًا في هذه السلسلة وهو متوسطها.

بالنظر إلى أن عدد الملاحظات في هذا المثال زوجي (ن = 34)، يمكن تحديد الوسيط على النحو التالي:

أنا = 2+3+4+5+6+5+4+3+2/2 = 34/2 = 17

وهذا يعني أن منتصف السلسلة يقع على الخيار السابع عشر، وهو ما يقابل وسيطاً قدره 10. وبالنسبة للتوزيع المعروض في الجدول، فإن الوسط الحسابي هو:

م = ∑Vp/n = 334/34 = 10.1

إذن، بالنسبة لـ 34 ملاحظة من الجدول. 8، حصلنا على: Mo=10، Me=10، الوسط الحسابي (M) هو 10.1. في مثالنا، تبين أن المؤشرات الثلاثة متساوية أو قريبة من بعضها البعض، على الرغم من أنها مختلفة تمامًا.

والمتوسط ​​الحسابي هو المجموع الناتج لجميع التأثيرات، وتشارك جميع المتغيرات، دون استثناء، في تكوينها، بما في ذلك المتغيرات المتطرفة، التي غالبًا ما تكون غير نمطية بالنسبة لظاهرة أو مجموعة معينة.

لا يعتمد الوضع والوسيط، على عكس الوسط الحسابي، على قيمة جميع القيم الفردية للسمة المتغيرة (قيم المتغيرات المتطرفة ودرجة تشتت السلسلة). يميز الوسط الحسابي كتلة الملاحظات بأكملها، ويميز الوضع والوسيط الجزء الأكبر

دعونا نسمي قيم عينة مختلفة خياراتسلسلة من القيم وتدل على: X 1 , X 2،…. أولا وقبل كل شيء، دعونا نجعل تتراوحالخيارات، أي. ترتيبها تصاعديا أو تنازليا. لكل خيار، يشار إلى وزنه، أي. وهو رقم يميز مساهمة هذا الخيار في إجمالي عدد السكان. الترددات أو الترددات بمثابة الأوزان.

تكرار ن ط خيار × طيُطلق عليه رقم يوضح عدد المرات التي يحدث فيها هذا الخيار في مجتمع العينة المدروس.

التردد أو التردد النسبي ث ط خيار × طيتم استدعاء رقم يساوي نسبة تكرار المتغير إلى مجموع ترددات جميع المتغيرات. يوضح التكرار أي جزء من وحدات عينة السكان لديه متغير معين.

يُطلق على تسلسل الخيارات مع أوزانها المقابلة (الترددات أو التكرارات)، المكتوبة بترتيب تصاعدي (أو تنازلي)، اسم سلسلة متباينة.

السلسلة المتغيرة منفصلة وفاصلة.

بالنسبة لسلسلة متباينة منفصلة، ​​يتم تحديد قيم النقاط للسمة، بالنسبة لسلسلة الفاصل الزمني، يتم تحديد قيم السمة في شكل فواصل زمنية. يمكن أن تظهر سلسلة التباين توزيع الترددات أو الترددات النسبية (الترددات)، اعتمادًا على القيمة المشار إليها لكل خيار - التردد أو التردد.

سلسلة الاختلاف المنفصلة لتوزيع التردديشبه:

تم العثور على الترددات بالصيغة i = 1، 2، …، م.

ث 1 +ث 2 + … + ثم = 1.

مثال 4.1. لمجموعة معينة من الأرقام

4, 6, 6, 3, 4, 9, 6, 4, 6, 6

بناء سلسلة متباينة منفصلة من الترددات وتوزيعات التردد.

حل . حجم السكان هو ن= 10. سلسلة توزيع التردد المنفصلة لها الشكل

سلسلة الفاصل الزمني لها شكل مماثل من التسجيل.

سلسلة الاختلاف الفاصل لتوزيع الترددمكتوب على النحو التالي:

مجموع كل الترددات يساوي العدد الإجمالي للملاحظات، أي. الحجم الكلي: ن = ن 1 +ن 2 + … + نم .

سلسلة التباين الفاصل لتوزيع الترددات النسبية (الترددات)يشبه:

تم العثور على التردد بالصيغة i = 1، 2، …، م.

مجموع كل الترددات يساوي واحد: ث 1 +ث 2 + … + ثم = 1.

في أغلب الأحيان في الممارسة العملية، يتم استخدام سلسلة الفاصل الزمني. إذا كان هناك الكثير من بيانات العينات الإحصائية وتختلف قيمها عن بعضها البعض بمقدار صغير بشكل تعسفي، فإن السلسلة المنفصلة لهذه البيانات ستكون مرهقة للغاية وغير ملائمة لمزيد من البحث. في هذه الحالة، يتم استخدام تجميع البيانات، أي. يتم تقسيم الفاصل الزمني الذي يحتوي على جميع قيم السمة إلى عدة فترات جزئية، وبعد حساب التكرار لكل فاصل زمني، يتم الحصول على سلسلة الفاصل الزمني. دعونا نكتب بمزيد من التفصيل مخطط إنشاء سلسلة فواصل زمنية، على افتراض أن أطوال الفترات الجزئية ستكون هي نفسها.

2.2 بناء سلسلة فاصلة

لبناء سلسلة فاصلة، تحتاج إلى:

تحديد عدد الفواصل الزمنية؛

تحديد طول الفواصل الزمنية؛

تحديد موقع الفواصل الزمنية على المحور.

لتحديد عدد الفواصل الزمنية ك هناك صيغة ستورجيس، والتي بموجبها

,

أين ن- الحجم الكلي.

على سبيل المثال، إذا كان هناك 100 قيمة مميزة (متغير)، فمن المستحسن أن تأخذ عدد الفواصل الزمنية المساوية للفواصل الزمنية لإنشاء سلسلة فواصل زمنية.

ومع ذلك، في كثير من الأحيان، من الناحية العملية، يتم اختيار عدد الفواصل الزمنية من قبل الباحث نفسه، بشرط ألا يكون هذا العدد كبيرًا جدًا حتى لا تكون السلسلة مرهقة، ولكنها أيضًا ليست صغيرة جدًا، حتى لا تفقد بعض خصائصها. التوزيع.

طول الفاصل الزمني ح يتم تحديده بالصيغة التالية:

,

أين سماكس و س min هي القيم الأكبر والأصغر للخيارات، على التوالي.

القيمة مُسَمًّى على نطاق واسعصف.

ولإنشاء الفواصل الزمنية نفسها، فإنها تمضي بطرق مختلفة. واحدة من أسهل الطرق هي كما يلي. يتم أخذ القيمة كبداية للفاصل الزمني الأول
. ثم يتم العثور على بقية حدود الفترات بواسطة الصيغة . من الواضح أن نهاية الفترة الأخيرة أيجب أن يستوفي m+1 الشرط

بعد العثور على جميع حدود الفترات، يتم تحديد ترددات (أو ترددات) هذه الفترات. لحل هذه المشكلة، يقومون بفحص جميع الخيارات وتحديد عدد الخيارات التي تقع ضمن فترة زمنية معينة. سننظر في البناء الكامل لسلسلة فاصلة باستخدام مثال.

مثال 4.2. بالنسبة للإحصائيات التالية، المكتوبة بترتيب تصاعدي، قم ببناء سلسلة فواصل زمنية بعدد الفواصل يساوي 5:

11, 12, 12, 14, 14, 15, 21, 21, 22, 23, 25, 38, 38, 39, 42, 42, 44, 45, 50, 50, 55, 56, 58, 60, 62, 63, 65, 68, 68, 68, 70, 75, 78, 78, 78, 78, 80, 80, 86, 88, 90, 91, 91, 91, 91, 91, 93, 93, 95, 96.

حل. المجموع ن= 50 قيمة متغيرة.

يتم تحديد عدد الفواصل الزمنية في حالة المشكلة، أي. ك=5.

طول الفترات هو
.

دعونا نحدد حدود الفترات:

أ 1 = 11 − 8,5 = 2,5; أ 2 = 2,5 + 17 = 19,5; أ 3 = 19,5 + 17 = 36,5;

أ 4 = 36,5 + 17 = 53,5; أ 5 = 53,5 + 17 = 70,5; أ 6 = 70,5 + 17 = 87,5;

أ 7 = 87,5 +17 = 104,5.

لتحديد تكرار الفترات، نحسب عدد الخيارات التي تقع ضمن هذه الفترة. على سبيل المثال، الخيارات 11، 12، 12، 14، 14، 15 تقع في الفترة الأولى من 2.5 إلى 19.5، وعددها هو 6، وبالتالي فإن تكرار الفترة الأولى هو ن 1=6. تردد الفترة الأولى هو . المتغيرات 21، 21، 22، 23، 25، وعددها 5، تقع في الفترة الثانية من 19.5 إلى 36.5، وبالتالي فإن تردد الفترة الثانية هو ن 2 =5، والتردد . بعد أن وجدنا الترددات والترددات لجميع الفترات بالمثل، نحصل على سلسلة الفترات التالية.

السلسلة الفاصلة للتوزيع التكراري لها الشكل:

مجموع الترددات هو 6+5+9+11+8+11=50.

السلسلة الفاصلة للتوزيع التكراري لها الشكل:

مجموع الترددات هو 0.12+0.1+0.18+0.22+0.16+0.22=1. ■

عند إنشاء سلسلة فواصل زمنية، اعتمادًا على الظروف المحددة للمشكلة قيد النظر، يمكن تطبيق قواعد أخرى، وهي

1. قد تتكون سلسلة الاختلافات الفاصلة من فترات جزئية ذات أطوال مختلفة. تتيح الأطوال غير المتساوية للفواصل الزمنية تحديد خصائص مجموعة إحصائية ذات توزيع غير متساوٍ للميزة. على سبيل المثال، إذا كانت حدود الفترات تحدد عدد السكان في المدن، فمن المستحسن في هذه المشكلة استخدام فترات غير متساوية في الطول. من الواضح أنه بالنسبة للمدن الصغيرة، فإن الاختلاف البسيط في عدد السكان مهم أيضًا، وبالنسبة للمدن الكبيرة، فإن الفرق بين العشرات والمئات من السكان ليس مهمًا أيضًا. تتم دراسة سلاسل الفترات ذات الأطوال غير المتساوية للفواصل الجزئية بشكل أساسي في النظرية العامة للإحصاء ويعتبرها خارج نطاق هذا الدليل.

2. في الإحصاء الرياضي، يتم أخذ سلسلة الفترات في الاعتبار أحيانًا، حيث يُفترض أن الحد الأيسر للفاصل الزمني الأول هو –∞، والحد الأيمن للفاصل الزمني الأخير هو +∞. يتم ذلك من أجل تقريب التوزيع الإحصائي من التوزيع النظري.

3. عند إنشاء سلسلة الفاصل الزمني، قد يتبين أن قيمة بعض المتغيرات تتزامن تمامًا مع حدود الفاصل الزمني. أفضل ما يمكنك فعله في هذه الحالة هو كما يلي. إذا كانت هناك مصادفة واحدة فقط، فاعتبر أن المتغير قيد النظر مع تردده يقع في الفاصل الزمني الموجود بالقرب من منتصف سلسلة الفاصل الزمني، إذا كان هناك العديد من هذه المتغيرات، فسيتم تعيين كل منهم للفواصل الزمنية يمين هذه المتغيرات، أو كل شيء على اليسار.

4. بعد تحديد عدد الفترات وطولها يمكن تحديد موقع الفترات بطريقة أخرى. أوجد الوسط الحسابي لجميع القيم المعتبرة للخيارات Xراجع. وقم ببناء الفاصل الزمني الأول بحيث يكون متوسط ​​العينة هذا داخل فترة ما. وهكذا نحصل على الفاصل الزمني من Xراجع. – 0.5 حقبل Xمتوسط ​​+ 0.5 ح. ثم يسارًا ويمينًا، بإضافة طول الفاصل الزمني، نبني الفترات المتبقية حتى سدقيقة و سلن يقع الحد الأقصى في الفواصل الزمنية الأولى والأخيرة، على التوالي.

5. تتم كتابة سلسلة الفواصل الزمنية التي تحتوي على عدد كبير من الفواصل الزمنية بشكل مريح عموديًا، أي. سجل الفواصل الزمنية ليس في السطر الأول، ولكن في العمود الأول، والترددات (أو الترددات) في العمود الثاني.

يمكن اعتبار بيانات العينة كقيم لبعض المتغيرات العشوائية X. المتغير العشوائي له قانون التوزيع الخاص به. من المعروف من نظرية الاحتمالات أن قانون توزيع المتغير العشوائي المنفصل يمكن تحديده كسلسلة توزيع، وبالنسبة للمتغير المستمر، باستخدام دالة كثافة التوزيع. ومع ذلك، هناك قانون التوزيع العالمي الذي ينطبق على المتغيرات العشوائية المنفصلة والمستمرة. يتم إعطاء قانون التوزيع هذا كوظيفة توزيع F(س) = ص(X<س). بالنسبة لعينة البيانات، يمكنك تحديد وظيفة التوزيع التناظرية - وظيفة التوزيع التجريبية.

تسمى مجموعة من الأشياء أو الظواهر التي توحدها سمة أو خاصية مشتركة ذات طبيعة نوعية أو كمية كائن المراقبة .

يتكون أي كائن للملاحظة الإحصائية من عناصر منفصلة - وحدات المراقبة .

نتائج المراقبة الإحصائية هي معلومات رقمية - بيانات . بيانات احصائية - هذه معلومات حول القيم التي اتخذتها السمة التي تهم الباحث في المجتمع الإحصائي.

إذا تم التعبير عن قيم الميزة كأرقام، فسيتم استدعاء الميزة كمي .

إذا كانت الميزة تميز بعض الممتلكات أو حالة عناصر السكان، فسيتم استدعاء الميزة جودة .

وإذا كانت جميع عناصر المجتمع تخضع للدراسة (الملاحظة المستمرة)، فيسمى المجتمع الإحصائي عام.

وإذا خضع جزء من عناصر عموم السكان للبحث، فيسمى المجتمع الإحصائي انتقائي (انتقائي) . يتم سحب عينة من المجتمع بشكل عشوائي بحيث يكون لكل فرد من أفراد العينة n فرصة متساوية في الاختيار.

تتغير قيم السمة (تتغير) عند الانتقال من عنصر من عناصر المجتمع إلى عنصر آخر، لذلك في الإحصائيات تسمى أيضًا قيم السمة المختلفة خيارات . يُشار إلى الخيارات عادةً بأحرف لاتينية صغيرة x، y، z.

يتم استدعاء الرقم الترتيبي للمتغير (القيمة المميزة). رتبة . x 1 - الخيار الأول (القيمة الأولى للميزة)، x 2 - الخيار الثاني (القيمة الثانية للميزة)، x i - الخيار i (القيمة i للميزة).

تسمى سلسلة من قيم السمات (الخيارات) مرتبة بترتيب تصاعدي أو تنازلي مع الأوزان المقابلة لها سلسلة الاختلاف (سلسلة التوزيع).

مثل مقاييس تظهر الترددات أو الترددات.

تكرار(m i) يوضح عدد المرات التي يحدث فيها هذا المتغير أو ذاك (قيمة الميزة) في المجتمع الإحصائي.

التردد أو التردد النسبي(w i) يوضح أي جزء من الوحدات السكانية يحتوي على متغير واحد أو آخر. يتم حساب التردد كنسبة تردد متغير واحد أو آخر إلى مجموع جميع الترددات في السلسلة.

. (6.1)

مجموع جميع الترددات هو 1.

. (6.2)

السلسلة المتغيرة منفصلة وفاصلة.

سلسلة الاختلاف المنفصلةيتم بناؤها عادةً في حالة اختلاف قيم الخاصية قيد الدراسة عن بعضها البعض على الأقل ببعض القيمة المحدودة.

في سلسلة التباين المنفصلة، ​​يتم تحديد القيم النقطية للميزة.

يظهر الشكل العام لسلسلة الاختلافات المنفصلة في الجدول 6.1.

الجدول 6.1

حيث أنا = 1، 2، …، ل.

في سلسلة تباين الفاصل الزمني، في كل فاصل زمني، يتم تمييز الحدود العلوية والسفلية للفاصل الزمني.

يسمى الفرق بين الحدين العلوي والسفلي للفاصل الزمني فرق الفاصل أو طول (حجم) الفاصل الزمني .

يتم تحديد قيمة الفاصل الزمني الأول k 1 بواسطة الصيغة:

ك1 = أ 2 - أ 1؛

الثاني: ك2= أ 3 - أ 2؛ …

الأخير: ك ل = ل - ل -1 .

على العموم فرق الفاصل k i يتم حسابه بالصيغة:

ك أنا \u003d س ط (حد أقصى) - س ط (دقيقة) . (6.3)

إذا كان للفاصل كلا الحدين، فإنه يسمى مغلق .

يمكن أن تكون الفواصل الزمنية الأولى والأخيرة يفتح ، أي. لها حدود واحدة فقط.

على سبيل المثال، يمكن تحديد الفاصل الزمني الأول بأنه "ما يصل إلى 100"، والثاني - "100-110"، ... ، قبل الأخير - "190-200"، والأخير - "200 وأكثر". ومن الواضح أن الفترة الأولى ليس لها حد أدنى، والأخيرة ليس لها حد أعلى، وكلاهما مفتوح.

في كثير من الأحيان يجب أن تكون الفترات المفتوحة مغلقة بشكل مشروط. للقيام بذلك، عادة ما يتم أخذ قيمة الفاصل الزمني الأول مساوية لقيمة الثانية، وقيمة الأخير - قيمة الفترة قبل الأخيرة. في مثالنا، قيمة الفاصل الزمني الثاني هي 110-100=10، وبالتالي، سيكون الحد الأدنى للفاصل الأول مشروطًا 100-10=90؛ قيمة الفاصل الزمني قبل الأخير هي 200-190=10، وبالتالي فإن الحد الأعلى للفاصل الزمني الأخير سيكون تقليديًا 200+10=210.

بالإضافة إلى ذلك، يمكن أن تحدث فترات زمنية ذات أطوال مختلفة في سلسلة تباين الفاصل الزمني. إذا كانت الفواصل الزمنية في سلسلة التباين لها نفس الطول (فرق الفاصل الزمني)، يتم استدعاؤها متساوية في الحجم ، خلاف ذلك - غير متكافئ.

عند إنشاء سلسلة تباين الفاصل الزمني، غالبًا ما تنشأ مشكلة اختيار حجم الفترات (فرق الفاصل الزمني).

لتحديد الحجم الأمثل للفواصل الزمنية (في حالة إنشاء سلسلة بفواصل زمنية متساوية)، قم بالتطبيق صيغة ستورجيس:

, (6.4)

حيث n هو عدد الوحدات السكانية،

x (max) و x (min) - القيم الأكبر والأصغر لمتغيرات السلسلة.

لتوصيف السلسلة المتغيرة، إلى جانب الترددات والترددات، يتم استخدام الترددات والترددات المتراكمة.

الترددات التراكمية (الترددات)أظهر عدد وحدات السكان (أي جزء منها) لا تتجاوز قيمة معينة (خيار) x.

الترددات المتراكمة ( السادس) وفقًا لبيانات السلسلة المنفصلة يمكن حسابها باستخدام الصيغة التالية:

. (6.5)

بالنسبة لسلسلة تباين الفاصل الزمني، هذا هو مجموع الترددات (الترددات) لجميع الفواصل الزمنية التي لا تتجاوز هذه الفترة.

يمكن تمثيل سلسلة متباينة منفصلة بيانياً باستخدام توزيع المضلع للترددات أو الترددات.

عند إنشاء مضلع التوزيع، يتم رسم قيم السمة (الخيارات) على طول محور الإحداثي، ويتم رسم الترددات أو الترددات على طول المحور الإحداثي. عند تقاطع القيم المميزة والترددات المقابلة لها (الترددات)، يتم رسم النقاط، والتي بدورها ترتبط بالقطاعات. يُطلق على الخط المتقطع الذي تم الحصول عليه بهذه الطريقة مضلع توزيع الترددات (الترددات).

س ك
×2
× 1 × ط


أرز. 6.1.

يمكن تمثيل سلسلة التباينات الفاصلة بيانياً باستخدام الرسوم البيانية، أي. شريط الرسم البياني.

عند إنشاء رسم بياني على طول الإحداثي السيني، يتم رسم قيم الميزة المدروسة (حدود الفاصل الزمني).

في حالة أن الفواصل الزمنية لها نفس الحجم، يمكن رسم الترددات أو الترددات على طول المحور الصادي.

إذا كانت الفترات لها قيم مختلفة، فمن الضروري رسم قيم كثافة التوزيع المطلقة أو النسبية على طول المحور الصادي.

الكثافة المطلقة- نسبة تكرار الفاصل الزمني إلى حجم الفاصل الزمني:

; (6.6)

حيث: f(a) i - الكثافة المطلقة للفاصل الزمني i؛

m i - تردد الفاصل الزمني i؛

k i - قيمة الفاصل الزمني i (فرق الفاصل الزمني).

توضح الكثافة المطلقة عدد الوحدات السكانية لكل وحدة فاصلة.

الكثافة النسبية- نسبة تكرار الفاصل الزمني إلى حجم الفاصل الزمني:

; (6.7)

حيث: f(o) i - الكثافة النسبية للفاصل الزمني i؛

w i - تردد الفاصل الزمني i.

توضح الكثافة النسبية أي جزء من الوحدات السكانية يقع في الوحدة الفاصلة.

ل
1 × ط
2

يمكن تمثيل كل من سلسلة التباين المنفصلة والمفصلة بيانياً على شكل تراكمي وغاضب.

عند البناء يتراكموفقًا لبيانات السلسلة المنفصلة، ​​يُظهر الإحداثي قيم السمة (الخيارات)، ويُظهر الإحداثي الترددات أو الترددات المتراكمة. عند تقاطع قيم الميزة (الخيارات) والترددات المتراكمة (الترددات) المقابلة لها، يتم بناء النقاط، والتي بدورها ترتبط بقطاعات أو منحنى. يُطلق على الخط المتقطع (المنحنى) الذي تم الحصول عليه بهذه الطريقة اسم التراكمي (المنحنى التراكمي).

عند إنشاء التراكم وفقًا لبيانات سلسلة الفاصل الزمني، يتم رسم حدود الفواصل الزمنية على طول الإحداثي السيني. حدود النقاط هي الحدود العليا للفترات. تشكل الإحداثيات الترددات المتراكمة (الترددات) للفترات المقابلة. غالبًا ما تتم إضافة نقطة أخرى، يكون حدها الأدنى هو الحد الأدنى للفاصل الزمني الأول، ويكون الإحداثي صفرًا. من خلال ربط النقاط بقطاعات أو منحنى، نحصل على التراكم.

أوجيفاتم إنشاؤه بشكل مشابه للتراكم مع الاختلاف الوحيد وهو أن النقاط المقابلة للترددات المتراكمة (الترددات) يتم رسمها على محور الإحداثي، ويتم رسم القيم المميزة (الخيارات) على طول المحور الإحداثي.

عند معالجة كميات كبيرة من المعلومات، وهو أمر مهم بشكل خاص عند إجراء التطورات العلمية الحديثة، يواجه الباحث مهمة خطيرة تتمثل في تجميع البيانات الأولية بشكل صحيح. إذا كانت البيانات منفصلة، ​​فكما رأينا، لا توجد مشاكل - ما عليك سوى حساب تكرار كل ميزة. إذا كانت الصفة قيد الدراسة موجودة مستمرالشخصية (وهو أكثر شيوعًا في الممارسة العملية)، فإن اختيار العدد الأمثل للفواصل الزمنية لتجميع الميزة ليس بأي حال من الأحوال مهمة تافهة.

لتجميع المتغيرات العشوائية المستمرة، يتم تقسيم نطاق الاختلاف الكامل للميزة إلى عدد معين من الفواصل الزمنية ل.

الفاصل الزمني المجمع (مستمر) سلسلة متباينةتسمى الفواصل الزمنية مرتبة حسب قيمة الميزة ()، حيث يشار مع الترددات المقابلة () إلى عدد الملاحظات التي تقع في الفاصل الزمني r، أو الترددات النسبية ():

فترات القيمة المميزة

تردد مي

شريط الرسم البيانيو تتراكم (ogiva) ،التي تمت مناقشتها بالفعل بالتفصيل من قبلنا، هي أداة ممتازة لتصور البيانات تتيح لك الحصول على فهم أساسي لبنية البيانات. تم تصميم هذه الرسوم البيانية (الشكل 1.15) للبيانات المستمرة بنفس طريقة البيانات المنفصلة، ​​مع الأخذ في الاعتبار فقط حقيقة أن البيانات المستمرة تملأ مساحة قيمها المحتملة تمامًا، مع أخذ أي قيم.

أرز. 1.15.

لهذا يجب أن تكون الأعمدة الموجودة في الرسم البياني والتراكم على اتصال، ولا تحتوي على مناطق لا تقع فيها قيم السمات ضمن كل ما هو ممكن(أي يجب ألا يحتوي الرسم البياني والتراكم على "ثقوب" على طول محور الإحداثي، حيث لا تقع قيم المتغير قيد الدراسة، كما في الشكل 1.16). يتوافق ارتفاع الشريط مع التردد - عدد الملاحظات التي تقع ضمن الفاصل الزمني المحدد، أو التردد النسبي - نسبة الملاحظات. فترات لا يجب أن تعبروعادة ما تكون بنفس العرض.

أرز. 1.16.

الرسم البياني والمضلع عبارة عن تقديرات تقريبية لمنحنى كثافة الاحتمال (وظيفة تفاضلية) و (خ)التوزيع النظري، الذي تم النظر فيه في سياق نظرية الاحتمالات. ولذلك، فإن بنائها له أهمية كبيرة في المعالجة الإحصائية الأولية للبيانات الكمية المستمرة - من خلال شكلها يمكن الحكم على قانون التوزيع الافتراضي.

تراكم - منحنى الترددات المتراكمة (الترددات) لسلسلة تباين الفاصل الزمني. تتم مقارنة الرسم البياني لوظيفة التوزيع المتكاملة مع التراكم و(خ)، والتي تعتبر أيضا في سياق نظرية الاحتمالات.

في الأساس، ترتبط مفاهيم الرسم البياني والتراكمات بدقة بالبيانات المستمرة وسلسلة تباين الفاصل الزمني الخاصة بها، نظرًا لأن الرسوم البيانية الخاصة بها عبارة عن تقديرات تجريبية لوظيفة كثافة الاحتمال ووظيفة التوزيع، على التوالي.

يبدأ إنشاء سلسلة تباين الفاصل الزمني بتحديد عدد الفواصل الزمنية ك.ولعل هذه المهمة هي الأصعب والأهم والأكثر إثارة للجدل في القضية قيد الدراسة.

يجب ألا يكون عدد الفواصل الزمنية صغيرًا جدًا، لأن الرسم البياني سيكون سلسًا جدًا ( مفرط)،يفقد جميع ميزات تباين البيانات الأولية - في الشكل. 1.17 يمكنك أن ترى كيف أن نفس البيانات التي تعتمد عليها الرسوم البيانية في الشكل. يتم استخدام 1.15 لإنشاء رسم بياني بعدد أقل من الفواصل الزمنية (الرسم البياني الأيسر).

في الوقت نفسه، لا ينبغي أن يكون عدد الفواصل الزمنية كبيرًا جدًا - وإلا فلن نتمكن من تقدير كثافة توزيع البيانات قيد الدراسة على طول المحور العددي: سيتبين أن الرسم البياني غير متجانس (ناعم)مع فترات شاغرة وغير متساوية (انظر الشكل 1.17، الرسم البياني الأيمن).

أرز. 1.17.

كيفية تحديد عدد الفواصل الزمنية الأكثر تفضيلاً؟

في عام 1926، اقترح هربرت ستورجيس صيغة لحساب عدد الفواصل الزمنية التي من الضروري تقسيم المجموعة الأولية من قيم السمة المدروسة. لقد أصبحت هذه الصيغة شائعة للغاية - حيث توفرها معظم الكتب المدرسية الإحصائية، وتستخدمها العديد من الحزم الإحصائية بشكل افتراضي. ما إذا كان هذا مبررًا وفي جميع الحالات هو سؤال خطير للغاية.

إذن ما هي صيغة ستورجيس التي تعتمد عليها؟

النظر في التوزيع ذي الحدين )

المنشورات ذات الصلة