سلسلة التباين الفاصل الإحصائي. الحل: 1. قم بتكوين سلسلة متغيرة - الحل. تاريخ تطور اختبار ويلكوكسون للعينات ذات الصلة

سلسلة التباين: التعريف والأنواع والخصائص الرئيسية. طريقة الحساب
الموضة والوسيط والوسيلة الحسابية في الدراسات الطبية والإحصائية
(اعرض في مثال شرطي).

السلسلة المتغيرة هي سلسلة من القيم العددية للسمة قيد الدراسة ، والتي تختلف عن بعضها البعض في حجمها ويتم ترتيبها في تسلسل معين (بترتيب تصاعدي أو تنازلي). تسمى كل قيمة عددية من السلسلة متغير (V) ، وتسمى الأرقام التي توضح عدد مرات حدوث هذا المتغير أو ذاك في تكوين هذه السلسلة التردد (p).

يُشار إلى العدد الإجمالي لحالات الملاحظات ، التي تتكون منها سلسلة التباينات ، بالحرف n. يسمى الاختلاف في معنى الخصائص المدروسة بالاختلاف. إذا لم يكن لعلامة المتغير مقياس كمي ، فإن الاختلاف يسمى نوعي ، وتسمى سلسلة التوزيع إحالة (على سبيل المثال ، التوزيع حسب نتيجة المرض ، الحالة الصحية ، إلخ).

إذا كانت علامة المتغير تحتوي على تعبير كمي ، فإن هذا الاختلاف يسمى كميًا ، وتسمى سلسلة التوزيع متغيرة.

تنقسم السلاسل المتغيرة إلى متقطعة ومستمرة - وفقًا لطبيعة السمة الكمية ، بسيطة ومرجحة - وفقًا لتكرار حدوث المتغير.

في سلسلة متغيرة بسيطة ، يحدث كل متغير مرة واحدة فقط (p = 1) ، في متغير مرجح ، يحدث نفس المتغير عدة مرات (p> 1). سيتم مناقشة أمثلة على هذه السلسلة لاحقًا في النص. إذا كانت السمة الكمية مستمرة ، أي بين القيم الصحيحة توجد قيم كسرية وسيطة ، وتسمى السلسلة المتغيرة المستمر.

على سبيل المثال: 10.0 - 11.9

14.0 - 15.9 ، إلخ.

إذا كانت العلامة الكمية غير متصلة ، أي تختلف قيمها الفردية (الخيارات) عن بعضها البعض من خلال عدد صحيح ولا تحتوي على قيم كسرية وسيطة ، وتسمى سلسلة التباين غير المستمرة أو المنفصلة.

استخدام البيانات من المثال السابق حول معدل ضربات القلب

بالنسبة لـ 21 طالبًا ، سنقوم ببناء سلسلة متنوعة (الجدول 1).

الجدول 1

توزيع طلاب الطب حسب معدل النبض (نبضة في الدقيقة)

وبالتالي ، فإن بناء سلسلة متغيرة يعني تنظيم وتبسيط القيم العددية الحالية (الخيارات) ، أي الترتيب في تسلسل معين (بترتيب تصاعدي أو تنازلي) مع الترددات المقابلة. في المثال قيد النظر ، يتم ترتيب الخيارات بترتيب تصاعدي ويتم التعبير عنها كأعداد صحيحة (منفصلة) ، كل خيار يحدث عدة مرات ، أي نحن نتعامل مع سلسلة متغيرة مرجحة أو متقطعة أو منفصلة.

كقاعدة عامة ، إذا كان عدد الملاحظات في المجتمع الإحصائي الذي ندرسه لا يتجاوز 30 ، فعندئذٍ يكفي ترتيب جميع قيم السمة قيد الدراسة في سلسلة متغيرة بترتيب تصاعدي ، كما في الجدول. 1 ، أو بترتيب تنازلي.

مع وجود عدد كبير من الملاحظات (n> 30) ، يمكن أن يكون عدد المتغيرات التي تحدث كبيرًا جدًا ، وفي هذه الحالة يتم تجميع فاصل زمني أو سلسلة متغيرة مجمعة ، حيث يتم تبسيط المعالجة اللاحقة وتوضيح طبيعة التوزيع ، يتم دمج المتغيرات في مجموعات.

عادة ما يتراوح عدد خيارات المجموعة من 8 إلى 15.

يجب أن يكون هناك ما لا يقل عن 5 منهم ، لأن. وإلا ، فسيكون تضخيمًا مفرطًا وخشنًا للغاية ، مما يشوه الصورة العامة للتباين ويؤثر بشكل كبير على دقة القيم المتوسطة. عندما يكون عدد خيارات المجموعة أكثر من 20-25 ، تزداد دقة حساب متوسط ​​القيم ، لكن ميزات تباين السمة مشوهة بشكل كبير وتصبح المعالجة الرياضية أكثر تعقيدًا.

عند تجميع سلسلة مجمعة ، من الضروري أخذها في الاعتبار

- يجب ترتيب المجموعات المتغيرة بترتيب معين (تصاعدي أو تنازلي) ؛

- يجب أن تكون الفترات الزمنية في مجموعات المتغيرات هي نفسها ؛

- يجب ألا تتطابق قيم حدود الفترات ، لأن لن يكون من الواضح في أي المجموعات تنسب الخيارات الفردية ؛

- من الضروري مراعاة السمات النوعية للمادة المجمعة عند تحديد حدود الفترات (على سبيل المثال ، عند دراسة وزن البالغين ، يكون الفاصل الزمني من 3-4 كجم مقبولًا ، وبالنسبة للأطفال في الأشهر الأولى من الحياة يجب ألا يتجاوز 100 جرام).

دعونا نبني سلسلة مجمعة (فاصلة) تميز البيانات الخاصة بمعدل النبض (عدد النبضات في الدقيقة) لـ 55 طالب طب قبل الامتحان: 64 ، 66 ، 60 ، 62 ،

64, 68, 70, 66, 70, 68, 62, 68, 70, 72, 60, 70, 74, 62, 70, 72, 72,

64, 70, 72, 76, 76, 68, 70, 58, 76, 74, 76, 76, 82, 76, 72, 76, 74,

79, 78, 74, 78, 74, 78, 74, 74, 78, 76, 78, 76, 80, 80, 80, 78, 78.

لإنشاء سلسلة مجمعة ، تحتاج إلى:

1. تحديد قيمة الفاصل الزمني.

2. حدد وسط وبداية ونهاية مجموعات متغير سلسلة التباينات.

● يتم تحديد قيمة الفاصل الزمني (i) من خلال عدد المجموعات المتوقعة (r) ، والتي يتم تعيين عددها اعتمادًا على عدد الملاحظات (n) وفقًا لجدول خاص

عدد المجموعات حسب عدد الملاحظات:

في حالتنا ، بالنسبة لـ 55 طالبًا ، من الممكن تكوين من 8 إلى 10 مجموعات.

يتم تحديد قيمة الفاصل الزمني (i) بالصيغة التالية -

أنا = Vmax-Vmin / r

في مثالنا ، قيمة الفترة هي 82-58 / 8 = 3.

إذا كانت قيمة الفاصل الزمني عبارة عن رقم كسري ، فيجب تقريب النتيجة إلى عدد صحيح.

هناك عدة أنواع من المتوسطات:

● الوسط الحسابي ،

● الوسط الهندسي ،

● الوسط التوافقي ،

● جذر متوسط ​​التربيع ،

● تقدم متوسط ​​،

● الوسيط

غالبًا ما تستخدم المتوسطات الحسابية في الإحصاء الطبي.

المتوسط ​​الحسابي (M) هو قيمة معممة تحدد القيمة النموذجية التي تميز المجتمع بأكمله. الطرق الرئيسية لحساب M هي: طريقة المتوسط ​​الحسابي وطريقة اللحظات (الانحرافات الشرطية).

يتم استخدام طريقة المتوسط ​​الحسابي لحساب المتوسط ​​الحسابي البسيط والمتوسط ​​الحسابي الموزون. يعتمد اختيار طريقة حساب قيمة المتوسط ​​الحسابي على نوع سلسلة التباينات. في حالة وجود سلسلة متغيرة بسيطة ، حيث يحدث كل متغير مرة واحدة فقط ، يتم تحديد المتوسط ​​الحسابي البسيط بواسطة الصيغة:

حيث: М - متوسط ​​القيمة الحسابية ؛

V هي قيمة الميزة المتغيرة (الخيارات) ؛

Σ - يشير إلى الإجراء - التجميع ؛

n هو العدد الإجمالي للملاحظات.

مثال على حساب المتوسط ​​الحسابي بسيط. معدل التنفس (عدد الأنفاس في الدقيقة) لدى 9 رجال تتراوح أعمارهم بين 35:20 ، 22 ، 19 ، 15 ، 16 ، 21 ، 17 ، 23 ، 18.

لتحديد متوسط ​​مستوى معدل التنفس لدى الرجال الذين تبلغ أعمارهم 35 عامًا ، من الضروري:

1. قم ببناء سلسلة متغيرة ، وضع كل الخيارات بترتيب تصاعدي أو تنازلي ، حصلنا على سلسلة متغيرة بسيطة ، لأن القيم المتغيرة تحدث مرة واحدة فقط.

M = ∑V / n = 171/9 = 19 نفسًا في الدقيقة

استنتاج. يبلغ معدل التنفس لدى الرجال الذين يبلغون من العمر 35 عامًا 19 نفسًا في الدقيقة.

إذا تم تكرار القيم الفردية للمتغير ، فلا داعي لكتابة كل متغير في سطر ؛ يكفي سرد ​​أحجام المتغير التي تحدث (V) وبعد ذلك للإشارة إلى عدد التكرارات (p ). مثل هذه السلسلة المتغيرة ، التي يتم فيها ترجيح الخيارات ، كما كانت ، وفقًا لعدد الترددات المقابلة لها ، تسمى السلسلة المتغيرة الموزونة ، ومتوسط ​​القيمة المحسوبة هو المتوسط ​​الحسابي المرجح.

يتم تحديد المتوسط ​​المرجح الحسابي بواسطة الصيغة: M = ∑Vp / n

حيث n هو عدد المشاهدات التي تساوي مجموع الترددات - Σr.

مثال على حساب المتوسط ​​المرجح الحسابي.

كانت مدة العجز (بالأيام) لدى 35 مريضًا يعانون من أمراض الجهاز التنفسي الحادة (ARI) الذين عولجوا من قبل طبيب محلي خلال الربع الأول من العام الحالي: 6 ، 7 ، 5 ، 3 ، 9 ، 8 ، 7 ، 5 ، 6 ، 4 ، 9 ، 8 ، 7 ، 6 ، 6 ، 9 ، 6 ، 5 ، 10 ، 8 ، 7 ، 11 ، 13 ، 5 ، 6 ، 7 ، 12 ، 4 ، 3 ، 5 ، 2 ، 5 ، 6 ، 6 ، 7 أيام.

كانت منهجية تحديد متوسط ​​مدة الإعاقة لدى مرضى التهابات الجهاز التنفسي الحادة كما يلي:

1. دعونا نبني سلسلة متغيرة مرجحة ، لأن تتكرر قيم المتغيرات الفردية عدة مرات. للقيام بذلك ، يمكنك ترتيب جميع الخيارات بترتيب تصاعدي أو تنازلي مع الترددات المقابلة لها.

في حالتنا ، الخيارات بترتيب تصاعدي.

2. احسب المتوسط ​​المرجح الحسابي باستخدام الصيغة: M = ∑Vp / n = 233/35 = 6.7 أيام

توزيع مرضى التهابات الجهاز التنفسي الحادة حسب مدة الإعاقة:

مدة العجز عن العمل (V) عدد المرضى (ع) vp
∑p = n = 35 ∑Vp = 233

استنتاج. وبلغ متوسط ​​مدة الإعاقة عند مرضى الجهاز التنفسي الحادة 6.7 أيام.

الوضع (Mo) هو المتغير الأكثر شيوعًا في سلسلة التنوعات. بالنسبة للتوزيع المعروض في الجدول ، يتوافق الوضع مع المتغير الذي يساوي 10 ، ويحدث في كثير من الأحيان أكثر من غيره - 6 مرات.

توزيع المرضى حسب مدة الإقامة في سرير المستشفى (بالأيام)

الخامس
ص

في بعض الأحيان يكون من الصعب تحديد القيمة الدقيقة للوضع ، حيث قد يكون هناك العديد من الملاحظات في البيانات التي تتم دراستها والتي تحدث "في أغلب الأحيان".

الوسيط (Me) هو مؤشر غير حدودي يقسم سلسلة التباين إلى نصفين متساويين: نفس العدد من الخيارات يقع على جانبي الوسيط.

على سبيل المثال ، بالنسبة للتوزيع الموضح في الجدول ، فإن الوسيط هو 10 لأن على جانبي هذه القيمة يقع في الخيار الرابع عشر ، أي الرقم 10 يحتل موقعًا مركزيًا في هذه السلسلة وهو متوسطها.

بالنظر إلى أن عدد الملاحظات في هذا المثال زوجي (ن = 34) ، يمكن تحديد الوسيط على النحو التالي:

أنا = 2 + 3 + 4 + 5 + 6 + 5 + 4 + 3 + 2/2 = 34/2 = 17

هذا يعني أن منتصف المتسلسلة يقع على الخيار السابع عشر ، والذي يتوافق مع وسيط 10. بالنسبة للتوزيع المعروض في الجدول ، يكون المتوسط ​​الحسابي هو:

M = ∑Vp / n = 334/34 = 10.1

لذلك ، لـ 34 ملاحظة من الجدول. 8 ، حصلنا على: Mo = 10 ، Me = 10 ، المتوسط ​​الحسابي (M) هو 10.1. في مثالنا ، تبين أن جميع المؤشرات الثلاثة متساوية أو قريبة من بعضها البعض ، على الرغم من اختلافها تمامًا.

المتوسط ​​الحسابي هو المجموع الناتج لجميع التأثيرات ؛ وتشارك جميع المتغيرات ، دون استثناء ، في تكوينه ، بما في ذلك المتغيرات المتطرفة ، وغالبًا ما تكون غير نمطية لظاهرة أو مجموعة معينة.

الوضع والوسيط ، على عكس المتوسط ​​الحسابي ، لا يعتمدان على قيمة جميع القيم الفردية للسمة المتغيرة (قيم المتغيرات المتطرفة ودرجة تشتت السلسلة). يميز المتوسط ​​الحسابي الكتلة الكاملة للملاحظات ، ويميز الأسلوب والوسيط الكتلة

دعنا نسمي قيم عينات مختلفة والخياراتسلسلة من القيم والدلالة: X 1 , X 2 ،…. بادئ ذي بدء ، لنفعل المدىالخيارات ، أي ترتيبها تصاعديًا أو تنازليًا. لكل خيار ، يشار إلى وزنه ، أي رقم يميز مساهمة هذا الخيار في إجمالي عدد السكان. الترددات أو الترددات تعمل كأوزان.

تكرار ن أنا اختيار س طيسمى رقمًا يوضح عدد مرات حدوث هذا الخيار في عينة السكان المدروسة.

التردد أو التردد النسبي ث أنا اختيار س طيتم استدعاء رقم يساوي نسبة تكرار متغير إلى مجموع ترددات جميع المتغيرات. يُظهر التكرار أي جزء من وحدات عينة السكان له متغير معين.

يسمى تسلسل الخيارات مع الأوزان المقابلة لها (الترددات أو الترددات) ، المكتوبة بترتيب تصاعدي (أو تنازلي) ، سلسلة متغيرة.

السلاسل المتغيرة منفصلة وفاصلة.

بالنسبة للسلسلة المتغيرة المنفصلة ، يتم تحديد قيم النقطة للسمة ، بالنسبة لسلسلة الفواصل الزمنية ، يتم تحديد قيم السمات في شكل فترات زمنية. يمكن أن تظهر سلسلة التباين توزيع الترددات أو الترددات النسبية (الترددات) ، اعتمادًا على القيمة المشار إليها لكل خيار - التردد أو التردد.

سلسلة التباين المنفصل لتوزيع التردديشبه:

تم العثور على الترددات بواسطة الصيغة ، أنا = 1 ، 2 ، ... ، م.

ث 1 +ث 2 + … + ثم = 1.

مثال 4.1. لمجموعة معينة من الأرقام

4, 6, 6, 3, 4, 9, 6, 4, 6, 6

بناء سلسلة متغيرة منفصلة من توزيعات التردد والتردد.

المحلول . حجم السكان هو ن= 10. سلسلة توزيع التردد المنفصلة لها الشكل

سلسلة الفاصل الزمني لها شكل مماثل من التسجيل.

سلسلة التباين الفاصل لتوزيع الترددمكتوب على النحو التالي:

مجموع كل الترددات يساوي العدد الإجمالي للملاحظات ، أي الحجم الكلي: ن = ن 1 +ن 2 + … + نم.

سلسلة التباين الفاصل لتوزيع الترددات النسبية (الترددات)يشبه:

يتم العثور على التردد بواسطة الصيغة ، i = 1 ، 2 ، ... ، م.

مجموع كل الترددات يساوي واحدًا: ث 1 +ث 2 + … + ثم = 1.

في أغلب الأحيان في الممارسة العملية ، يتم استخدام سلسلة الفواصل الزمنية. إذا كان هناك الكثير من بيانات العينة الإحصائية وتختلف قيمها عن بعضها البعض بمقدار صغير بشكل تعسفي ، فإن السلسلة المنفصلة لهذه البيانات ستكون مرهقة وغير مريحة لإجراء مزيد من البحث. في هذه الحالة ، يتم استخدام تجميع البيانات ، أي يتم تقسيم الفاصل الزمني الذي يحتوي على جميع قيم السمة إلى عدة فترات جزئية ، وبعد حساب التردد لكل فاصل ، يتم الحصول على سلسلة فاصلة. دعونا نكتب بمزيد من التفصيل مخطط إنشاء سلسلة فاصلة ، بافتراض أن أطوال الفترات الجزئية ستكون هي نفسها.

2.2 بناء سلسلة فاصلة

لإنشاء سلسلة فاصلة ، تحتاج إلى:

تحديد عدد الفترات ؛

تحديد طول الفترات ؛

حدد موقع الفواصل الزمنية على المحور.

لتحديد عدد الفترات ك هناك صيغة Sturges ، والتي بموجبها

,

أين ن- حجم المجموع.

على سبيل المثال ، إذا كان هناك 100 قيمة مميزة (متغير) ، فمن المستحسن أن تأخذ عدد الفترات المساوية للفترات الزمنية لإنشاء سلسلة فاصلة.

ومع ذلك ، في كثير من الأحيان في الممارسة العملية ، يتم اختيار عدد الفترات من قبل الباحث نفسه ، مع الأخذ في الاعتبار أن هذا الرقم لا ينبغي أن يكون كبيرًا جدًا ، بحيث لا تكون السلسلة مرهقة ، ولكنها أيضًا ليست صغيرة جدًا ، حتى لا تفقد بعض خصائص توزيع.

طول الفاصل ح يتم تحديده بالصيغة التالية:

,

أين xماكس و x min هي أكبر وأصغر قيم للخيارات ، على التوالي.

القيمة اتصل على نطاق واسعصف.

لبناء الفترات الزمنية نفسها ، فإنها تتقدم بطرق مختلفة. واحدة من أسهل الطرق هي كما يلي. تؤخذ القيمة على أنها بداية الفترة الأولى
. ثم يتم العثور على باقي حدود الفترات من خلال الصيغة. من الواضح ، نهاية الفترة الأخيرة أيجب أن يستوفي الشرط م + 1

بعد العثور على جميع حدود الفواصل الزمنية ، يتم تحديد الترددات (أو الترددات) لهذه الفواصل الزمنية. لحل هذه المشكلة ، يبحثون في جميع الخيارات ويحددون عدد الخيارات التي تقع في فترة زمنية معينة. سننظر في الإنشاء الكامل لسلسلة فاصلة باستخدام مثال.

مثال 4.2. بالنسبة للإحصاءات التالية ، المكتوبة بترتيب تصاعدي ، قم ببناء سلسلة فاصلة بعدد الفواصل الزمنية التي تساوي 5:

11, 12, 12, 14, 14, 15, 21, 21, 22, 23, 25, 38, 38, 39, 42, 42, 44, 45, 50, 50, 55, 56, 58, 60, 62, 63, 65, 68, 68, 68, 70, 75, 78, 78, 78, 78, 80, 80, 86, 88, 90, 91, 91, 91, 91, 91, 93, 93, 95, 96.

المحلول. المجموع ن= 50 قيمة متغيرة.

يتم تحديد عدد الفترات الزمنية في حالة المشكلة ، أي ك=5.

طول الفترات هو
.

دعنا نحدد حدود الفترات الزمنية:

أ 1 = 11 − 8,5 = 2,5; أ 2 = 2,5 + 17 = 19,5; أ 3 = 19,5 + 17 = 36,5;

أ 4 = 36,5 + 17 = 53,5; أ 5 = 53,5 + 17 = 70,5; أ 6 = 70,5 + 17 = 87,5;

أ 7 = 87,5 +17 = 104,5.

لتحديد تواتر الفواصل الزمنية ، نحسب عدد الخيارات التي تقع في هذا الفاصل الزمني. على سبيل المثال ، الخيارات 11 ، 12 ، 12 ، 14 ، 14 ، 15 تقع في الفاصل الزمني الأول من 2.5 إلى 19.5. عددهم هو 6 ، لذلك فإن تكرار الفترة الأولى هو ن 1 = 6. تردد الفاصل الزمني الأول هو . المتغيرات 21 ، 21 ، 22 ، 23 ، 25 ، وعددها 5 ، تقع في الفترة الثانية من 19.5 إلى 36.5. لذلك ، فإن تكرار الفترة الثانية هو ن 2 = 5 والتردد . بعد العثور بالمثل على الترددات والترددات لجميع الفواصل الزمنية ، نحصل على سلسلة الفواصل الزمنية التالية.

السلسلة الفاصلة لتوزيع التردد لها الشكل:

مجموع الترددات هو 6 + 5 + 9 + 11 + 8 + 11 = 50.

السلسلة الفاصلة لتوزيع التردد لها الشكل:

مجموع الترددات هو 0.12 + 0.1 + 0.18 + 0.22 + 0.16 + 0.22 = 1. ■

عند إنشاء سلسلة فاصلة ، اعتمادًا على الظروف المحددة للمشكلة قيد النظر ، يمكن تطبيق قواعد أخرى ، وهي

1. قد تتكون سلسلة تغير الفترات من فترات جزئية بأطوال مختلفة. تتيح الأطوال غير المتساوية للفترات إمكانية تحديد خصائص مجتمع إحصائي بتوزيع غير متساوٍ للميزة. على سبيل المثال ، إذا كانت حدود الفواصل الزمنية تحدد عدد السكان في المدن ، فمن المستحسن في هذه المشكلة استخدام فترات زمنية غير متساوية في الطول. من الواضح ، بالنسبة للمدن الصغيرة ، أن الاختلاف البسيط في عدد السكان مهم أيضًا ، وبالنسبة للمدن الكبيرة ، فإن الاختلاف بين عشرات ومئات السكان ليس مهمًا. تتم دراسة السلاسل الفاصلة ذات الأطوال غير المتكافئة للفترات الجزئية بشكل أساسي في النظرية العامة للإحصاء ويعتبر اعتبارها خارج نطاق هذا الدليل.

2. في الإحصاء الرياضي ، يتم النظر أحيانًا في سلسلة الفترات ، والتي يُفترض أن تكون الحد الأيسر للفاصل الزمني الأول ، والحد الأيمن للفاصل الأخير هو + ∞. يتم ذلك من أجل تقريب التوزيع الإحصائي من التوزيع النظري.

3. عند إنشاء سلسلة الفاصل الزمني ، قد يتضح أن قيمة بعض المتغيرات تتطابق تمامًا مع حدود الفاصل الزمني. أفضل ما يمكن فعله في هذه الحالة هو ما يلي. إذا كانت هناك مصادفة واحدة فقط ، فضع في اعتبارك أن المتغير قيد النظر بتردده يقع في الفاصل الزمني القريب من منتصف سلسلة الفاصل الزمني ، إذا كان هناك العديد من هذه المتغيرات ، فسيتم تعيين كل منهم على فترات زمنية ل على يمين هذه المتغيرات ، أو كلها على اليسار.

4. بعد تحديد عدد الفترات وطولها ، يمكن تحديد موقع الفترات بطريقة أخرى. أوجد الوسط الحسابي لجميع القيم المدروسة للخيارات Xراجع وبناء الفاصل الزمني الأول بحيث يكون متوسط ​​العينة هذا داخل فترة زمنية معينة. وبالتالي ، نحصل على الفاصل الزمني من Xراجع - 0.5 حقبل Xمتوسط ​​+ 0.5 ح. ثم اليسار واليمين ، بإضافة طول الفترة ، نبني الفترات المتبقية حتى xدقيقة و xماكس لن يقع في الفترتين الأولى والأخيرة ، على التوالي.

5. تتم كتابة سلسلة الفترات ذات عدد كبير من الفترات بشكل ملائم عموديًا ، أي سجل فترات ليس في السطر الأول ، ولكن في العمود الأول ، والترددات (أو الترددات) في العمود الثاني.

يمكن اعتبار بيانات العينة كقيم لبعض المتغيرات العشوائية X. المتغير العشوائي له قانون التوزيع الخاص به. من المعروف من نظرية الاحتمالات أن قانون توزيع المتغير العشوائي المنفصل يمكن تحديده كسلسلة توزيع ، ولسلسلة متصلة ، باستخدام دالة كثافة التوزيع. ومع ذلك ، هناك قانون توزيع عالمي ينطبق على كل من المتغيرات العشوائية المنفصلة والمستمرة. يتم إعطاء قانون التوزيع هذا كدالة توزيع F(x) = ص(X<x). بالنسبة لبيانات العينة ، يمكنك تحديد تماثلية لوظيفة التوزيع - دالة التوزيع التجريبية.

تسمى مجموعة من الأشياء أو الظواهر التي توحدها بعض السمات المشتركة أو الخاصية ذات الطبيعة النوعية أو الكمية موضوع المراقبة .

يتكون أي كائن من المراقبة الإحصائية من عناصر منفصلة - وحدات المراقبة .

نتائج الملاحظة الإحصائية هي معلومات عددية - بيانات . بيانات احصائية - هذه معلومات حول القيم التي اتخذتها السمة التي تهم الباحث في المجتمع الإحصائي.

إذا تم التعبير عن قيم الميزة كأرقام ، فسيتم استدعاء الميزة كمي .

إذا كانت الميزة تميز بعض الخصائص أو حالة عناصر السكان ، فسيتم استدعاء الميزة جودة .

إذا كانت جميع عناصر السكان خاضعة للدراسة (المراقبة المستمرة) ، فسيتم استدعاء المجتمع الإحصائي جنرال لواء.

إذا كان جزء من عناصر عامة السكان خاضعًا للبحث ، فسيتم استدعاء المجتمع الإحصائي انتقائي (انتقائي) . يتم سحب عينة من المجتمع بشكل عشوائي بحيث يكون لكل فرد من أفراد العينة n فرصة متساوية في الاختيار.

تتغير قيم السمة (تتباين) عند الانتقال من عنصر من السكان إلى عنصر آخر ، لذلك ، في الإحصائيات ، تُسمى أيضًا القيم المختلفة للسمة والخيارات . عادة ما يتم الإشارة إلى الخيارات بأحرف لاتينية صغيرة x ، y ، z.

يتم استدعاء الرقم الترتيبي للمتغير (القيمة المميزة) مرتبة . × 1 - الخيار الأول (القيمة الأولى للميزة) ، × 2 - الخيار الثاني (القيمة الثانية للميزة) ، الخيار × الأول - الخيار الأول (القيمة الأولى للميزة).

يتم استدعاء سلسلة من قيم السمات (الخيارات) مرتبة بترتيب تصاعدي أو تنازلي مع الأوزان المقابلة لها سلسلة التباين (سلسلة التوزيع).

كما مقاييس تظهر الترددات أو الترددات.

تكرار(م 1) يظهر عدد المرات التي يحدث فيها هذا المتغير أو ذاك (قيمة الميزة) في المجتمع الإحصائي.

التردد أو التردد النسبي(ث) يوضح نسبة الوحدات السكانية التي لها متغير واحد أو آخر. يتم حساب التردد على أنه نسبة تردد متغير واحد أو آخر إلى مجموع كل الترددات في السلسلة.

. (6.1)

مجموع كل الترددات هو 1.

. (6.2)

السلاسل المتغيرة منفصلة وفاصلة.

سلسلة الاختلافات المنفصلةعادة ما يتم بناؤها في حالة أن قيم الخاصية قيد الدراسة يمكن أن تختلف عن بعضها البعض من خلال بعض القيمة المحدودة على الأقل.

في السلاسل المتغيرة المنفصلة ، يتم تحديد قيم النقطة للمعلم.

يظهر العرض العام لسلسلة الاختلافات المنفصلة في الجدول 6.1.

الجدول 6.1

حيث أنا = 1 ، 2 ، ... ، ل.

في سلسلة تباين الفاصل الزمني في كل فترة زمنية ، يتم تمييز الحدود العليا والسفلى للفاصل الزمني.

يتم استدعاء الفرق بين الحدين العلوي والسفلي للفاصل الزمني فرق الفاصل أو طول (حجم) الفترة .

يتم تحديد قيمة الفاصل الزمني الأول k 1 بواسطة الصيغة:

ل 1 = أ 2 - أ 1 ؛

ثانيًا: ك 2 = أ 3 - أ 2 ؛ ...

الأخير: k l = ل - ل -1.

على العموم فرق الفاصل k i محسوب بالصيغة:

ك i \ u003d x i (حد أقصى) - x i (دقيقة). (6.3)

إذا كان الفاصل الزمني له كلا الحدين ، فسيتم استدعاؤه مغلق .

يمكن أن تكون الفترات الأولى والأخيرة افتح ، بمعنى آخر. لها حدود واحدة فقط.

على سبيل المثال ، يمكن تحديد الفترة الأولى على أنها "حتى 100" ، والثانية - "100-110" ، ... ، قبل الأخيرة - "190-200" ، والأخيرة - "200 وأكثر". من الواضح أن الفترة الأولى ليس لها حد أدنى ، والأخيرة ليس لها حد أعلى ، وكلاهما مفتوح.

في كثير من الأحيان يجب إغلاق الفترات المفتوحة بشروط. للقيام بذلك ، عادة ما يتم أخذ قيمة الفترة الأولى مساوية لقيمة الثانية ، وقيمة الأخير - قيمة الفترة قبل الأخيرة. في مثالنا ، قيمة الفترة الثانية هي 110-100 = 10 ، وبالتالي ، فإن الحد الأدنى للفترة الأولى سيكون مشروطًا 100-10 = 90 ؛ قيمة الفترة قبل الأخيرة هي 200-190 = 10 ، وبالتالي ، فإن الحد الأعلى للفاصل الأخير سيكون تقليديًا 200 + 10 = 210.

بالإضافة إلى ذلك ، يمكن أن تحدث فترات ذات أطوال مختلفة في سلسلة تباينات الفترات. إذا كانت الفواصل الزمنية في سلسلة التباينات لها نفس الطول (فرق الفاصل الزمني) ، فسيتم استدعاؤها متساوية في الحجم ، خلاف ذلك - غير متكافئ.

عند إنشاء سلسلة تباين الفاصل الزمني ، غالبًا ما تنشأ مشكلة اختيار حجم الفترات (فرق الفاصل الزمني).

لتحديد الحجم الأمثل للفترات الزمنية (في حالة إنشاء سلسلة بفواصل زمنية متساوية) ، قم بتطبيق صيغة Sturgess:

, (6.4)

حيث n هو عدد الوحدات السكانية ،

x (max) و x (min) - أكبر وأصغر قيم لمتغيرات السلسلة.

لتوصيف السلسلة المتغيرة ، إلى جانب الترددات والترددات ، يتم استخدام الترددات والترددات المتراكمة.

الترددات التراكمية (الترددات)أظهر عدد وحدات السكان (أي جزء منها) لا تتجاوز قيمة معينة (خيار) x.

الترددات المتراكمة ( السادس) وفقًا لبيانات السلاسل المنفصلة ، يمكن حسابها باستخدام الصيغة التالية:

. (6.5)

بالنسبة لسلسلة تغير الفاصل الزمني ، هذا هو مجموع الترددات (الترددات) لجميع الفواصل الزمنية التي لا تتجاوز هذا.

يمكن تمثيل سلسلة المتغيرات المنفصلة بيانياً باستخدام توزيع مضلع للترددات أو الترددات.

عند إنشاء مضلع توزيع ، يتم رسم قيم السمة (الخيارات) على طول محور الإحداثي ، ويتم رسم الترددات أو الترددات على طول المحور الإحداثي. عند تقاطع القيم المميزة والترددات المقابلة لها (الترددات) ، يتم رسم النقاط ، والتي بدورها متصلة بواسطة مقاطع. يسمى الخط المكسور الذي تم الحصول عليه مضلع توزيع الترددات (الترددات).

س ك
x2
× 1 × ط


أرز. 6.1

يمكن تمثيل سلسلة الفواصل المتغيرة بيانياً باستخدام الرسوم البيانية، بمعنى آخر. شريط الرسم البياني.

عند إنشاء مدرج تكراري على طول الإحداثي ، يتم رسم قيم السمة المدروسة (حدود الفاصل الزمني).

في حالة أن الفواصل الزمنية من نفس الحجم ، يمكن رسم الترددات أو الترددات على طول المحور ص.

إذا كانت الفواصل الزمنية تحتوي على قيم مختلفة ، فمن الضروري رسم قيم كثافة التوزيع المطلقة أو النسبية على طول المحور ص.

الكثافة المطلقة- نسبة تواتر الفاصل الزمني إلى حجم الفاصل الزمني:

; (6.6)

حيث: f (a) i - الكثافة المطلقة للفاصل i ؛

م أنا - تردد الفاصل الزمني أنا ؛

k i - قيمة الفاصل الزمني i (فرق الفاصل).

توضح الكثافة المطلقة عدد الوحدات السكانية لكل فاصل وحدة.

الكثافة النسبية- نسبة تواتر الفاصل الزمني إلى حجم الفاصل الزمني:

; (6.7)

حيث: f (o) i - الكثافة النسبية للفاصل i ؛

w i - تردد الفاصل الزمني i.

تُظهر الكثافة النسبية أي جزء من الوحدات السكانية يقع على الوحدة الفاصلة.

ل
أ 1 × ط
أ 2

يمكن تمثيل كل من سلسلتي التباين المنفصل والفاصل الزمني بيانياً على شكل تراكمي وغرامي.

عند البناء يتراكموفقًا لبيانات السلاسل المنفصلة ، يُظهر الإحداثي قيم السمة (الخيارات) ، ويُظهر الإحداثي الترددات أو الترددات المتراكمة. عند تقاطع قيم الميزة (الخيارات) والترددات المتراكمة (الترددات) المقابلة لها ، تُبنى النقاط ، والتي ترتبط بدورها بمقاطع أو منحنى. يسمى الخط المكسور (المنحنى) الذي تم الحصول عليه بهذه الطريقة بالمنحنى التراكمي (المنحنى التراكمي).

عند إنشاء التراكم وفقًا لبيانات سلسلة الفترات ، يتم رسم حدود الفترات على طول الإحداثي. حدود النقاط هي الحدود العليا للفترات الزمنية. تشكل الإحداثيات الترددات المتراكمة (الترددات) للفترات المقابلة. غالبًا ما يتم إضافة نقطة أخرى ، يكون الحد الأقصى لها هو الحد الأدنى للفترة الأولى ، ويكون الإحداثي صفرًا. من خلال ربط النقاط بمقاطع أو منحنى ، نحصل على التراكم.

أوجيفاتم تصميمه بشكل مشابه للتراكم مع الاختلاف الوحيد هو أن النقاط المقابلة للترددات المتراكمة (الترددات) يتم رسمها على محور الإحداثي ، ويتم رسم القيم المميزة (الخيارات) على طول المحور الإحداثي.

عند معالجة كميات كبيرة من المعلومات ، وهو أمر مهم بشكل خاص عند إجراء التطورات العلمية الحديثة ، يواجه الباحث المهمة الجادة المتمثلة في تجميع البيانات الأولية بشكل صحيح. إذا كانت البيانات منفصلة ، إذًا ، كما رأينا ، لا توجد مشاكل - ما عليك سوى حساب تكرار كل ميزة. إذا كانت السمة قيد الدراسة مستمر(وهو أكثر شيوعًا في الممارسة) ، فإن اختيار العدد الأمثل للفترات الزمنية لتجميع ميزة ما ليس بأي حال من الأحوال مهمة تافهة.

لتجميع المتغيرات العشوائية المستمرة ، يتم تقسيم نطاق التباين الكامل للميزة إلى عدد معين من الفواصل الزمنية إلى.

الفاصل الزمني المجمع (مستمر) سلسلة متغيرةتسمى فترات مرتبة حسب قيمة الميزة () ، حيث يشار إليها مع الترددات المقابلة () عدد الملاحظات التي تقع في الفترة r "th ، أو الترددات النسبية ():

فترات القيمة المميزة

تردد مي

شريط الرسم البيانيو تراكم (ogiva) ،تمت مناقشته بالفعل بالتفصيل من قبلنا ، وهي أداة ممتازة لتصور البيانات تتيح لك الحصول على فهم أساسي لهيكل البيانات. تم تصميم هذه الرسوم البيانية (الشكل 1.15) للبيانات المستمرة بنفس الطريقة المتبعة في البيانات المنفصلة ، مع الأخذ في الاعتبار فقط حقيقة أن البيانات المستمرة تملأ منطقة قيمها المحتملة بالكامل ، مع الأخذ في الاعتبار أي قيم.

أرز. 1.15.

لهذا يجب أن تكون الأعمدة الموجودة في المدرج التكراري والتراكم على اتصال ، ولا تحتوي على مناطق لا تقع فيها قيم السمات ضمن كل ما هو ممكن(على سبيل المثال ، الرسم البياني والتراكم لا ينبغي أن يكون لهما "ثقوب" على طول محور الإحداثي ، حيث لا تقع قيم المتغير قيد الدراسة ، كما في الشكل 1.16). يتوافق ارتفاع الشريط مع التردد - عدد الملاحظات التي تقع في الفاصل الزمني المحدد ، أو التردد النسبي - نسبة الملاحظات. فترات لا يجب عبورهوعادة ما تكون بنفس العرض.

أرز. 1.16.

الرسم البياني والمضلع عبارة عن تقديرات تقريبية لمنحنى كثافة الاحتمال (دالة تفاضلية) و (خ)التوزيع النظري ، في سياق نظرية الاحتمالات. لذلك ، فإن بنائها له أهمية كبيرة في المعالجة الإحصائية الأولية للبيانات الكمية المستمرة - من خلال شكلها يمكن للمرء أن يحكم على قانون التوزيع الافتراضي.

تراكم - منحنى الترددات المتراكمة (الترددات) لسلسلة تغير الفاصل الزمني. تتم مقارنة الرسم البياني لدالة التوزيع المتكاملة بالتراكم و (س)، أيضًا في سياق نظرية الاحتمالات.

بشكل أساسي ، ترتبط مفاهيم المدرج التكراري والتراكم بدقة بالبيانات المستمرة وسلسلة تباين الفترات ، نظرًا لأن الرسوم البيانية الخاصة بها عبارة عن تقديرات تجريبية لوظيفة كثافة الاحتمال ووظيفة التوزيع ، على التوالي.

يبدأ إنشاء سلسلة تباينات الفاصل الزمني بتحديد عدد الفواصل الزمنية ك.ولعل هذه المهمة هي الأكثر صعوبة وأهمية وإثارة للجدل في الموضوع قيد الدراسة.

يجب ألا يكون عدد الفواصل الزمنية صغيرًا جدًا ، لأن المدرج التكراري سيكون سلسًا جدًا ( مفرط النعومة) ،يفقد جميع ميزات التباين في البيانات الأولية - في الشكل. 1.17 يمكنك أن ترى كيف أن نفس البيانات التي عليها رسوم بيانية الشكل. يتم استخدام 1.15 لإنشاء مدرج تكراري مع عدد أقل من الفواصل (الرسم البياني الأيسر).

في الوقت نفسه ، يجب ألا يكون عدد الفواصل الزمنية كبيرًا جدًا - وإلا فلن نتمكن من تقدير كثافة توزيع البيانات قيد الدراسة على طول المحور العددي: سيتحول المدرج التكراري إلى مستوى منخفض (سفلي)ذات فترات شاغرة ، غير متساوية (انظر الشكل 1.17 ، الرسم البياني الأيمن).

أرز. 1.17

كيف تحدد أكثر عدد من الفترات المفضلة؟

في عام 1926 ، اقترح هربرت ستورجيس صيغة لحساب عدد الفترات التي يلزم فيها تقسيم المجموعة الأولية من القيم للسمة المدروسة. أصبحت هذه الصيغة حقًا شائعة جدًا - توفرها معظم الكتب المدرسية الإحصائية ، وتستخدمها العديد من الحزم الإحصائية افتراضيًا. ما إذا كان هذا مبررًا وفي جميع الأحوال هو سؤال خطير للغاية.

إذن ما الذي تستند إليه صيغة Sturges؟

ضع في اعتبارك التوزيع ذي الحدين)

المنشورات ذات الصلة