Урок №10. Основи статистичного аналізу даних. Ряди даних. Обчислення основних статистичних характеристик вибірки.


Основи статистичного аналізу даних. Ряди даних

    Статистика - (лат status — стан) наука, що вивчає методи отримання, опрацювання й аналізу даних, які характеризують масові явища.

    1. Етапи статистичних досліджень
        1. Статистичні спостереження.
        2. Первинне узагальнення і групування статистичних даних.
        3. Оцінка об'єкта аналізу.
        4. Комп'ютерний аналіз первинних і узагальнених розширених статистичних даних.
        5. Комп'ютерне прогнозування за обраними найбільш важливими напрямками.
        6. Узагальнений аналіз отриманих результатів та перевірка їх на достовірність за статистичними критеріями.

    2. Ряди даних
    Для аналізу створюють певну вибірку об’єктів дослідження, тобто з усієї множини об’єктів дослідження відбирають певну кількість і на ній проводять дослідження. 
    Вибірка (або вибіркова сукупність) — це множина об’єктів, за допомогою певної процедури вибраних із генеральної сукупності для участі в дослідженні. 
    Варіанта - значення величини у вибірці.
    Чим більше така вибірка, тим точніше буде проведено аналіз і зроблено відповідні висновки. Тобто вибірка повинна бути масовою.
    Вибірка даних має бути репрезентативною (франц representatif — показовий, характерний, типовий). Дані, отримані з дослідженої вибірки, найчастіше заносять у таблицю. Така форма подання даних з вибірки зручна для їх аналізу та прогнозів. Дані з кожного рядка
і стовпця такої таблиці утворюють 
ряди даних.
    Наведемо кілька прикладів вибірок і рядів даних.
    У таблиці подано результати виступів команди учнівства України на міжнародних олімпіадах з інформатики з 2005 по 2017 рік. Тут вибіркою є вказані в таблиці роки, а рядами даних — загальна кількість медалей у ці роки, а також кількість золотих, срібних і бронзових медалей у вказані роки.

Таблиця
Результати виступу команди учнівства України на міжнародних
олімпіадах з інформатики за 2005–2017 роки


    Упорядкований розподіл одиниць сукупності на групи за кількісною ознакою називають варіаційним рядом. Побудувати варіаційний ряд - означає упорядкувати кількісний розподіл одиниць сукупності за значеннями ознаки, а потім підрахувати число одиниць сукупності з цими значеннями (побудувати групову таблицю).
    Варіаційні ряди бувають: дискретними та інтервальними.

    3. Дискретний варіаційний ряд
    Дискретний ряд - це такий варіаційний ряд, в основу побудови якого покладено ознаки з переривчастою зміною (дискретні ознаки). До останніх можна віднести тарифний розряд, кількість дітей в сім'ї, число працівників на підприємстві і т.д. Ці ознаки можуть приймати лише кінцеве число певних значень.
    
Дискретний варіаційний ряд являє таблицю, яка складається з двох граф. У першій графі вказується конкретне значення ознаки, а в другій - число одиниць сукупності з певним значенням ознаки.
    
    Приклад:
    Є список оцінок, отриманих студентами на іспитах: 3; 4; 3; 5; 4; 2; 2; 4; 4; 3; 5; 2; 4; 5; 4; 3; 4; 3; 3; 4; 4; 2; 2; 5; 5; 4; 5; 2; 3; 4; 4; 3; 4; 5; 2; 5; 5; 4; 3; 3; 4; 2; 4; 4; 5; 4; 3; 5; 3; 5; 4; 4; 5; 4; 4; 5; 4; 5; 5; 5.
    Побудувати дискретний варіаційний ряд.
Розв'язання:
    1) Впорядкуємо одиниці спостереження за зростанням досліджуваного значення ознаки:
2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.
    2) Визначимо всі можливі значення ознаки xi, впорядкуємо їх за зростанням:
    У даному прикладі всі оцінки можна розділити на чотири групи з наступними значеннями: 2; 3; 4; 5.
    
3) Підрахуємо скільки разів зустрічається кожне значення ознаки у досліджуваній сукупності, тобто визначимо частоту кожного значення ознаки fi.
    Частота - число, що показує, скільки разів зустрічається кожна варіанта.
    Відносна частота - відношення частоти випадків даного значення до загальної суми частот.    
    Сума всіх частот ряду дорівнює кількості елементів у досліджуваній сукупності.
    
    Для нашого прикладу:
        - оцінка 2 зустрічається - 8 разів,
        - оцінка 3 зустрічається - 12 разів,
        - оцінка 4 зустрічається - 23 рази,
        - оцінка 5 зустрічається - 17 разів.
    Всього 60 оцінок.
    4) Запишемо отримані дані в таблицю з двох рядків (стовпців) - xі і fi.
    На підставі цих даних побудуємо дискретний варіаційний ряд:


    З метою створення візуального відображення статистичної інформації користуються різними графіками. Найпоширеніші види графічного ві­дображення статистичної інформації — полі­гони частот. Графічне зображення варіацій­них рядів за допомогою полігона допомагає отримати наочне уявлення про зако­номірності про можливі зміни спостережуваних значень.
    Полігон, як правило, використовують для відображення 
дискретного варіаційного ряду.
    
    Приклад:
    Навчальні досягнення учнів деякого класу з інформатики характеризуються даними, наведеними у таблиці:

  Кількість балів x  
 
 
 
 
 
 
 
 
 
 10 
 11 
 12 
  Число учнів n  
 
 
 
 
 
 
 
 
 
 
 
 
    Побудувати полігон частот.

Розв'язання:
    Будуємо точки, спираючись на дані з таблиці. Отримані точки з'єднуємо відрізками. Зверніть увагу на точки (0; 0) та (13; 0), що розташовані на осі абсцис і мають своїми абсциссами числа, на одиницю менше та більше, ніж відповідно абсциси найлівішої та найправішої точок. Полігон частот виглядатиме наступним чином:


    4. Інтервальний варіаційний ряд
    Якщо ознака має безперервну зміну (розмір доходу, стаж роботи, вартість основних фондів підприємства і т.д., які в певних межах можуть приймати будь-які значення), то для цієї ознаки потрібно будувати інтервальний варіаційний ряд.
    Групова таблиця тут також має дві графи. У першій вказується значення ознаки в інтервалі «від - до» (варіанти), у другій - число одиниць, що входять до інтервалу (частота).
    Частота - число повторень окремого випадку значень ознаки, позначається fi, а сума частот, що дорівнює обсягу досліджуваної сукупності, позначається
,

де k - число варіантів значень вибірки.

    Алгоритм побудови інтервального варіаційного ряду:
    1) визначити кількість інтервалів для побудови інтервального варіаційного ряду;
    2) знайти ширину інтервалу (крок) 
h = (xmax - xmin) / kде k - число варіантів значень вибірки;
    3) визначити межі кожного інтервалу в порядку зростання;
    4) підрахувати число даних, що потрапили в кожний з інтервалів.

    Приклад:
    За результатами аналізу вугілля, відібраного безповторним відбором, отримані наступні результати щодо його зольності : 18, 16, 18, 21, 19, 17, 18, 21, 14, 18, 16, 12, 19, 23, 17, 18, 15, 20, 19, 17, 21, 16, 20, 13, 19, 14, 20, 15,18, 20, 17, 19, 16, 18, 13, 15, 17, 24, 16, 14.
    Необхідно побудувати інтервальний варіаційний ряд, поділивши дані на шість рівних інтервалів.

Розв'язання:
    1) k = 6;
    2) h = (24 - 12) / 6 = 2;
    3) 12 - 14
        14 - 16
        16 - 18
        18 - 20
        20 - 22
        22 - 24
    4) 6; 11; 17; 16; 7; 2.
Обчислення основних статистичних характеристик вибірки

    Розглянемо деякі статистичні характеристики вибірки: середнє арифметичнестандартне відхиленнямода і медіана.
    
    1. Середнє арифметичне
    Ви знаєте, що середнім арифметичним чисел називається сума цих чисел, поді 
лена на число n.
    Так, можна знайти середнє арифметичне врожайності соняшнику в Україні за  
2006–2015 роки, використовуючи, наприклад, табличний процесор. 


Мал. Обчислення середньої врожайності соняшнику за 2006–2015 роки

    Для обчислення середнього арифметичного в табличному процесорі можна використати відому вам функцію AVERAGE (англ. average— середній). Нагадаємо, що аргумен тами цієї функції може бути діапазон клі тинок, список клітинок, а також їх комбінації, наприкладAVERAGE (B2:D5; F4;  E7). На малюнку було наведено приклад обчислення середньої врожайності соняшнику за 2006–2015 роки і формулу для її обчислення =AVERAGE (С3:С12).
    Обчислене в наведеному прикладі середнє арифметичне визначає, яка б була врожайність кожного року (1,67 т/га), 
 якщо вона щороку була б однаковою. Аналогічно середнє арифметичне будь-якого ряду даних визначає, які б були значення у цьому ряді, якщо б вони всі були однакові.
    Зазначимо, що не для всіх рядів даних середнє арифметичне є показовою характеристикою самого цього ряду. Наприклад, для ряду даних 2,5; 2,8; 2,3; 2,55; 2,47, у якому дані незначно відрізняються одне від одного, середнє арифметичне дорівнює 2,524, що незначно відрізняється від усіх членів цього ряду, а значить, достатньо показово характеризує весь цей ряд даних. А для ряду 4,7; 6,2; 5,1; 12,4; 14,1, у якому дані значно відрізняються одне від одного, середнє арифметичне дорівнює 8,5, що значно відрізняється від усіх членів цього ряду, а значить, недостатньо показово характеризує весь цей ряд даних.

    
    2. Стандартне відхилення
    Для визначення, наскільки показово середнє арифметичне ряду даних характеризує весь ряд даних, можна використати таку характеристику ряду даних, як стандартне відхилення. Стандартне відхилення характеризує, наскільки широко розташовані значення ряду даних відносно їх середнього арифметичного.
    Стандартне відхилення обчислюється за формулою:
    де x1, x2, ..., xn — члени ряду даних, а x0 — середнє арифметичне цього ряду даних
    Для першого з вищенаведених двох прикладів рядів даних стандартне відхилення дорівнює:

а для другого:

    Очевидно, що середнє арифметичне першого ряду даних менше відрізняється від усіх членів ряду даних, а значить, більш показово характеризує весь цей ряд даних. А середнє арифметичне другого ряду даних більше відрізняється від усіх членів ряду даних, а значить, менш показово характеризує весь цей ряд даних.
    Автоматизувати обчислення стандартного відхилення в табличному процесорі можна, використавши функцію STDEV.P (англ. standard deviation — стандартне відхилення) (для версії нижче 2010 — STDEVP).


Мал. Обчислення стандартного відхилення в табличному процесорі

    3. Мода    
    Ще однією характеристикою ряду даних є мода.
    Мода — це значення в ряді даних, яке повторюється найчастіше. Таке значення є показовим, наприклад, під час дослідження цін на ринку (ціна, яка трапляється найчастіше), під час дослідження попиту взуття, одягу (розміри, які купують найбільше) та ін
    У розглянутому вище прикладі мода кількостей медалей, які вибороло учнівство України на міжнародних олімпіадах з інформатики за 2005–2017 роки, дорівнює 4 (тому що найчастіше в ці роки команда нашої країни завойовувала 4 медалі), мода кількостей золотих медалей — 0, мода кількостей срібних медалей — 1, мода кількостей бронзових медалей — 2.
    Якщо в ряді даних два або більше значень повторюються найбільшу кількість разів, то кожне з них вважається модою ряда даних Так, наприклад, у ряді даних 2, 3, 3, 2, 1 модою є і число 2, і число 3.
    У табличному процесорі є спеціальна функція для обчислення моди ряду даних, якщо вона одна — MODE.SNGL (англ. mode single — мода одинарна) (для версії Excel нижче 2010 і для LibreOffice Calc — MODE) Аргументами цієї функції може бути діапазон клітинок, список клітинок, а також їх комбінації, наприклад MODE.SNGL (B2:D5; F4; E7).
    На малюнку наведено приклад обчислення моди для кількостей завойованих медалей і формула для її обчислення: =MODE.SNGL (Е6:Е17).


    3. Медіана
    Розглянемо ще одну характеристику ряду даних — медіану.
    
Медіаною впорядкованого ряду даних називається значення, яке поділяє ряд даних на дві рівні частини, тобто зліва і справа від цього значення знаходиться однакова кількість членів упорядкованого ряду даних.
    Якщо у впорядкованому ряді даних непарна кількість членів, то медіана такого ряду даних дорівнює значенню його середнього члена, а якщо в такому ряді даних парна кількість членів, то його медіана обчислюється як середнє арифметичне значень двох середніх членів.
    Наприклад, для ряду даних 2; 3; 5; 6; 7 медіана дорівнює 5, для ряду даних 2; 3; 5; 6: 7; 9 медіана дорівнює (5 + 6) : 2 = 5,5, а для ряду даних 2; 2; 4; 4; 4; 5; 6 медіана дорівнює 4.
    Медіана використовується, наприклад, для визначення місця побудови шкіл, дитячих садочків, магазинів, підприємств побуту тощо Потрібно визначити ряд відстаней, які слід подолати мешканцям певної місцевості до цього закладу, і побудувати його в точці, яка визначається медіаною цього ряду.
    У табличному процесорі є спеціальна функція для обчислення медіани ряду даних — 
MEDIAN (англ. median — середній). Аргументами цієї функції може бути діапазон клітинок, список клітинок, а також їх комбінації, наприклад MEDIAN(B2:D5; F4; E7).
    На малюнку наведено приклад обчислення медіани ряду даних урожайності соняшнику з використанням табличного процесора за формулою =MEDIAN(С3:С12).


    Звертаємо вашу увагу, що в електронній таблиці для знаходження медіани ряд даних не обов’язково має бути впорядкований. Табличний процесор спочатку впорядковує ряд даних, а потім визначає його медіану.


    Зазначимо, що коли члени ряду даних незначно відрізняються одне від одного, то і середнє арифметичне, і медіана більш показово характеризують весь цей ряд. А якщо члени ряду даних значно відрізняються одне від одного, то медіана більш показово характеризує весь цей ряд даних, ніж середнє арифметичне.


Коментарі