МЕТОДИКА ПРОВЕДЕНИЯ ПРАКТИЧЕСКИХ ЗАНЯТИЙ ПО МАТЕМАТИЧЕСКОЙ СТАТИСТИКЕ С ИСПОЛЬЗОВАНИЕМ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ

Обложка

Цитировать

Полный текст

Аннотация

В статье демонстрируется содержание методики проведения занятий в компьютерном классе на примере статистического анализа цены доллара США в рублях в течение марта 2017 года с использованием программы Microsoft Excel. Этот анализ позволяет от традиционных данных, определяющих динамику цены доллара в зависимости от даты дня данного месяца, выявить дни месяца, в которые цена доллара группируется относительно средней цены доллара, а также выявить так называемые редкие дни, в которые цена доллара сильно отличается от средней как в сторону ее уменьшения, так и увеличения.

Полный текст

В ряде институтов Московского городского педагогического университета (МГПУ) ведется обучение по таким учебным дисциплинам, как «Статистика», «Математическая статистка». Традиционная методика ведения этих дисциплин формируется из лекций и практических занятий. При этом на лекциях излагаются теоретические знания, а на практических занятиях осваиваются навыки обработки статистических данных на основе полученных теоретических знаний. Статистические данные, такие как численность населения, распределение групп населения по возрастным признакам, курсы валют, цены на нефть и на газ и их влияние на социальные аспекты общества и многие другие можно найти в сети Интернет. Очевидно, что такие объемы данных нельзя обрабатывать с помощью простейших вычислительных устройств, что обычно делается на практических занятиях. Современные вычислительные системы позволяют производить обработку больших массивов данных в течение небольших промежутков времени. Именно поэтому, на кафедре информатизации образования МГПУ практические занятия по циклу математических дисциплин заменены занятиями в компьютерном классе. Опыт проведения таких занятий показал, что в запланированные часы в компьютерном классе удается решать более трудные задачи и в большем объеме. При этом на занятиях в компьютерном классе обучаемые осваивают не только математические навыки, но и навыки работы с информационными технологиями. Опыт проведения занятий в компьютерном классе также показал, что в качестве информационных систем лучше всего выбирать общедоступный программный продукт. В качестве такого авторами выбрана программа Microsoft Excel. В данной работе, содержание одного из занятий в компьютерном классе демонстрируется на примере обработки данных курса доллара США с помощью программы Microsoft Excel. Данные по курсу валют регулярно помещаются на сайте Центрального банка России. Анализ этих данных осуществляется построением графиков, определяющих зависимость цены в рублях или иной валюты от даты дня данного месяца и года. В качестве примера воспользуемся данными Центрального банка, определяющими изменение цены доллара США в рублях (курс доллара) в течение марта в 2017 году (табл. 1, рис. 1). Таблица 1 Колебание цены доллара в течение марта 2017 года Дата Курс, руб. Дата Курс, руб. 01.03.2017 57,96 16.03.2017 59,11 02.03.2017 58,38 17.03.2017 58,24 03.03.2017 58,41 18.03.2017 57,93 04.03.2017 58,91 19.03.2017 57,93 05.03.2017 58,91 20.03.2017 57,93 06.03.2017 58,91 21.03.2017 57,28 07.03.2017 58,34 22.03.2017 57,23 08.03.2017 58,26 23.03.2017 57,64 09.03.2017 58,26 24.03.2017 57,52 10.03.2017 58,83 25.03.2017 57,42 11.03.2017 59,22 26.03.2017 57,42 12.03.2017 59,22 27.03.2017 57,42 13.03.2017 59,22 28.03.2017 57,02 14.03.2017 59,13 29.03.2017 56,94 15.03.2017 58,95 30.03.2017 57,02 31.03.2017 56,38 Цена, руб. 59,50 59,00 58,50 58,00 57,50 57,00 56,50 56,00 1 3 5 7 9 1113151719212325272931 Дата Рис. 1. Характер изменения цены доллара в течение марта 2017 года Вид графика свидетельствует только о том, что изменение цены доллара имеет немонотонный характер. Этой информации недостаточно, чтобы выявить экономические и политические причины немонотонности, а также определиться с днями, когда Центральному банку выгодно покупать или продавать доллар на валютном рынке. Для ответа на поставленные вопросы проиллюстрируем на данном примере технологию статистического анализа характера изменения цены доллара. Эта технология впервые предложена в работе [1]. Следуя указанной технологии введем переменную x в качестве цены доллара в рублях. Согласно данным таблицы 1 эта переменная изменяется от минимального значения x min до максимального - x max . В рассматриваемом случае эти значения таковы: x max = 59,22, x min = 56,38. Эти предельные цены доллара определяют диапазон изменения цены в течении данного месяца. В математической статистике указанный диапазон разделяют на определенное количество интервалов и подсчитывают количество дней из таблицы 1, которые попадают в каждый из интервалов цены доллара. Далее, для определения частоты, как количества дней, попадающих в определенный интервал, делят указанное число дней на число дней данного месяца. Определенных правил для выбора количества интервалов n нет, но опыт расчетов в работе [1] позволяет выбирать n = 8. Теперь значение интервала h, как более мелкий диапазон цен доллара, будем вычислять по формуле: Для данных таблицы 1 оказалось, что h = 0,35. Произведем нумерацию интервалов символом z i , где i = 1,8. Чтобы определить число значений x, попадающих в тот или иной интервал, необходимо определить границы рассматриваемых интервалов. Для этого через символ y i будем обозначать левую границу z i интервала, а через y i+1 , обозначаем правую границу того же интервала. При этом очевидна формула Количество дней, попадающих в интервал y i - y i+1 , характеризуется различными, но, ввиду малости величины h, близкими значениями x, определяющими цену доллара в рублях. В математической статистике таким близким числам x, заключенными в интервале y i - y i+1 ставится в соответствие так называемое статистическое число x i , определяемое формулой Обозначим через n i число дней, попадающих в интервал y i - y i+1 , а через Σ n i - количество дней данного месяца; тогда можно определить относительную частоту p i как величину Заметим, что статистическое число x i в математической статистике называется вариантой. Формулы (3) и (4) определяют ряд распределения статистической величины x i в виде функциональной зависимости p i = p i (x i ), либо p i = p i (z i ). Ряд распределения p i = p i (x i ) характеризуется математическим ожиданием и средним квадратическим отклонением Результаты расчетов по формулам (1)-(6), полученные с помощью программы Excel, иллюстрирует таблица 2. Таблица 2 Числовые характеристики ряда распределения p i = p i (x i ) ABCDEF G H 1 z i y i y i+1 x i n i p i x i · p i p i (x i - x) 2 2 1 56,38 56,73 56,56 1 0,0323 1,8244 0,0759 3 2 56,73 57,09 56,91 3 0,0968 5,5074 0,1347 4 3 57,09 57,44 57,27 5 0,1613 9,2363 0,1096 5 4 57,44 57,80 57,62 2 0,0645 3,7174 0,0142 6 5 57,80 58,15 57,98 4 0,1290 7,4807 0,0017 7 6 58,15 58,51 58,33 6 0,1935 11,2897 0,0112 8 7 58,51 58,86 58,68 1 0,0323 1,8931 0,0114 9 8 58,86 59,22 59,04 9 0,2903 17,1406 0,2622 10 31 1 58,09 0,79 В последних строках столбцов G и H данной таблицы приведены значения x = 58,09 и σ = 0,79. Напомним, что математическое ожидание x во многих случаях совпадает со средним арифметическим. Столбцы F и D таблицы 2 определяют дискретную функцию p i = p i (x i ). Инструменты программы Excel позволяют построить график этой функции. Для этого необходимо воспользоваться кнопкой «График» панели инструментов «Диаграммы», которая находится во вкладке «Вставка». Такого рода график называют многоугольником распределения статистической величины x i (рис. 2). Однако в математической статистике оперируют не частотами p i , а плотностью вероятности статистической величины Рис. 2. Многоугольник распределения курса доллара за март 2017 года, руб. В нашем случае принимаем h = 0,35, хотя по расчетам (см. табл. 2) значение Δx колеблется между числами 0,35 и 0,36. Величину f(x), вычисляемую по формуле (7), будем называть опытной величиной и назовем f(x i ) (табл. 3). В математической статистике имеет место задача о сглаживании статистического ряда. Сущность этой задачи сводится к подбору теоретической кривой распределения, которая хорошо описывает опытную кривую f(x i ). Как правило, в качестве такой кривой используется кривая нормального распределения, полученная Лапласом и независимо от него Гауссом при статистическом анализе теории ошибок. Эта кривая определяется следующей формулой где x - математическое ожидание; σ - среднее квадратичное отклонение. Таблица 3 Плотность вероятности случайной величины AB C D E F 1 z i x i p i f(x i ) = p i /hf(x) χ 2 2 1 56,56 0,0323 0,0909 0,0761 0,0024 3 2 56,91 0,0968 0,2727 0,1652 0,0423 4 3 57,27 0,1613 0,4544 0,2930 0,0574 5 4 57,62 0,0645 0,1818 0,4241 0,3230 6 5 57,98 0,1290 0,3635 0,5011 0,0521 7 6 58,33 0,1935 0,5453 0,4834 0,0070 8 7 58,68 0,0323 0,0909 0,3807 0,9240 9 8 59,04 0,2903 0,8180 0,2447 0,4017 10 1,8099 При решении указанной задачи величины x и σ берутся из опытной статистической сводки, после чего по формуле (8) рассчитывается f(x). В рассматриваемом случае x = 58,09 и σ = 0,79, при этих данных результаты расчета f(x) по выражению (8) представлены в таблице 3 (столбец Е листа Excel). Кривая f(x) симметрична относительно точки x = x на оси абсцисс, и эта точка обладает максимальной вероятностью. Анализ кривой f(x) показывает, что она имеет две точки перегиба, координаты которых на оси абсцисс суть x = x ± σ. Из этого анализа следует, что на отрезке находятся величины x, частоты которых группируются около максимальной частоты. Длина этого отрезка равна 2σ, и здесь сосредоточены часто встречающиеся величины x. Отрезки же суть области малых частот или области редких событий. Рисунок 3, построенный по данным таблицы 2, иллюстрирует форму кривых f(x) и f(x i ). Существенное отличие этих кривых заключается в том, что ломанная f(x i ) не позволяет выделение трех указанных отрезков, т.е. области большой частоты и двух областей малых частот. 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 56,56 56,91 57,27 57,62 57,98 58,33 58,68 59,04 Опытная кривая f(x i ) Кривая Лапласа-Гаусса f(x) Плотность вероятности x i Рис. 3. Графики опытной и гауссовской кривых курса доллара, руб. Для количественной оценки различия кривых f(x) и f(x i ) воспользуемся известным критерием Пирсона («критерий χ 2 ») Смысл этого критерия состоит в том, что χ 2 = 0, если f(x) = f(x i ); в противном случае χ 2 > 0. Малые же значения χ 2 означают приемлемую близость функций f(x) и f(x i ). Результаты расчетов χ 2 по формуле (9) приведены в таблице 3, из которой также следует, что χ 2 = 1,8099. Следовательно, функция f(x i ) не подчиняется закону нормального распределения. В работе [1] предложена схема перестройки дискретной функции f(x i ) к форме нормального закона. Для этого напомним, что функция f(z i ) отличается от f(x i ) только значениями аргумента z i , который суть порядковый номер отрезков длиной Δx на оси абсцисс. Так как Δz = z i+1 - z i = 1, то f(z i ) = p i (z i ). В математической статистике допускается произвольная нумерация отрезков Δx. Поэтому табличные данные функции p i = p i (z i ) (см. табл. 3) отсортируем по возрастанию частоты p i с помощью соответствующих инструментов программы Excel (см. столбцы В и С табл. 4). Затем четные строки согласно столбцу А, этой же таблицы, в которых находятся значения x i и p i (столбцы В и С) поместили в ячейки D2-E5 так, что максимальная частота p i = 0,2903 окажется в ячейке Е5. Нечетные же строки столбцов В и С поместили в ячейки D6-E9 в порядке убывания частоты. Таблица 4 Построение табличной функции p i = p i (z i ) ABCDE 1 z i x i p i x i p i 2 1 56,56 0,0323 58,68 0,0323 3 2 58,68 0,0323 56,91 0,0968 4 3 57,62 0,0645 57,27 0,1613 5 4 56,91 0,0968 59,04 0,2903 6 5 57,98 0,1290 58,33 0,1935 7 6 57,27 0,1613 57,98 0,1290 8 7 58,33 0,1935 57,62 0,0645 9 8 59,04 0,2903 56,56 0,0323 В результате этих действий в столбце Е (см. табл. 4) окажутся значения p i , а в столбце А - значения z i . Указанные значения и определяют новую функцию p i = p i (z i ). Многоугольник распределения p i = p i (z i ) по своей форме напоминает форму нормального закона (рис. 4). 0,4 0,3 0,2 0,1 0 12345678 многоугольник распределения теоретическая прямая z i P i Рис. 4. Нормальный закон Новая форма закона распределения p i = p i (z i ), изображенная на рисунке 4, характеризуется математическим ожиданием z и средним квадратичным отклонением σ 1 : Вычисления по формулам (10) и (11) (табл. 5) показывают, что числовые характеристики ряда распределения p i = p i (z i ) суть z = 4,323, σ 1 = 1,489. По этим числовым характеристикам можно произвести расчет теоретической кривой p(z) по формуле нормального закона Результаты этого расчета согласуются с опытными значениями функции p i = p i (z i ) (см. табл. 5, столбцы Н и Е). Степень совпадения теоретической кривой p(z) и многоугольника распределения p i (z i ) иллюстрирует рисунок 4. Указанную степень совпадения определим количественно вычислением критерия χ 2 , который в данном случае определяется формулой где значения p i (z i ) и p(z) представлены в таблице 5. Результат расчета по уравнению (13) в этом случае определяет χ 2 = 0,057 (см. столбец I табл. 5). Это значение критерия χ 2 , говорит о том, что дискретная функция p i (z i ) с небольшой погрешностью представляет нормальный закон распределения. Ряд распределения p i = p i (z i ) задан на оси абсцисс дискретными числами z i , поэтому его числовые характеристики z и σ 1 , полученные по формулам (10) и (11), необходимо округлить. В соответствие с правилом округления приближенных чисел в дальнейшем анализе принимаем, что z = 4 и σ 1 = 1 Свойство кривой нормального закона таково [2], что на оси z i рисунка 4 можно вправо и влево от точки z выделить участок в 3σ 1 , на котором с точностью до долей процента укладывается все рассеивание случайной величины z i от математического ожидания z. Этот участок состоит из трех отрезков длиной в σ 1 и формула кривой Лапласа-Гаусса определяет следующие вероятности попадания случайной величины на каждый из этих отрезков: на z < z i < z + σ равна 0,34; z + σ < z i < z + 2σ - 0,14; z + 2σ < z i < z + 3σ - 0,02. В данном случае эти отрезки таковы: 4 < z i < 5; 5 < z i < 6; 6 < z i < 7. Это свойство кривой нормального распределения означает что на отрезок длиной в 2σ 1 попадает 68% значений статистической величины z i . В нашем случае z = 4 и σ 1 = 1, значит рассматриваемый отрезок определяется так: В этот отрезок попадают три числа z 3 = 3, z 4 = 4, z 5 = 5. Функция p i = p i (z i ) (см. рис. 4 и табл. 4) позволила с помощью дополнительной переменной z i сгруппировать статистические величины x i по близким частотам. Теперь можно найти дни, в которые цена доллара группируется вблизи математического ожидания z. Очевидно, что эти дни характеризуется числами z 3 , z 4 , z 5 . Для этого поступает следующим образом: числу z 3 = 3 (см. табл. 4 столбец D) соответствует число x i = 57,27, которое определяет y i = 57,09 (см. табл. 2 столбец В) и y i+1 = 57,44 (тамже столбец С). Числа же y i и y i+1 определяют диапазоны изменения цены доллара в рублях (табл. 6). Таблица 6 Диапазоны цены доллара в области 2 σ 1 , руб. z i x i y i y i+1 3 57,27 57,09 57,44 4 59,04 58,86 59,22 5 58,33 58,15 58,51 Инструменты программы Excel позволяют для диапазонов цен доллара (табл. 6) определить с помощью исходной таблицы 1 количество дней, попадающие в эти диапазоны, и какими днями недели являются эти дни. Результаты такого анализа иллюстрирует таблица 7, сведения в которой информируют о том, что в течение девяти дней этого месяца курс доллара незначительно отличался от x i = 58,33 руб., в течение пяти дней - от x i = 59,04 руб. и в течение трех дней от x i = 57,27 руб. Всего в область 2σ 1 попало 17 дней, что составляет 55% от всех дней месяца. Теоретическая же кривая p(z), определяемая формулой (12), дает для этого случая 68%. Различие указанных процентов свидетельствует о погрешности методики данного анализа. Таблица 7 Частота появления дней недели в область 2 σ 1 z i x i Понедельник Вторник Среда Четверг Пятница Суббота Воскресенье Σ 3 57,27 1 - - - - 1 1 3 4 59,04 1 1 1 1 - - 1 5 5 58,33 1 2 2 2 - 1 1 9 Σ 3333-231

×

Об авторах

В А Бубнов

Московский городской педагогический университет

Автор, ответственный за переписку.
Email: bubnovva@mgpu.ru

Бубнов Владимир Алексеевич, доктор технических наук, профессор, профессор кафедры информатизации образования Московского городского педагогического университета.

Шереметьевская ул. 29, Москва, Россия, 127521

А Р Садыкова

Московский городской педагогический университет

Email: sadykovaar@mgpu.ru

Садыкова Альбина Рифовна, доктор педагогических наук, доцент, профессор кафедры информатики прикладной математики Московского городского педагогического университета.

Шереметьевская ул. 29, Москва, Россия, 127521

Список литературы

  1. Бубнов В.А., Пронин А.С. Анализ курса валют с помощью программы Microsoft Excel // Л. Эйлер и Российское образование, наука и культура: материалы межд. научно-практ. конф. Тула: Изд-во ТГПУ им. Л.Н. Толстого, 2007. С. 59-63.
  2. Вентцель Е.С. Теория вероятностей. М.: Гос. изд-во. физ.-мат. лит. 1958. 462 с.

© Бубнов В.А., Садыкова А.Р., 2017

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution 4.0 International License.

Данный сайт использует cookie-файлы

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.

О куки-файлах