Inductive Modeling of Objects and Phenomena by the GroupMethod of Data Handling: the Shortcomings and Ways of TheirElimination

Cover Page

Abstract


Original results of a research of an efficient computing method - group method of data han-dling are presented. Key shortcomings on each significant procedure of a classical algorithm arerevealed and systematized, and also ways of their elimination, including author’s modificationsare presented. In particular, the use of dispersion and an assessment of dispersion (Fischer’scriterion) is proposed as an assessment of accuracy of the received result, additional “internal”criterion for evaluation of adequacy of model in various tests during the fixing of input dataand changing of characteristics of an algorithm, and determining the optimal complexity of themodel. To solve the convergence problem of the classical algorithm, it was proposed to usethe methods of dispersion, factor and correlation analysis to eliminate non-informative features,modify the criterion for stopping the algorithm. The use of regularizing functionals is suggestedto solve the problem of multicollinearity of input characteristics and increase the stability of theobtained model, etc. A complex of computer modeling programs was developed, realizing an ef-ficient modified algorithm of GMDH with the considered modifications and also methods of adispersion analysis, correlation analysis, component analysis, elements of the regression analy-sis and others. The conducted researches and the received practical results can become a basisfor development with use of Machine Learning and Data Science technologies of the automaticsystem of computer modeling, the intellectual analysis and the data processing.


1. Введение Математическое моделирование стало неотъемлемой частью построения и исследования функционирования сложных систем. В условиях неполноты информации активно используются методы индуктивного моделирования, позволяющие последовательно строить модели возрастающей сложности непосредственно по выборке данных без привлечения дополнительной априорной информации в фиксированном классе функций, предназначенные для функционального описания входо-выходных характеристик систем. Среди индуктивных методов математического моделирования выделяется эффективный вычислительный метод - метод группового учёта аргументов (МГУА) [1-3]. Его основой являются алгоритм массовой селекции (принцип самоорганизации моделей), теорема Геделя о неполноте, принцип сохранения свободы выбора Габора [2, 3]. МГУА относится к методам анализа данных (Data Science), успешно применяется для решения задач моделирования, прогнозирования, распознавания образов и др. Его алгоритмы позволяют находить взаимозависимости и закономерности, обнаруживать новые знания, неявно отражённые в данных, и представлять их в виде адекватной математической модели оптимальной сложности, представленной в явном функциональном виде [1-3]. Проверка соответствия математической модели исходным данным, то есть её адекватность, оценивается точностью прогноза и сложностью структуры, а также согласованностью обнаруженных знаний результатам исследования. Однако классический многорядный алгоритм МГУА не лишён недостатков, которые могут не позволить корректно решить поставленную задачу. Некоторые из них могут быть устранены за счёт приведённых в статье ранее предложенных исследователями научно обоснованных решений, а также авторских модификаций, использование которых может варьироваться при решении различных классов задач [1-3]. На каждой значимой процедуре МГУА исследователи предлагали свои идеи, создавая модифицированные алгоритмы для решений отдельных задач, однако их синтеза не проводилось. МГУА относится к методам вычислительной математики [4]. При его реализации выполняется большое количество операций: решение систем линейных уравнений, вычисление псевдообратных матриц, решение задач численной оптимизации и др. Поэтому его применение без программной реализации невозможно. Любой алгоритм МГУА должен допускать эффективную программную реализацию, в том числе с применением современных компьютерных технологий: организации параллельных вычислений, использованием доступных вычислительных ресурсов и пр. 2. Общий класс задач индуктивного моделирования Рассмотрим класс задач индуктивного моделирования, которые так или иначе сводятся к выбору оптимальной по заданному критерию модели из множества генерируемых моделей для случая объекта с одним выходом. Пусть имеется наблюдений за поведением объекта или явления, т.е. задана выборка исходных данных = (), содержащая информацию об изменении входных признаков и одного выходного [ × 1]. Индуктивный процесс решения задачи определения структуры и параметров адекватной модели состоит в использовании данных одной части выборки (обучающая выборка) для создания постепенно усложняемых моделей и селекции (отбора) наиболее адекватных из них с применением принципа внешнего дополнения, выражающегося в виде ошибки моделей с использованием данных из другой части (контрольная выборка). В общем случае задача построения адекватной модели сводится к формированию по выборке экспериментальных данных некоторого множества Φ моделей различной структуры: и поиску оптимальной модели из этого множества. Проблема множественности математических моделей, используемых для описания объекта или явления, с точки зрения общих и частных целей исследования решается как задача дискретной оптимизации по условию минимума заданного внешнего критерия селекции (·): где оценка параметров для каждой ∈ Φ есть решение задачи непрерывной оптимизации [5]: где - функционал «качества» решения задачи параметрической идентификации модели в процессе структурной идентификации, - сложность модели . С учётом этого рассмотрим классический многорядный алгоритм МГУА и его некоторые авторские модификации. 1. Матрица для начального приближения алгоритма - исходная выборка из измерений входных признаков и выходного признака: 2. Общий вид оператора перехода к следующему ряду алгоритма (итерации) есть некоторый функционал : - произвольная пара решений предыдущего ряда. В фиксированном классе функций задаётся функция называемая частным описанием. С её помощью порождаются модели на каждом ряде алгоритма. Если достоверные знания о свойствах исследуемого объекта (явления) отсутствуют, то целесообразно использовать полиномиальные функции, так как ими можно представить любую непрерывную функцию с достаточной точностью. На практике обычно используют линейноквадратичные функции, зависящие явно от двух переменных, например: если в качестве класса функций выбран функциональный ряд Вольтерра, также называемый полиномом Колмогорова-Габора [1]: Оценку неизвестных параметров моделей производят, например, методом наименьших квадратов: 3. Алгоритм останавливается при выполнении критерия ОСТАНОВ: где - внешний критерий качества модели, - номер ряда. Внешний критерий характеризует «качество» модели, а также используется для отбора «лучших» моделей на следующий ряд алгоритма. Стоит отметить, что для использования любого внешнего критерия необходимо разбить исходную выборку на непересекающиеся обучающую и контрольную выборки. Приведём примеры хорошо зарекомендовавших себя внешних критериев [1-3]: - критерий регулярности - физический смысл критерия состоит в том, что он ориентирован на выбор модели, которая будет наиболее точной на множестве объектов, которых ещё нет в выборке, но они появятся в ближайшем будущем: где - значения выходной величины модели, коэффициенты которой были определены по данным обучающей выборки; - значения выходной величины модели, коэффициенты которой были определены по данным контрольной выборки; - значения выходной величины модели на исходных данных;- количество объектов (строк) в обучающей выборке; - количество объектов в контрольной выборке; - критерий несмещённости (минимума смещения) позволяет выбрать модель, наименее чувствительную к изменению множества опытных точек, по которым она получена. Этот критерий требует максимального совпадения выходного параметра двух моделей, полученных на данных обучающей и контрольной выборок: - комбинированный критерий, в частном случае, представляет собой объединение показателей оценки несмещённости и среднеквадратичной ошибки обеих моделей, построенных на выборках и , - построение одного «обобщённого» критерия: где - коэффициент веса (экспертная оценка), представляющий объединение двух критериев. Этот подход имеет существенное допущение о «квалифицированном» эксперте и проблему компенсирования одних показателей за счёт других. Рассмотрим подробнее процедуры, выполняемые на первом и произвольном (+ 1) рядах классического многорядного алгоритма МГУА. Первый ряд. Из входных векторов-аргументов выбираются всевозможные пары и составляются частные описания, т.е. функции вида и методами регрессионного анализа [6, 7], например, методом наименьших квадратов на обучающей выборке находятся оценки неизвестных параметров По заданному внешнему критерию на контрольной выборке отбираются где (свобода выбора), лучших моделей Выполняется ряд селекций. Выходы этих моделей используются в качестве аргументов для формирования моделей следующего ряда. Далее находится минимальное 1 min среди всех значений внешнего критерия на первом ряде. Произвольный +1 ряд. Из векторов-аргументов предыдущего -го ряда формируются всевозможные частные описания: На обучающей выборке находятся оценки неизвестных параметров. Затем по значению внешнего критерию отбираются «лучших» моделей из полученных частных описаний находится минимальное значение . Проверяется критерий ОСТАНОВ: при выполнении которого итерационный (многорядный) процесс останавливается, иначе - переход к следующему ряду. В случае остановки в качестве оптимальной принимается модель, соответствующая значению min на предыдущем -м ряде. 4. Недостатки классического алгоритма и способы их устранения В рамках данной работы обобщены значимые научно обоснованные решения исследователей и предложены авторские модификации общего классического алгоритма МГУА для устранения выявленных недостатков. Проблему разбиения исходных данных на обучающую и контрольную выборки исследователи предлагают разрешать разными способами в зависимости от цели исследования, а также знаний о свойствах моделируемых явлений и объектов. Например, в [1] было показано, что при использовании критерия минимума смещения разделение исходных данных целесообразно производить 50% на 50% для обучающей и контрольной выборки. Исследователями предложены соответствующие методики по разбиению объектов для стационарных и динамических процессов, а также при решении задач прогнозирования и др. Автором предлагается использовать процедуру кросс-валидации (скользящего контроля), которая заключается в следующем. Фиксируется некоторое множество разбиений исходной выборки на две подвыборки: обучающую и контрольную. Для каждого разбиения выполняется алгоритм МГУА: генерируется модель, определяются параметры с помощью обучающей выборки, вычисляется значение внешнего критерия с использованием данных контрольной выборки. В качестве выходной модели выбирается та модель, у которой значение внешнего критерия среди выбранного множества разбиений минимально. Возможно наложение некоторых условий на множество разбиений, например, чтобы каждый объект хотя бы один раз попал в обучающую и контрольную выборки при различных разбиениях. С использованием методики скользящего контроля можно ввести дополнительную оценку полученной модели путём вычисления среднего по всем значением внешнего критерия на всех разбиениях. В классическом многорядном алгоритме МГУА возможно ухудшение обусловленности систем уравнений с ростом числа рядов селекции. Исследователи предлагают для разрешения данной проблемы произвести нормализацию или стандартизацию исходной выборки различными способами. Например, нормализация предполагает замену номинальных признаков так, чтобы каждый из них лежал в диапазоне от 0 до 1. Стандартизация же подразумевает такую предобработку данных, после которой каждый признак имеет нулевое среднее и единичное среднеквадратическое отклонение. Автором предлагается использовать дисперсию и её оценку (критерий Фишера) в качестве точности полученного результата, дополнительного внутреннего (т.е. на всех объектах исходной выборки) критерия оценки адекватности модели (соответствие математической модели исходным данным) в различных тестах при фиксации исходных данных и изменении характеристик алгоритма, например частного описания, внешнего критерия, свободы выбора и др. Также критерий Фишера может быть использован для определения оптимальной сложности структуры модели. Итерационные алгоритмы не гарантируют построения адекватной модели, так как они базируются на неполных процедурах иерархического усложнения моделей. Возможна потеря значимых признаков, если они были исключены в первом или последующих рядах селекции. Эту проблему целесообразно решать за счёт: - расширения порога отбора моделей-претендентов в следующий ряд алгоритма с учётом возможностей современных персональных компьютеров и общего программного обеспечения; - полного или направленного перебора моделей-претендентов с учётом ограничений на количество исходных (промежуточных) признаков, а также возможностей персонального компьютера, общего программного обеспечения, языка программирования и др.; - включения начальных признаков в перебор на всех рядах селекции; - решения задачи оптимального количества моделей-претендентов, пропускаемых в следующий ряд алгоритма; - отбора модели на ряде , если её эффективность по критерию отбора улучшится на ряде - реализация обратной связи. В классическом алгоритме МГУА существует возможность включения неинформативных признаков в исходную выборку и искомую модель. Для устранения этого недостатка необходимо: - решить задачу оптимизации сложности моделей-претендентов; - использовать методы дисперсионного анализа после завершения процедуры поиска оптимальной модели для оценки вклада в общую дисперсию каждого параметра полученной модели. Необходимо отметить, что при квадратичном частном описании, т.е. если усложнение моделей происходит по единому правилу, показанному выше, происходит экспоненциальный рост степени. Этого недостатка можно избежать, если: - варьировать в разном сочетании линейные, билинейные и квадратичные частные описания в соседних рядах селекции; - изменить оператор перехода к следующему ряду алгоритма например, для второго ряда алгоритма: при частном описании вида - решить задачу комбинаторной оптимизации структуры частных описаний. Проблему сходимости алгоритма МГУА можно решить за счёт модификаций критерия ОСТАНОВ, например, определить ограничения на количество рядов селекции max , останавливать работу алгоритма в тот момент, как Модификация критерия ОСТАНОВ также позволит решить задачу переусложнения выходной модели. Повысить устойчивость классического алгоритма возможно за счёт применения теории регуляризации, а именно использовать различные методы регуляризации для каждой модели-претендента на каждом ряде селекции, например, функционалы регуляризации 1 или 2 , путём добавления «штрафного» слагаемого вида - 2 соответственно при вычислении неизвестных параметров . Представить модель в явном функциональном виде можно за счёт разработки алгоритма «обратного хода», который возвращает искомую функцию, зависящую от значимых исходных входных признаков, вида Из решений, отобранных во всех предыдущих рядах селекции, отбрасываются все, которые не используются для образования единственного решения из последнего ряда алгоритма. 5. Заключение Выявлены и систематизированы ключевые недостатки классического алгоритма метода группового учёта аргументов. В рамках данной работы обобщены значимые научно обоснованные решения исследователей и предложены авторские модификации классического алгоритма МГУА для устранения выявленных недостатков. Автором разработан комплекс программ, реализующий модифицированный эффективный алгоритм МГУА с рассмотренными модификациями, а также использующий методы дисперсионного анализа, корреляционного анализа, факторного анализа, элементы регрессионного анализа и др. для выделения значимых признаков, обнаружения значимых корреляций, повышения достоверности прогноза и др. [8]. Проведённые исследования и полученные практические результаты являются актуальными и могут стать основой для разработки автоматизированной системы компьютерного моделирования объектов и явлений, интеллектуального анализа и обработки данных, получения новой качественной информации и синтеза сложных систем.

M Y Dyachkov

epartment of Nonlinear Analysis and Optimization Peoples’ Friendship University of Russia (RUDN University)

Author for correspondence.
Email: mihdyachkov@gmail.com
6, Miklukho-Maklaya St., Moscow, Russian Federation, 117198

Dyachkov M. Yu. - student of Nonlinear Analysis and Optimization Department of Peoples’ Friendship University of Russia (RUDN University)

  • A.G. Ivakhnenko, Systems of Heuristic Self-Organization in Technical Cybernetics, Tehnika, Kiev, 1971, in Russian.
  • A.G. Ivakhnenko, The Inductive Method of Self-Organization Models of Complex Systems, Naukova Dumka, Kiev, 1982, in Russian.
  • A.G. Ivakhnenko, Ю. П. Юрчаковский, Simulation of Complex Systems from Experimental Data, Radio i Svyaz, Moscow, 1978, in Russian.
  • B.P. Demidovich, I. A. Maron, Basics of Computational Mathematics, Nauka, M., 1966, in Russian.
  • N.N. Moiseev, Y. P. Ivanilov, E. M. Stolyarova, Optimization Methods, Nauka, Moscow, 1978, in Russian.
  • A.I. Kobzar, Applied Mathematical Statistics, FIZMATLIT, Moscow, 2006, in Russian.
  • A.A. Samarskiy, A. V. Gulin, Numerical Methods, Nauka, Moscow, 1989, in Russian.
  • M.Y. Dyachkov, On the Software Implementation of the Modified Algorithm of Group Method of Data Handling, in: International Scientific-Methodical Conference “Some Questions of Analysis, Algebra, Geometry, and Mathematical Education” of Voronezh State Pedagogical University, Voronezh, 2015, pp. 78–79, in Russian.

Views

Abstract - 174

PDF (Russian) - 69


Copyright (c) 2017 Dyachkov M.Y.

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.