Discrete and Continuous Models and Applied Computational Science

2658-46702658-7149

Peoples' Friendship University of Russia named after Patrice Lumumba (RUDN University)

8500

Articles

Статьи

Extraction of Data Features for Neuro-Classifier Input

Выделение основных свойств данных для их ввода в нейронный классификатор

Ososkov

G A

Ососков

Геннадий Алексеевич

Лаборатория информационных технологий; Объединённый институт ядерных исследований; Joint Institute for Nuclear ResearchЛаборатория информационных технологий; Объединённый институт ядерных исследованийososkov@jinr.ru

Baranov

D A

Баранов

Д А

Joint Institute for Nuclear ResearchОбъединённый институт ядерных исследований

02032010

3.2

NO3.2 (2010)

№3.2 (2010)

253108092016

2010

Ososkov G.A., Baranov D.A.

Ососков Г.А., Баранов Д.А.

https://creativecommons.org/licenses/by-nc/4.0

https://journals.rudn.ru/miph/article/view/8500

The problem of essential data compression to be input to ANN-classifier without loosing significant information is considered on the example of the quite substantial task of the genetic protein structure analysis, which is important for genetic biology researches in radiobiology and, especially, in agricultural. Such analysis is usually carried out by studying ElectroPhoretic Spectra (EPS) of gliadin (alcohol soluble protein) of the inspected grain cultivar. EPS digitization produces a densitogram with 4 thousands counts, which most informative features must be extracted to be input to ANN. Besides these data require special preprocessing for densitogram smoothing, pedestal eliminating, as well as compensating such digitization orocess defects as signal noise, variability of spectrum borders and illumination, their non-linear starches due to electrophoresis nonstationarity. Several alternative approaches to features extracting were studied: (1) the densitogram coarsing into 200 averaged measurements; (2) the principal component analysis; (3) recognition of all well-pronounced peaks in order to evaluate their parameters to be input to ANN; (4)-(5) data compression by both discrete Fourier (DFT) and wavelet (DWT) transformations. These methods have been used for feature extraction from samples formed by experts for 30 different sorts. Then extracted features were used to train ANN of three-layer perceptron type. The comparative study of the recognition efficiency with data compressed by the methods listed above shows their high sensitivity to the number of sorts to be classified. Only DFT and DWT approaches could keep the efficiency on the level 95-97% up to 20 sorts. A further development of feature extraction methods and a study of possibility to develop a hierarchy of classifying ANNs are intended.

Рассматривается проблема существенного сжатия данных, подлежащих вводу в классифицирующую нейронную сеть, без потери их информативности. Изложение ведется на примере задачи генетического анализа белковых структур, важной для исследований в генетической биологии, радиобиологии и особенно в сельском хозяйстве. Подобный анализ обычно проводится с помощью изучения электрофоретических спектров (ЭФС) глиадинов (спирторастворимых белков) проверяемых сортов зерновых. При оцифровке ЭФС получается денситограмма из 4000 отсчётов, наиболее информативные признаки которой и должны быть выделены для ввода в нейросеть. Кроме того, полученные данные требуют существенной предобработки для сглаживания и устранения подложки денситограммы, а также таких дефектов процесса оцифровки, как шумы, флюктуации границ и освещённости спектров и их нелинейных растяжений из-за нестационарности электрофореза. Было изучено несколько альтернативных методов извлечения существенных признаков: (1) огрубление денситограммы до 200 усреднённых измерений; (2) метод главных компонент; (3) распознавание хорошо различимых пиков, чтобы вводить в нейросеть только их параметры; (4)-(5) сжатие данных с помощью быстрого преобразования Фурье (БПФ) и дискретного вейвлет-преобразования (ДВП). Эти методы использовались для извлечения главных признаков из множества выборок, приготовленных экспертами для 30 разных сортов, и последующего использования признаков для обучения трёхслойного персептрона. Сравнительный анализ эффективности распознавания при использовании вышеперечисленных методов показал их сильную зависимость от числа сортов, подлежащих классификации. Лишь с помощью БПФ и ДВП методов удалось удержать эффективность на уровне 95-97% вплоть до 20 сортов. Предполагается дальнейшее развитие методов сжатия данных и возможности использовать систему многоступенчатых нейроклассификаторов.

artificial neural networksclassificationgenetic analysiselectroforetic spectrumdata compressionfast Fourier transformprincipal component analysisdiscrete wavelet transform

искусственные нейронные сетиклассификациягенетический анализэлектрофоретический спектрсжатие данныхбыстрое преобразование Фурьеметод главных компонентдискретное вейвлет-преобразование

Peterson C. et al., 1993. - JETNET 3.0: A Versatile Artificial Neural Network Package. - CERN, lu tp 93-29 edition. - CERN-TH 7135/94.

Lindsey C. S., Lindblad T. Review of Hardware Neural Networks: A Users Perspective // HEP Neural Networks. - 1994. - No TRITA-FYS-9012. - Pp. 1-10. - Talk given at the Third Workshop on Neural Networks: From Biology to High Energy Physics, Marciana Marina, Elba, Italy, 26-30 1994.

Ruanet V. V., Kudryavtsev A. M., Dadashev S. Y. The Use of Artificial Neural Networks for Automatic Analysis and Genetic Identification of Gliadin Electrophoretic Spectra in Durum Wheat // Russian Journal of Genetics. - 2001. - Vol. 37, No 10. - Pp. 1207-1209.

Haykin S. Neural Networks: a Comprehensive Foundation. - N.Y., 1994.

Jolliffe I. T. Principal Component Analysis, Springer Series in Statistics, 2nd ed. - Springer, NY, 2002.

Baranov D. A., Dmitrievsky S. G., Ososkov G. A. Protein Structures Recognition using ANN // Proc. of IV Intern. Science School / TTI SFU. - Taganrog: 2008. - Pp. 126-130.

Kramer M. A. Nonlinear Principal Component Analysis using Autoassociative Neural Networks // AIChE Journal. - 1991. - Vol. 37, No 2. - Pp. 233-243.

Fukunaga K., Koontz W. Application of the Karhunen-Loeve Expansion to Feature Selection and Ordering // IEEE Transactions On Computers. - 1970. - Vol. C- 19. - Pp. 311-318.