<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE root>
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:ali="http://www.niso.org/schemas/ali/1.0/" article-type="other" dtd-version="1.2" xml:lang="en"><front><journal-meta><journal-id journal-id-type="publisher-id">Discrete and Continuous Models and Applied Computational Science</journal-id><journal-title-group><journal-title xml:lang="en">Discrete and Continuous Models and Applied Computational Science</journal-title><trans-title-group xml:lang="ru"><trans-title>Discrete and Continuous Models and Applied Computational Science</trans-title></trans-title-group></journal-title-group><issn publication-format="print">2658-4670</issn><issn publication-format="electronic">2658-7149</issn><publisher><publisher-name xml:lang="en">Peoples' Friendship University of Russia named after Patrice Lumumba (RUDN University)</publisher-name></publisher></journal-meta><article-meta><article-id pub-id-type="publisher-id">8500</article-id><article-categories><subj-group subj-group-type="toc-heading" xml:lang="en"><subject>Articles</subject></subj-group><subj-group subj-group-type="toc-heading" xml:lang="ru"><subject>Статьи</subject></subj-group><subj-group subj-group-type="article-type"><subject></subject></subj-group></article-categories><title-group><article-title xml:lang="en">Extraction of Data Features for Neuro-Classifier Input</article-title><trans-title-group xml:lang="ru"><trans-title>Выделение основных свойств данных для их ввода в нейронный классификатор</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author"><name-alternatives><name xml:lang="en"><surname>Ososkov</surname><given-names>G A</given-names></name><name xml:lang="ru"><surname>Ососков</surname><given-names>Геннадий Алексеевич</given-names></name></name-alternatives><bio xml:lang="en">Лаборатория информационных технологий; Объединённый институт ядерных исследований; Joint Institute for Nuclear Research</bio><bio xml:lang="ru">Лаборатория информационных технологий; Объединённый институт ядерных исследований</bio><email>ososkov@jinr.ru</email><xref ref-type="aff" rid="aff1"/></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="en"><surname>Baranov</surname><given-names>D A</given-names></name><name xml:lang="ru"><surname>Баранов</surname><given-names>Д А</given-names></name></name-alternatives><bio xml:lang="en">Лаборатория информационных технологий; Объединённый институт ядерных исследований; Joint Institute for Nuclear Research</bio><bio xml:lang="ru">Лаборатория информационных технологий; Объединённый институт ядерных исследований</bio><email>-</email><xref ref-type="aff" rid="aff1"/></contrib></contrib-group><aff-alternatives id="aff1"><aff><institution xml:lang="en">Joint Institute for Nuclear Research</institution></aff><aff><institution xml:lang="ru">Объединённый институт ядерных исследований</institution></aff></aff-alternatives><pub-date date-type="pub" iso-8601-date="2010-03-02" publication-format="electronic"><day>02</day><month>03</month><year>2010</year></pub-date><issue>3.2</issue><issue-title xml:lang="en">NO3.2 (2010)</issue-title><issue-title xml:lang="ru">№3.2 (2010)</issue-title><fpage>25</fpage><lpage>31</lpage><history><date date-type="received" iso-8601-date="2016-09-08"><day>08</day><month>09</month><year>2016</year></date></history><permissions><copyright-statement xml:lang="ru">Copyright ©; 2010, Ососков Г.А., Баранов Д.А.</copyright-statement><copyright-year>2010</copyright-year><copyright-holder xml:lang="ru">Ососков Г.А., Баранов Д.А.</copyright-holder><ali:free_to_read xmlns:ali="http://www.niso.org/schemas/ali/1.0/"/><license><ali:license_ref xmlns:ali="http://www.niso.org/schemas/ali/1.0/">http://creativecommons.org/licenses/by/4.0</ali:license_ref></license></permissions><self-uri xlink:href="https://journals.rudn.ru/miph/article/view/8500">https://journals.rudn.ru/miph/article/view/8500</self-uri><abstract xml:lang="en">The problem of essential data compression to be input to ANN-classifier without loosing significant information is considered on the example of the quite substantial task of the genetic protein structure analysis, which is important for genetic biology researches in radiobiology and, especially, in agricultural. Such analysis is usually carried out by studying ElectroPhoretic Spectra (EPS) of gliadin (alcohol soluble protein) of the inspected grain cultivar. EPS digitization produces a densitogram with 4 thousands counts, which most informative features must be extracted to be input to ANN. Besides these data require special preprocessing for densitogram smoothing, pedestal eliminating, as well as compensating such digitization orocess defects as signal noise, variability of spectrum borders and illumination, their non-linear starches due to electrophoresis nonstationarity.
Several alternative approaches to features extracting were studied: (1) the densitogram coarsing into 200 averaged measurements; (2) the principal component analysis; (3) recognition of all well-pronounced peaks in order to evaluate their parameters to be input to ANN; (4)-(5) data compression by both discrete Fourier (DFT) and wavelet (DWT) transformations. These methods have been used for feature extraction from samples formed by experts for 30 different sorts. Then extracted features were used to train ANN of three-layer perceptron type. The comparative study of the recognition efficiency with data compressed by the methods listed above shows their high sensitivity to the number of sorts to be classified. Only DFT and DWT approaches could keep the efficiency on the level 95-97% up to 20 sorts.
A further development of feature extraction methods and a study of possibility to develop a hierarchy of classifying ANNs are intended.</abstract><trans-abstract xml:lang="ru">Рассматривается проблема существенного сжатия данных, подлежащих вводу в классифицирующую нейронную сеть, без потери их информативности. Изложение ведется на примере задачи генетического анализа белковых структур, важной для исследований в генетической биологии, радиобиологии и особенно в сельском хозяйстве. Подобный анализ обычно проводится с помощью изучения электрофоретических спектров (ЭФС) глиадинов (спирторастворимых белков) проверяемых сортов зерновых. При оцифровке ЭФС получается денситограмма из 4000 отсчётов, наиболее информативные признаки которой и должны быть выделены для ввода в нейросеть. Кроме того, полученные данные требуют существенной предобработки для сглаживания и устранения подложки денситограммы, а также таких дефектов процесса оцифровки, как шумы, флюктуации границ и освещённости спектров и их нелинейных растяжений из-за нестационарности электрофореза.
Было изучено несколько альтернативных методов извлечения существенных признаков: (1) огрубление денситограммы до 200 усреднённых измерений; (2) метод главных компонент; (3) распознавание хорошо различимых пиков, чтобы вводить в нейросеть только их параметры; (4)-(5) сжатие данных с помощью быстрого преобразования Фурье (БПФ) и дискретного вейвлет-преобразования (ДВП). Эти методы использовались для извлечения главных признаков из множества выборок, приготовленных экспертами для 30 разных сортов, и последующего использования признаков для обучения трёхслойного персептрона. Сравнительный анализ эффективности распознавания при использовании вышеперечисленных методов показал их сильную зависимость от числа сортов, подлежащих классификации. Лишь с помощью БПФ и ДВП методов удалось удержать эффективность на уровне 95-97% вплоть до 20 сортов.
Предполагается дальнейшее развитие методов сжатия данных и возможности использовать систему многоступенчатых нейроклассификаторов.</trans-abstract><kwd-group xml:lang="en"><kwd>artificial neural networks</kwd><kwd>classification</kwd><kwd>genetic analysis</kwd><kwd>electroforetic spectrum</kwd><kwd>data compression</kwd><kwd>fast Fourier transform</kwd><kwd>principal component analysis</kwd><kwd>discrete wavelet transform</kwd></kwd-group><kwd-group xml:lang="ru"><kwd>искусственные нейронные сети</kwd><kwd>классификация</kwd><kwd>генетический анализ</kwd><kwd>электрофоретический спектр</kwd><kwd>сжатие данных</kwd><kwd>быстрое преобразование Фурье</kwd><kwd>метод главных компонент</kwd><kwd>дискретное вейвлет-преобразование</kwd></kwd-group></article-meta></front><body></body><back><ref-list><ref id="B1"><label>1.</label><mixed-citation>Peterson C. et al., 1993. - JETNET 3.0: A Versatile Artificial Neural Network Package. - CERN, lu tp 93-29 edition. - CERN-TH 7135/94.</mixed-citation></ref><ref id="B2"><label>2.</label><mixed-citation>Lindsey C. S., Lindblad T. Review of Hardware Neural Networks: A Users Perspective // HEP Neural Networks. - 1994. - No TRITA-FYS-9012. - Pp. 1-10. - Talk given at the Third Workshop on Neural Networks: From Biology to High Energy Physics, Marciana Marina, Elba, Italy, 26-30 1994.</mixed-citation></ref><ref id="B3"><label>3.</label><mixed-citation>Ruanet V. V., Kudryavtsev A. M., Dadashev S. Y. The Use of Artificial Neural Networks for Automatic Analysis and Genetic Identification of Gliadin Electrophoretic Spectra in Durum Wheat // Russian Journal of Genetics. - 2001. - Vol. 37, No 10. - Pp. 1207-1209.</mixed-citation></ref><ref id="B4"><label>4.</label><mixed-citation>Haykin S. Neural Networks: a Comprehensive Foundation. - N.Y., 1994.</mixed-citation></ref><ref id="B5"><label>5.</label><mixed-citation>Jolliffe I. T. Principal Component Analysis, Springer Series in Statistics, 2nd ed. - Springer, NY, 2002.</mixed-citation></ref><ref id="B6"><label>6.</label><mixed-citation>Baranov D. A., Dmitrievsky S. G., Ososkov G. A. Protein Structures Recognition using ANN // Proc. of IV Intern. Science School / TTI SFU. - Taganrog: 2008. - Pp. 126-130.</mixed-citation></ref><ref id="B7"><label>7.</label><mixed-citation>Kramer M. A. Nonlinear Principal Component Analysis using Autoassociative Neural Networks // AIChE Journal. - 1991. - Vol. 37, No 2. - Pp. 233-243.</mixed-citation></ref><ref id="B8"><label>8.</label><mixed-citation>Fukunaga K., Koontz W. Application of the Karhunen-Loeve Expansion to Feature Selection and Ordering // IEEE Transactions On Computers. - 1970. - Vol. C- 19. - Pp. 311-318.</mixed-citation></ref></ref-list></back></article>
