Выделение основных свойств данных для их ввода в нейронный классификатор

Обложка

Цитировать

Полный текст

Аннотация

Рассматривается проблема существенного сжатия данных, подлежащих вводу в классифицирующую нейронную сеть, без потери их информативности. Изложение ведется на примере задачи генетического анализа белковых структур, важной для исследований в генетической биологии, радиобиологии и особенно в сельском хозяйстве. Подобный анализ обычно проводится с помощью изучения электрофоретических спектров (ЭФС) глиадинов (спирторастворимых белков) проверяемых сортов зерновых. При оцифровке ЭФС получается денситограмма из 4000 отсчётов, наиболее информативные признаки которой и должны быть выделены для ввода в нейросеть. Кроме того, полученные данные требуют существенной предобработки для сглаживания и устранения подложки денситограммы, а также таких дефектов процесса оцифровки, как шумы, флюктуации границ и освещённости спектров и их нелинейных растяжений из-за нестационарности электрофореза.
Было изучено несколько альтернативных методов извлечения существенных признаков: (1) огрубление денситограммы до 200 усреднённых измерений; (2) метод главных компонент; (3) распознавание хорошо различимых пиков, чтобы вводить в нейросеть только их параметры; (4)-(5) сжатие данных с помощью быстрого преобразования Фурье (БПФ) и дискретного вейвлет-преобразования (ДВП). Эти методы использовались для извлечения главных признаков из множества выборок, приготовленных экспертами для 30 разных сортов, и последующего использования признаков для обучения трёхслойного персептрона. Сравнительный анализ эффективности распознавания при использовании вышеперечисленных методов показал их сильную зависимость от числа сортов, подлежащих классификации. Лишь с помощью БПФ и ДВП методов удалось удержать эффективность на уровне 95-97% вплоть до 20 сортов.
Предполагается дальнейшее развитие методов сжатия данных и возможности использовать систему многоступенчатых нейроклассификаторов.

Об авторах

Геннадий Алексеевич Ососков

Объединённый институт ядерных исследований

Email: ososkov@jinr.ru
Лаборатория информационных технологий; Объединённый институт ядерных исследований

Д А Баранов

Объединённый институт ядерных исследований

Лаборатория информационных технологий; Объединённый институт ядерных исследований

Список литературы

  1. Peterson C. et al., 1993. - JETNET 3.0: A Versatile Artificial Neural Network Package. - CERN, lu tp 93-29 edition. - CERN-TH 7135/94.
  2. Lindsey C. S., Lindblad T. Review of Hardware Neural Networks: A Users Perspective // HEP Neural Networks. - 1994. - No TRITA-FYS-9012. - Pp. 1-10. - Talk given at the Third Workshop on Neural Networks: From Biology to High Energy Physics, Marciana Marina, Elba, Italy, 26-30 1994.
  3. Ruanet V. V., Kudryavtsev A. M., Dadashev S. Y. The Use of Artificial Neural Networks for Automatic Analysis and Genetic Identification of Gliadin Electrophoretic Spectra in Durum Wheat // Russian Journal of Genetics. - 2001. - Vol. 37, No 10. - Pp. 1207-1209.
  4. Haykin S. Neural Networks: a Comprehensive Foundation. - N.Y., 1994.
  5. Jolliffe I. T. Principal Component Analysis, Springer Series in Statistics, 2nd ed. - Springer, NY, 2002.
  6. Baranov D. A., Dmitrievsky S. G., Ososkov G. A. Protein Structures Recognition using ANN // Proc. of IV Intern. Science School / TTI SFU. - Taganrog: 2008. - Pp. 126-130.
  7. Kramer M. A. Nonlinear Principal Component Analysis using Autoassociative Neural Networks // AIChE Journal. - 1991. - Vol. 37, No 2. - Pp. 233-243.
  8. Fukunaga K., Koontz W. Application of the Karhunen-Loeve Expansion to Feature Selection and Ordering // IEEE Transactions On Computers. - 1970. - Vol. C- 19. - Pp. 311-318.

© Ососков Г.А., Баранов Д.А., 2010

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution 4.0 International License.

Данный сайт использует cookie-файлы

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.

О куки-файлах