Выделение основных свойств данных для их ввода в нейронный классификатор
- Авторы: Ососков Г.А.1, Баранов ДА1
-
Учреждения:
- Объединённый институт ядерных исследований
- Выпуск: № 3.2 (2010)
- Страницы: 25-31
- Раздел: Статьи
- URL: https://journals.rudn.ru/miph/article/view/8500
Цитировать
Полный текст
Аннотация
Рассматривается проблема существенного сжатия данных, подлежащих вводу в классифицирующую нейронную сеть, без потери их информативности. Изложение ведется на примере задачи генетического анализа белковых структур, важной для исследований в генетической биологии, радиобиологии и особенно в сельском хозяйстве. Подобный анализ обычно проводится с помощью изучения электрофоретических спектров (ЭФС) глиадинов (спирторастворимых белков) проверяемых сортов зерновых. При оцифровке ЭФС получается денситограмма из 4000 отсчётов, наиболее информативные признаки которой и должны быть выделены для ввода в нейросеть. Кроме того, полученные данные требуют существенной предобработки для сглаживания и устранения подложки денситограммы, а также таких дефектов процесса оцифровки, как шумы, флюктуации границ и освещённости спектров и их нелинейных растяжений из-за нестационарности электрофореза.
Было изучено несколько альтернативных методов извлечения существенных признаков: (1) огрубление денситограммы до 200 усреднённых измерений; (2) метод главных компонент; (3) распознавание хорошо различимых пиков, чтобы вводить в нейросеть только их параметры; (4)-(5) сжатие данных с помощью быстрого преобразования Фурье (БПФ) и дискретного вейвлет-преобразования (ДВП). Эти методы использовались для извлечения главных признаков из множества выборок, приготовленных экспертами для 30 разных сортов, и последующего использования признаков для обучения трёхслойного персептрона. Сравнительный анализ эффективности распознавания при использовании вышеперечисленных методов показал их сильную зависимость от числа сортов, подлежащих классификации. Лишь с помощью БПФ и ДВП методов удалось удержать эффективность на уровне 95-97% вплоть до 20 сортов.
Предполагается дальнейшее развитие методов сжатия данных и возможности использовать систему многоступенчатых нейроклассификаторов.
Было изучено несколько альтернативных методов извлечения существенных признаков: (1) огрубление денситограммы до 200 усреднённых измерений; (2) метод главных компонент; (3) распознавание хорошо различимых пиков, чтобы вводить в нейросеть только их параметры; (4)-(5) сжатие данных с помощью быстрого преобразования Фурье (БПФ) и дискретного вейвлет-преобразования (ДВП). Эти методы использовались для извлечения главных признаков из множества выборок, приготовленных экспертами для 30 разных сортов, и последующего использования признаков для обучения трёхслойного персептрона. Сравнительный анализ эффективности распознавания при использовании вышеперечисленных методов показал их сильную зависимость от числа сортов, подлежащих классификации. Лишь с помощью БПФ и ДВП методов удалось удержать эффективность на уровне 95-97% вплоть до 20 сортов.
Предполагается дальнейшее развитие методов сжатия данных и возможности использовать систему многоступенчатых нейроклассификаторов.
Об авторах
Геннадий Алексеевич Ососков
Объединённый институт ядерных исследований
Email: ososkov@jinr.ru
Лаборатория информационных технологий; Объединённый институт ядерных исследований
Д А Баранов
Объединённый институт ядерных исследованийЛаборатория информационных технологий; Объединённый институт ядерных исследований
Список литературы
- Peterson C. et al., 1993. - JETNET 3.0: A Versatile Artificial Neural Network Package. - CERN, lu tp 93-29 edition. - CERN-TH 7135/94.
- Lindsey C. S., Lindblad T. Review of Hardware Neural Networks: A Users Perspective // HEP Neural Networks. - 1994. - No TRITA-FYS-9012. - Pp. 1-10. - Talk given at the Third Workshop on Neural Networks: From Biology to High Energy Physics, Marciana Marina, Elba, Italy, 26-30 1994.
- Ruanet V. V., Kudryavtsev A. M., Dadashev S. Y. The Use of Artificial Neural Networks for Automatic Analysis and Genetic Identification of Gliadin Electrophoretic Spectra in Durum Wheat // Russian Journal of Genetics. - 2001. - Vol. 37, No 10. - Pp. 1207-1209.
- Haykin S. Neural Networks: a Comprehensive Foundation. - N.Y., 1994.
- Jolliffe I. T. Principal Component Analysis, Springer Series in Statistics, 2nd ed. - Springer, NY, 2002.
- Baranov D. A., Dmitrievsky S. G., Ososkov G. A. Protein Structures Recognition using ANN // Proc. of IV Intern. Science School / TTI SFU. - Taganrog: 2008. - Pp. 126-130.
- Kramer M. A. Nonlinear Principal Component Analysis using Autoassociative Neural Networks // AIChE Journal. - 1991. - Vol. 37, No 2. - Pp. 233-243.
- Fukunaga K., Koontz W. Application of the Karhunen-Loeve Expansion to Feature Selection and Ordering // IEEE Transactions On Computers. - 1970. - Vol. C- 19. - Pp. 311-318.