Discrete and Continuous Models and Applied Computational Science

2658-46702658-7149

Peoples' Friendship University of Russia named after Patrice Lumumba (RUDN University)

8420

Articles

Статьи

Research Article

The Architecture of a Parallel-Pipeline Data Processing Complex for Heterogeneous Computing Environment

Архитектура комплекса конвейерно-параллельной обработки данных в гетерогенной вычислительной среде

Talalaev

A A

Талалаев

Александр Анатольевич

arts@arts.botik.ru

Fralenko

V P

Фраленко

Виталий Петрович

alarmod@pereslavl.ru

Institute of program systems of the Russian Academy of ScienceФедеральное государственное бюджетное учреждение науки Институт программных систем им. А.К. Айламазяна Российской академии наук

15032013

NO3 (2013)

№3 (2013)

11311708092016

2013

Talalaev A.A., Fralenko V.P.

Талалаев А.А., Фраленко В.П.

https://creativecommons.org/licenses/by-nc/4.0

https://journals.rudn.ru/miph/article/view/8420

A heterogeneous computing environment uses various types of computational units. An example of such environment is a GPU-cluster that contains general-purpose processors (central processing unit, CPU) and graphics processing units for special purposes (GPU). Today’s GPU is already far superior CPU performance and, despite the limitations imposed by developed under the concept of GPGPU-computing (general-purpose graphics processing units), parallel algorithms find their application in solving problems that require intensive computation. Organization of the so-called “GPU-cluster” may be an effective solution that have an acceptable “price/performance” ratio and, that most importantly, an ability to easily scale a computer system performance. There are several types of high-performance algorithms for concurrency that relevant for GPU-cluster too (including a task and data parallelism). In this paper produced an analysis of their applicability as a basis set of parallel-pipeline computations data processing. Investigated a variants of high-performance algorithms building, proposed previously developedsoftware adaptation scheme for a new conditions. Library of GPU-computing algorithms in the first place should have a thread-safe implementation (the code is thread-safe if it functions work correctly with multiple running parallel computing threads). An important and needs attention is the question of competing threads resource sharing. In order to assess theimpact of this factor on the effectiveness of applied problem, we performed an experiment,identifying GPU-cluster competing threads dealing bottlenecks. Have been estimated the effective threshold for increasing the number of processing threads that is expected to a further calculations accelerating.

Гетерогенная вычислительная среда использует различные типы вычислительных блоков. Примером такой среды является GPU-кластер, содержащий процессоры общего назначения (central processing unit, CPU) и графические процессоры специального назначения (graphics processing unit, GPU). Современные GPU уже сейчас значительно превосходят по производительности CPU и, несмотря на ограничения, накладываемые на разрабатываемые в рамках концепции GPGPU-вычислений (general-purpose graphics processing units), параллельные алгоритмы находят свое применение при решении задач, требующих интенсивных вычислений. Организация так называемого «GPU-кластера» может стать эффективным решением, обладающим приемлемым соотношением «цена/производительность» и, что самое важное, возможностью легкого наращивания производительности вычислительной системы. Известно несколько видов параллелизма высокопроизводительных алгоритмов, актуальных и для GPU-кластеров, в том числе параллелизм задачи и параллелизм данных. В работе произведен анализ их применимости в качестве основы комплекса конвейернопараллельной обработки данных. Исследованы варианты создания высокопроизводительных алгоритмов, предложена схема адаптации ранее разработанного программного комплекса к новым условиям. Библиотека алгоритмов GPU-вычислений в первую очередь должна обладать потокобезопасной реализацией (программный код является потокобезопасным, если он функционирует корректно при использовании нескольких параллельно запущенных вычислительных потоков). Важным и требующим внимания остается вопрос совместного использования ресурсов конкурирующими потоками. Для того, чтобы выявить влияние этого фактора на эффективность решения прикладной задачи, был поставлен эксперимент, выявляющий узкие места GPU-кластера при работе с конкурирующими потоками. Сделаны оценки порога эффективного наращивания числа вычислительных потоков, предполагающего дальнейшее ускорение счета.

raphics processing unitcompute clusterarchitecturethread safety

графический процессорвычислительный кластерархитектурапотокобезопасность

OpenCL official site. — www.khronos.org/opencl.

GPU Applications. — http://www.nvidia.com/object/gpu-applications.html?All.

Свидетельство о государственной регистрации программы для ЭВМ №2012613261. — Нейросетевая система контроля телеметрической информации, диагностики подсистем космических аппаратов, обработки космических снимков (ПС НСКиД). Нейросетевая система контроля телеметрической информации, диагностики подсистем космических аппаратов, обработки космических снимков (ПС НСКиД).

Талалаев А.А. Организация конвейерно-параллельных вычислений для обработки потоков данных // Информационные технологии и вычислительные системы. — 2011. — № 1. — С. 8–13.

Хачумов В.М., Фраленко В.П. Высокопроизводительная обработка изображений на кластерных устройствах // Нейрокомпьютеры: разработка и применение. — 2012. — № 6. — С. 38–45.