Об управлении по принципу обратной связи системой с последействием при неполной информации о фазовых координатах


Цитировать

Полный текст

Аннотация

Рассматриваются две взаимно дополняющие игровые задачи на минимакс (максимин) функционала качества для нелинейной системы дифференциальных уравнений с последействием. В предположении, что в достаточно частые моменты времени измеряется (с ошибкой) часть фазовых координат системы, указываются устойчивые к информационным помехам и погрешностям вычислений алгоритмы решения задач. В основе предлагаемых алгоритмов лежит принцип экстремального сдвига Н. Н. Красовского.

Полный текст

ВВЕДЕНИЕ Рассматривается задача управления по принципу обратной связи системой с последействием вида z˙(t) = f (t, zt(s), u(t), v(t)), t ∈ T = [t0, ϑ]. zt(s) = z(t + s), s ∈ [-τ, 0], τ = const > 0. В дальнейшем полагаем, что система имеет следующую структуру x˙ (t) = F0(xt(s), yt(s)) + Bu(t) - Dv(t), y˙(t) = L(yt(s)) + Cx(t)+ f0(t), (1.1) где z = {x, y}, x ∈ Rn; y ∈ RN ; xt(s) : s → x(t + s), yt(s) : s → y(t + s), s ∈ [-τ, 0]; u ∈ Rm - управление первого игрока; v ∈ Rq - управление второго игрока, B, D и C - постоянные мат- рицы размерностей n × m, n × q и N × n соответственно; функция f0(·) является элементом ∞ пространства L (T ; RN ). Отображение F0 действует из декартова произведения X × Y в Rn (X = Rn × L2([-τ, 0]; Rn), Y = RN × L2([-τ, 0]; RN )) и удовлетворяет условию Липшица |F0(x(1)(s), y(1)(s)) - F0(x(2)(s), y(2)(s))|n Lf|y(1) - y(2)|N + |x(1) - x(2)|n + 0 (1.2) + rr -τ N {|y(1)(s) - y(2)(s)|2 + |x (1) - x (2) (s) 2 1/2 |n} ds , L = const > 0, ∀ y(1)(s) = (y(1), y(1)(s)) ∈ Y, y(2)(s) = (y(2), y(2)(s)) ∈ Y, x(1)(s) = (x(1), x(1)(s)) ∈ X, x(2)(s) = (x(2), x(2)(s)) ∈ X. В свою очередь, отображение L действует из пространства Y в RN и удовле- творяет условию Липшица 0 r |L(y(1)(s)) - L(y(2)(s))|N L1f|y(1)(s) - y(2)(s)|N +( -τ N |y(1)(s) - y(2)(s)|2 ds)1/2 , (1.3) L1 = const > 0, ∀ y(1)(s) = (y(1), y(1)(s)) ∈ Y, y(2)(s) = (y(2), y(2)(s)) ∈ Y. Начальное состояние системы (1.1) таково: xt0 (s) = x0(s) ∈ W1 = W 1,∞ ([-τ, 0], Rn ), yt0 (s) = y0(s) ∈ W2 = W 1,∞ ([-τ, 0], RN ). (1.4) Здесь и ниже символ |·|n означает евклидову норму в пространстве Rn, а символ W 1,∞([a, b]; Rn) - пространство абсолютно непрерывных функций x(t) ∈ Rn, t ∈ [a, b], производные которых x˙ (·) ∈ n L∞([a, b]; R ). Качество процесса z(·) = {x(·), y(·)} оценивается интегральным критерием качества ϑ r I(x(·), y(·)) = t0 f∗(t, x(t), y(t)) dt. ∗ N Здесь вещественная функция f (·) определена на T × Rn × R и такова, что функция t ±→ f∗(t, x, y) ∗ измерима по Лебегу для любых x ∈ Rn, y ∈ RN , а функция (x, y) ±→ f (t, x, y) выпукла по u, липшицева при п.в. t ∈ T и для п.в. t ∈ T выполняется неравенство |f∗(t, 0, 0)| c0(t), где c0(·) ∈ L∞(T ; R). Содержательно рассматриваемая задача может быть сформулирована следующим образом. Си- стема (1.1) подвержена управляющим воздействиям двух игроков. Оба игрока знают уравнения системы (1.1), выпуклые, ограниченные, замкнутые множества P ⊂ Rm, Q ⊂ Rq и управляют m ею с помощью выбора соответственно функции u(·) ∈ L∞(T ; R ), принимающей значения в P q и называемой управлением первого игрока, и функции v(·) ∈ L∞(T ; R ), принимающей значе- ния в Q и называемой управлением второго игрока. Предполагаем, что начальное состояние системы (1.1) - z0(s) = {x0(s), y0(s)} - известно неточно, т. е. вместо z0(s) известен элемент 0 (s) = {x0(s), y0 (s)}∈ W1 × W2 такой, что z∗ ∗ ∗ 0 |x∗(s) - x0(s)|W1 0 h, |y∗(s) - y0(s)|W2 h. (1.5) Здесь символ |· |Wj означает норму в пространстве Wj,j = 1, 2. Цель первого игрока - выбором своего управления по позиционному принципу (по принципу обратной связи) минимизировать максимально возможное значение показателя I, цель второго игрока противоположна - выбором своего управления по позиционному принципу максимизировать минимально возможное значение этого показателя. }i=0 На промежутке времени T выбрана равномерная сетка Δ = {τi m , τ0 = t0, τm = ϑ, τi+1 = τi + δ с шагом δ. В моменты времени τi измеряется (с ошибкой) одна из фазовых координат: x(τi) или y(τi). Результаты измерений - вектора ξh ∈ Rn или ηh ∈ RN - удовлетворяют соответственно i i неравенствам |ξh - x(τi)|n h, |ηh - y(τi)|N h, (1.6) i i где h ∈ (0, 1) - величина погрешности измерения. В дальнейшем символ z(·) = {x(·), y(·)} = {x(·; t0, x0(s), u(·), v(·)), y(·; t0, y0(s), u(·), v(·))} означает фазовую траекторию системы (1.1), порож- денную управлением первого игрока u(·) и второго игрока v(·). В настоящей работе, лежащей в русле екатеринбургской школы по теории гарантированного управления [4, 13-15, 17], указываются алгоритмы решения описанных задач, стоящих перед каж- дым из игроков, которые основаны на методе динамического обращения (методе динамической аппроксимации управлений), развитом в [12, 16], и на известном в теории позиционного управле- ния методе стабильных дорожек [4]. В связи с неполнотой информации (а именно с возможностью измерения в моменты τi не всего фазового состояния системы {x(τi), y(τi)}, а лишь его части - x(τi) или y(τi)) наряду с блоком управления (при измерении координаты y) будет использоваться дополнительный блок - блок динамического восстановления неизвестной координаты x. При этом блок динамического восстановления будет играть роль поставщика информации о текущем полном фазовом состоянии системы. Эта информация будет оперативно передаваться на блок управления, формирующий управление u (v) по закону обратной связи. Заметим, что основы теории позиционного управления системами с последействием были за- ложены в [3, 9, 11] (см. также более поздние работы [2, 7, 8]). Однако в этих работах обсуж- дались проблемы гарантированного управления в случае измерения с ошибкой всего фазового состояния (т. е. при «полной» информации о фазовых координатах). В данной работе исследует- ся задача на минимакс (максимин) функционала качества при измерении лишь «части» фазового состояния (измерении «части координат»). Для систем, описываемых обыкновенными дифферен- циальными уравнениями, задачи управления при измерении части координат рассматривались в работах [1, 5, 6, 10]. ОБ УПРАВЛЕНИИ ПО ПРИНЦИПУ ОБРАТНОЙ СВЯЗИ 113 Допустимое управление первого игрока есть всякая измеримая функция u(·) : T ±→ P, до- пустимое управление второго игрока - всякая измеримая функция v(·) : T ±→ Q. Множества всех допустимых управлений и возмущений обозначим соответственно через U (·) и V(·). Дви- жение (системы (1.1)) под действием u(·) ∈ U (·) и v(·) ∈ V(·) есть функция z(·) = {x(·), y(·)} = {x(·; t0, x0(s), u(·), v(·)), y(·; t0, y0(s), u(·), v(·))} - решение (1.1), понимаемое в смысле Каратеодори. Пусть Z(·) = {x(·; t0, x0(s), u(·), v(·)), y(·; t0, y0(s), u(·), v(·)) : u(·) ∈ U, v(·) ∈ V} - пучок всех решений системы (1.1). Нетрудно проверить справедливость следующей леммы. Лемма 1.1. Можно указать число ρ > 0 такое, что sup{|x(·)|C(T ;Rn) + |y(·)|C(T ;RN ) + |x˙ (·)|L∞(T ;Rn) + |y˙(·)|L∞(T ;RN ) : {x(·), y(·)}∈ Z(·)} ρ. Сначала рассмотрим случай наблюдения компоненты x(t), затем случай наблюдения компоненты y(t); второй случай - основной. ПОСТАНОВКА ЗАДАЧ. СЛУЧАЙ ИЗМЕРЕНИЯ КОМПОНЕНТЫ x(·) }i=0 Следуя [4], назовем закон управления, использующий результаты наблюдения фазового со- стояния x(·), позиционной стратегией первого игрока и определим ее как пару (Δ, U ), где Δ = {τi m , τ0 = t0, τm = ϑ - разбиение отрезка T с диаметром δ = τi+1 - τi : i ∈ [0 : m - 1], а U : T × Rn ±→ P обратная связь. Движение, порожденное указанной стратегией при погрешности измерения h (h 0), есть функция вида zh h h h h Δ(·) = {xΔ(·), yΔ(·)} = {x(·; t0, x0(s),u (·), v(·)), y(·; t0, y0(s),u (·), v(·))}, i где v(·) ∈ V(·) и для всех i = 0, 1,...,m - 1, при некоторых ξh ∈ Rn таких, что |ξh - xh (τi)|n h, (2.1) i Δ выполняется равенство uh(t) = ue = U (τi, ξh), t ∈ [τi, τi+1). (2.2) i i Множество всех таких движений системы (1.1) обозначим символом Zh(Δ, U ). }i=0 Назовем закон управления, использующий результаты наблюдения фазового состояния x(τi), позиционной стратегией второго игрока и определим ее как пару (Δ, V), где Δ = {τi m , τ0 = t0, τm = ϑ - разбиение отрезка T с диаметром δ = τi+1 - τi : i ∈ [0 : m - 1], а V : T × Rn ±→ Q обратная связь. Движение, порожденное указанной стратегией при погрешности измерения h (h 0), есть функция вида zh,Δ(·) = {xh(·), yh(·)} = {x(·; t0, x0(s), u(·), vh(·)), y(·; t0, y0(s), u(·), vh(·))}, i где u(·) ∈ U (·) и для всех i = 0, 1,...,m - 1, при некоторых ξh ∈ Rn таких, что i |ξh - xh(τi)|n h, (2.3) выполняется равенство vh(t) = ve = V(τi, ξh), t ∈ [τi, τi+1). (2.4) i i Множество всех таких движений системы (1.1) обозначим символом Zh(Δ, V). }i=0 Пусть Δh = {τi,h mh - семейство разбиений отрезка T таких, что τ0,h = t0, τmh,h = ϑ, τi+1,h = τi,h + δ(h). (2.5) Далее зафиксируем семейство (Δh)h>0 разбиений отрезка T со свойством lim δ(h) = 0 (2.6) h→0 и положительную функцию положительного аргумента h такую, что h ±→ ζ(h) (2.7) lim ζ(h) = 0. h→0 114 В. С. КУБЛАНОВ, В. И. МАКСИМОВ∗ Задача 1. Требуется указать семейство позиционных стратегий первого игрока (Δh, U ) : T × Rn → P и семейство позиционных стратегий второго игрока (Δh, V) : T × Rn → Q, а также число c, обладающие следующими свойствами: какова бы ни была величина ε > 0, найдутся числа h∗ > 0 и δ∗ > 0 такие, что неравенства I(zh (·)) c + ε ∀zh (·) ∈ Zh(Δh, U ), (2.8) Δ Δ I(zh,Δ(·)) c - ε ∀zh,Δ(·) ∈ Zh(Δh, V) (2.9) справедливы, если h h∗ и δ = δ(h) δ∗. Число c в этом случае называется ценой игры. Δ Скажем, что семейство (Δh, U )h>0 позиционных стратегий является ε-оптимальным минимакс- ным, если для любого числа ε > 0 можно указать число h0 > 0 такое, что при каждом h ∈ (0, h0] всякое движение zh (·) из Zh(Δh, U ) удовлетворяет неравенству (2.8). В свою очередь, скажем, что семейство (Δh, V)h>0 позиционных стратегий является ε- оптимальным максиминным, если для любого числа ε > 0 можно указать число h1 > 0 такое, что при каждом h ∈ (0, h1] всякое движение zh,Δ(·) из Zh(Δh, V) удовлетворяет неравенству (2.9). В дальнейшем считаем, что выполнено следующее условие: Условие 2.1. Существует выпуклое и замкнутое множество E ⊂ Rn такое, что BP = DQ + E. В последнем равенстве BP = {Bu : u ∈ P}, DQ = {Dv : v ∈ Q}, DQ + E = {u : u = u1 + u2, u1 ∈ DQ, u2 ∈ E}. Дорожкой назовем всякую функцию z˜(·) = {w(·), p(·)}, удовлетворяющую начальному условию z˜t0 (s) = {wt0 (s), pt0 (s)} = {x∗(s), y∗(s)} и являющуюся решением (в смысле Каратеодори) системы с последействием где 0 0 w˙ (t) = F0(wt(s), pt(s)) + r(t), p˙(t) = L(pt(s)) + Cw(t)+ f0(t), t ∈ T, (2.10) r(·) ∈ E(·) = {u(·) ∈ L2(T ; Rn) : u(t) ∈ E при п. в. t ∈ T}; при этом будем говорить, что дорожка z˜(·) = {w(·), p(·)} = {w(·; t0, wt0 (s), r(·)), p(·; t0, pt0 (s), r(·))} порождается управлением r(·). Нетрудно видеть, что для каждой функции r(·) ∈ E существует единственная порождаемая ею дорожка. Пусть r0(·) - оптимальное программное управление, решающее следующую задачу. Задача 2. Минимизировать функционал I(z(·)) на множестве Z(·) = {z˜(·) = {w(·), p(·)} = {w(·; t0, wt0 (s), r(·)), p(·; t0, pt0 (s), r(·))} : r(·) ∈ E(·)}, где символ {w(·; t0, wt0 (s), r(·)), p(·; t0, pt0 (s), r(·))} означает решение системы (2.10), порождаемое управлением r(·). Очевидно, решение задачи 2 существует. Пусть c0 = inf z˜(·)∈Z(·) I(z˜(·)) - оптимальное значение критерия качества, т. е. c0 = I(z˜0(·)), где z˜0(·) = {w0(·), p0(·)} = {w(·; t0, wt0 (s), r0(·)), p(·; t0, pt0 (s), r0(·))} - оптимальная траектория (дорожка) - решение систе- мы (2.10), отвечающее управлению r(·) = r0(·). ОБ УПРАВЛЕНИИ ПО ПРИНЦИПУ ОБРАТНОЙ СВЯЗИ 115 АЛГОРИТМ РЕШЕНИЯ. СЛУЧАЙ ИЗМЕРЕНИЯ КОМПОНЕНТЫ x(·) Δ В настоящем разделе мы укажем правила формирования семейств ε-оптимальных минимакс- ных и максиминных позиционных стратегий (Δh, U )h>0 и (Δh, V)h>0. При этом мы воспользуемся методом стабильных дорожек, развитым в [4] для систем, описываемых обыкновенными дифферен- циальными уравнениями. Начнем с минимаксных стратегий. Именно, опишем правило построения семейства ε-оптимальных минимаксных стратегий, т. е. опишем последовательность действий, которые необходимо выполнить первому игроку для решения стоящей перед ним задачи. Мы ор- ганизуем процесс управления системой (1.1) по принципу обратной связи таким образом, чтобы при достаточно малых h и δ истинное движение системы (1.1) zh (·) оставалось при всех t ∈ T в достаточно малой ε-окрестности дорожки z˜0(·). i До начала работы алгоритма фиксируем h и Δh. Работу алгоритма разобьем на m - 1 (m = mh) однотипных шагов. В течение i-го шага, осуществляемого на промежутке времени δi = [τi, τi+1), τi = τi,h, выполняются следующие операции. Сначала, в момент t = τi, по измерению ξh, удо- i влетворяющему (2.1), и фазовому состоянию дорожки z˜0(τi) вычисляется вектор ue i = U (τi, ξh). i i+1 Δτi После этого в течение промежутка времени δi на вход системы (1.1) подается постоянное управ- ление u = uh(t) (см. (2.2)). В результате под действием этого управления и неизвестного управления второго игрока vτ ,τ (·) система (1.1) переходит из состояния zh (s) в состояние zh h h e Δτi+1 (s) = zΔτi+1 (s; τi, zΔτi (s), ui , vτi,τi+1 (·)). Здесь и всюду ниже символ ua,b(·) (va,b(·)) означает функцию t ±→ u(t) (t ±→ v(t)), рассматриваемую на промежутке (a, b) как единое целое. На следую- щем (i + 1)-м шаге аналогичные действия повторяются. Работа алгоритма заканчивается в момент t = ϑ. Теорема 3.1. Пусть выполнено условие 2.1, z˜0(·) = {w0(·), p0(·)} - оптимальная траектория (дорожка) системы (2.10) и семейство позиционных стратегий первого игрока (Δh, U )h>0 таково, что U задается соотношениями U (τi, Тогда ξh) = {ue ∈ P : rξh - w0(τi), Bue inf rξh - w0 i i i i n u∈P i (τi), Bu n + ζ(h)}, τi = τi,h. (3.1) lim sup f|zh (t) - z˜0(t)|n+N : t ∈ T, zh (·) ∈ Zh(Δh, U ) = 0. Δ Δ h→0 Доказательство. Для доказательства теоремы оценим изменение величины Δt ε(t) = |zh X×Y (s) - z˜0t(s)|2 , t ∈ T, где zh (·) = {xh (·), yh (·)}, z˜0(·) = {w0(·), p0(·)}. Заметим, что при t ∈ T Δ Δ Δ 0 0 r r ε(t) = |xh (t) -w0(t)|2 + |xh (t + s) -w0(t + s)|2 ds + |yh (t) -p0(t)|2 + |yh (t + s) -p0(t + s)|2 ds. Δ n Δ -τ n Δ N Δ N -τ Далее, нетрудно видеть, что справедливо равенство ε(τi+1) = ν(i+1) + ν(i+1) (i+1) где 1 τi+1 2 + ν3 , (3.2) ν(i+1) h r h e 2 1 = Δ N +n Δt i z (τi) - z˜0(τi)+ τi {f (t, z (s),u , v(t)) - f1(t, z˜0t(s), r0(t))} dt , 0 2 = ν (i+1) r h Δt τi+1+s r t e 2 N +n Δ i ν(i+1) z -δ r-δ (τi) - z˜0(τi)+ τi {f (t, z (s),u , v(t)) - f1(t, z˜0t(s), r0(t))} dt ds, r-δ 3 = |xh (τi+1 + s) - w0(τi+1 + s)|2 ds + |yh (τi+1 + s) - p0(τi+1 + s)|2 ds, Δ n Δ N -τ -τ 116 В. С. КУБЛАНОВ, В. И. МАКСИМОВ∗ ( F0(w0(s), p0(s)) + r0(t) I t t f1(t, z˜0t(s), r0(t)) = , t L(p0(s)) + Cw0(t)+ f0(t) δ = δ(h), Δ = Δh (см. (2.5)). Оценим каждое слагаемое в правой части равенства (3.2). Имеем 3 = ν(i+1) 0 0 r r |xh (τi + s) - w0(τi + s)|2 ds + |yh (τi + s) - p0(τi + s)|2 ds, -τ +δ Δ ν(i+1) n -τ +δ Δ N (i+1) 1 = |zh (τi) - z˜0(τi)|2 + ν + (3.3) Δ τi+1 + r h e N +n 4 2 Здесь N +n {f (t, zΔt(s), ui , v(t)) - f1(t, z˜0t(s), r0(t))} dt . τi ν(i+1) r τi+1 r (1) (2) Δ 4 = 2 zh (τi) - z˜0(τi), τi Δt {f (t, zh i (s), ue, v(t)) - f1(t, z˜0t(s), r0(t))} dt N +n = μi + μi , μ(1) r τi+1 r i = 2 xh (τi) - w0(τi), {F0(xh (s), yh (s)) - F0(w0(s), p0(s)) + Bue - Dv(t) - r0(t)} dt . Δ μ(2) r Δt Δt τi τi+1 r t t i n i = 2 yh (τi) - p0(τi), {L(yh (s)) - L(p0(s)) + C(xh (t) - w0(t))} dt , Δ Δt t Δ N τi В силу (1.3) верно неравенство 0 r r |L(p0 (s)) - L(yh (s))|N c1 p0(τi) - yh (τi)|N +( |p0(τi + s) - yh (τi + s)|2 ds)1/2 . τi Δτi | Δ Δ N -τ Далее, снова учитывая (1.3), а также лемму 1.1, получаем при t ∈ [τi, τi+1) τi+1 r h 0 h 0 2 N L(yΔt(s) - L(pt (s)) - L(yΔτi (s)) - L(pτi (s)) τi dt c2δ , τi+1 r h 0 h 0 2 Таким образом μ(2) C(xΔ(t) - w τi (t)) - C(xΔ(τi) - w (τi)) n dt c3δ . i δc4|yh (τi) - p0(τi)|N {|xh (τi) - w0(τi)|n + |yh (τi) - p0(τi)|N + (3.4) Δ + |y h Δτi Δ τi (s) - p0 (s)| L2([-τ,0];R Δ N )} + c5δ2. Аналогично, учитывая липшицевость отображения F0 (см. (1.2)) и лемму 1.1, устанавливаем оцен- ку + |yh (s) - p0 (s)| μ(1) i 2 δc6|xh (τi) Δ - w0(τi)| n{|xh (s) Δτi - w0 (s)| n τi L2([-τ,0];R ) + |xh (τi) - Δ w0 (τi)|n + (3.5) N + |yh (τi) - p0(τi)|N } + c7δ2 + μ(3), где Δτi μ(3) τi L2([-τ,0];R r ) Δ i τi+1 r Легко видеть Δ i = 2 xh (τi) - w0(τi), τi ν(i+1) i n (Bue - Dv(t) - r0(t)) dt . 2 δ|zh (τi) - z˜0(τi)|2 + c8δ2. Δ N +n ОБ УПРАВЛЕНИИ ПО ПРИНЦИПУ ОБРАТНОЙ СВЯЗИ 117 Объединив (3.2)-(3.5) и последнее неравенство, будем иметь i ε(τi+1) (1 + c9δ)ε(τi)+ c10δ2 + μ(3). (3.6) i Рассмотрим величину μ(3). Справедливо неравенство μ(3) (4) Здесь i μi + c11hδ. (3.7) τi+1 μ(4) r r i i n i = 2 ξh - w(0(τi), τi (Bue - Dv(t) - r0(t)) dt , i Учитывая правило выбора векторов ue(3.1), заключаем в силу условия 2.1 В таком случае из (3.7) выводим μ(3) μ(4) i ζ(h)δ. Отсюда и из (3.6) следует i c11hδ + ζ(h)δ. ε(τi+1) (1 + c9δ)ε(τi)+ c13δ(h + δ + ζ(h)). Учитывая последнее неравенство, а также (1.5), стандартным образом (см., например, [4, с. 62-65]) получим ε(τi+1) c13rε(t0)+ h + δ + ζ(h) c14(h + δ(h)+ ζ(h)), i ∈ [0 : m - 1]. (3.8) Из этого неравенства следует справедливость теоремы. Теорема доказана. }i=0 Перейдем к построению ε-оптимального максиминного семейства (Δh, V)h>0. Снова начнем с описания алгоритма, т. е. последовательности действий, которые необходимо выполнить второму игроку для решения стоящей перед ним задачи. Фиксируем величину погрешности измерения h ∈ (0, 1). Вместе с h мы фиксируем разбиение Δh = {τi,h mh отрезка T. В момент t = t0 определим элементы u(0), v(0) и v0 согласно правилам (w(τ0) - ξh, Bu(0))n min{(w(τ0) - ξh, Bu)n : u ∈ P} + ζ(h), |ξh - xh(τ0)|n h, (3.9) 0 0 0 v(0) - произвольный элемент из множества Q со свойствами Bu(0) - Dv(0) ∈ E, ve h 0 ∈ V(t, ξ0 , w(τ0)), (3.10) V(τ0, x, w(τ0)) = {v ∈ Q : (w(τ0) - x, Dv)n min{(w(τ0) - x, Dv)n : v ∈ Q} + ζ(h). (3.11) После этого в (2.10) полагаем r(t) = Bu(0) - Dv(0), t ∈ [t0, τ1). (3.12) Затем вычисляем траекторию z˜(t) = {w(t), p(t)} дорожки (2.10) на интервале [t0, τ1]: z˜(t) = z˜(t; t0, zt0 (s), r(t)), t0 t τ1. Аналогично, управление 0 vh(t) = ve, t ∈ [τ0, τ1) (3.13) uτ ,τ e τ ,τ 0 1 h,Δ подается на вход системы (1.1). В результате действия этого управления, а также (неизвестного) управления первого игрока uτ0,τ1 (·) реализуется траектория системы (1.1) {zh,Δ(·; τ0, zh,Δ,τ0 (s), 0 1 (·), v0)} 0 1 на промежутке [t , τ ]. Пусть траектории z (·) и z˜(·) определены на интервале i [t0, τi]. Для формирования кусков траекторий {zh,Δ(·)}τi,τi+1 и {z˜(·)}τi,τi+1 поступим следующим образом. В момент t = τi зададим u(i), v(i) и ve согласно правилу (w(τi) - ξh, Bu(i)) min{(w(τi) - ξh, Bu)n : u ∈ P} + ζ(h), |ξh - xh(τi)|n h, (3.14) i i i v(i) - произвольный элемент множества Q со свойством: Bu(i) - Dv(i) ∈ E, ve h i ∈ V(t, ξi , w(τi)), (3.15) V(τi, x, w(τi)) = {v ∈ Q : (w(τi) - x, Dv)n min{(w(τi) - x, Dv)n : v ∈ Q} + ζ(h). (3.16) 118 В. С. КУБЛАНОВ, В. И. МАКСИМОВ∗ После этого в (2.10) полагаем r(t) = Bu(i) - Dv(i), t ∈ [τi, τi+1). (3.17) Затем вычисляем траекторию z˜(·) системы (2.10) на промежутке [τi, τi+1]: z˜(t) = z˜(t; τi, z˜τi (s), r(t)), τi t τi+1. Аналогично, управление i vh(t) = ve, t ∈ [τi, τi+1) (3.18) подается на вход системы (1.1). В результате действия этого управления, а также (неизвестного) управления первого игрока uτi,τi+1 (·), реализуется траектория e {zh,Δ(·; τi, zh,Δτi (s), uτi,τi+1 (·), vi )}τi,τi+1 системы (1.1) на интервале [τi, τi+1]. Процедура заканчивается в момент ϑ. Теорема 3.2. Пусть выполнено условие 2.1. Пусть Zh(Δh, V), h ∈ (0, 1) - пучок решений системы (1.1), порожденный позиционной стратегией (Δh, V)h>0 вида (3.11), (3.16). Тогда lim sup f zh,Δ(t) - z˜(t)|n+N : t ∈ T, zh,Δ(·) ∈ Zh(Δh, V) = 0. h→0 Доказательство. Для доказательства теоремы оценим изменение величины X×Y ε1(t) = |zh,Δt(s) - z˜t(s)|2 = 0 0 r r = |xh(t) - w(t)|2 + |xh(t + s) - w(t + s)|2 ds + |yh(t) - p(t)|2 + |yh(t + s) - p(t + s)|2 ds. n n N N -τ -τ Здесь zh,Δ(·) = {xh(·), yh(·)} - решение системы (1.1), отвечающее управлениям u = u(·) и v = vh(·), u(·) - неизвестное реализующееся управление первого игрока, vh(·) находится соглас- но (3.10), (3.11), (3.13), (3.16), (3.15), (3.18), z˜(·) = z˜(·; t0, z˜t0 (s), r(·)) - решение системы (2.10), порожденное управлением r(·) вида (3.12), (3.17), где вектора u(i)(i ∈ [0 : m - 1]) находятся согласно (3.9), (3.14), а вектора v(i) ∈ Q таковы, что Bu(i) - Dv(i) ∈ E. Аналогично (3.2) получаем ε1(τi+1) = ν(i+1) + ν(i+1) (i+1) 4 τi+1 5 + ν6 , (3.19) ν(i+1) r e 2 4 = i N +n zh,Δ(τi) - z˜(τi)+ τi {f (t, zh,Δt(s), u(t),v ) - f1(t, z˜t(s), r(t))} dt , 0 5 = ν(i+1) r τi+1+s r e 2 N +n i -δ ν(i+1) zh,Δ(τi) - z˜(τi)+ τi r-δ {f (t, zh,Δt(s), u(t),v ) - f1(t, z˜t(s), r(t))} dt r-δ ds, n 6 = |xh(τi+1 + s) - w(τi+1 + s)|2 ds + -τ -τ N |yh(τi+1 + s) - p(τi+1 + s)|2 ds, τi = τi,h, Δ = Δh,δ = δ(h) (см. (2.5)). Оценим каждое слагаемое в правой части равенства (3.19). Имеем 6 = ν(i+1) 0 r -τ +δ n |xh(τi + s) - w(τi + s)|2 ds + ν(i+1) 0 r -τ +δ N |yh(τi + s) - p(τi + s)|2 (i+1) ds, τi+1 r + N +n 4 = |zh,Δ(τi) - z˜(τi)|2 e + ν7 + (3.20) 2 N +n {f (t, zh,Δt(s), u(t), vi ) - f1(t, z˜t(s), r(t))} dt , τi ОБ УПРАВЛЕНИИ ПО ПРИНЦИПУ ОБРАТНОЙ СВЯЗИ 119 где ν(i+1) r τi+1 r 7 = 2 zh,Δ(τi) - z˜(τi), τi i {f (t, zh,Δt(s), u(t), ve) - (1) (2) μ˜(1) r τi+1 r - f1(t, z˜t(s), r(t))} dt N +n = μ˜i + μ˜i , i = 2 xh(τi) - w(τi), {F0(xh(s), yh(s)) - F0(wt(s), pt(s)) + Bu(t) - Dve - Bu(i) + Dv(i)} dt . τi μ˜(2) r t t i n τi+1 r i = 2 yh(τi) - p(τi), τi В силу (1.3) верно неравенство t N {L(yh(s)) - L(pt(s)) + C(xh(t) - w(t))} dt , 0 r |L(yh (s)) - L(pτ (s))|N c(1)r|yh(τi) - p(τi)|N +( |yh(τi + s) - p(τi + s)|2 ds)1/2 . τi i N -τ Кроме того, при y ∈ [τi, τi+1) τi+1 r h h (2) 2 N L(yt (s)) - L(pt(s)) - L(yτi (s)) - L(pτi (s)) τi dt c δ , τi+1 Таким образом μ˜(2) r h C(x τi - w(t)) - C(xh n (τi) - p(τi)) dt c (3)δ2. i δc(4)|yh(τi) - p(τi)|N {|xh(τi) - w(τi)|n + |yh(τi) - p(τi)|N + (3.21) + |yh (s) - pτ (s)| N } + c(5)δ2. Далее имеем μ˜(1) τi i L2([-τ,0];R ) i 2δc(6)|xh(τi) - w(τi)|n{|xh (s) - wτ (s)| n + |xh(τi) - w(τi)|n + (3.22) τi i L2([-τ,0];R ) + |yh (s) - pτ (s)| N + |yh(τi) - p(τi)|N } + c(7)δ2 + μ˜(3), где τi i L2([-τ,0];R ) i μ˜(3) r τi+1 r Легко видеть i = 2 xh(τi) - w(τi), τi ν(i+1) i n (Bu(t) - Dve - Bu(i) + Dv(i)) dt . N +n 5 c(8)δ2 + δ|zh,Δ(τi) - z˜(τi)|2 . (3.23) Объединив (3.19)-(3.23), будем иметь i ε1(τi+1) (1 + c(9)δ)ε1(τi)+ c(10)δ2 + μ˜(3). (3.24) i Рассмотрим величину μ˜(3). В силу (1.6) справедливо неравенство μ˜(3) (4) Здесь i μ˜i + c(11)hδ. (3.25) τi+1 μ˜(4) r r i i n i = 2 ξh - w(τi), τi (Bu(t) - Dve - Bu(i) + Dv(i)) dt , i Учитывая правило выбора векторов u(i), ve, v(i) (см. (3.9)-(3.18)), заключаем μ˜(4) i c(12)ζ(h)δ. (3.26) 120 В. С. КУБЛАНОВ, В. И. МАКСИМОВ∗ Из (3.25), (3.26) выводим Отсюда и из (3.24) следует μ˜(3) i c(11)hδ + c(12)ζ(h)δ. ε1(τi+1) (1 + c(9)δ)ε1(τi)+ c(13)δ(h + δ + ζ(h)). (3.27) Таким образом, учитывая (3.27), а также (1.5), получим ε1(τi+1) c(13)rε1(t0)+ h + δ + ζ(h) c(14)(h + δ(h)+ ζ(h)), i ∈ [0 : m - 1]. Из этого неравенства следует справедливость теоремы. Теорема доказана. Из теорем 3.1 и 3.2 в силу липшицевости критерия качества I следует Теорема 3.3. Пусть выполнено условие 2.1. Тогда цена игры равна c0. Семейство позици- онных стратегий (Δh, U )h>0, где U задается согласно (3.1), является ε-оптимальным ми- нимаксным. В свою очередь, семейство позиционных стратегий (Δh, V)h>0, где V задается согласно (3.11), (3.16), является ε-оптимальным максиминным. ПОСТАНОВКА ЗАДАЧ. СЛУЧАЙ ИЗМЕРЕНИЯ КОМПОНЕНТЫ y(·) Перейдем к описанию законов формирования управлений первого и второго игроков при наблю- дении компоненты y(·) состояния z(·) = {x(·), y(·)} системы (1.1). Для простоты выкладок ниже считаем t0 = 0. Фиксируем две системы (назовем их в дальнейшем моделями). Первая - дорожка с динамикой (2.10). Динамика второй модели описывается системой обыкновенных дифференци- альных уравнений τi w˙ h(t) = L(ηh (s)) + Csh(t)+ f0(t) при п.в. t ∈ δi = [τi, τi+1), (4.1) i ∈ [0 : m - 1], m = mh, с начальным условием 0 wh(0) = y∗(0). i Здесь ηh(t) - кусочно-постоянная функция (ηh(t) = ηh при t ∈ [τi, τi+1), τi = τi,h)- результат измерения компоненты y(·) (см. (1.6)), sh(t) ∈ Rn - управляющее воздействие. Всякую кусочно- постоянную функцию ηh(·) : T ±→ RN назовем сигнальным входом модели, а всякую кусочно- постоянную функцию sh(·) : T ±→ Rn - управляющим s-входом модели. Движением модели, порожденным сигнальным входом ηh(·) и управляющим s-входом sh(·), назовем тройку функций {w(·), p(·), wh(·)}. Такое движение, которое существует и единственно, будем обозначать следую- щим образом: {w(·; t0, x∗(s), r(·)), p(·; t0, y∗(s), r(·)), wh(·; t0, y∗(0), sh(·))}. 0 0 0 Позиционной стратегией первого игрока назовем тройку (Δ, S, U ), где }i=0 Δ = {τi m - разбиение отрезка T, S : (t, η, wh) ±→ S(t, η, wh) : T × RN × RN ±→ Rn - обратная связь в модели (4.1), U : (t, s, w) ±→ U (t, s, w) : T × Rn × Rn ±→ P - обратная связь в системе (1.1). Δ Расширенное движение, порожденное указанной позиционной стратегией (Δ, S, U ) при погрешно- сти измерения h, есть четверка функций {zh (·), w(·), p(·), wh(·)} следующего вида: zh h h h Δ(·) = {xΔ(·), yΔ(·)} = {x(·; t0, x0(s),u (·), v(·)), y(·; t0, y0(s), uh(·), v(·))} - траектория системы (1.1), {w(·), p(·)} = {w(·; t0, x∗(s), r(·)), p(·; t0, y∗(s), r(·))} - траектория дорожки (2.10), 0 0 0 wh(·) = wh(·; t0, y∗(0), sh(·)) - траектория модели (4.1), h N где v(·) ∈ V, и для всех i ∈ [0,...,m - 1] и всех ηi ∈ R таких, что |ηh - yh (τi)|N h, (4.2) i Δ функции sh(·) и uh(·) вычисляются по правилу sh(t) = sh = S(τi, ηh, wh(τi)), t ∈ [τi, τi+1), (4.3) i i ОБ УПРАВЛЕНИИ ПО ПРИНЦИПУ ОБРАТНОЙ СВЯЗИ 121 i uh(t) = uh = U (τi, sh(τi), w(τi)); (4.4) Множество всех таких движений обозначим символом Zh(Δ, S, U ). Позиционной стратегией вто- рого игрока назовем тройку (Δ, S, V), где }i=1 Δ = {τi m - разбиение отрезка T, S : (t, η, wh) ±→ S(t, η, wh) : T × RN × RN ±→ Rn - обратная связь в модели (4.1), V : (t, s, w) ±→ V(t, s, w) : T × Rn × Rn ±→ Q - обратная связь в системе (1.1). Расширенное движение, порожденное позиционной стратегией (Δ, S, V) при погрешности измере- ния h, есть функция {zh,Δ(·), w(·), p(·), wh(·)} вида zh,Δ(·) = {xh(·), yh(·)} = {x(·; t0, x0(s), u(·), vh(·)), y(·; t0, y0(s), u(·), vh(·))}, {w(·), p(·)} = {w(·; t0, x∗(s), r(·)), p(·; t0, y∗(s), r(·))}, 0 0 0 wh(·) = wh(·; t0, y∗(0), sh(·)), i где u(·) ∈ V(·), и для всех i ∈ [0 : m - 1] и всех ηh ∈ RN таких, что i |ηh - yh(τi)|N h, (4.5) функции sh(·) и vh(·) вычисляются по правилу sh(t) = sh = S(τi, ηh, wh(τi)), t ∈ [τi, τi+1), (4.6) i i i vh(t) = vh = V(τi, sh(τi), w(τi)). (4.7) Множество всех таких движений обозначим символом Zh(Δ, S, V). Пусть фиксировано семейство (Δh)h>0 разбиений (2.5) отрезка T со свойством (2.6) и функция ξ → ζ(h) (см. (2.7)). Задача 3. Требуется указать семейство позиционных стратегий первого игрока (Δh, S, U ) и семейство позиционных стратегий второго игрока (Δh, S, V), а также цену игры c, обладающие следующими свойствами: какова бы ни была величина ε > 0, найдутся числа h∗ > 0 и δ∗ > 0 такие, что неравенства I(zh (·)) c + ε ∀zh (·) ∈ Zh(Δh, S, U ), (4.8) Δ Δ I(zh,Δ(·)) c - ε ∀zh,Δ(·) ∈ Zh(Δh, S, V) (4.9) справедливы, если h h∗ и δ = δ(h) δ∗. Δ Скажем, что семейство (Δh, S, U )h>0 позиционных стратегий является ε-оптимальным мини- максным, если для любого числа ε > 0 можно указать число h(0) > 0 такое, что при каждом h ∈ (0, h(0)] всякое движение zh (·) из Zh(Δh, S, U ) удовлетворяет неравенству (4.8). В свою очередь, скажем, что семейство (Δh, S, V)h>0 позиционных стратегий является ε- оптимальным максиминным, если для любого числа ε > 0 можно указать число h(1) > 0 такое, что при каждом h ∈ (0, h(1)] всякое движение zh,Δ(·) из Zh(Δh, S, V) удовлетворяет неравен- ству (4.9). АЛГОРИТМ РЕШЕНИЯ. СЛУЧАЙ ИЗМЕРЕНИЯ КОМПОНЕНТЫ y(·) Δ В настоящем разделе мы укажем правила формирования семейств ε-оптимальных минимакс- ных и максиминных позиционных стратегий (Δh, S, U )h>0 и (Δh, S, V)h>0. При этом мы, как и выше, воспользуемся методом стабильных дорожек. Начнем с минимаксных стратегий. Критерий существования семейства стратегий первого игрока, решающих стоящую перед ним задачу (ε- оптимального минимаксного семейства (Δh, S, U )), - тот же, что и для стратегий (Δh, U ) (см. тео- рему 3.1). В обосновании этого результата - основного для настоящей заметки- ключевую роль играет тот факт, что обратную связь S в модели (4.1) можно подобрать таким образом, что вход sh(·) модели реконструирует ненаблюдаемую компоненту xh (·) (xh(·)) состояния системы (1.1) сколь угодно точно (в равномерной метрике) при достаточной точности наблюдений h. Дадим точную формулировку. Ввиду леммы 1.1 |x(t; 0, x0(s), u(·), v(·))|n ρ, |y(t; 0, y0(s), u(·), v(·))|N ρ (5.1) 122 В. С. КУБЛАНОВ, В. И. МАКСИМОВ∗ для всех u(·) ∈ U, v(·) ∈ V, t ∈ T. В свою очередь, в силу (5.1), липшицевости отображения L, а также свойств функций x0(s) и y0(s) можно задать число M > 0, для которого равномерно по всем {x(·), y(·)}∈ Z(·) выполняются неравенства |y˙(t)|N M, |x˙ (t)|n M при п.в. t ∈ T, (5.2) τi |L(yt(s)) - L(ηh (s))|N M (δ + h) при t ∈ δi = [τi, τi+1), i ∈ [0 : m - 1]. (5.3) Здесь τi = τh,i,m = mh. В дальнейшем нам понадобится следующее Условие 5.1. N = n и rank C = n. Зафиксируем функцию α(h) : (0, 1) → (0, 1). Закон формирования управления sh(·) в моде- ли (4.1) зададим следующим образом: sh(t) = S1(t, ηh, wh(τi)) = sh = - 1 C±[wh(τi) - ηh] при п.в. t ∈ δi = [τi, τi+1), (5.4) i i α i где α = α(h), штрих означает транспонирование. Если управление sh(·) определяется по форму- ле (5.4), то система (4.1) примет следующий вид: w˙ h(t) = L(ηh (s)) - 1 CC±[wh(τ ) - ηh] при п.в. t ∈ δ . (5.5) τi α i i i Лемма 5.1. Пусть выполнены следующие условия: α(h) → 0, δ(h) → 0, δ(h)α-1(h) → 0, hα-1(h) → 0, при h → 0. (5.6) Пусть также выполнено условие 5.1 и семейство позиционных стратегий (Δh, S1, U )h>0 та- ково, что обратная связь в модели (4.1) S1 задается согласно (5.4) при t = τi ≡ τi,h; U - произвольное (возможно, многозначное) отображение декартова произведения T × RN × RN в P. Тогда можно указать такое h∗∗ ∈ (0, 1), что при всех h ∈ (0, h∗∗) имеет место неравенство 1 / sup{|sh(t) - xh (t)|n : t ∈ T} c˜1α(h)+ c˜2(h + δ(h))α-1(h)+ c˜3|e- α CC Cxh (0)|N . (5.7) Δ Δ Доказательство. Воспользовавшись (5.5), будем иметь d [wh(t) - yh (t)] = L(ηh (s)) - 1 C±C[wh(τi) - ηh] - L(yh (s)) - Cxh (t) = dt Δ 1 τi α h h i Δt Δ (1) и Здесь -α C±C[w (t) - yΔ(t)] + Ψh (t) при п.в. t ∈ δi Δ |wh(0) - yh (0)|N h. Ψ(1) 1 h h h (t) = Ψh(t)+ α CC±[w (t) - w (τi)], 1 h h h h h Ψh(t) = -α CC±[yΔ(t) - ηi ]+ [L(ητi (s)) - L(yΔt(s))] - CxΔ(t), t ∈ δi. Заметим, что в силу (5.1)-(5.3), (5.6) семейство функций Ψh(·) ограничено |Ψh(t)|N M (1) при п.в. t ∈ T и всех h ∈ (0, 1) (5.8) равномерно по h ∈ (0, 1). Далее имеем t r wh(t) - yh (t) = wh(0) - yh (0) + 1 / e- α CC (t-s)Ψ(1)(s) ds, t ∈ T. (5.9) Δ Δ h 0 Обозначим μ(t) = max |wh(τ ) - yh (τ )|N , fh(t) = L(ηh (s)) при t ∈ δi. 0 τ 1 Справедливы следующие оценки: τi+1 Δ τi τi+1 1 r α CC± τi |w˙ h K0 r (s)|N ds α τi 1 h |fh(s) - α CC±[w i (τi) - ηh]|N ds (5.10) ОБ УПРАВЛЕНИИ ПО ПРИНЦИПУ ОБРАТНОЙ СВЯЗИ 123 δ δ K1 α + K2 α2 (μ(τi)+ h), μ(τi) μ(τi+1). Символ · означает евклидову норму матрицы. Кроме того, τi+1 (1) 1 r h |Ψh (t)|N |Ψh(t)|N + α CC± τi Следовательно, из (5.8)-(5.11) выводим t |w˙ t (s)|N ds, t ∈ δi. (5.11) δ δ δh r 1 / r 1 / μ(t) h + K3r + α α2 (μ(τi)+ α2 ) 0 e- α CC (t-s) ds + 0 e- α CC (t-s) |Ψh(s)|N ds, t ∈ δi. (5.12) Учитывая (5.8), получаем t t r 1 r 1 e- α CC/(t-s) |Ψh(s)|N ds K4 0 0 e- α CC/(t-s) ds. (5.13) В силу условия 5.1 матрица CC± - положительно определенная. В таком случае все собственные числа этой матрицы действительные, и наименьшее из них (обозначим его символом ν) положи- тельно. Тогда справедливо соотношение t t r 1 r ν α ν t α ν e- α CC/(t-s) ds K5 0 0 = K5 (1 - e e- α (t-s) ds = K5 ν e- α (t-s) 0 ν - α t ) K6α. (5.14) Из (5.13) и (5.14) вытекает оценка t r 1 e- α CC/(t-s) |Ψh(t)|N ds K7α. (5.15) 0 Полагая t = τi в (5.15) и учитывая (5.12), получаем K3K6δ δh (1 - )μ(τi) h + K8(α + δ + ). α α В таком случае, для достаточно малых h (например, таких, что K3K6δ 1 ) имеем α 2 δh μ(τi) K9(h + α + δ + (см. (5.6)). Аналогично оценке (5.10) получаем τi+1 r ) K10(h + α + δ) α δ Следовательно |w˙ h(s)|N ds K11{δ + τi τi+1 r α (h + α + δ) K12δ. |w˙ h(s)|N ds K13δ. (5.16) τi Далее нетрудно видеть (см. (5.9)), что справедливо равенство t d 1 r 1 / CC±[wh(t) - yh (t) - wh(0) + yh (0)] = ( e- α CC (t-s)) Ψ(1)(s) ds = (5.17) α Δ Δ ds h 0 t 3 rt 1 / r d 1 CC/(t-s) h d - CC (t-s) (j) - = ( e α ds 0 )CxΔ(s) ds + ( e α ds j=1 0 )γδ (s) ds. 124 В. С. КУБЛАНОВ, В. И. МАКСИМОВ∗ Здесь γ(1) 1 h h δ (s) = α CC±[w - w (τi)], γ(2) 1 h h δ (s) = -α CC±[yΔ(s) - ηi ], γ(3) h h δ (s) = L(ητi (s)) - L(yΔt(s)) при п.в. s ∈ δi. Из (5.16) вытекает оценка δ |γδ (s)|N K14 α, s ∈ T. (5.18) Принимая во внимание (1.6) и (5.2), заключаем Кроме того (см. (5.3)) (2) |γδ (s)|N K15 (3) δ + h ∈ , s T. (5.19) α |γδ (s)|N M (δ + h), s ∈ T. (5.20) В таком случае, из (5.18)-(5.20), учитывая (5.14), (5.15), выводим t 3 r d 1 / (j) δ + h j=1 0 ( e- ds α CC (t-s) δ )γ (s) ds N γ(h, α, δ) = K16(δ + h + ). (5.21) α Интегрируя по частям первое слагаемое в правой части равенства (5.17), получаем t r d 1 CC/(t-s) h 1 / - CC h t 1 / h r - CC (t-s) h - ( e- α ds 0 )CxΔ(s) ds = e α CxΔ(0) - CxΔ(t)+ e α 0 Cx˙ Δ(s) ds. (5.22) Δ Учитывая ограниченность x˙ h (·) (см. лемму 1.1), заключаем, что последнее слагаемое в правой ча- сти (5.22) не превосходит K17α (см. вывод (5.15)). Кроме того, воспользовавшись (1.6), (5.2), (5.6), для всех t ∈ δi выводим оценку h h h h 1 K18 τi+1 fr h δ + h α CC±{w - yΔ(t) - [w (τi) - ηi ]} N α |w˙ τi (s)|N ds + h + δ K19 . (5.23) α В свою очередь, объединив (5.17), (5.21)-(5.23) и учитывая (5.6), получаем неравенство 1 h h h δ + h 1 / -α CC±[w N (τi) - yΔ(τi)] - CxΔ(t) γ(h, α, δ)+ K19 α + K17α + |e- α CC t Δ Cxh (0)|N , t ∈ [τi, τi+1), i ∈ [0 : m - 1]. Справедливость леммы следует из последнего неравенства. Лемма доказана. Лемма 5.2. Пусть выполнены условия леммы 5.1, а семейство стратегий (Δh, S, U )h>0 та- ково, что i S(t, ηh, wh(τi)) = i ( S1(t, ηh, wh(τi)) при t ∈ [δβ(h), ϑ], (5.24) xh β(h) Δ(0) при t ∈ [0,δ ), где β = const ∈ (0, 1). Пусть также sh(·) задается по формуле (4.3). Тогда верно неравенство Δ sup{|sh(t) - xh (t)|n : t ∈ T} φ(h) = C˜1α(h)+ C˜2(h + δ(h))α-1(h)+ C˜3α(h)δ-β (h)+ C˜4δβ (h). Утверждение леммы является следствием леммы 5.1, а также неравенства e-νδβ α-1 C α , νδβ C = const > 0. Как было отмечено выше, для решения рассматриваемых задач управления необходимо скон- струировать блок динамического обращения, позволяющий восстанавливать в темпе «реального времени» неизвестные координаты xh(·). Один из вариантов построения такого блока, состоящего из пары: модель (4.1) и обратная связь (5.24), указан выше. ОБ УПРАВЛЕНИИ ПО ПРИНЦИПУ ОБРАТНОЙ СВЯЗИ 125 Δ Наличие приближения sh(·) ненаблюдаемой компоненты xh (·) позволяет использовать обратные связи, опирающиеся на приближенную информацию о полном состоянии системы (1.1). В част- ности, модифицированные обратные связи (3.1) обеспечивают свойство аппроксимации дорожки, аналогичное (3.27). Именно, верна следующая Лемма 5.3. Пусть выполнены условия 2.1, 5.1, соотношения (5.6), а также имеет место сходимость α(h)δ-β (h) → 0 при h → 0 (β = const ∈ (0, 1)). Пусть дорожка {w0(·), z0(·)} по- рождается управлением r0(·) ∈ E(·), а позиционная стратегия первого игрока (Δh, S, U )h>0 определена условиями: S находится согласно (5.24) и отображение U таково, что U (τi, sh, w0(τi)) = {uh ∈ P : (sh - w0(τi), Buh)n (5.25) i i i i i min(sh - w0(τi), Bu)n + ζ(h)}. Тогда u∈P lim sup f {xh (t), yh (t)}- {w0(t), z0(t)} : t ∈ T, {xh (·), yh (·)}∈ Zh(Δh, S, U ) = 0. Δ Δ h→0 N +n Δ Δ Доказательство. Доказательство этой леммы аналогично доказательству теоремы 3.1. Действи- тельно, оценив изменение величины Δt ε(t) = |zh X×Y (s) - z˜0t(s)|2 , t ∈ T, (5.26) где zh (·) = {xh (·), yh (·)}, z˜0(·) = {w0(·), p0(·)}, будем иметь неравенство (3.6). Далее, справедливо Δ Δ неравенство Δ μ(3) (4) i μi + d1hδ + d2δ|sh - xh (τi)|n, τi = τi,h. (5.27) Здесь μ(4) r i Δ τi+1 r i i = 2 sh - w(0(τi), τi i n (Buh - Dv(t) - r0(t)) dt . i Воспользовавшись правилом определения векторов uh(5.25), заключаем В таком случае в силу леммы 5.2 μ(3) μ(4) i ζ(h)δ. Отсюда и из (3.6) следует i d1hδ + ζ(h)δ + d2δφ(h). ε(τi+1) (1 + c9δ)ε(τi)+ d3δ(h + δ + φ(h)+ ζ(h)). Учитывая последнее неравенство, аналогично (3.8) получим ε(τi+1) d4rε(t0)+ h + φ(h)+ δ + ζ(h) d5(h + δ(h)+ φ(h)+ ζ(h)), i ∈ [0 : m - 1], m = mh. Из этого неравенства следует справедливость теоремы. Лемма доказана. Опишем содержательно последовательность действий, которые необходимо выполнить первому }i=0 игроку для решения стоящей перед ним задачи управления. Фиксируем величину h ∈ (0, 1), а вместе с ней число α = α(h) и разбиение Δh = {τi,h mh . Работу алгоритма разобьем на mh - 1 однотипных шагов. В течение i-го шага, осуществляемого на промежутке δi = [τi, τi+1), τi = τi,h, выполним следующие действия. В момент τi, зная вектор ηh (|ηh - yh (τi)|N h), а также i i Δ wh h состояние (τi) модели (4.1) согласно обратной связи S вида (4.3), (5.24) вычислим вектор si , а также, согласно обратной связи U вида (4.4), (5.25) (в (4.4) при этом вместо w(τi) следует i писать w0(τi))- вектор uh. Затем, при t ∈ δi, на вход модели подадим управление вида (4.3), а на вход системы (1.1) - управление вида (4.4). В результате под действием этих управлений, а также h неизвестного управления второго игрока vτi,τi+1 (·) сформируются фазовая траектория w (t), t ∈ δi, Δ модели, а также фазовая траектория zh (t), t ∈ δi системы (1.1). На следующем, (i + 1)-м шаге аналогичные действия повторим. Работа алгоритма заканчивается в момент t = ϑ. Перейдем к построению ε-оптимального максиминного семейства (Δh, S, V)h>0. 126 В. С. КУБЛАНОВ, В. И. МАКСИМОВ∗ }i=0 Снова начнем с описания алгоритма, т. е. последовательности действий, которые необходимо выполнить второму игроку для решения стоящей перед ним задачи. Фиксируем величину по- грешности измерения h ∈ (0, 1). Вместе с h мы фиксируем разбиение Δh = {τi,h mh отрезка T. После этого организуем процесс синхронного управления системой (1.1) и моделью (4.1). Работу алгоритма разобьем на m - 1 однотипных шагов. В течение i-го шага, выполняемого на промежутке δi = [τi, τi+1), τi = τi,h, осуществляются следующие действия второго игрока. В мо- мент t = τi второму игроку известны: фазовое состояние дорожки (2.10) - z˜(τi) = {w(τi), p(τi)}, i фазовое состояние модели (4.1) - wh(τi), а также вектор ηh результат измерения состояния zh,Δ(τi) = {xh(τi), yh(τi)} (см., (4.5)). Сначала согласно обратной связи S вида (4.6), (5.24) вычисляется вектор sh. Затем задаются вектора u(i), v(i) и vh по правилам i i (w(τi) - sh, Bu(i)) min{(w(τi) - sh, Bu)n : u ∈ P} + ζ(h), (5.28) i i v(i) - произвольный элемент множества Q со свойством: Bu(i) - Dv(i) ∈ E, vh h i ∈ V(t, si , w(τi)), (5.29) V(τi, x, w(τi)) = {v ∈ Q : (w(τi) - x, Dv)n min{(w(τi) - x, Dv)n : v ∈ Q} + η(h). (5.30) После этого в (2.10) полагается r(t) = Bu(i) - Dv(i), t ∈ [τi, τi+1). (5.31) Затем вычисляется траектория z˜(·) дорожки (2.10) на промежутке [τi, τi+1]: z˜(t) = z˜(t; τi, z˜τi (s), r(t)), τi t τi+1. Аналогично, управление i vh(t) = vh, t ∈ [τi, τi+1) подается на вход системы (1.1), а управление sh вида (4.6) - на вход модели (4.1). В результате действия этих управлений, а также (неизвестного) управления первого игрока uτi,τi+1 (·), реализу- ются траектория h {zh,Δ(·; τi, zh,Δτi (s), uτi,τi+1 (·), vi )}τi,τi+1 системы (1.1) на интервале [τi, τi+1], а также траектория модели (4.1) τi,τi+1 {wh(·; τi, wh(τi), sh (·))}τi,τ i+1 . Процедура заканчивается в момент ϑ. Лемма 5.4. Пусть выполнены условия леммы 5.3. Пусть семейство стратегий второго иг- рока (Δh, S, V)h>0 таково, что отображение S задается согласно (5.24), а отображение V - согласно (5.30). Тогда справедливо утверждение теоремы 3.2. Доказательство. Доказательство леммы проводится по схеме доказательства теоремы 3.2. При этом оценивается изменение величины X×Y ε1(t) = |zh,Δt(s) - z˜t(s)|2 и устанавливаются оценки (3.24), где τi+1 μ˜(3) r r i n i = 2 xh(τi) - w(τi), τi (Bu(t) - Dvh - r(t)) dt . i Учитывая правило выбора векторов ui (5.28), vh (5.29), (5.30) и функции r(·)(5.31), а также лем- му 5.1, заключаем μ(3) i d(1){h + φ(h)+ ζ(h)}δ. Отсюда и из (3.24) следует неравенство ε1(τi+1) (1 + c(9)δ)ε1(τi)+ d(2)δ(h + φ(h)+ δ + ζ(h)). В таком случае ε1 ε1(τi+1) d(3)r (0) + h + φ(h)+ δ + ζ(h) d(4)(h + φ(h)+ δ(h)+ ζ(h)), i ∈ [0 : m - 1]. Из этого неравенства следует справедливость леммы. Лемма доказана. ОБ УПРАВЛЕНИИ ПО ПРИНЦИПУ ОБРАТНОЙ СВЯЗИ 127 Из лемм 5.3, 5.4 вытекает основной результат работы: Теорема 5.1. Пусть выполнены условия леммы 5.3. Тогда цена игры равна c0. Семейство позиционных стратегий (Δh, S, U )h>0, где отображение S задается согласно (5.24), а отобра- жение U - согласно (5.25), является ε-оптимальным минимаксным. В свою очередь, семейство позиционных стратегий (Δh, S, V)h>0, где отображение S задается соотношением (5.24), а отображение V - согласно (5.30), является ε-оптимальным максиминным.
×

Об авторах

В. С. Кубланов

Уральский федеральный университет им. Б. Н. Ельцина

Email: kublanov@mail.ru
Екатеринбург, Россия

В. И. Максимов

Уральский федеральный университет им. Б. Н. Ельцина; Институт математики и механики УрО РАН

Email: maksimov@imm.uran.ru
Екатеринбург, Россия

Список литературы

  1. Близорукова М. С., Максимов В. И. Об одной задаче управления при неполной информации// Автоматика и телемеханика. - 2006. - № 3. - С. 131-142.
  2. Красовский Н. Н., Котельникова А. Н. Стохастический поводырь для объекта с последействием в позиционной дифференциальной игре// Тр. Ин-та матем. мех. УрО РАН. - 2011. - 17, № 2. - C. 97- 104.
  3. Красовский Н. Н., Осипов Ю. С. Линейные дифференциально-разностные игры// Докл. АН СССР. - 1971. - 197, № 4. - C. 777-780.
  4. Красовский Н. Н., Субботин А. И. Позиционные дифференциальные игры. - М.: Наука, 1974.
  5. Кряжимский А. В. Числовая кодировка дискретизованных управлений и аппроксимационный метрический критерий разрешимости игровой задачи наведения// Тр. Ин-та матем. мех. УрО РАН. - 2011. - 17, № 2. - С. 105-124.
  6. Кряжимский А. В., Максимов В. И. О сочетании процессов реконструкции и гарантирующего управления// Автоматика и телемеханика. - 2013. - № 8. - С. 13-25.
  7. Кряжимский А. В., Максимов В. И. Аппроксимация линейных дифференциально-разностных игр// Прикл. мат. мех. - 1979. - 42, № 2. - C. 202-209.
  8. Лукоянов Н. Ю. Функциональные уравнения Гамильтона-Якоби и задачи управления с наследственной информацией. - Екатеринбург: УрФУ, 2011.
  9. Осипов Ю. С. Дифференциальные игры систем с последействием// Докл. АН СССР. - 1971. - 196, № 4. - C. 779-782.
  10. Осипов Ю. С. Пакеты программ: подход к решению задач позиционного управления с неполной информацией// Усп. мат. наук. - 2006. - 61, № 4. - С. 25-76.
  11. Осипов Ю. С. Избранные труды. - M.: МГУ, 2009.
  12. Осипов Ю. С., Кряжимский А. В., Максимов В. И. Методы динамического восстановления входов управляемых систем. - Екатеринбург: УрО РАН, 2011.
  13. Пацко В. С. Поверхности переключения в линейных дифференциальных играх. - Препринт Ин-та математики и механики УрО РАН, 2004.
  14. Субботин А. И., Ченцов А. Г. Оптимизация гарантии в задачах управления. - М.: Наука, 1981.
  15. Ушаков В. Н. К задаче построения стабильных мостов в дифференцированной игре сближения-уклонения// Изв. АН СССР. Техн. киберн. - 1980. - № 4. - С. 29-36.
  16. Osipov Yu. S., Kryazhimskii A. V. Inverse problems for ordinary di erential equations: dynamical solutions. - Basel: Gordon and Breach, 1995.
  17. Subbotina N. N. The method of characteristics for Hamilton-Jacobi equation and its applications in dynamical opimization// Modern Math. Appl. - 2004. - 20. - С. 2955-3091.

© Современная математика. Фундаментальные направления, 2022

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution-NonCommercial 4.0 International License.

Данный сайт использует cookie-файлы

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.

О куки-файлах