Sterowanie stochastyczne - Stochastic control

Sterowanie stochastyczne lub sterowanie stochastyczne optymalne to poddziedzina teorii sterowania, która zajmuje się istnieniem niepewności w obserwacjach lub w szumie napędzającym ewolucję systemu. Projektant systemu zakłada, w sposób oparty na prawdopodobieństwie bayesowskim , że losowy szum o znanym rozkładzie prawdopodobieństwa wpływa na ewolucję i obserwację zmiennych stanu. Sterowanie stochastyczne ma na celu zaprojektowanie ścieżki czasu kontrolowanych zmiennych, które wykonują pożądane zadanie sterowania przy minimalnych kosztach, w jakiś sposób określonych, pomimo obecności tego szumu. Kontekst może być czasem dyskretnym lub ciągłym .

Równoważność pewności

Niezwykle dobrze zbadanym sformułowaniem w sterowaniu stochastycznym jest liniowo kwadratowa kontrola Gaussa . Tutaj model jest liniowy, funkcja celu jest wartością oczekiwaną postaci kwadratowej, a zakłócenia są czysto addytywne. Podstawowym wynikiem dla scentralizowanych systemów dyskretnych z jedynie addytywną niepewnością jest właściwość równoważności pewności : optymalne rozwiązanie sterujące w tym przypadku jest takie samo, jakie zostałoby uzyskane przy braku addytywnych zakłóceń. Ta właściwość ma zastosowanie do wszystkich systemów scentralizowanych z liniowymi równaniami ewolucji, kwadratową funkcją kosztu i szumem wprowadzanym do modelu tylko addytywnie; założenie kwadratowe pozwala, aby optymalne prawa sterowania, które wynikają z własności równoważności pewności, były liniowymi funkcjami obserwacji regulatorów.

Każde odchylenie od powyższych założeń — nieliniowe równanie stanu, niekwadratowa funkcja celu, szum w multiplikatywnych parametrach modelu lub decentralizacja sterowania — powoduje, że własność równoważności pewności nie jest zachowana. Na przykład, jego niepowodzenie w utrzymaniu zdecentralizowanej kontroli zostało zademonstrowane w kontrprzykładzie Witsenhausena .

Dyskretny czas

W kontekście czasu dyskretnego decydent obserwuje zmienną stanu, prawdopodobnie z szumem obserwacyjnym, w każdym okresie czasu. Celem może być optymalizacja sumy oczekiwanych wartości nieliniowej (ewentualnie kwadratowej) funkcji celu we wszystkich okresach czasu od chwili obecnej do ostatniego okresu zainteresowania lub optymalizacja wartości funkcji celu tylko dla okresu końcowego . W każdym okresie dokonywane są nowe obserwacje, a zmienne kontrolne należy optymalnie dostosować. Znalezienie optymalnego rozwiązania dla chwili obecnej może obejmować iterację macierzowego równania Riccati wstecz w czasie od ostatniego okresu do okresu obecnego.

W przypadku czasu dyskretnego z niepewnością co do wartości parametrów w macierzy przejścia (co daje wpływ bieżących wartości zmiennych stanu na ich własną ewolucję) i/lub macierzy odpowiedzi sterowania równania stanu, ale nadal ze stanem liniowym równania i kwadratowej funkcji celu, równanie Riccatiego można nadal uzyskać w celu iteracji wstecz do rozwiązania każdego okresu, nawet jeśli nie ma zastosowania równoważność pewności. rozdz.13 Przypadek dyskretny funkcji straty nie kwadratowej, ale tylko zaburzenia addytywne mogą być również obsługiwane, aczkolwiek z większą liczbą komplikacji.

Przykład

Typową specyfikacją problemu stochastycznego liniowego sterowania kwadratowego z czasem dyskretnym jest minimalizacja

gdzie E 1 jest operatorem wartości oczekiwanej uzależnionym od y 0 , indeks górny T wskazuje transpozycję macierzy , a S jest horyzontem czasowym podlegającym równaniu stanu

gdzie y jest wektorem n × 1 obserwowalnych zmiennych stanu, u jest wektorem k × 1 zmiennych sterujących, A t jest czasem t realizacji stochastycznej macierzy przejścia stanu n × n , B t jest czasem t realizacji stochastyczna macierz n × k mnożników kontrolnych oraz Q ( n × n ) i R ( k × k ) są znanymi symetrycznymi dodatnimi macierzami o określonym koszcie. Zakładamy, że każdy element A i B jest łącznie niezależnie i identycznie rozłożony w czasie, więc operacje na wartości oczekiwanej nie muszą być uwarunkowane czasowo.

Indukcję wstecz w czasie można wykorzystać do uzyskania za każdym razem optymalnego roztworu kontrolnego,

z symetryczną dodatnią macierzą kosztu ostatecznego X ewoluującą wstecz w czasie od zgodnie z

które jest znane jako dynamiczne równanie Riccati w czasie dyskretnym tego problemu. Jedyną potrzebną informacją dotyczącą nieznanych parametrów w macierzach A i B jest wartość oczekiwana i wariancja każdego elementu każdej macierzy oraz kowariancje między elementami tej samej macierzy i między elementami w macierzach.

Optymalne rozwiązanie kontrolne pozostaje niezmienione, jeśli w równaniu stanu pojawiają się również wstrząsy addytywne o średniej zerowej, o ile nie są one skorelowane z parametrami w macierzach A i B. Ale jeśli są tak skorelowane, to optymalne rozwiązanie kontrolne dla każdego okresu zawiera dodatkowy wektor stały addytywny. Jeżeli w równaniu stanu pojawia się wektor stały addytywny, wówczas optymalny roztwór kontrolny dla każdego okresu zawiera dodatkowy wektor stały addytywny.

Charakterystykę X w stanie ustalonym (jeśli istnieje), odpowiednią dla problemu nieskończonego horyzontu, w którym S dąży do nieskończoności, można znaleźć przez powtarzanie dynamicznego równania dla X, aż do osiągnięcia zbieżności; wtedy X charakteryzuje się usunięciem indeksów czasu z jego równania dynamicznego.

Ciągły czas

Jeżeli model jest w ciągłym czasie, sterownik zna stan systemu w każdej chwili. Celem jest maksymalizacja albo całki np. funkcji wklęsłej zmiennej stanu w horyzoncie od czasu zerowego (teraźniejszości) do czasu końcowego T , albo funkcji wklęsłej zmiennej stanu w pewnej przyszłości T . W miarę upływu czasu, nieustannie dokonywane są nowe obserwacje, a zmienne kontrolne są stale dostosowywane w optymalny sposób.

Sterowanie predykcyjne modelu stochastycznego

W literaturze istnieją dwa rodzaje MPC dla systemów stochastycznych; Solidna kontrola predykcyjna modelu i kontrola predykcyjna modelu stochastycznego (SMPC). Odporna kontrola predykcyjna modelu jest bardziej konserwatywną metodą, która uwzględnia najgorszy scenariusz w procedurze optymalizacji. Jednak ta metoda, podobnie jak inne niezawodne elementy sterujące, pogarsza ogólną wydajność sterownika, a także ma zastosowanie tylko do systemów z niepewnościami ograniczonymi. Alternatywna metoda SMPC uwzględnia ograniczenia miękkie, które ograniczają ryzyko naruszenia przez nierówność probabilistyczną.

W finansach

W podejściu ciągłym w kontekście finansowym zmienną stanu w stochastycznym równaniu różniczkowym jest zwykle majątek lub wartość netto, a kontrolami są udziały umieszczane za każdym razem w różnych aktywach. Biorąc pod uwagę alokację aktywów wybraną w dowolnym momencie, determinantami zmiany bogactwa są zwykle stochastyczne zwroty z aktywów i stopa procentowa aktywów wolnych od ryzyka. Dziedzina sterowania stochastycznego znacznie się rozwinęła od lat 70., szczególnie w jej zastosowaniach w finansach. Robert Merton wykorzystał kontrolę stochastyczną do zbadania optymalnych portfeli bezpiecznych i ryzykownych aktywów. Jego prace i prace Blacka-Scholesa zmieniły charakter literatury finansowej . Wpływowe terapie w podręcznikach matematycznych wypracowali Fleming i Rishel oraz Fleming i Soner . Techniki te zostały zastosowane przez Steina w kryzysie finansowym lat 2007-08 .

Maksymalizacja, powiedzmy oczekiwanego logarytmu wartości netto w końcowej dacie T , podlega procesom stochastycznym na składnikach bogactwa. W tym przypadku, w czasie ciągłym , głównym narzędziem analizy jest równanie Itô . W przypadku, gdy maksymalizacja jest całką wklęsłej funkcji użyteczności w horyzoncie (0, T ), stosuje się programowanie dynamiczne. Nie ma pewności równoważności, jak w starszej literaturze, ponieważ współczynniki zmiennych kontrolnych – czyli zwroty uzyskiwane przez wybrane udziały aktywów – są stochastyczne.

Zobacz też

Bibliografia

Dalsza lektura

  • Dixit, Avinash (1991). „Uproszczone traktowanie teorii optymalnej regulacji ruchu Browna”. Journal of Economic Dynamics and Control . 15 (4): 657–673. doi : 10.1016/0165-1889(91)90037-2 .
  • Yong, Dziongmin; Zhou, Xun Yu (1999). Sterowanie stochastyczne : układy hamiltonowskie i równania HJB . Nowy Jork: Springer. Numer ISBN 0-387-98723-1.