Исследование операций: Конспект лекции "Метод динамического программирования в исследовании операций"

Отличие: Функция перехода T(s, x) или немедленный выигрыш r(s, x) являются случайными величинами.
Подход: Оптимизация ожидаемого значения целевой функции.
Рекуррентное соотношение:
f_k(s) = opt_{x ∈ X} E[ r(s, x, ω) + f_{k+1}( T(s, x, ω) ) ]
- ω — случайное событие (реализация неопределенности).
Пример: Управление запасами при случайном спросе.

ДП и сетевое представление

Задача о кратчайшем пути — канонический пример ДП.
Этапы: Шаг k — переход на k-ю дугу.
Состояние: s — текущий узел в сети.
Решение: Выбор следующей дуги.
Уравнение Беллмана:
d(j) = min_{i} [ d(i) + c_{ij} ] для всех узлов j,
где d(j) — длина кратчайшего пути до узла j.

Проклятие размерности (Curse of Dimensionality)

Проблема: Количество состояний s растет экспоненциально с увеличением числа параметров, его описывающих.
Пример: Если состояние описывается 5-ю переменными, каждая из которых может принимать 10 значений, число состояний = 10^5 = 100,000.
Следствие: Вычислительная сложность делает решение многих практических задач методом ДП невозможным.
Пути смягчения: Аппроксимационное ДП, агрегация состояний, методы Монте-Карло.

Сравнение с другими методами ИО

ДП vs Линейное программирование (ЛП):
- ДП: Для дискретных, многоэтапных задач.
- ЛП: Для задач с непрерывными переменными и линейными ограничениями. Часто более эффективно для больших задач.
ДП vs Жадные алгоритмы:
- Жадные алгоритмы делают локально оптимальный выбор в надежде на глобальный оптимум.
- ДП гарантирует глобальный оптимум, проверяя все варианты системно, но за бóльшую вычислительную цену.

Заключение: Сильные стороны ДП

Гарантирует нахождение глобального оптимума для задач с оптимальной подструктурой.
Универсален: Применим к детерминированным и стохастическим задачам.
Нагляден: Процесс заполнения таблиц предоставляет ценную информацию для ЛПР.
Точен: В отличие от эвристик, дает точный ответ.

Заключение: Слабые стороны ДП

Проклятие размерности. Главное ограничение.
Требует вывода рекуррентного соотношения. Для новых задач это может быть нетривиально.
Не всегда применимо. Если задача не обладает оптимальной подструктурой или свойствами без последействия, ДП не работает.

Сфера применения ДП в ИО

Историческая справка

Ричард Э. Беллман (Richard E. Bellman) — отец-основатель термина и метода (1950-е гг.).
Термин «динамическое» был выбран для того, чтобы звучать «модно» и получить финансирование от RAND Corporation.
Истоки метода прослеживаются в работах А. Н. Колмогорова и Дж. фон Неймана.

Ключевые выводы

Вопросы для самоконтроля

Последнее изменение: воскресенье, 21 сентября 2025, 16:23