ДЗ-3-задание
Внимание! В методических указаниях даны общие принципы реализации. Следует их адаптировать под своё задание.
Используя материал из указаний к ДЗ
выполнить задание по варианту из списка:
1. Мобильный робот-уборщик (Cleaning Robot)
Сценарий: Робот перемещается по 3×3 сетке офиса, собирая мусор.
· Состояния: Позиция на сетке (9) × уровень заряда (3 уровня) × наличие мусора в текущей клетке (2).
· Действия: {Вверх, Вниз, Влево, Вправо, Собрать мусор, Зарядиться}.
· Награды: +10 за собранный мусор, -1 за каждый шаг, -20 если разрядился вдали от зарядки.
· Особенность: Зарядка доступна только в стартовой клетке.
Задание:Смоделировать оптимальную стратегию патрулирования с балансом между уборкой и энергосбережением.
2. Умный светофор (Traffic Controller)
Сценарий: Агент управляет светофором на перекрестке 4-х направлений.
· Состояния: Таймер фазы (0-30 сек) × длина очереди в каждом направлении (4 значения).
· Действия: {Включить зелёный для направления N-S, Включить зелёный для W-E, Продлить текущую фазу}.
· Награды: -0.1 за каждую ожидающую машину в секунду, -5 за смену фазы (штраф за остановку потока).
· Вероятности: Прибытие машин случайно (пуассоновский процесс).
Задание:Найти адаптивную стратегию минимизации общей задержки транспорта.
3. Алгоритм торговли акциями (Stock Trading Bot)
Сценарий: Торговый агент работает с одной акцией.
· Состояния: Тренд рынка (рост/падение/стабильность) × цена акции × позиция агента (длинная/короткая/нет).
· Действия: {Купить, Продать, Держать, Закрыть позицию}.
· Награды: Прибыль/убыток от сделок, комиссия за транзакции.
· Сложность: Цена имеет стохастические колебания + трендовую компоненту.
Задание:Максимизировать прибыль на исторических данных с управлением риском.
4. Координация дронов (Drone Swarm Coordination)
Сценарий: 3 дрона обследуют территорию после стихийного бедствия.
· Состояния: Позиция каждого дрона × уровень заряда × статус задачи (ищет, нашел, помогает).
· Действия: {Лететь в сектор, Обследовать детально, Сообщить координаты, Вернуться на базу}.
· Награды: +100 за найденного пострадавшего, +20 за точное картирование, -50 за столкновение.
Задание:Реализовать децентрализованное управление с частичной наблюдаемостью.
5. Управление складом (Warehouse Management)
Сценарий: Автоматизированная система управления складским роботом.
· Состояния: Расположение робота × список заказов × заполненность ячеек.
· Действия: {Взять товар, Положить товар, Переместиться, Оптимизировать маршрут}.
· Награды: +10 за выполненный заказ, -1 за каждую секунду выполнения, -5 за коллизию.
Задание:Оптимизировать последовательность сборки заказов при ограниченной грузоподъемности.
6. Агент видеоигры (Game AI)
Сценарий: Персонаж в roguelike-игре с процедурной генерацией.
· Состояния: Здоровье × оружие × позиция × известная карта вокруг.
· Действия: {Атаковать, Отступить, Использовать предмет, Исследовать}.
· Награды: +50 за победу над боссом, +10 за найденный артефакт, -100 за смерть.
· Вероятности: Урон в бою и находки случайны.
Задание:Создать адаптирующуюся тактику для неизвестных уровней.
7. Медицинский диагностический ассистент (Diagnostic Assistant)
Сценарий: Система, помогающая врачу ставить диагноз.
· Состояния: Симптомы пациента × результаты анализов × вероятность диагнозов.
· Действия: {Запросить анализ X, Уточнить симптом Y, Предложить диагноз Z, Назначить лечение}.
· Награды: +100 за правильный диагноз, -50 за ошибочный, -10 за каждый дорогой тест.
Задание:Баланс между точностью диагностики и стоимостью обследования.
8. Система рекомендаций (Adaptive Recommender System)
Сценарий: Агент рекомендует контент пользователю.
· Состояния: История просмотров × текущее настроение × время суток.
· Действия: {Рекомендовать жанр X, Спросить отзыв, Предложить новинку}.
· Награды: +5 за просмотр, +20 за лайк, -10 за пропуск, -30 за отписку.
Задание:Динамически адаптировать рекомендации, избегая эхо-камер.
9. Управление энергией в умном доме (Smart Grid Agent)
Сценарий: Контроллер распределения энергии между источниками.
· Состояния: Спрос жильцов × цена на рынке × заряд батарей × солнечная генерация.
· Действия: {Включить резерв, Продать в сеть, Зарядить батареи, Управлять нагрузкой}.
· Награды: -1 за каждый потраченный кВт·ч (стоимость), +0.5 за проданный кВт·ч, -20 за отключение.
Задание:Минимизировать счета при случайной генерации солнца и переменных ценах.
10. Такси-агент в городе (Ride-Hailing Service)
Сценарий: Таксист максимизирует доход в моделированном городе.
· Состояния: Позиция такси × наличие пассажира × время суток × районы спроса.
· Действия: {Ехать в район X, Ждать, Принять заказ, Отменить поездку}.
· Награды: +тариф за поездку, -топливо за км, -10 за отказ клиенту.
· Вероятности: Появление заказов зависит от района и времени.
Задание:Найти оптимальную стратегию изменения позиционирования между заказами.
1. Аукцион вычислительных ресурсов (Resource Auction)
Сценарий: N клиентов и M провайдеров облачных ресурсов (CPU/GPU)
· Агенты: Клиенты (покупатели) + провайдеры (продавцы) + аукционист
· Состояния клиента i: (deadline_i, budget_i, task_size_i, текущая_цена)
· Состояния провайдера j: (available_resources_j, operational_cost_j, queue_length_j)
· Механизм: Двусторонний комбинированный аукцион (Double Auction)
· Вызов: Стратегические заявки, сговор, манипуляция рынком
· Исследование: Дизайн механизма, устойчивого к манипуляциям
2. Рой нанороботов в кровотоке (Medical Nanobots)
Сценарий: 1000+ микроскопических роботов вводятся в кровь для лечения опухоли
· Агенты: Нанороботы 3 типов: разведчики, доставщики лекарств, "камикадзе"
· Состояния: (position, battery, drug_load, химический_градиент, density_around)
· Ограничения: Нет прямой коммуникации, только хемотаксис и локальные столкновения
· Задача: Координированная доставка лекарства к опухоли с минимальным ущербом здоровым тканям
· Феномен emergence: Самоорганизация в транспортные сети
3. Децентрализованное управление электросетью (Smart Grid)
Сценарий: 100+ "просьюмеров" (потребителей-производителей) в микросети
· Агенты: Домохозяйства с солнечными панелями + ветрогенераторы + накопители
· Состояния: (generation, consumption, storage, grid_price, trust_network)
· Действия: {buy, sell, store, curtail, cheat}
· Модель рынка: P2P энерготорговля через смарт-контракты
· Критично: Устойчивость к атакам на 51%, предотвращение каскадных отказов
· Метрики: Резильентность, справедливость, эффективность
4. Автономные транспортные средства в городе (Autonomous Vehicles Coordination)
Сценарий: 500+ беспилотных такси и грузовиков в городской среде
· Агенты: ТС разных классов (такси, грузовики, личные авто) + инфраструктура (светофоры)
· Состояния ТС: (position, destination, passengers, battery, route_plan)
· Глобальная цель: Минимизация общего времени в пути при справедливом распределении
· Конфликты: Конкуренция за дорожное пространство, "трагедия общин"
· Решение: Координированное планирование маршрутов с коррелированными равновесиями
5. Мультиагентное научное открытие (Collaborative Research)
Сценарий: Множество ИИ-исследователей ищут лекарство от болезни
· Агенты: Лаборатории с разными экспертизами (биохимия, клиника, ИИ)
· Состояния: (knowledge_base_i, resources_i, patents_i, collaboration_network)
· Действия: {explore_direction, run_experiment, publish, collaborate, hide_data}
· Дилемма: Индивидуальный кредит (патенты) vs общее благо (лекарство)
· Модель: Эндогенное формирование исследовательских коалиций
6. Экосистема хищник-жертва с адаптивным поведением (Predator-Prey Coevolution)
Сценарий: Закрытая экосистема с 3+ видами, каждый — популяция обучающихся агентов
· Агенты: Особи видов (травоядные, хищники, суперхищники)
· Состояния особи: (energy, age, position, genetic_traits, learned_behaviors)
· Обучение: Комбинация эволюционных алгоритмов (гены) и RL (культура)
· Феномен: Коэволюция, arms race, emergence экологических ниш
· Исследование: Устойчивость экосистемы к внешним шокам
7. Децентрализованная финансовая система (DeFi Agents)
Сценарий: Автономные финансовые агенты в DeFi-экосистеме
· Агенты: Ликвидные провайдеры, арбитражеры, заемщики, страховщики
· Состояния: (portfolio, risk_exposure, reputation, oracle_trust)
· Действия: {provide_liquidity, arbitrage, lend, borrow, insure}
· Риски: Атаки на оракулы, ликвидационные каскады, сговор
· Задача: Дизайн самостабилизирующейся системы без центрального регулятора
8. Координация спутников на орбите (Satellite Constellation)
Сценарий: Созвездие из 100+ спутников на низкой орбите
· Агенты: Спутники с разными инструментами (коммуникация, зондирование)
· Состояния: (orbit, fuel, task_queue, communication_links)
· Ограничения: Задержки связи, ограниченное топливо, избегание столкновений
· Задача: Динамическое распределение задач (покрытие Земли, отслеживание объектов)
· Архитектура: Федеративное обучение с ограниченными окнами контакта
9. Гибридная человеко-машинная команда (Human-AI Team)
Сценарий: Спасательная операция с участием людей, роботов и ИИ-планировщиков
· Агенты: Люди (2 типа), наземные роботы (3 типа), дроны (2 типа), центральный ИИ
· Гетерогенность: Разные возможности восприятия, скорости реакции, надежности
· Проблема: Моделирование человеческого поведения (усталость, ошибки, эмоции)
· Фокус: Оптимальное распределение ролей в mixed-initiative системах
10. Мета-обучение в мультиагентной среде (Meta-MARL)
Сценарий: Агенты учатся не просто политике, а алгоритму обучения
· Агенты: Мета-обучающиеся агенты в постоянно меняющейся среде
· Состояния: (internal_learning_state, environment_type, other_agents_strategies)
· Действия: {exploit_current_policy, explore_new_strategy, imitate_best_agent, innovate}
· Уровни: 1) Обучение политике, 2) Обучение алгоритму обучения, 3) Обучение правилам изменения алгоритмов
· Феномен: Emergence разных "культур обучения" в популяции