МППР: ДЗ-3-задание

Внимание! В методических указаниях даны общие принципы реализации. Следует их адаптировать под своё задание.

Используя материал из указаний к ДЗ

выполнить задание по варианту из списка:

1. Мобильный робот-уборщик (Cleaning Robot)

Сценарий: Робот перемещается по 3×3 сетке офиса, собирая мусор.

· Состояния: Позиция на сетке (9) × уровень заряда (3 уровня) × наличие мусора в текущей клетке (2).

· Действия: {Вверх, Вниз, Влево, Вправо, Собрать мусор, Зарядиться}.

· Награды: +10 за собранный мусор, -1 за каждый шаг, -20 если разрядился вдали от зарядки.

· Особенность: Зарядка доступна только в стартовой клетке.

Задание:Смоделировать оптимальную стратегию патрулирования с балансом между уборкой и энергосбережением.

2. Умный светофор (Traffic Controller)

Сценарий: Агент управляет светофором на перекрестке 4-х направлений.

· Состояния: Таймер фазы (0-30 сек) × длина очереди в каждом направлении (4 значения).

· Действия: {Включить зелёный для направления N-S, Включить зелёный для W-E, Продлить текущую фазу}.

· Награды: -0.1 за каждую ожидающую машину в секунду, -5 за смену фазы (штраф за остановку потока).

· Вероятности: Прибытие машин случайно (пуассоновский процесс).

Задание:Найти адаптивную стратегию минимизации общей задержки транспорта.

3. Алгоритм торговли акциями (Stock Trading Bot)

Сценарий: Торговый агент работает с одной акцией.

· Состояния: Тренд рынка (рост/падение/стабильность) × цена акции × позиция агента (длинная/короткая/нет).

· Действия: {Купить, Продать, Держать, Закрыть позицию}.

· Награды: Прибыль/убыток от сделок, комиссия за транзакции.

· Сложность: Цена имеет стохастические колебания + трендовую компоненту.

Задание:Максимизировать прибыль на исторических данных с управлением риском.

4. Координация дронов (Drone Swarm Coordination)

Сценарий: 3 дрона обследуют территорию после стихийного бедствия.

· Состояния: Позиция каждого дрона × уровень заряда × статус задачи (ищет, нашел, помогает).

· Действия: {Лететь в сектор, Обследовать детально, Сообщить координаты, Вернуться на базу}.

· Награды: +100 за найденного пострадавшего, +20 за точное картирование, -50 за столкновение.

Задание:Реализовать децентрализованное управление с частичной наблюдаемостью.

5. Управление складом (Warehouse Management)

Сценарий: Автоматизированная система управления складским роботом.

· Состояния: Расположение робота × список заказов × заполненность ячеек.

· Действия: {Взять товар, Положить товар, Переместиться, Оптимизировать маршрут}.

· Награды: +10 за выполненный заказ, -1 за каждую секунду выполнения, -5 за коллизию.

Задание:Оптимизировать последовательность сборки заказов при ограниченной грузоподъемности.

6. Агент видеоигры (Game AI)

Сценарий: Персонаж в roguelike-игре с процедурной генерацией.

· Состояния: Здоровье × оружие × позиция × известная карта вокруг.

· Действия: {Атаковать, Отступить, Использовать предмет, Исследовать}.

· Награды: +50 за победу над боссом, +10 за найденный артефакт, -100 за смерть.

· Вероятности: Урон в бою и находки случайны.

Задание:Создать адаптирующуюся тактику для неизвестных уровней.

7. Медицинский диагностический ассистент (Diagnostic Assistant)

Сценарий: Система, помогающая врачу ставить диагноз.

· Состояния: Симптомы пациента × результаты анализов × вероятность диагнозов.

· Действия: {Запросить анализ X, Уточнить симптом Y, Предложить диагноз Z, Назначить лечение}.

· Награды: +100 за правильный диагноз, -50 за ошибочный, -10 за каждый дорогой тест.

Задание:Баланс между точностью диагностики и стоимостью обследования.

8. Система рекомендаций (Adaptive Recommender System)

Сценарий: Агент рекомендует контент пользователю.

· Состояния: История просмотров × текущее настроение × время суток.

· Действия: {Рекомендовать жанр X, Спросить отзыв, Предложить новинку}.

· Награды: +5 за просмотр, +20 за лайк, -10 за пропуск, -30 за отписку.

Задание:Динамически адаптировать рекомендации, избегая эхо-камер.

9. Управление энергией в умном доме (Smart Grid Agent)

Сценарий: Контроллер распределения энергии между источниками.

· Состояния: Спрос жильцов × цена на рынке × заряд батарей × солнечная генерация.

· Действия: {Включить резерв, Продать в сеть, Зарядить батареи, Управлять нагрузкой}.

· Награды: -1 за каждый потраченный кВт·ч (стоимость), +0.5 за проданный кВт·ч, -20 за отключение.

Задание:Минимизировать счета при случайной генерации солнца и переменных ценах.

10. Такси-агент в городе (Ride-Hailing Service)

Сценарий: Таксист максимизирует доход в моделированном городе.

· Состояния: Позиция такси × наличие пассажира × время суток × районы спроса.

· Действия: {Ехать в район X, Ждать, Принять заказ, Отменить поездку}.

· Награды: +тариф за поездку, -топливо за км, -10 за отказ клиенту.

· Вероятности: Появление заказов зависит от района и времени.

Задание:Найти оптимальную стратегию изменения позиционирования между заказами.

1. Аукцион вычислительных ресурсов (Resource Auction)

Сценарий: N клиентов и M провайдеров облачных ресурсов (CPU/GPU)

· Агенты: Клиенты (покупатели) + провайдеры (продавцы) + аукционист

· Состояния клиента i: (deadline_i, budget_i, task_size_i, текущая_цена)

· Состояния провайдера j: (available_resources_j, operational_cost_j, queue_length_j)

· Механизм: Двусторонний комбинированный аукцион (Double Auction)

· Вызов: Стратегические заявки, сговор, манипуляция рынком

· Исследование: Дизайн механизма, устойчивого к манипуляциям

2. Рой нанороботов в кровотоке (Medical Nanobots)

Сценарий: 1000+ микроскопических роботов вводятся в кровь для лечения опухоли

· Агенты: Нанороботы 3 типов: разведчики, доставщики лекарств, "камикадзе"

· Состояния: (position, battery, drug_load, химический_градиент, density_around)

· Ограничения: Нет прямой коммуникации, только хемотаксис и локальные столкновения

· Задача: Координированная доставка лекарства к опухоли с минимальным ущербом здоровым тканям

· Феномен emergence: Самоорганизация в транспортные сети

3. Децентрализованное управление электросетью (Smart Grid)

Сценарий: 100+ "просьюмеров" (потребителей-производителей) в микросети

· Агенты: Домохозяйства с солнечными панелями + ветрогенераторы + накопители

· Состояния: (generation, consumption, storage, grid_price, trust_network)

· Действия: {buy, sell, store, curtail, cheat}

· Модель рынка: P2P энерготорговля через смарт-контракты

· Критично: Устойчивость к атакам на 51%, предотвращение каскадных отказов

· Метрики: Резильентность, справедливость, эффективность

4. Автономные транспортные средства в городе (Autonomous Vehicles Coordination)

Сценарий: 500+ беспилотных такси и грузовиков в городской среде

· Агенты: ТС разных классов (такси, грузовики, личные авто) + инфраструктура (светофоры)

· Состояния ТС: (position, destination, passengers, battery, route_plan)

· Глобальная цель: Минимизация общего времени в пути при справедливом распределении

· Конфликты: Конкуренция за дорожное пространство, "трагедия общин"

· Решение: Координированное планирование маршрутов с коррелированными равновесиями

5. Мультиагентное научное открытие (Collaborative Research)

Сценарий: Множество ИИ-исследователей ищут лекарство от болезни

· Агенты: Лаборатории с разными экспертизами (биохимия, клиника, ИИ)

· Состояния: (knowledge_base_i, resources_i, patents_i, collaboration_network)

· Действия: {explore_direction, run_experiment, publish, collaborate, hide_data}

· Дилемма: Индивидуальный кредит (патенты) vs общее благо (лекарство)

· Модель: Эндогенное формирование исследовательских коалиций

6. Экосистема хищник-жертва с адаптивным поведением (Predator-Prey Coevolution)

Сценарий: Закрытая экосистема с 3+ видами, каждый — популяция обучающихся агентов

· Агенты: Особи видов (травоядные, хищники, суперхищники)

· Состояния особи: (energy, age, position, genetic_traits, learned_behaviors)

· Обучение: Комбинация эволюционных алгоритмов (гены) и RL (культура)

· Феномен: Коэволюция, arms race, emergence экологических ниш

· Исследование: Устойчивость экосистемы к внешним шокам

7. Децентрализованная финансовая система (DeFi Agents)

Сценарий: Автономные финансовые агенты в DeFi-экосистеме

· Агенты: Ликвидные провайдеры, арбитражеры, заемщики, страховщики

· Состояния: (portfolio, risk_exposure, reputation, oracle_trust)

· Действия: {provide_liquidity, arbitrage, lend, borrow, insure}

· Риски: Атаки на оракулы, ликвидационные каскады, сговор

· Задача: Дизайн самостабилизирующейся системы без центрального регулятора

8. Координация спутников на орбите (Satellite Constellation)

Сценарий: Созвездие из 100+ спутников на низкой орбите

· Агенты: Спутники с разными инструментами (коммуникация, зондирование)

· Состояния: (orbit, fuel, task_queue, communication_links)

· Ограничения: Задержки связи, ограниченное топливо, избегание столкновений

· Задача: Динамическое распределение задач (покрытие Земли, отслеживание объектов)

· Архитектура: Федеративное обучение с ограниченными окнами контакта

9. Гибридная человеко-машинная команда (Human-AI Team)

Сценарий: Спасательная операция с участием людей, роботов и ИИ-планировщиков

· Агенты: Люди (2 типа), наземные роботы (3 типа), дроны (2 типа), центральный ИИ

· Гетерогенность: Разные возможности восприятия, скорости реакции, надежности

· Проблема: Моделирование человеческого поведения (усталость, ошибки, эмоции)

· Фокус: Оптимальное распределение ролей в mixed-initiative системах

10. Мета-обучение в мультиагентной среде (Meta-MARL)

Сценарий: Агенты учатся не просто политике, а алгоритму обучения

· Агенты: Мета-обучающиеся агенты в постоянно меняющейся среде

· Состояния: (internal_learning_state, environment_type, other_agents_strategies)

· Действия: {exploit_current_policy, explore_new_strategy, imitate_best_agent, innovate}

· Уровни: 1) Обучение политике, 2) Обучение алгоритму обучения, 3) Обучение правилам изменения алгоритмов

· Феномен: Emergence разных "культур обучения" в популяции

Последнее изменение: среда, 17 декабря 2025, 20:00