Scientific journal
Modern problems of science and education
ISSN 2070-7428
"Перечень" ВАК
ИФ РИНЦ = 0,931

USING THE TWO THRESHOLD MANAGEMENT STRATEGY IN BINARY RANDOM ENVIRONMENT

Lazutchenko A.N. 1
1 Yaroslav-the-Wise Novgorod State University
Рассмотрена пороговая стратегия управления в случайной среде с двумя действиями с бинарными доходами. В данной постановке задачи вероятности выигрыша на действиях в процессе управления фиксированы, но неизвестны лицу, осуществляющему управление. Цель управления задана в минимаксной постановке и состоит в минимизации математического ожидания максимальных потерь полного дохода и понижении суммарных потерь на некотором множестве параметров среды. С помощью написанной компьютерной программы было проведено моделирование заданной случайной среды и найдено значение минимакса, а также параметры среды, при которых он был найден. Также среда была исследована на суммарные потери полного дохода в предположении, что значения множества параметров среды распределены равномерно, а пороговое значение фиксировано. После этого суммарные потери были вычислены для двух порогов, оптимальные значения которых были определены после полного исследования всех их допустимых значений. Как оказалось, введение дополнительного порога позволило на ранних этапах отбрасывать не самый оптимальный вариант раньше, что существенно улучшает итоговый доход. Таким образом, в работе показано, что с помощью двухпороговой стратегии управления в случайной среде можно значительно снизить суммарные потери полного дохода на некотором множестве параметров среды.
Considered the threshold control strategy in a random environment with two actions with binary income. In this formulation of the problem the probability of winning on the actions is fixed in the management, but unknown to the person performing the operation. The purpose of the control is given to the minimax formulation and is to minimize the expectation of the maximum losses of total income and lowering the total loss on a set of environmental parameters. With the help of a computer program was written to simulate the given random environment and found the value of minimax, as well as the parameters of the medium in which it was found. Also, the environment was assayed for total loss of total income, assuming that the values of the set parameters of the environment are distributed evenly, and the threshold value is fixed. Thereafter, total losses were calculated for the two thresholds, the optimal values of which were determined after a full analysis of their possible values. As it turned out, the consideration of additional threshold allowed in the early stages of the cast is not the best option before, which significantly improves the total income. Thus, we have shown that using the two threshold management strategy in a random environment can significantly reduce the total losses of total income on a set of environmental parameters.
Minimax
binary income
the threshold management strategy
random environment

Введение

Случайная среда (однородный процесс с независимыми значениями в терминологии [4]) с бинарно распределенными доходами – это управляемый случайный процесс , принимающий значения 0 и 1, интерпретируемые как текущие доходы и зависящие только от выбираемых в текущие моменты времени действий , т.е.

(1)

Такая среда описывается векторным параметром . В данной постановке задачи параметр фиксирован, но неизвестен тому, кто управляет процессом.

Постановка задачи

Введем целевую функцию потерь , значениями которой являются потери за время моделирования, где определяет вероятности выигрыша на действиях, – используемая стратегия. Если параметр известен, то наилучшей стратегией является та, которая применяет только то действие, которому соответствует большая из величин , и максимальный полный доход в этом случае равен . Если же неизвестен, то неизбежно возникают потери вследствие неполноты информации о среде, равные:

. (2)

Здесь представляет собой математическое ожидание потерь полного дохода. Предполагается, что ограничения на множество допустимых значений параметра имеют следующий вид:

. (3)

При использовании минимаксного подхода, предложенного, например, в [2], цель управления состоит в минимизации величины потерь полного дохода на множестве параметров по множеству стратегий . При этом минимаксный риск выглядит следующим образом:

. (4)

Для реализации этой цели предлагается использовать пороговую стратегию, предложенную в [5].

Стратегия управления с одним порогом

Итак, рассмотрим пороговую стратегию . Она применяет действия и среды по очереди, накапливая доходы и соответственно. На каждом шаге вычисляется абсолютная разность доходов на действиях . Действия применяются до тех пор, пока эта величина не превысит порога , где – полное время управления, , – пороговая константа и дисперсия соответственно , или не истечет время управления. Если время управления не истекло, то действие, которому соответствует меньшая величина набранного дохода, исключается из рассмотрения, а оставшееся время применяется только другое действие.

Можно показать, что наибольшие потери полного дохода при достаточно больших будут иметь место при

, (5)

где . Ограничения на накладываются, исходя из свойства инвариантности функции потерь [3]. Очевидно, что в таком случае дисперсия оказывается максимальной, т.е. этот случай представляет наибольший теоретический интерес для исследования.

На основе пороговой стратегии , рассмотренной выше, была разработана программа. Прежде сделаем замечание. Целевая функция потерь , вообще говоря, зависит от параметров и . Но для расчетов нам удобнее полагать, что она зависит от и , где – пороговая константа, использующаяся пороговой стратегией, – параметр среды.

Итак, алгоритм работы программы построен таким образом, что в ней для каждой пары вычисляется средний доход , где – доход за одно моделирование, – количество моделирований. Затем вычисляются средние потери математического ожидания дохода . После этого при каждой константе определяются минимальные потери . При каждой константе подбираются максимальные потери . Точка, в которой , и является минимаксной точкой, в которой достигается минимальная гарантированная величина потерь полного дохода.

В результате вычислений выяснилось, что достаточно рассмотреть , , поскольку предварительные значения и оказались заключенным именно в этих интервалах. При этом максимальные потери . Более точные вычисления, достигающиеся за счет уменьшения шага изменения параметров, дают следующие результаты: , , . Время моделирования выбиралось из условия , количество моделирований , что позволяет говорить о точности вычислений [1].

Таблица 1 показывает результаты предварительных вычислений. Все потери в таблице являются приведенными путем деления на . Желтым цветом обозначены локальные минимумы по для каждого , зеленым – локальные максимумы по для каждого , сиреневым – точка, в которой минимум по равен максимуму по .

Таблица 1 – Значения

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

1

0,229

0,226

0,216

0,211

0,206

0,205

0,206

0,208

0,211

0,215

2

0,432

0,400

0,360

0,340

0,323

0,317

0,321

0,330

0,342

0,357

3

0,612

0,532

0,445

0,404

0,375

0,366

0,372

0,389

0,413

0,440

4

0,770

0,624

0,484

0,424

0,383

0,374

0,386

0,411

0,444

0,480

5

0,905

0,683

0,489

0,412

0,369

0,364

0,382

0,414

0,452

0,495

6

1,019

0,713

0,470

0,387

0,347

0,348

0,374

0,410

0,454

0,501

7

1,116

0,717

0,439

0,356

0,324

0,334

0,366

0,407

0,453

0,501

8

1,192

0,706

0,402

0,326

0,304

0,323

0,359

0,404

0,451

0,500

9

1,255

0,679

0,364

0,298

0,288

0,315

0,355

0,402

0,451

0,500

10

1,298

0,645

0,330

0,274

0,276

0,309

0,353

0,401

0,451

0,500

Двухпороговая стратегия управления

Итак, получены значения пороговой константы и параметра при , для которых гарантированные потери полного дохода минимальны. Рассмотрим пример. Предположим, что имеется два беспроводных модема. С помощью них можно передавать данные, однако вероятности передачи данных без ошибок различаются. Необходимо выяснить, который из модемов работает более стабильно. Подразумевается, что вероятности успешной передачи данных на модемах не равны. При вероятностях успешной передачи данных , у первого и второго модемов соответственно тестирование модемов следует проводить до тех пор, пока разница между количеством успешных передач достигнет величины 29.

Рассмотрим теперь потери на множестве допустимых параметров для следующих двух случаев. На диаграмме линия 1 показывает минимальные потери для минимальных для каждого , линия 2 – потери для фиксированного (все потери также являются приведенными):

Рисунок 1 – Графики значений функции потерь на множестве значений . Линия 1 показывает потери при минимальных для каждого , линия 2 – потери для фиксированного .

Как нетрудно заметить, начиная с и до потери за моделирование практически идентичны. После этого потери для случая с фиксированным увеличиваются и в определенный момент устанавливаются на величине порога . Очевидно, это связано с тем, что при больших значениях параметра лучшее действие определяется достаточно быстро (так как, например, при вероятности выигрыша на действиях ), но большое значение пороговой константы (при порог ) не позволяет исключить из рассмотрения неоптимальное действие раньше, чем будет достигнут порог.

Итак, большие потери дохода для случая фиксированного имеют место в силу того факта, что на достижение порога при больших требуется фиксированное время. Этот недостаток стратегии можно устранить, если ввести дополнительный порог , с помощью которого при больших оптимальное действие будет определяться быстрее. В этом случае стратегия будет выглядеть следующим образом. Начиная с некоторого времени текущий порог заменяется на , после чего моделирование продолжается в обычном порядке.

Очевидно, что теперь при высоких значениях неоптимальное действие будет в среднем исключаться из рассмотрения быстрее. Однако не совсем понятно, что будет происходить на этапе, где мало. Попробуем взять тестовые параметры и и посмотрим на результаты. Возьмем, например, , . Полученные результаты отобразим на диаграмме:

Рисунок 2 – Графики значений функции потерь на множестве значений . Линия 1 показывает потери при минимальных для каждого , линия 2 – потери для фиксированного , линия 3 – потери при фиксированном , , .

Линия 3 показывает значения потерь при выбранных случайных параметрах. Как видно, параметры оказались удачны: ни одно из значений потерь не превышает вычисленной ранее величины гарантированных потерь полного дохода, и при больших значениях потери снизились, видно, что получившиеся потери совпадают с потерями для случая простого порога. Однако отметим, что сравнивать результаты в таком виде не очень удобно. Поэтому введем новую величину , которая будет показывать суммарные потери на всём множестве . Рассматривание данной величины вполне уместно, так как можно считать, что значения множества распределены равномерно.

Расчет значений

Итак, рассчитаем значения данной величины для приведенных выше данных. Более конкретно нас интересуют следующие значения: – для первого случая, – для случая фиксированного и – для случая двойного порога. Вычисления показывают, что , , . Как видно, введение второго порога для тех «тестовых» параметров, которые мы рассматривали, позволило в среднем снизить суммарные потери по сравнению с одиночным фиксированным порогом, и довольно значительно (на 37%). В предположении, что имеются более оптимальные параметры, был проведен полный расчет значений суммарных потерь за время моделирования при , , , , , . Искались такие параметры и , при которых будет наименьшим, при этом ни одно из значений потерь не превышает вычисленной величины гарантированных потерь полного дохода. В итоге удалось достигнуть значения при , . Диаграмма это демонстрирует, потери при таких параметрах обозначены линией 4:

Рисунок 3 – Графики значений функции потерь на множестве значений . Линия 1 показывает потери при минимальных для каждого , линия 2 – потери для фиксированного , линия 3 – потери при фиксированном , , .

Это позволяет судить о том, что введение дополнительного порога позволяет значительно уменьшить потери по сравнению с фиксированным , делая их сравнимыми с потерями первого случая.

Заключение

Итак, рассмотрена пороговая стратегия управления в случайной среде с бинарными доходами с двумя действиями. Найдены оптимальные значения пороговой константы и параметра среды. Также рассмотрены суммарные потери дохода на множестве допустимых параметров среды и показано, что их можно значительно снизить с помощью введения дополнительного порога.

Автор благодарит А.В. Колногорова за помощь в постановке задачи и обсуждение полученных результатов.

Рецензенты:

Едемский Владимир Анатольевич, доктор физико-математических наук, профессор кафедры ПМИ, ФГБОУ ВПО «Новгородский государственный университет имени Ярослава Мудрого», г. Великий Новгород.

Кирьянов Борис Федорович, доктор технических наук, профессор, ФГБОУ ВПО «Новгородский государственный университет имени Ярослава Мудрого», г. Великий Новгород.