Дерево решений метод белого ящика в машинном обучении

Дерево решений в менеджменте

Дерево решений — это метод, который применяется для принятия решений в условиях неопределенности и риска. Данный метод используется в случае, когда нужно принимать ряд последовательных решений. Дерево решений является графическим методом, который позволяет скоординировать элементы принятия решения, вероятные стратегии (Аi), их последствия (Ei,j) с вероятностными условиями и факторами внешней среды воздействия.

Начинается построение дерева решений с наиболее раннего решения, после разрабатываются возможные результаты и последствия каждого из действий (событий), после вновь определяется выбор направления действия (принимается решение) и так далее до тех пор, пока все последствия результатов решений не будут определены.

Дерево решений составляется на основании 5 последовательных элементов (рисунок 1):

Рисунок 1 – Элементы дерева решений

Простейшее решение

Простейшим решением является выбор из двух вариантов: «нет» или «да». (рисунок 2).

Простейшее решение

Рисунок 2 — Простейшее дерево решений

Формула «Как стать богатым» Ж. Поля Гетги состоит из следующих элементов: «Вставай рано» — «Работай усердно» — «Найдешь нефть!».

Простейшее решение

Последовательности решений можно смоделировать следующим образом (рисунок 3):

Рисунок 3 — Дерево (последовательность) принимаемых решений

1) решение: необходимо выбрать между тем, чтобы «Спать допоздна» или «Вставать рано»– простой выбор;

2) решение: необходимо выбрать между тем, чтобы «Работать спустя рукава» или «Работать усердно»– простой выбор;

3) событие: «Найдешь нефть» или нет случается с определенной вероятностью, которая зависит от принимаемых решений.

Поставленные задачи и варианты их решений приведены в таблицах 1 и 2, и отражены на рисунке 4 в виде дерева решений.

Жирным курсивом обозначен путь на дереве, являющийся самым предпочтительным (EV = 820000 долларов) и соответствующий решению, состоящему из элементов «Вставай рано» и «Работай усердно».

Таблица 1 — Вычисление ожидаемых результатов поиска нефти взвешенных по вероятности

Решение: «Вставай рано» + «Работай усердно»	Возможное событие
Решение: «Вставай рано» + «Работай усердно»	Не найти нефть	Найти нефть
Событие: прибыль (убыток), долларов	-200 000	10000 000
Событие: вероятность наступления события	0,90	0,10
Риск = Прибыль (убыток) × Вероятность, долларов	-180 000	1000 000
Ожидаемое значение результата (EV), долларов	1000000-180000 = 820 000

Таблица 2 — Ожидаемые результаты решения «Когда встать и как работать»

Вероятность (найти нефть) = 5% (1- Вероятность) (не найти нефть) = 95%

Ожидаемое значение результатов решения: ( 0 , 05 × 10 000 000 ) + 0 , 95 × ( — 200 000 ) = 310000 долларов

Вероятность (найти нефть) = 10% (1- Вероятность) (не найти нефть) = 90%

Ожидаемое значение результатов решения: ( 0 , 1 × 10 000 000 ) + 0 , 9 × ( — 200 000 ) = 820 000 долларов

Вероятность (найти нефть) = 0% (1- Вероятность) (не найти нефть) = 100%

Ожидаемое значение результатов решения: ( 0 — 10 000 000 ) + 1 × ( — 200 000 ) = — 200 000 долларов

Вероятность (найти нефть) = 1% (1- Вероятность) (не найти нефть) = 99%

Ожидаемое значение результатов решения: ( 0 , 01 × 10 000 000 ) + ( 0 , 99 × ( — 200 000 ) = — 98 000 долларов

Простейшее решение

Рисунок 4 — Дерево решений с ожидаемыми значениями результатов(EV), долларов

Дополнительно учтем в примере, приведенном выше, изменение в зависимости от срока окупаемости стоимости проекта.

Установим, что сумма средств, необходимых для поиска нефти, расходуется сразу же. Если находим нефть, то все средства, вложенные в нефтеразведку покрываются сразу же, а доходы от продаж добытой нефти поступают через два года. Чтобы корректно учитывать все данные платежи и поступления, разбросанные во времени, необходимо привести все суммы денежных средств к текущей стоимости.

Установим, что ставка дисконтирования будет принимать значение, равное 20 процентов, тогда таблица 2 будет представлена в следующем виде (таблица 3), а дерево решений (рисунок 4) – в виде, показанном на рисунке 5.

Таблица 3 — Ожидаемая приведенная стоимость и результаты решения «Когда вставать и как работать» с учетом коэффициента дисконтирования

Вероятность (найти нефть) = 5% (1 – Вероятность) (не найти нефть) = 95%

Ожидаемая стоимость: 310000 долл.

Ожидаемая приведенная стоимость: ( 0 , 05 × 10 000 000 ) / 1 , 22 + 0 , 95 × ( — 200000 ) = 157 222 долл.

Вероятность (найти нефть) =10% (1 – Вероятность) (не найти нефть) = 90%

Ожидаемая стоимость: 820 000 долл.

Ожидаемая приведенная стоимость: ( 0 , 1 × 10 000 000 ) / 1 , 22 + 0 , 9 × ( — 200 000 ) = 514 444 долл.

Вероятность (найти нефть) = 0% (1 — Вероятность) (не найти нефть) = 100%

Ожидаемая стоимость: – 200000 долл.

Ожидаемая приведенная стоимость: ( 0 × 10 000 000 ) / 1 , 22 + 1 × ( — 200 000 ) = — 200 000 долл.

Вероятность (найти нефть) =1% (1 — Вероятность) (не найти нефть) = 99%

Ожидаемая стоимость: – 98000 долл.

Ожидаемая приведенная стоимость: ( 0 , 01 × 10 000 000 ) / 1 , 22 + 0 , 99 × ( — 200 000 ) = — 128 555 долл.

Самая эффективная последовательность решений та же (отображен жирной линией путь, который совпадает с решением «Вставай рано» + «Работай усердно», однако изменилось значение ожидаемого выигрыша (514444 долларов), в связи с тем, что учитывалась ставка дисконтирования.

Руководитель организации, выпускающего в настоящее время продукцию X1 в объеме V1тек. = 1000 единиц, считает, что необходимо расширять рынок продукции Х2.

Проведенные маркетинговые исследования определили вилки спроса на продукцию Х2 (V1max = 1000 единиц; V1min = 5000 единиц; V2max = 8000 единиц; V2min = 4000 единиц), а также вероятности низкого и высокого спроса (D1max = 0,7; D1min = 1 -D1max = 0,3; D2max = 0,6; D2min = 1-D2max = 0,4).

Выявлено, что даже минимальный уровень спроса намного превышает имеющиеся мощности организации, которые необходимо использовать для производства обоих видов продукции.

Определен уровень прибыли на единицу продукции каждого из видов (P1 = 1 денежных единиц; Р2 = 0,9 денежных единиц).

Рассчитаны затраты (К = 0,4 * 103 денежных единиц) на удвоение мощности организации (для одновременного производства продукта Х1 в существующем объеме и производства продукции Х2 в эквивалентном объеме) V1тек = 1000 единиц и V2экв = 900 единиц, на увеличение мощности организации под минимальный и максимальный спрос на текущую продукцию (K1min= = 1,4 * 103 денежных единиц и K1max = 2 * 103 денежных единиц) и под минимальный и максимальный уровень спроса на продукцию Х2 (К2 min = 0,8 * 103 денежных единиц и К1max = 1,2 * 103 денежных единиц соответственно).

Необходимо определить рациональность замены продукции и расширения мощностей, под одновременный выпуск продукции в том числе.

Дерево решений и рассчитанные последствия решения отображены на рисунке 5.

Простейшее решение

Рисунок 5 — Дерево решений с ожидаемыми значениями приведенных результатов (EV), долларов

Определив результаты решений при производстве продукции одного их видов (Х1 или Х2), выявим эффективные действия во второй точке решений.

Отбросим для этого иррациональные действия по расширению мощностей и данные об ожидаемом выигрыше перенесем в 4 графу. С учетом вероятности существующего спроса на продукты, проведем расчет средней эффективности действий в местах разветвления событий (3 графа). Выявлено, что продолжение производства продукта Х1, при параллельном расширении мощностей является более выгодным вариантом, чем переход на производство продукции Х2 вместо продукции X1.

Однако нами не учитывалась возможность параллельного производства продукции X1 и Х2 при расширении мощностей организации под максимальный уровень спроса. Поэтому проведем еще одно ответвление из первой точки принятия решения, соответствующее этому варианту решения. Эффективность этого варианта состоит из эффективности первого варианта и второго варианта (Э1 и Э2) за минусом вложений на первоначальное удвоение мощностей организации. Эффективность этого варианта самая высокая, поэтому варианты 1 и 2 необходимо вычеркнуть.

Вывод. Необходимо существенно развивать мощности и одновременно выпускать два вида продукции.

Простейшее решение

Рисунок 6 — Дерево принятия решений при определении стратегии организации

Представленная схема решения немного упрощена, так как мы не рассматривали варианты привлечения резервов по выпуску продукта одного вида при минимальном уровне спроса для производства продукции другого вида, лимиты по вложениям денежных средств (в условиях задачи для этого недостаточно данных).

Источник

Дерево решений

На этой странице вы найдете решенные типовые задания из контрольных, лабораторных и практических работ по теории игр на тему «Дерево решений» (изучаются в курсах теории рисков, инвестиций, менеджменте, ТПР, МОР, ЭММ и т.п.).

Чаще всего метод дерева решений используют в сложных, но поддающихся классификации задачах принятия решений, когда перед нами есть несколько альтернативных «решений» (проектов, выходов, стратегий), каждое из которых в зависимости от наших действий или действий других лиц (а также глобальных сил, вроде рынка, природы и т.п.) может давать разные последствия (результаты).

Задача состоит в том, чтобы правильно отобразить все возможные варианты развития ситуации (ветви дерева) и конечные результаты, вычислить некоторые показатели (например, ожидаемая прибыльность проекта, затраты и т.п.) и на основе полученных данных принять решение и выборе нужной линии поведения.

Похожее: Приложениек распоряжениюКомитета по образованиюот 16 08 2005 N 591 р

Принятие решений с помощью дерева возможных вариантов производится поэтапно:

Построение дерева решений (графа без циклов). Дерево строится по определенным правилам: вершины альтернативных решений, вершины событий, дуги решений, конечные решения — листья вводятся и обозначаются определенным образом в нужном порядке.
Анализ дерева решений : подсчет вероятностей и математических ожиданий (стоимостных оценок решения, EMV), расчет оптимистического и пессимистического прогноза, выбор оптимального решения.

Примеры решений задач: Дерево решений

Задача 1. Вы рассматриваете перспективы создания новой консалтинговой службы. Объем необходимых вложений на начальном этапе $200 тыс. Существует 60%-ная вероятность, что спрос будет высоким в 1-й год. Если спрос будет высоким в первый год, то в последующие годы вероятности высокого и низкого спроса составят 80% и 20% соответственно. Если спрос будет низким в 1-й год, то в последующие годы вероятности высокого и низкого спроса составят 40% и 60% соответственно. При высоком спросе прогнозируемые доходы составят 500 тыс. дол. в год; при низком спросе прогнозируемые доходы равны 300 тыс. дол. в год. Вы можете прекратить предоставлять услуги в любой момент. Затраты, помимо связанных с использованием компьютера, прогнозируются в размере 140 тыс. дол. в год, вне зависимости от уровня спроса.

Если Вы решите не вкладывать деньги в консалтинговую службу, то сможете вложить их на практически безрисковой основе под 20% в год.
Если будет решено организовать консалтинговую службу, Вам необходимо будет решить вопрос с проведением компьютерных расчетов, составляющих основу деятельности. Один возможный вариант — купить сервер.
Срок морального устаревания его 5 лет. Затраты будут состоять из первоначальных расходов в размере 150 тыс. долларов и ежегодных расходов на эксплуатацию в размере 20 тыс.
Альтернативный вариант — арендовать компьютерные ресурсы по мере необходимости. В этом случае затраты на аренду будут пропорциональны спросу и составят 30% доходной части за вычетом оговоренных постоянных расходов в 140 тыс. Во всех случаях никаких других издержек нет.

a. Постройте «древо решений», иллюстрирующее эти варианты и охватывающее 3 года.
b. Стоит организовать консалтинговую службу или безрисковый доход выгоднее? Рассмотрите итоги деятельности за два и три года.
c. Что лучше — купить компьютер или арендовать?
d. Предположим, что после 3 лет деятельности вы сможете продать службу, как отдельный бизнес в среднем за 350 тыс. долларов. Какому ежегодному проценту прироста соответствует полученный вами доход?
e. Четко сформулируйте любые дополнительные допущения, которые вам потребуется сделать.

Задача 2. Фермер может выращивать либо кукурузу, либо соевые бобы. Вероятность того, что цены на будущий урожай этих культур повысятся, останутся на том же уровне или понизятся, равна соответственно 0,25, 0,30 и 0,45. Если цены возрастут, урожай кукурузы даст 30 000 долл. чистого дохода, а урожай соевых бобов — 10 000 долл. Если цены останутся неизменными, фермер лишь покроет расходы. Но если цены станут ниже, урожай кукурузы и соевых бобов приведет к потерям в 35 000 и 5 000 долл. соответственно. Постройте дерево решений. Какую культуру следует выращивать фермеру? Каково ожидаемое значение его прибыли?

Задача 3. Предприятие рассматривает варианты капитальных вложений. Первый вариант предусматривает строительство нового цеха для увеличения объема выпуска продукции стоимостью М1 = 500 млн. руб. При этом варианте возможны большой спрос (годовой доход в размере R1 = 230 млн. руб. в течение 5 последующих лет) с вероятностью p1 = 0,7 и низкий спрос (ежегодные убытки R2 = 90 млн. руб. с вероятностью p2 = 0,3.
Второй вариант предусматривает создание нового предприятия для выпуска новой продукции Стоимостью М1 = 700 млн. руб. При этом варианте возможны большой спрос (годовой доход в размере R1 = 450 млн. руб. в течение 5 последующих лет) с вероятностью p1 = 0,6 и низкий спрос (ежегодные убытки R2 = 150 млн. руб. с вероятностью p2 = 0,4.
При третьем варианте предлагается отложить инвестиции на 1 год для сбора дополнительной информации, которая может быть позитивной или негативной с вероятностью p1 = 0,8 и p2 = 0,2 соответственно. В случае позитивной информации можно осуществить инвестиции по указанным выше расценкам, в вероятности большого и низкого спроса меняются на p1 = 0,9 и p2 = 0,1 соответственно. Доходы на последующие годы остаются на том же уровне. В случае негативной информации инвестиции осуществляться не будут.
Все расчеты выражены в текущих ценах и не должны дисконтироваться. Нарисовать дерево решений. Определить наиболее эффективную последовательность действий, основываясь на ожидаемых доходах. Какова ожидаемая стоимостная оценка наилучшего решения?

Задача 4. Рассматривается проект покупки доли (пакета акций) в инвестиционном проекте. Пакет стоит 7 млн., и по завершению проект принесет доход 12 млн. с вероятностью 0,6 или ничего с вероятностью 0,4.
При этом через некоторое время будет опубликован прогноз аналитической фирмы относительно успеха этого проекта. Прогноз верен с вероятностью 0,7, то есть, равны 0,7 условные вероятности.
Однако, в случае положительного прогноза пакет порождает до 10,6 млн., а в случае отрицательного подешевеет до 3,4 млн. Требуется составить стратегию действий: покупать ли долю, или ждать прогноза, и совершать ли покупку при том или ином результате прогноза.

Задача 5. Компания «Большая нефть» хочет знать, стоит ли бурить нефтяную скважину на одном из участков, купленных ранее в перспективном месте. Бурение, проведенное на множестве соседних участков, показало, что перспективы не так уж хороши. Вероятность найти нефть на глубине не больше 400 м составляет около 50%. При этом стоимость бурения составит 1.5 млн., а стоимость нефти, за вычетом всех расходов, кроме расходов на бурение, составит 6 млн. Если нефть не найдена на малой глубине, не исключена возможность найти ее при более глубоком бурении. Расходы на бурение, вероятность найти нефть и приведенная стоимость нефти для этих случаев даны в таблице.
a. Постройте дерево решений, показывающее последовательные решения о разработке скважины, которые должна принять компания «Большая нефть». На какую среднюю прибыль компания может рассчитывать?
b. Скважину какой глубины нужно быть готовыми пробурить? (Стоит ли остановиться при достижении определенной глубины, или бурить до предельной глубины?)
c. Какова вероятность найти нефть при бурении (при необходимости) до выбранной вами предельной глубины? Какова полная вероятность найти нефть при готовности бурить до 1500 м?

Источник

Дерево решений

Своевременная разработка и принятие правильного решения — главные задачи работы управленческого персонала любой организации. Непродуманное решение может дорого стоить компании. На практике результат одного решения заставляет нас принимать следующее решение и т. д. Когда нужно принять несколько решений в условиях неопределенности, когда каждое решение зависит от исхода предыдущего или исходов испытаний, то применяют схему, называемую деревом решений.

Дерево решений — это графическое изображение процесса принятия решений, в котором отражены альтернативные решения, альтернативные состояния среды, соответствующие вероятности и выигрыши для любых комбинаций альтернатив и состояний среды.

Рисуют деревья слева направо. Места, где принимаются решения, обозначают квадратами Дерево решений , места появления исходов — кругами возможные решения — пунктирными линиями , возможные исходы — сплошными линиями

Для каждой альтернативы мы считаем ожидаемую стоимостную оценку (EMV) — максимальную из сумм оценок выигрышей, умноженных на вероятность реализации выигрышей, для всех возможных вариантов.

По этой ссылке вы найдёте полный курс лекций по высшей математике:

Примеры с решением

Пример 1.

Главному инженеру компании надо решить, монтировать или нет новую производственную линию, использующую новейшую технологию. Если новая линия будет работать безотказно, компания получит прибыль 200 млн. рублей. Если же она откажет, компания может потерять 150 млн. рублей. По оценкам главного инженера, существует 60% шансов, что новая производственная линия откажет. Можно создать экспериментальную установку, а затем уже решать, монтировать или нет производственную линию.

Эксперимент обойдется в 10 млн. рублей. Главный инженер считает, что существует 50% шансов, что экспериментальная установка будет работать. Если экспериментальная установка будет работать, то 90% шансов за то, что смонтированная производственная линия также будет работать. Если же экспериментальная установка не будет работать, то только 20% шансов за то, что производственная линия заработает. Следует ли строить экспериментальную установку? Следует ли монтировать производственную линию? Какова ожидаемая стоимостная оценка наилучшего решения?

Похожее: Какие права и обязанности есть у учредителей ООО

Дерево решений В узле F возможны исходы «линия работает» с вероятностью 0,4 (что приносит прибыль 200) и «линия не работает» с вероятностью 0.6 (что приносит убыток —150) => оценка узла F: EMV(F) = 0,4х200 4- 0,6х(-150) = -10. Это число мы пишем над узлом F.

Возможно вам будут полезны данные страницы:

В узле 4 мы выбираем между решением «монтируем линию» (оценка этого решения EMV(F) = —10) и решением ♦ не монтируем линию» (оценка этого решения Дерево решений Эту оценку мы пишем над узлом 4, а решением «монтируем линию» отбрасываем и зачеркиваем.

Дерево решений

Дерево решений . Поэтому в узле 2 отбрасываем возможное решение «не монтируем линию».

Дерево решений Поэтому в узле 3 отбрасываем возможное решение «монтируем линию».

EMV(A) « 0,5×165 4- 0,5×0 — 10 = 72,5.

EMV(l) = max = max <72,5; 0>= 72,5 = = EMV(A). Поэтому в узле 1 отбрасываем возможное решение «не строим установку».

Ожидаемая стоимостная оценка наилучшего решения равна 72,5 млн. рублей. Строим установку. Если установка работает, то монтируем линию. Если установка не работает, то линию монтировать не надо.

Задача 2.

Предприниматель провел анализ, связанный с открытием магазина. Если он откроет большой магазин, то при благоприятном состоянии рынка получит прибыль 60 млн. рублей, при неблагоприятном — понесет убытки 40 млн. рублей. Маленький магазин принесет ему 30 млн. рублей прибыли при благоприятном состоянии рынка и 10 млн. рублей убытков при неблагоприятном. Возможность благоприятного и неблагоприятного состояния рынка он оценивает одинаково. Исследование рынка, которое может провести специалист, обойдется предпринимателю в 5 млн. рублей. Специалист считает, что с вероятностью 0,6 состояние рынка окажется благоприятным. В то же время при положительном заключении состояние рынка окажется благоприятным лишь с вероятностью 0,9. При отрицательном заключении с вероятностью 0,12 состояние рынка может оказаться благоприятным. Используйте дерево решений для того, чтобы помочь предпринимателю принять решение. Следует ли заказать проведение обследования состояния рынка? Следует ли открыть большой магазин? Какова ожидаемая стоимостная оценка наилучшего решения?

Пример 3.

Компания рассматривает вопрос о строительстве завода. Возможны три варианта действий.

А. Построить большой завод стоимостью Дерево решений = 700 тысяч долларов. При этом варианте возможны большой спрос (годовой доход в размере = 280 тысяч долларов в течение следующих 5 лет) с вероятностью = 0,8 и низкий спрос (ежегодные убытки Дерево решений = 80 тысяч долларов) с вероятностью = 0,2.

Б. Построить маленький завод стоимостью Дерево решений = 300 тысяч долларов. При этом варианте возможны большой спрос (годовой доход в размере = 180 тысяч долларов в течение следующих 5 лет) с вероятностью = 0,8 и низкий спрос (ежегодные убытки Дерево решений = $5 тысяч долларов) с вероятностью = 0,2.

В. Отложить строительство завода на один год для сбора дополнительной информации, которая может быть позитивной или негативной с вероятностью Дерево решений = 0,7 и = 0,3 соответственно. В случае позитивной информации можно построить заводы по указанным выше расценкам, а вероятности большого и низкого спроса меняются на Дерево решений = 0,9 и = 0,1 соответственно. Доходы на последующие четыре года остаются прежними. В случае негативной информации компания заводы строить не будет.

Все расчеты выражены в текущих ценах и не должны дисконтироваться. Нарисовав дерево решений, определим наиболее эффективную последовательность действий, основываясь на ожидаемых доходах.

Дерево решений Ожидаемая стоимостная оценка узла

Дерево решений

Дерево решений .

Поэтому в узле 2 отбрасываем возможное решение «большой завод».

Дерево решений

Поэтому в узле 1 выбираем решение «маленький завод». Исследование проводить не нужно. Строим маленький завод. Ожидаемая стоимостная оценка этого наилучшего решения равна 365 тысяч долларов.

Дерево решений

Присылайте задания в любое время дня и ночи в whatsapp.

Готовые заказы по всем предметам
Готовые заказы по высшей математике
Готовые заказы по физике
Готовые заказы по химии
Готовые заказы по экономике

Официальный сайт Брильёновой Натальи Валерьевны преподавателя кафедры информатики и электроники Екатеринбургского государственного института.

Все авторские права на размещённые материалы сохранены за правообладателями этих материалов. Любое коммерческое и/или иное использование кроме предварительного ознакомления материалов сайта natalibrilenova.ru запрещено. Публикация и распространение размещённых материалов не преследует за собой коммерческой и/или любой другой выгоды.

Сайт предназачен для облегчения образовательного путешествия студентам очникам и заочникам по вопросам обучения . Наталья Брильёнова не предлагает и не оказывает товары и услуги.

Источник

Дерево решений: метод «белого ящика» в машинном обучении

Дерево решений — логическая схема, позволяющие получить окончательное решение о классификации объекта после ответов на иерархически организованную систему вопросов. Стоит сказать, большинство высоко результативных решений на Kaggle — комбинация XGboost-ов, одного из вариантов деревьев решений, и очень качественного фичер-инжиниринга.

Один уровень

Стоящая за деревьями решений идея проста. Представим датасет, созданный путем записи времени ухода из дома и времени прихода на работу. Анализируя эти данные, можно увидеть, что в большинстве случаев выход из дома раньше 8:15 приводит к своевременному прибытию на работу, а выход после 8:15 — к опозданию.

Теперь этот паттерн можно выразить через дерево решений. В самой первой точке разветвления следует задать вопрос: “Выход из дома осуществляется раньше 8:15?”. Теперь есть две ветви — “да” и “нет”. Для согласованности будем считать положительный ответ левой веткой. Вводя такую границу решения, мы разбиваем данные на две группы. Хотя в таком случаем есть некоторые исключения и сложности, общее правило — разделение по времени с границей 8:15. Если вы выходите до 8:15, можете быть уверены, что попадете на работу вовремя. В противном случае — будьте уверены, что опоздаете.

Это самое простое дерево решений, состоящее из одной пары ветвей.

Два уровня

Мы можем уточнить оценку пунктуальности с помощью разделения обеих ветвей. Если мы добавим дополнительные границы решений со значениями 8:00 и 8:30, можем получить более точное предсказание исхода.

Выход до 8:00 однозначно приведет к своевременному появлению на работе, тогда как с 8:00 до 8:15 — лишь к высокой вероятности прийти вовремя, но не к гарантии. Похожим образом ветвь с выходом после 8:15 делится на две ветви с решающим вопросом: “отправление до 8:30?”. Если ответ положительный, то есть большая вероятность опоздать, если же отрицательный — вы гарантированно опоздаете.

Это дерево решений имеет уже два уровня. В общем случае, они могут иметь столько уровней, сколько вы захотите. В большинстве случаем каждый узел (решающий вопрос) имеет только две ветви.

Рассматриваемый пример использует только один фактор и одну целевую переменную, которую необходимо предсказать. Фактором выступает время отправления, а целевая переменная — приедем ли мы вовремя. Целевая переменная категориальная, так как она имеет только два различных значения. Деревья решений с категориальной целевой переменной называются классифицирующими деревьями.

Многомерное дерево решений

Можно расширить этот пример на случай нескольких предикторных переменных. Рассмотрим время выхода и день недели. Начнем собирать данные с понедельника (день 1), тогда суббота = 6, воскресенье = 7. Исследуя данные, можно видеть, что в субботу и воскресенье зеленые точки смещены в левую сторону. Это означает, выход в 8:10 является достаточным, чтобы успеть на работу вовремя в будний день, но не достаточным в выходные.

Чтобы отобразить этот факт в дереве решений, можем начать также, как и в первом примере, установив границу решений как 8:15. Выход после 8:15 скорее всего приведет к опозданию. Выход из дома до 8:15 — не показательный фактор, хотя ранее мы предполагали, что это гарантирует прибытие вовремя. Теперь мы видим по данным, что это не является полной правдой.

Чтобы сделать более точную оценку для выходных, разделим левую ветвь на выходные и будние дни. Теперь выход из дома до 8:15 в будний день гарантирует своевременное прибытие на работу. Для выходного дня в большинстве случаев это тоже вовремя, но не всегда. Мы обновили дерево решений с помощью узла, который отражает новую решающую границу.

Можно еще сильнее уточнить оценку разделением ветки с отправлением до 8:15 в выходной день на отправление до 8:00 и после. Отправление до 8:00 скорее всего приведет к своевременному появлению на работе, а в интервале с 8:00 до 8:15 к опозданию с большой вероятностью. Получилось двумерное дерево решений, аккуратно поделенное на 4 различных региона. Два из них соответствуют прибытию вовремя, два — опозданию.

Похожее: Викторина по теме quot Илиада и Одиссея quot

Это трехуровневое дерево. Отметим, что не обязательно все ветки должны простираться на одинаковое количество уровней.

Регрессионное дерево решений

Рассмотрим случай с непрерывной целевой переменной, а не категориальной. В случае использования модели для предсказания непрерывных количественных переменных дерево называется регрессионным. Мы посмотрели на одномерные и двумерные классификационные деревья, теперь настало время взглянуть на регрессионные.

Перед нами стоит задача оценки времени пробуждения в зависимости от возраста человека. Корень нашего регрессионного дерева — оценка всего датасета. В этом случае, если требуется оценка без знания возраста конкретного человека, разумным предположением будет 6:25. Это и будет корнем нашего дерева.

Разумное первое разбиение — возраст 25 лет. В среднем, люди моложе 25 лет просыпаются в 7:05, а старше 25 — в 6 часов.

Существует всё еще много вариаций разбиения на возрастные группы, поэтому мы можем разделить выборку еще раз. Теперь можно предположить, что люди младше 12 лет просыпаются в 7:45, а в возрасте от 12 до 25 лет — в 6:40.

Группа людей старше 25 лет тоже может быть разумно разделена. Люди в возрасте от 25 до 40 лет просыпаются в среднем в 6:10, а в возрасте от 40 до 70 — в 5:50.

Поскольку наблюдается большая неоднозначность для младшей группы, можем разделить её еще раз. Теперь границей решений будет возраст 8 лет, что позволит более точно подстроиться под данные. Также можно разделить возрастную группу в диапазоне от 40 до 70 лет на отметке 58 лет. Отметим, мы добиваемся того, чтобы в каждом листе дерева находилось только одно или два значения из данных. Но это условие опасно тем, что может приводить к переобучению, о котором мы поговорим в скором времени.

В результате необходимо получить численную оценку в зависимости от возраста. Если требуется оценить время пробуждения для 36-летнего человека, можно начать с самой верхушки дерева. Этот процесс описывается следующим образом:

“Младше 25 лет?” — Нет; идем вправо.
“Младше 40 лет?” — Да; идем влево.
Оценка для этого листа — 6:10.

Структура дерева решений позволяет сортировать людей разных возрастов на соответствующие им ячейки и делать оценки времени пробуждения.

Конечно, существует способ расширения регрессионного дерева на случай двух предсказательных переменных. Если рассматривать не только возраст человека, но также и месяц года, можно получить явный и информативный паттерн. В Северной Америке дни длиннее в летние месяцы, и становится светлее раньше по утрам. В нашем нереалистичном примере дети и подростки не обременены строгим расписанием работы или учебы в школе, а их время пробуждения зависит только от того, когда восходит солнце. С другой стороны, взрослым присущ более стабильный распорядок дня, лишь немного зависящий от сезона. Но даже так, для старшего поколения характерно чуть более раннее время пробуждения.

Разветвленное дерево

Мы создаем дерево решений почти таким же образом, как и прошлое. Начинаем с корня — единичная оценка, которая грубо описывает весь набор данных — 6:30. (Здесь представлен код для визуализации с помощью библиотеки matplotlib).

Далее ищем подходящее место для установления границы решений. Делим данные по возрасту на отметке 35 лет, создавая две части:

популяция младше 35 лет с временем пробуждения 7:06
популяция старше 35 лет с временем пробуждения 6:12

Повторяем этот процесс, разделяя более молодую популяцию на два уровня — событие произошло до середины сентября и событие произошло до середины марта, соответственно. Такое разделение изолирует зимние месяцы от летних. Время пробуждения в зимние месяцы — 7:30 для людей младше 35 лет, а для летних — 6:56.

Теперь можем вернуться в узел с популяцией старше 35 лет и разделить его еще раз с границей в 48 лет для более точного представления.

Таким же образом разделим группу младше 35 лет для зимних месяцев добавлением границы в 18 лет. Человек младше 18 в зимние месяцы просыпается в 7:54, в противном случае, в 6:48.

Можно увидеть, что на графике начинают появляться высокие угловые пики. При каждом дополнительном разделении форма модели дерева решений становится более похожа на оригинальные данные. Кроме того, можно заметить, что в верхнем правом углу графика решающая граница начинает делить датасет на регионы примерно одинакового цвета.

Следующее разделение продолжает этот тренд, фокусируясь на группе младше 35 в летние месяцы, устанавливает границу в возрасте 13 лет. Форма модели становится всё более похожа на форму данных.

Этот процесс продолжается до тех пор, пока модель не станет хорошо представлять плавные тренды, соответствующие данным. Каждый решающий регион постепенно должен становиться меньше, тогда как аппроксимация лежащей в основе данных функции улучшается.

В тоже время деревья решений не лишены недостатков, важнейший из которых — переобучение. Возвращаясь к примеру регрессионного дерева с одной переменной (предсказание времени пробуждения по данным о возрасте), представим, что мы продолжаем разделять ось возраста до тех пор, пока в каждой ячейке не окажется один или два объекта из данных.

Когда мы дошли до этой стадии, дерево объясняет и описывает данные очень хорошо. Даже слишком хорошо. Такая модель не только находит лежащие в основе данных тренды (гладкая кривая, по которой следуют данные), но также реагирует и на шумы (несмоделированные отклонения), характерные для исследуемых данных. Если будет необходимо применить эту модель и предсказать время пробуждения на новых данных, шум из тренировочного сета будет делать предсказание менее точным. В идеале мы хотим, чтобы дерево решений находило только тренды, но не реагировало на шумы. Один из способов защититься от переобучения — убедиться, что в каждом листе нашего дерева находится больше чем один или несколько объектов. Такой способ позволяет усреднением избавиться от шума.

Другая вещь, на которую стоит обратить внимание — большое количество переменных. Мы начали с одномерного регрессионного дерева, затем добавили данные о месяцах, чтобы трансформировать дерево в двумерное. Такой метод не придает значение количеству измерений, которые у нас есть. Можно, например, добавить широту, интенсивность физической нагрузки человека в определенный день, индекс массы тела или любые другие переменные, которые могут быть релевантны для нашей задачи.

Чтобы визуализировать многомерные данные, используем прием, предложенный Джеффри Хинтоном — исследователем в области искусственных нейронных сетей. Он рекомендует следующее: “Чтобы иметь дело с гиперплоскостью в четырнадцатимерном пространстве, представьте себе трехмерное пространстве и скажите самому себе очень громко “четырнадцать.”

Проблема, возникающая при работе с многими переменными, связана с решением о том, какая из переменных должна идти в ветку при построении решающего дерева. Если имеется много переменных, то требуется большое количество вычислений. Также, чем больше переменных мы добавляем, тем большее количество данных нам необходимо, чтобы достоверно выбирать между ними. Легко попасть в ситуацию, где количество объектов в данных сравнимо с количеством переменных. Если наш датасет представлен в виде таблицы, то такая ситуация соответствует совпадению количества строк и столбцов. Существуют методы для борьбы с такими ситуациями, например, случайный выбор переменной для разделения в каждой ветке, но это требует повышенного внимания.

Вы можете свободно пользоваться всеми преимуществами силы деревьев решений, пока следите за местами, где модель может терпеть неудачи. Деревья решений — фантастический инструмент, когда вы хотите сделать как можно меньше предположений о ваших данных. Они обобщают и могут находить нелинейные зависимости между предсказательной и целевой переменной также хорошо, как и влияние одной предсказательной переменной на другую. Если имеется достаточное количество данных для осуществления необходимых разбиений, деревья решений могут выявлять квадратичные, экспоненциальные, циклические и другие зависимости. Деревья могут также находить неплавное поведение, резкие прыжки и пики, которые другие модели, такие как линейная регрессия или искусственные нейронные сети, могут скрывать.

Поэтому в задачах с большим объемом данных деревья решений показывают более высокие результаты, чем другие методы.

Источник