Расширение области применения деревьев решений

Для того чтобы распространить методы индуктивного вывода деревьев решений на более широкий круг задач, необходимо решить целый ряд проблем. В данном разделе кратко описана каждая из этих проблем, но более полного их понимания можно добиться, выполнив указанные здесь упражнения.
• Недостающие данные. Во многих проблемных областях не все значения атрибутов могут быть определены для каждого примера, в связи с тем, что такие значения могут оказаться незарегистрированными или задача их получения является слишком дорогостоящей. Такая ситуация приводит к возникновению двух проблем. Во-первых, если дано полное дерево решений, то как следует классифицировать некоторый объект, для которого не задан один из проверяемых атрибутов? Во-вторых, как следует модифицировать формулу приращения информации, если в некоторых примерах неизвестны значения данного атрибута? Эти вопросы рассматриваются в упр. 18.12.
• Многозначные атрибуты. Если атрибут имеет много возможных значений, то критерий приращения информации придает оценке полезности атрибута не соответствующую ей значимость. В крайнем случае может встретиться такой атрибут, который имеет в каждом примере другое значение, скажем RestaurantName (Название ресторана). В таком случае каждое подмножество примеров становится одноэлементным подмножеством с уникальной классификацией, поэтому критерий приращения информации для соответствующего атрибута принимает наивысшее значение. Тем не менее этот атрибут может оказаться нерелевантным или бесполезным. Одним из решений данной проблемы является использование коэффициента приращения (упр. 18.13).
• Непрерывные и целочисленные входные атрибуты. Непрерывные или целочисленные атрибуты, такие как Height (Рост) и Weight (Вес), имеют бесконечное множество возможных значений. Но вместо формирован™ бесконечно большого количества ветвей алгоритмы обучения деревьев решений, как правило, находят точку разбиения, позволяющую получить наивысшее приращение информации. Например, в каком-то конкретном узле дерева может оказаться, что наибольший объем информации позволяет получить проверка по условию Weight>160. Разработаны эффективные методы динамического программирования для поиска приемлемых точек разбиения, но они все еще представляют собой тот компонент реальных приложений в области обучения деревьев решений, который требует намного больше затрат по сравнению с другими компонентами.
• Выходные атрибуты с непрерывными значениями. Если предпринимается попытка предсказать некоторое числовое значение, такое как оценка произведения искусства, а не провести дискретную классификацию, то необходимо получить дерево регрессии. В каждом листовом узле такого дерева задана линейная функция от некоторого подмножества числовых атрибутов, а не единственное значение. Например, ветвь, которая относится к гравюрам, раскрашенным вручную, может оканчиваться линейной функцией от площади, возраста работы и количества цветов. Обучающий алгоритм должен выработать решение о том, когда следует прекратить разбиение и приступить к применению метода линейной регрессии с использованием оставшихся атрибутов (или некоторого их подмножества).
Система обучения деревьев решений для реальных приложений должна быть способной решать все эти проблемы. Особенно важной является обработка переменных с непрерывными числовыми значениями, поскольку числовые данные применяются, например, в физических и финансовых процессах. Было разработано несколько коммерческих пакетов, соответствующих этим критериям, которые использовались для создания нескольких сотен проблемно-ориентированных систем. Во многих областях промышленности и торговли деревья решений обычно становятся первым методом, к которому пытаются прибегнуть, когда из некоторого набора данных необходимо извлечь соответствующий ему метод классификации. Одним из важных свойств деревьев решений является то, что вывод обучающего алгоритма доступен для понимания людей (а в действительности в этом также состоит законодательное требование к финансовым решениям, на которые распространяются законы против дискриминации). Таким свойством не обладают нейронные сети (см. главу 20).







Материалы

Яндекс.Метрика