УПРАЖНЕНИЯ

20.1. Данные, которые использовались для графика, приведенного на рис. 20.1, можно рассматривать как сформированные с помощью гипотезы п5. Для каждой из остальных четырех гипотез сформируйте набор данных с длиной 100 и вычертите соответствующие графики для P(hi\dlt..., dm) и Р(Ць+1=Ите\dlf ...,dm). Прокомментируйте полученные вами результаты.
20.2. Повторите упр. 20.1, но на этот раз нанесите на графики значения Р( An+1=lie| ЬМАР) И Р(Dm+i—lime| 7iML).
20.3. Предположим, что для Анны полезности вишневого и лимонного леденцов равны сА и ?А, а для Боба эти полезности равны св и ?в (но после того как Анна развертывает какую-то конфету, Боб эту конфету не покупает). Предполагается, что если Боб любит лимонные леденцы гораздо больше чем Анна, то было бы разумным решением со стороны Анны продать Бобу свой пакет с конфетами после того, как она приобретет достаточную уверенность в наличии в этом пакете большого количества лимонных леденцов. С другой стороны, если Анна в процессе анализа содержимого пакета разворачивает слишком много конфет, стоимость пакета уменьшается, поскольку Боб не платит за развернутые конфеты. Обсудите задачу определения оптимальной точки, в которой Анна должна продавать свой пакет. Определите ожидаемую полезность этой оптимальной процедуры с учетом распределения априорных вероятностей, описанного в разделе 20.1.
20.4. Два статистика попали на прием к врачу, который сообщил им одинаковый прогноз: с вероятностью 40% расстройство их здоровья вызвано смертельным заболеванием А, а с вероятностью 60% оно вызвано тяжелым заболеванием В. К счастью, есть лекарства и от заболевания А, и от заболевания в, которые являются недорогими, эффективными на 100% и не вызывающими побочных эффектов. Этим статистикам предоставлена возможность выбрать для себя один из вариантов дальнейших действий — принимать одно из этих лекарств, оба эти лекарства или ни одного из этих лекарств. Как поступит первый статистик, который является убежденным сторонником байесовского подхода? А как поступит второй статистик, который всегда использует гипотезу с максимальным правдоподобием?
Врач провел определенные исследования и обнаружил, что заболевание В фактически протекает в двух вариантах (правостороннее заболевание В и левостороннее заболевание В), которые являются равновероятными и одинаково хорошо излечиваются с помощью лекарства против заболевания В. Теперь количество гипотез стало равным трем; как поступят эти два статистика?
20.5. Объясните, как применить метод усиления, описанный в главе 18, для наивного байесовского обучения. Проверьте производительность результирующего алгоритма на задаче обучения с рестораном.
20.6. Рассмотрим т точек данных (XJ , ), где координаты y-j вырабатываются на основании координат Xj в соответствии с моделью линейного гауссова распределения, приведенной в уравнении 20.5. Найдите значения Э1? Э2 и а, которые максимизируют условное логарифмическое правдоподобие этих данных.
20.7. Рассмотрим модель зашумленного ИЛИ для лихорадки, описанную в разделе 14.3. Объясните, как применить обучение с учетом максимального правдоподобия для согласования параметров такой модели с множеством полных данных. (Подсказка. Используйте цепное правило для частичных производных.)
20.8. В данном упражнении исследуются свойства бета-распределения, которое определено в уравнении 20.6.
а) Выполнив интегрирование по отрезку [0,1], покажите, что константа
нормализации для распределения beta [a, b] задается выражением
а=Г(а+Ь) /Г(а)Г(Ь), где Г(х) — гамма-функция, определяемая вы-
ражением Г(х+1) =х-Г(х), а Г(1)=1 (для целого числа х выражение
Г(х+1)=х!).
б) Покажите, что математическое ожидание равно а/ (а+Ь).
в) Найдите моду (моды) — наиболее вероятное значение (значения) Э.
г) Опишите вид распределения beta[e,e] для очень малого значения е.
Что происходит при обновлении такого распределения?
20.9. Рассмотрим произвольную байесовскую сеть, полный набор данных для этой сети и правдоподобие этого набора данных согласно этой сети. Дайте простое доказательство того, что правдоподобие данных не может уменьшиться после добавления новой связи к сети и повторного вычисления значений параметров максимального правдоподобия.
20.10. Рассмотрим применение алгоритма ЕМ для определения в процессе обучения параметров сети, приведенной на рис. 20.10, а, если даны истинные параметры в уравнении 20.7.
а) Объясните, почему алгоритм ЕМ не будет действовать, если в модели
имеются только два атрибута, а не три.
б) Покажите расчеты для первой итерации алгоритма ЕМ, начиная с урав-
нения 20.8.
в) Что происходит, если применение алгоритма начинается с присваивания
всем параметрам одинакового значения р? (Подсказка. Рекомендуется
вначале провести эмпирическое исследование этого вопроса и только по-
сле этого выводить общий результат.)
г) Запишите выражение для логарифмического правдоподобия табличных
данных о конфетах, приведенных в табл. 20.1, с учетом параметров, рас-
считайте частичные производные по отношению к каждому параметру и исследуйте характер фиксированной точки, достигнутой при выполнении упр. 20.10, в.
20.11. Постройте вручную нейронную сеть, которая вычисляет функцию XOR от двух входов. Обязательно укажите, какого рода элементы вы используйте.
20.12. Сконструируйте машину поддерживающих векторов, которая вычисляет функцию XOR. При этом для входов и выходов удобнее использовать значения 1 и -1 вместо 1 и 0. Поэтому некоторые примеры могут выглядеть как ( [-1,1] , 1) или ([-1,-1],-1). Обычно принято отображать входное значение х на пространство, состоящее из пяти размерностей: двух первоначальных размерностей, х± и х2, и трех комбинаций размерностей, х±2, х22 и xix2. Но для этого упражнения мы будем рассматривать только две размерности, х1 и Х]Х2. Нарисуйте в этом пространстве четыре входных точки и разделитель с максимальной шириной края. Каковым является этот край? А теперь снова преобразуйте разделительную линию и нарисуйте ее в первоначальном евклидовом пространстве входов.
20.13. Простой персептрон не способен представить функцию XOR (или, вообще говоря, функцию четности от его входов). Опишите, что происходит с весами в четырехвходовом персептроне со ступенчатой функцией, начиная со всех весов, установленных равными 0.1, по мере поступления примеров функции четности.
20.14. Напомним, что, как было сказано в главе 18, существует 22 различных булевых функций от п входов. Какая часть функций из этого общего количества может быть представлена с помощью порогового персептрона?
20.15. (§1) Рассмотрим приведенное в табл. 20.3 множество примеров, каждый из которых имеет шесть входов и один целевой выход.
а) Примените правило обучения персептрона к этим данным и покажите
окончательные веса.
б) Примените правило обучения дерева решений и покажите результирую-
щее дерево решений.
в) Прокомментируйте полученные вами результаты.
20.16. Начиная с уравнения 20.13, покажите, что db/dWj=Errxaj.
20.17. Предположим, что имеется нейронная сеть с линейными функциями актива-
ции. Это означает, что выход каждого элемента определяется некоторой кон-
стантой с, умноженной на взвешенную сумму его входов.
а) Предположим, что эта сеть имеет один скрытый слой. Для данного при-
сваивания весам W запишите уравнения для значений элементов в выход-
ном слое как функции от w и значений элементов входного слоя I без ка-
кого-либо явного упоминания в этих выходных данных о скрытом слое.
Покажите, что существует сеть без скрытых элементов, которая вычисля-
ет ту же функцию.
б) Повторите вычисления, описанные в упр. 20.17, я, но на этот раз приме-
нительно к сети с любым количеством скрытых слоев. Какой можно сде-
лать вывод в отношении линейных функций активации?
20.18. (Й) Реализуйте какую-то структуру данных для многослойных нейронных сетей с прямым распространением и не забудьте предусмотреть способ представления информации, необходимой как для прямого вычисления, так и для обратного распространения. Используя эту структуру данных, напишите функцию Neural-Network-Output, которая принимает на входе определения некоторого примера и сети, после чего вычисляет соответствующие выходные значения.
20.19. Предположим, что обучающее множество содержит только единственный пример, повторенный 100 раз. В 80 из 100 случаев единственным выходным значением является 1, а в остальных 20 случаях таковым является 0. Что предсказывает сеть с обратным распространением для данного примера, при условии, что по нему проведено обучение и достигнут глобальный оптимум? {Подсказка. Чтобы найти глобальный оптимум, необходимо дифференцировать функцию ошибки и приравнять полученное выражение к нулю.)
20.20. Сеть, приведенная на рис. 20.23, имеет четыре скрытых узла. Это количество узлов было выбрано фактически произвольно. Проведите систематические эксперименты, чтобы измерить кривые обучения для сетей с различным количеством скрытых узлов. Каковым является оптимальное количество? Было бы возможно использовать метод перекрестной проверки, чтобы найти наилучшую сеть еще до получения этих данных?
20.21. Рассмотрим задачу разделения iV точек данных на положительные и отрицательные примеры с использованием линейного разделителя. Очевидно, что эту задачу всегда можно выполнить для количества точек N=2 на линии с размерностью d =1, независимо от того, как размечены эти точки или где они находятся (если только эти две точки не находятся в одном и том же месте).
а) Покажите, что эту задачу всегда можно выполнить для количества то-
чек N=3 на плоскости с размерностью d=2, если только эти точки не яв-
ляются коллинеарными.
б) Покажите, что эту задачу не всегда можно решить для количества точек
iV=4 на плоскости с размерностью d=2.
в) Покажите, что эту задачу не всегда можно решить для количества точек
N=4 в пространстве с размерностью d=3, если только эти точки не явля-
ются копланарными.
г) Покажите, что эту задачу не всегда можно решить для количества точек
N=5 в пространстве с размерностью d=3.
д) Амбициозный студент решил доказать, что произвольно расположенные
iV точек (но не N+1 точка) являются линейно разделимыми в пространст-
ве с размерностью N-1. Покажите, что из этого доказательства будет сле-
довать, что VC-размерность (см. главу 18) линейных полупространств
в пространствах с размерностью N-1 равна N.







Материалы

Яндекс.Метрика