УПРАЖНЕНИЯ

23.1. Ш (Адаптировано из [756].) В этом упражнении предлагается разработать классификатор для выявления авторства: при наличии некоторого текста этот классификатор должен попытаться определить, какой из двух возможных авторов написал этот текст. Получите образцы текста двух различных авторов. Разделите их на обучающие и контрольные множества. После этого определите с помощью обучения параметры модели однословных сочетаний для каждого автора по обучающему множеству. Наконец, для каждого контрольного множества рассчитайте его вероятность в соответствии с каждой моделью однословных сочетаний и присвойте эту вероятность наиболее вероятной модели. Оцените точность этого метода. Можете ли вы повысить его точность с помощью дополнительных характеристик? Эта подобласть лингвистики называется стилометрией; к числу достижений в этой области относится идентификация автора "Заметок федералиста" (Federalist Papers) [1091] и некоторых произведений Шекспира, авторская принадлежность которых некогда оспаривалось [486].
23.2. Sfe В этом упражнении исследуется качество моделей n-элементных сочетаний, характерных для некоторого языка. Найдите или создайте моноязыковую совокупность, состоящую примерно из 100 тысяч слов. Сегментируйте ее на слова и вычислите частоту каждого слова. Каково количество присутствующих в ней различных слов? Начертите график зависимости частоты слов от их ранга (первое, второе, третье...) с логарифмической шкалой по горизонтали и по вертикали. Кроме того, подсчитайте частоты двухсловных сочетаний (два подряд идущих слова) и трехсловных сочетаний (три подряд идущих слова). Воспользуйтесь этими частотами для генерации языка: на основании моделей одно-, двух- и трехсловных сочетаний последовательно сформируйте образцы текста из 100 слов, выполняя выбор случайным образом в соответствии со значениями частот. Сравните три сформированных текста с фактически имеющимся текстом на рассматриваемом языке. Наконец, рассчитайте показатель связности каждой модели.
23.3. Sfe В этом упражнении рассматривается задача распознавания нежелательной электронной почты (спама). Спамом принято называть незатребованные объемистые коммерческие сообщения, поступающие по электронной почте. Утомительную задачу разборки спама приходится решать многим пользователям, поэтому создание надежного способа его устранения явилось бы большим достижением. Создайте две совокупности текстов — состоящую из почтовых сообщений, представляющих собой спам, и состоящую из обычных почтовых сообщений. Исследуйте каждую совокупность и определите, какие характеристики, скорее всего, окажутся применимыми для классификации: однословные сочетания, двухсловные сочетания, длина сообщений, отправитель, время получения и т.д. Затем проведите обучение алгоритма классификации (дерева решений, наивной байесовской модели или какого-то другого выбранного вами алгоритма) на обучающем множестве и определите его точность на контрольном множестве.
23.4. Создайте контрольное множество из пяти запросов и предъявите эти запросы трем основным машинам поиска Web. Оцените каждую из них по показателю точности для 1, 3 и 10 возвращенных документов и по среднему обратному рангу. Попытайтесь объяснить обнаруженные различия.
23.5. Попытайтесь определить, в какой из машин поиска, рассматриваемых в предыдущем упражнении, используются методы приведения к нижнему регистру, выделения основы, выявления синонимов и исправления орфографических ошибок.
23.6. Оцените, какой объем памяти является необходимым для индекса к совокупности Web-страниц, состоящей из миллиарда страниц. Укажите, какие предположения были вами приняты.
23.7. (в Напишите регулярное выражение или короткую программу для извлечения названий компаний. Проверьте ее на совокупности, состоящей из деловых новостных сообщений. Определите полноту и точность полученных результатов.
23.8. Выберите пять предложений и передайте их в оперативную службу перевода. Переведите их с английского на другой язык, а затем снова на английский. Оцените, насколько полученные при этом предложения являются грамматически правильными и сохранившими смысл. Повторите этот процесс; будут ли во второй итерации получены худшие результаты или такие же результаты? Влияет ли на качество результатов выбор промежуточного языка?
23.9. Соберите некоторые примеры выражений с указанием времени, таких как "two o'clock", "midnight" и "12:46". Кроме того, подготовьте некоторые примеры, являющиеся грамматически неправильными, такие как "thirteen o'clock" или "half past two fifteen". Напишите грамматику для языка выражений с указанием времени.
23.10. (Адаптировано из [806].) В модели машинного перевода IBM Model 3 предполагается, что после того как с помощью модели выбора слов будет подготовлен список слов, а с помощью модели смещения будут подготовлены возможные перестановки слов, можно будет применить языковую модель для выбора наилучшей перестановки. Данное упражнение посвящено исследованию того, насколько обоснованным является указанное предположение. Попытайтесь переставить слова в приведенных ниже предложениях, подготовленных с помощью модели IBM Model 3, в правильном порядке.
• have programming a seen never I language better
• loves john тагу
• is the communication exchange of intentional information brought by about the production perception of and signs from drawn a of system signs conventional shared
С какими предложениями вам удалось справиться? Знания какого типа пришлось вам для этого привлечь? Проведите обучение модели двухсловных сочетаний с помощью обучающей совокупности и воспользуйтесь этой моделью для поиска перестановок некоторых предложений из контрольной совокупности с наибольшей вероятностью. Определите точность этой модели.
23.11. Согласно данным англо-французского словаря, переводом для слова "hear"
является глагол "entendre". Но если проводится обучение модели IBM Model 3
по отчетам канадского парламента, то наиболее вероятным переводом для
слова "hear" становится "Bravo". Объясните, почему такое происходит, и оце-
ните, каким может быть распределение фертильности для слова "hear".
(Подсказка. Вам может потребоваться ознакомиться с каким-то текстом парламентского отчета. Попробуйте выполнить поиск в Web с помощью запроса
[Hansard hear].)







Материалы

Яндекс.Метрика