Сравнительный анализ систем информационного поиска

Важная проблема состоит в том, как оценить показатели работы рассматриваемой системы информационного поиска. Проведем эксперимент, в котором системе предъявляется ряд запросов, а результирующие наборы оцениваются с учетом суждений людей о релевантности полученных результатов. По традиции при такой оценке применяются два критерия: полнота выборки и точность. Сформулируем определения этих критериев с помощью примера. Предположим, что некоторая система информационного поиска возвратила результирующий набор, относящийся к одному запросу, применительно к которому известно, какие документы являются и не являются релевантными, из совокупности в 100 документов. Количество документов в каждой категории приведено в табл. 23.2.
Показатель точности измеряет долю документов в результирующем наборе, которые действительно являются релевантными. В данном примере точность составляет 30/(30+10)=0,75. Относительное количество ложных положительных оценок равно 1-0,75=0,25. Показатель полноты выборки измеряет долю всех релевантных документов в коллекции, которые находятся в результирующем наборе. В данном примере полнота выборки составляет 30/(30+20)=0,60. Относительное количество ложных отрицательных оценок равно 1-0,60=0,40. Вычисление показателя полноты выборки в очень большой коллекции документов, такой как World Wide Web, становится сложным, поскольку отсутствует удобный способ проверки каждой страницы в Web на релевантность. Самое лучшее решение, которое может быть принято в данном случае, состоит в том, чтобы оценивать полноту выборки путем исследования определенной части документов или совсем игнорировать показатель полноты выборки и оценивать коллекцию документов только по показателю точности.
В некоторых системах может происходить потеря точности из-за увеличения полноты выборки. В крайнем случае в системе, которая возвращает в составе результирующего набора каждый документ из коллекции документов, гарантированно достигается полнота выборки, равная 100%, но точность становится низкой. Еще один вариант состоит в том, что система может возвращать единственный документ и показывать низкую полноту выборки, но достигать высокой вероятности получения 100%-ной точности. Один из способов достижения компромисса между точностью и полнотой выборки состоит в использовании кривой ROC. Аббревиатура "ROC" сокращенно обозначает показатель "рабочая характеристика приемника" (receiver operating characteristic), который требует дополнительных пояснений. Он представляет собой график, на котором относительное количество ложных отрицательных оценок измеряется по оси у, а относительное количество ложно положительных оценок измеряется по оси х, что позволяет находить различные точки компромиссов. Площадь под этой кривой представляет собой суммарную оценку эффективности системы информационного поиска.
Показатели полноты выборки и точности были определены в то время, когда задачи информационного поиска решались главным образом библиотекарями, которые были заинтересованы в получении исчерпывающих, научно обоснованных результатов. В настоящее время большинство запросов (количество которых измеряется сотнями миллионов в сутки) выполняется пользователями Internet, которых в меньшей степени интересует исчерпывающая полнота ответов и требуется лишь немедленно найти ответ. Для таких пользователей одним из наиболее приемлемых критериев является средний обратный ранг первого релевантного результата. Это означает, что если первый результат, полученный системой, является релевантным, он получает применительно к данному запросу оценку 1, а если первые два результата не релевантны, а третий является таковым, он получает оценку 1/3. Еще одним критерием служит время ожидания ответа, который позволяет измерить продолжительность времени, требуемую для поиска желаемого ответа на поставленный пользователем вопрос. Этот показатель лучше оценивает те характеристики систем информационного поиска, которые действительно хотелось бы точно измерить, но обладает одним недостатком, связанным с тем, что для проведения каждого нового эксперимента приходится привлекать новую партию испытуемых субъектов — людей.







Материалы

Яндекс.Метрика