Ольга Мегорская "Несколько интересных фактов об экспертной оценке"

Несколько интересных фактов
об экспертной оценке
Ольга Мегорская
Руководитель группы асессоров

Я.Субботник, Санкт-Петербург, 3 декабря 2011 года

Экспертная оценка в
Интернете

2

Где это используется?
• Интернет-поиск

• Научные исследования

• Интернет-бизнес, в т.ч. спам

3

Асессоры Яндекса

• Релевантность: случайные запросы + документы к
ним

• Относительные оценки

• Классификации и пр

4

Абсолютная шкала:
релевантность документов

5

Абсолютная шкала:
картинки/видео

6

Попарное сравнение

7

CrowdSourcing
Amazon Mechanical Turk

8

№1:
Оптимисты VS Пессимисты

11

• Оптимисты: когда сомневаются, завышают оценку

• Пессимисты: когда сомневаются, занижают оценку

• Негативные оценки - чаще верные

12

Пессимизм приходит с опытом

70,0%

60,0%

50,0%

Positive
Negative
40,0%

30,0%

20,0%
400 900 1300 1700 2100 2500 2900 2300 3700

13

№2:
Дороже – не значит лучше

14

• Две стратегии: «сделать побольше, пока не
выгнали» VS «аккуратная работа, долгое
сотрудничество»

• Задания с высокой стоимостью привлекают первых

• Поэтому повышение стоимости задания может
увеличить скорость его выполнения,
но не повышает качество работы

15

№3:
Оценки сами говорят о своем
качестве

16

Контроль качества: ручной и
автоматический
• Входной контроль

• Постпроверка случайной выборки заданий

• Предпроверенные задания («голденсет»)

• Ловушки

• Согласованность

• Распределение оценок

17

Сравнение «лучше/хуже/одинаково»
Нормальный
1

0
1 2 3 4 5 6 7 8 9 10 11

-1 Хитрый
1

0
1 2 3 4 5 6 7 8 9 10 11

-1 Ленивый
1

0
1 2 3 4 5 6 7 8 9 10 11 12

18 -1

№4:
Эксперты среди экспертов

19

Если нужны специальные
знания, а их нет:
• Если человек плохо разбирается в теме, он
склонен завышать оценку

• Релевантным кажется документ, который
объясняет смысл запроса, а не отвечает на него

• Релевантность документа часть оценивают по
наличию слов запроса

20

[Фортепиано с нуля+нотная
грамота](Москва)

21

№5:
Чего не могут эксперты

22

Вакансия: писатель положительных
отзывов

24

Фальшивые отзывы
• Используют больше превосходных степеней

• Меньше конкретных определений

• Избегают пространственных определений

• Чаще упоминают не относящиеся к самому объекту отзыва вещи

• Чаще упоминают первое лицо

25

Ссылки
• Towards Building a High-Quality Workforce with Mechanical Turk, 2010
PaulWais, Shivaram Lingamneni, Duncan Cook, Jason Fennell, Benjamin Goldenberg, Daniel
Lubarov, David Marin, and Hari Simons Yelp, Inc

• An Analysis of Assessor Behavior in Crowdsourced Preference Judgments, 2010
Dongqing Zhu and Ben Carterette; Department of Computer & Information Sciences University
of Delaware

• The Effect of Assessor Errors on IR System Evaluation, 2010
Ben Carterette, Dept. of Computer and Information Sciences University of Delaware; Ian
Soboroff, National Institute of Standards and Technology, Gaithersburg, MD

• How evaluator domain expertise affects search result relevance judgments, 2007
Kenneth A. Kinney, Scott B. Huffman, and Juting Zhai. Google, Inc. Mountain View, CA

• Crowdsourcing Document Relevance Assessment with Mechanical Turk, 2010
Catherine Grady and Matthew Lease, School of Information, University of Texas at Austin

• Finding Deceptive Opinion Spam by Any Stretch of the Imagination, 2011
Myle Ott Yejin Choi Claire Cardie, Department of Computer Science, Cornell University;
Jeffrey T. Hancock, Department of Communication, Cornell University
26

Ольга Мегорская
Руководитель группы асессоров

omegorskaya@yandex-team.ru

Ольга Мегорская "Несколько интересных фактов об экспертной оценке"

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie Ольга Мегорская "Несколько интересных фактов об экспертной оценке"

Ähnlich wie Ольга Мегорская "Несколько интересных фактов об экспертной оценке" (20)

Mehr von Yandex

Mehr von Yandex (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (9)

Ольга Мегорская "Несколько интересных фактов об экспертной оценке"