Ольга Мегорская "Несколько интересных фактов об экспертной оценке"
Я.Субботник в Санкт-Петербурге
О докладе:
Служба асессоров Яндекса – это развитая система сбора экспертных оценок. За время работы над ней мы узнали много интересного не только о качестве поиска Яндекса, но и о самих асессорах. В этот раз мы бы хотели поделиться с вами нашими наблюдениями. Мы расскажем о том, чем отличаются оценки оптимистов и пессимистов и чем вторые лучше первых; о том, что при попарном сравнении находятся «любители левого» и «любители правого»; о том, как можно автоматически выявить недобросовестного асессора, и еще о некоторых интересных фактах из области экспертной оценки.
15. • Две стратегии: «сделать побольше, пока не
выгнали» VS «аккуратная работа, долгое
сотрудничество»
• Задания с высокой стоимостью привлекают первых
• Поэтому повышение стоимости задания может
увеличить скорость его выполнения,
но не повышает качество работы
15
20. Если нужны специальные
знания, а их нет:
• Если человек плохо разбирается в теме, он
склонен завышать оценку
• Релевантным кажется документ, который
объясняет смысл запроса, а не отвечает на него
• Релевантность документа часть оценивают по
наличию слов запроса
20
25. Фальшивые отзывы
• Используют больше превосходных степеней
• Меньше конкретных определений
• Избегают пространственных определений
• Чаще упоминают не относящиеся к самому объекту отзыва вещи
• Чаще упоминают первое лицо
25
26. Ссылки
• Towards Building a High-Quality Workforce with Mechanical Turk, 2010
PaulWais, Shivaram Lingamneni, Duncan Cook, Jason Fennell, Benjamin Goldenberg, Daniel
Lubarov, David Marin, and Hari Simons Yelp, Inc
• An Analysis of Assessor Behavior in Crowdsourced Preference Judgments, 2010
Dongqing Zhu and Ben Carterette; Department of Computer & Information Sciences University
of Delaware
• The Effect of Assessor Errors on IR System Evaluation, 2010
Ben Carterette, Dept. of Computer and Information Sciences University of Delaware; Ian
Soboroff, National Institute of Standards and Technology, Gaithersburg, MD
• How evaluator domain expertise affects search result relevance judgments, 2007
Kenneth A. Kinney, Scott B. Huffman, and Juting Zhai. Google, Inc. Mountain View, CA
• Crowdsourcing Document Relevance Assessment with Mechanical Turk, 2010
Catherine Grady and Matthew Lease, School of Information, University of Texas at Austin
• Finding Deceptive Opinion Spam by Any Stretch of the Imagination, 2011
Myle Ott Yejin Choi Claire Cardie, Department of Computer Science, Cornell University;
Jeffrey T. Hancock, Department of Communication, Cornell University
26