Loading ...
Sorry, an error occurred while loading the content.
 

Заметки с круглого стола РОМИП'2008

Expand Messages
  • Igor Nekrestyanov
    Добрый день, мой конспект заметок с обсуждения на круглом столе прилагается, я
    Message 1 of 1 , Oct 11, 2008
      Добрый день,

      мой конспект заметок с обсуждения на круглом столе прилагается,
      я попробовал их как-то грубо структурировать и кое-где добавил свои
      комментарии.

      Пожалуйста, дополняйте и комментируйте.

      -igor

      организация:
      =============
      - Банкет "после", а не "до" РОМИП - Хорошая идея :)
      - запускать "старые" дорожки (те, где правила не изменятся) намного раньше
      - более прозрачный процесс формирования обучающих выборок
      - четче заранее анонсировать правила
      (например, непересекающиеся кластеры в новостной дорожке, ...)
      - быть жестче со сроками
      - централизованные инструменты для предварительной проверки формата
      результатов (наличия id в коллекции)
      - расширить инструменты для контроля работы асессоров
      (например, если они ставят разные оценки сильно похожим документам,
      то просить объяснений)
      Может быть обратная связь от участников к асессорам.
      - Более качественный сборник трудов (менбше опечаток, лучше язык, ...)
      - Поискать волонтеров для написания инструментов для оценки
      и организации процесса. (для этого надо выложить существующее
      или сформулировать задачи)

      правила существующих дорожек
      ==========
      - опечатки во входных запросах
      - убрать совсем?
      - делать отдельный расчет результатов по запросам без опечаток?
      (igor: возможно уже сейчас)

      - может быть оставить только одну Веб коллекцию
      - Объединить KM и BY?
      - Оставить только BY, но расширив его?
      - оставить как есть, чтобы накапливать таблицы релевантности?

      - более граммотные асессоры, которые бы оценивали "выдачу", а не
      только одну точку зрения
      (igor: это был бы "системный" подход, у каждого отдельного
      пользователя своя конкретная цель,
      может быть нужно больше асессоров, с разными целями)

      - Привязывать описания дорожек к практическим задачам, делать их менее
      академичными.

      - Добавить 11-точечный график для классификации
      (там где возвращаемый результат ранжируемый)
      (перекликается с задачей мониторинга потока, так что имеет смысл даже и p10)

      - рассмотреть возможность изменения правил для новостно дорожки, чтобы
      кластеризация была не обязательно двухуровневая (а например даже
      одноуровневая, но по разным критериям)

      новые дорожки:
      ==========
      - м.б. англоязычная дорожка с англоязычными запросами?

      - многоязычная дорожка (англ/укр/русский)
      - возможно в сотрудничестве с CLEF?
      - где брать асессоров, которые Native speakers?
      - потенциальные участники: яндекс, exactus, ??

      - дорожка по исправлению опечаток
      - потенциальные участники: яндекс, mail.ru, ??

      - вернуть QA дорожку. нужны участники

      - "маленькие коллекции для маленьких исследователей"
      поиск по 10% коллекции, сужение результатов "больших" участников
      igor: а есть конкретные примеры где это поможет?

      - Дорожка типа LearnToRank, когда участникам предоставляются
      обсчитанные значения параметров (вектора, описывающие документы)
      и нужно подобрать алгоритм Ранжирования.
      (аналог WebSpamChallenge), может быть не поиск, но например классификация

      - поиск плагиата. участники?

      - иерархическая классификация?

      картиночные дорожки:
      =============
      - оценка разнообразия выдачи?
      (что-то подобное появилось у ImageCLEF?)
      - 20000 - маленькая коллекция, оценивать больше 250 запросов
      - разделить подзадачи: семантическая похожесть или цветовая/визуальная похожесть
      - более точные формулировки задач, которые позволяют сформулировать более
      четкие/измеримые критерии ("похожие" картинки - расплывчато)

      разное:
      =============
      - обзор open source инструментов, которые можно было бы использовать для
      того чтобы не решать все проблемы с нуля
      - место обмена файлами?
    Your message has been successfully submitted and would be delivered to recipients shortly.