→ Анализ неявных предпочтений пользователей. Научно-технический семинар в Яндексе. Чем снимать сниппеты Анализ оформления сниппетов и юзабилити

Анализ неявных предпочтений пользователей. Научно-технический семинар в Яндексе. Чем снимать сниппеты Анализ оформления сниппетов и юзабилити

Для генерации привлекательных сниппетов и хлебных крошек, которые в состоянии повысить значения кликовых поведенческих факторов в выдаче поисковых систем (CTR, число кликов, прочие).

Инструмент поможет красиво оформить сниппет, посмотреть как он будет смотреться в выдаче и самое главное — бесплатно отдаст готовый HTML-код для Title, meta-тега Description и микроразметку для хлебных крошек.

Зачем это нужно?

    Улучшение кликовых поведенческих метрик на выдаче: CTR, объем переходов по запросу, прочие, крайне важные факторы. В результате улучшения — рост позиций.

    Выделение на фоне конкурентов и, как следствие — рост числа заказов по каналу SEO.

Как использовать генератор сниппетов?

    Для того, чтобы посмотреть как будет выглядеть сниппет в выдаче поисковой системы (Яндекс и Google), просто заполните соответствующие поля. В каждом можно использовать понравившиеся эмодзи. UTF-символы украсят ваш сниппет, но помните, что всё должно быть аккуратно и в меру. Чрезмерное количество смайлов может вызвать обратный эффект. Не забывайте учитывать и тематику сайта.

    Для того, чтобы сгенерировать HTML-код достаточно заполнить Title и Description и кликнуть на кнопку «Сгенерировать».

От Текстерры

Сниппеты бывают разными в рамках одной поисковой системы даже, если ключевые запросы совсем немного отличаются друг от друга.

Очень полезно смотреть время от времени просматривать свои сниппеты и что-то корректировать.

Это заголовок и описание вашего сайта в поисковой выдаче:

Яндекс чаще всего берет сниппет из текста, Гугл — из Meta Description.

Но это могут быть и другие варианты, в том числе комбинированные — кусок из Meta Description + кусок из текста.

Ключевые слова, находящиеся в Meta Description не влияют на ранжирование страницы напрямую. Но влияют опосредованно — за счет более эффективных и более кликабельных сниппетов улучшаются поведенческие факторы и растут позиции.

Все это говорит о том, что Мета Дескрипшн должны быть тщательно проработаны, быть заметными, интересными, вызывающими желание кликнуть, включать важнейшие ключевые слова, топонимы, коммерческие маркеры. А также о том, что текст ваш тоже должен быть интересным, четким, полезным, практичным, а не водянистым SEO-текстом «не о чем», который подходит абсолютно любому другому сайту.

Видеть удачные и неудачные моменты в своих сниппетах
При анализе своих сниппетов можно и нужно записывать самые удачные моменты, которые в них попали – факты, цифры, что-то еще и использовать их осознанно почаще в текстах, Title и в Meta Description.

И наоборот, видеть самые неэффективные сниппеты и править в том числе сами тексты на этой странице – делать их более интересными, четкими, добавлять фактов, цифр, выгод, ваших УТП.

А можно точно так же анализировать и сниппеты конкурентов в ТОП10-20 — массово снимать либо сниппеты конкретных конкурентов, либо парсить сниппеты ТОПа в какую-то глубину по конкретным запросам. Потом смотреть, что у них есть самое лучшее. И делать как минимум не хуже.

Следить, чтобы посетитель реализовывал свой интент
И другой важнейший момент — чтобы читая сниппет, пользователь видел, что на вашей странице он может реализовать свой поисковый интент (намерение). Просматривая свои сниппеты, нужно осознавать, ЧТО ищет целевая аудитория по этому запросу, что ею движет.

И видит ли она в сниппетах то, что ее бы заинтересовало?

Я очень часто встречаю на аудитах сайты, где в сниппетах какие-то общие тексты. Человек пришел искать лучшие условия по покупке запчасти к иномарке, а ему в сниппете и на странице рассказывают историю создания этой марки автомобиля.

Использовать его просто:

а. Выбираем режим: «парсинг выдачи» или «сбор для заданного сайта».

б. Указываем запросы.

в. Выбираем регион и поисковую систему.

г. Указываем глубину для анализа: ТОП-1/5/10/20 или 50.

Получаем результат. Его можно экспортировать в.CSV. История сохраняется.

Обращайте внимание на наличие спецсимволов и эмодзи. Привлекательность сниппета повышает кликабельность. Анализуруйте, повышайте CTR и улучшайте поведенческие факторы.

Пример 1. Парсим весь ТОП в глубину:


Пример 2. Парсим сниппеты для конкретного URL:


А тут ниже мы видим, что часть запросов из этой группы у меня имеет другую релевантную страницу. .


2. Топвизор

Так же можно смотреть и сниппеты конкурентов — любого URL, который нужно задать в новом проекте.

Смотрим сниппеты в разделе «Позиции» при блочном отображении. Они снимаются каждый раз, когда вы проверяете позиции в выбранных поисковых системах по запросу.

Но (!) сначала в разделе «Настройки» надо задать «Собирать сниппеты» (стоимость съема позиций увеличится на 0.01 руб. за каждый ключевой запрос).

Кратко алгоритм такой:

1. «Настройки» — выбираем «собирать сниппеты», выбираем поисковые системы и регион.

2. «Ядро» — задаем ядро, кластеризуем, смотрим, чтобы все группы были включенными — с зеленым кружочком рядом (после кластеризации они на автомате переходят в выключенное состояние или можно нечаянно нажать на кружочек и выкючить группу). .

3. «Позиции». Нажимаем на зеленую стрелочку для съема или обновления позиций. Выбираем блочное отображение. Выбираем одну ПС или сравнение поисковых систем. .

Раздел «Настройки»:

В разделе «Позиции» снять позиции. И переключить в «блочный» режим:

Тут выше, мы, например, видим, что в сниппет цепляется старый тег «SEO в 2015 году». И как-то не очень хорошо выглядит для тех, кто ищет актуальные материалы и надо сменить тег на SEO в 2018 году или вообще его убрать.

Очень удобно, что сразу видно наглядно:

— либо как менялись сниппеты со временем по каждому запросу в одной поисковой системе
— как выглядят ваши сниппеты по конкретному запросу в Гугле и Яндексе рядом.

Там же сразу четко видно, какая релевантная страница у вас по данному запросу, откуда берется сниппет, какие слова подправить и так далее.

Вот, смотрите:

1. Видим историю моих сниппетов в одной поисковой системе — в Яндексе за 2 даты. Тут была смена релевантной страницы — видно по кардинальному изменению заголовка сниппета (и наведя на заголовок, мы увидим внизу браузера, какая ссылка за ним стоит. кликнув на заголовок перейдем на нужную страницу). Видим изменение сниппета и скачок позиций вверх.

Дальше нужно решить — какая из страниц является целевой (куда мы хотим вести людей) и постараться либо зафиксировать текущую релевантную страницу за нужным запросом, либо перебить на другую страницу. Делается это в первую очередь увеличением внешнего и внутреннего ссылочного с нужными словами на нужную страницу и корректировки оптимизации и текстов страниц — с нецелевой поубирать вхождения нужного запроса, на целевой умеренно добавить (но без переспама).

Тут мы видим и то, что сниппет может быть разным в одной и той же ПС, когда из запроса всего лишь исчезает слово «как». И наглядно видим, что Гугл достаточно стабилен в том, что берет описание сниппета из Meta Description, а Яндекс дергает из текста. А также видим, что Meta Description у статьи не очень интересный и не привлекательный для клика.

Если есть какие вопросы или свой опыт, который может быть полезен другим — пишите в комментариях!

Все мои проекты, кроме этого SEO-блога:

ТОП База - качественная база для полуавтоматической регистрации с Allsubmitter или для полностью ручного размещения - для самостоятельного бесплатного продвижения любого сайта, привлечения целевых посетителей на сайт, поднятия продаж, естественного разбавления ссылочного профиля. Базу собираю и обновляю 10 лет. Есть все виды сайтов, все тематики и регионы.

SEO-Topshop - SEO-софт со СКИДКАМИ, по выгодным условиям, новости SEO-сервисов, баз, руководств. Включая Xrumer по самым выгодным условиям и с бесплатным обучением, Zennoposter, Zebroid и разные другие.

Мои бесплатные комплексные курсы по SEO - 20 подробных уроков в формате PDF.
- каталоги сайтов, статей, пресс-релизовые сайты, доски объявлений, каталоги фирм, форумы, соцсети, блоговые системы и прочее.

"Приближаясь.." - мой блог на тему саморазвития, психологии, отношений, личной эффективности

Продвижение порталов и интернет-магазинов Гроховский Леонид О.

Сниппеты

Сниппеты

Парсинг сниппетов по всем запросам «Яндекса» и Google. Сниппеты оказывают существенное влияние на конверсию сайтов в выдаче. Это подтверждено исследованиями, проводимыми компанией «Яндекс».

Следует по всем запросам спарсить сниппеты «Яндекса» и Google (сервис A-Parser).

Анализ сниппетов в Google.

Отзывы по микроформату hReview;

Содержимое сайтов (по микроформатам hProduct и GoodRelations);

Мероприятия (по микроформату hCalendar);

Адрес (по микроформату hCard);

Хлебные крошки (по микроформату Breadcrumb);

Описание (текст страницы, Description, описание в каталоге DMOZ).

Анализ сниппетов в «Яндексе». Необходимо выделить каждую часть сниппета и проверить, что корректно формируются:

Логическая структура и ключевые слова в URL;

Регистр букв в домене;

Значок (файл favicon.ico);

Заголовок сниппета (Title, H1 – Н6, STRONG, В, UL, LI, «Яндекс.Каталог», DMOZ, Description);

Содержимое сайтов (микроразметка hCard, hRecipe, hReview, hProduct);

Регион («Яндекс.Адреса», «Яндекс.Каталог»);

Адрес («Яндекс.Адреса»);

Хлебные крошки (хлебные крошки, ЧПУ);

Описание (текст страницы, Description, «Яндекс.Каталог», анкор-лист);

По каждому пункту необходимо зафиксировать, корректно ли формируется сниппет и существуют ли возможности для улучшения.

Изучение областей, откуда берется описание. Для того чтобы влиять на содержание описания, необходимо понять, откуда оно берется и по какому алгоритму. Для этого нужно собрать информацию по всем источникам данных, используемых поисковыми системами при формировании сниппетов:

Парсинг Description (A-Parser, «СайтРепорт»);

Парсинг («Яндекс.Каталог», DMOZ (можно вручную));

Сбор анкоров (ранее собраны через «Яндекс.Вебмастер», Ahrefs, выгрузки бирж);

Парсинг , ,

  • ,

    ,

    ,

    ,

    ,

    ,
    , Title (модуль Page Auditor в «СайтРепорт»);

    Парсинг текста страниц (A-Parser может собрать сохраненные текстовые копии);

    Сравнение данных о сниппетах с данными об источниках.

    Ссылочная масса

    Получение ссылок из различных источников. Необходимо собрать ссылки из всех источников:

    ? «Яндекс.Вебмастер»;

    Ahrefs, MajesticSEO, Solomono;

    Выгрузка с бирж и агрегаторов.

    Количество исходящих ссылок со страницы;

    Возраст;

    Наличие сайта в «Яндекс.Каталоге»;

    Наличие сайта DMOZ;

    Количество входящих ссылок на сайт;

    Количество исходящих ссылок с сайта;

    Трафик сайта;

    Количество страниц сайта в индексе «Яндекса»;

    Количество страниц сайта в индексе Google.

    Анализ динамики изменения ссылочной массы. Необходимо изучить динамику изменений ссылочной массы с помощью:

    Проверка индексации страниц-доноров. Далеко не все размещенные ссылки попадают в индекс поисковых систем. Некоторые ссылки могут стоять несколько лет, прежде чем SEO-специалист узнает, что их до сих пор нет в индексе. Необходимы:

    После покупки – проверка индексации страниц (вручную кэш в «Яндексе», плагин wink);

    При покупке – изучение индексации похожих страниц сайта, размещенных ранее.

    Сбор анкор-листа. Тексты ссылок участвуют в ссылочном ранжировании. Необходимо собрать всю доступную информацию об анкорах:

    Внутренний анкор-лист – с помощью «СайтРепорт» (Проект-Отчет по загрузке-Коллектор анкоров);

    Внешний анкор-лист – с помощью Ahrefs, Solomono, MajesticSEO.

    Проанализировать по матрице по одной популярной странице каждого типа.

    Анализ ссылочной массы на атаки конкурентов. Иногда приходится сталкиваться с недобросовестными конкурентами. Чтобы минимизировать ущерб от них, выполняем следующие проверки:

    Поиск ссылочных взрывов (с помощью MajesticSEO, Ahrefs);

    Поиск спамных ссылок (с помощью Excel по выгрузкам);

    Поиск спамных анкоров (с помощью Excel по выгрузкам);

    Поиск ссылок с бирж, которых нет на аккаунтах компании.

    Это карточка сайта в поисковой выдаче, которая состоит из заголовка (title) и описания (description) страницы. В такой карточке могут указываться следующие элементы и данные:

    • Фавиконка - картинка, которая отображается в результатах выдачи рядом с адресом сайта и заголовком, а также во вкладках браузера
    • Адрес сайта. Также может отображаться в виде навигационной цепочки

    Пример сниппета от Яндекс:

    Как сниппет влияет на продвижение сайта?

    Иметь привлекательные сниппеты, включающие в себя полезную информацию, очень важно при продвижении сайта. Это поможет существенно повысить количество переходов на ваш web-ресурс. Главное, чтобы было чем заинтересовать пользователей.

    Сделать информацию о вашем сайте в поисковой выдаче более привлекательной помогут следующие подсказки:

    1. В сниппетах актуально использовать свои конкурентные преимущества. Например, если у вас цена ниже, чем у конкурентов, стоит указать ее в сниппете, это может существенно повысить CTR. Также можно размещать информацию об акциях, подарках за покупку и спецпредложениях, если речь идет о коммерческом ресурсе.
    2. Привлекательная фавиконка также пойдет вам на пользу, это своеобразный логотип вашего сайта, который запоминается пользователям.
    3. Использование микроразметки Open Graph и schema.org для формирования расширенного сниппета. Это поможет вам разместить быстрые ссылки, по которым пользователи смогут сразу переходить на интересующие их разделы или даже разместить видео, адрес компании, время работы и другую полезную информацию.

    Как правило, если сайт находится на второй странице в поисковой выдаче, правильно настроенный сниппет может дать вам хороший результат, и позиция в первой десятке будет ваша.

    Почему важно анализировать сниппеты конкурентов из ТОП-10?

    С помощью такого анализа вы сможете увидеть, какие приемы и преимущества используют у себя конкуренты, чтобы извлечь интересные идеи и использовать их у себя. Возможно, благодаря именно этим приемам сайт конкурента востребован среди пользователей, имеет хорошую посещаемость и позиции. Также вы сможете узнать, какое количество вхождений и каким образом они используют по продвигаемым ключевым словам.

    Анализ конкурентов при помощи Labrika

    В сервисе Labrika есть очень удобный инструмент для такого анализа. Найти его можно в подразделе "Сниппеты свои и по ТОП10" в разделе "SEO-аудит" левого бокового меню:

    Какая информация отображается в таком отчете, подробно рассмотрим на следующем скриншоте:

    1. Ключевое слово по которому мы проводим анализ.
    2. Позиция в поисковой системе по этому ключевому слову.
    3. Возможность посмотреть сниппеты конкурентов из ТОП-10.
    4. Сниппет нашего сайта в выдаче по ключевому слову.
    5. Выбор поисковой системы, в которой проводим анализ.

    Чтобы детально рассмотреть данные о сайтах в ТОП-10 поисковой выдачи, необходимо нажать на кнопку "См. сниппеты ТОП10". Посмотрим, какую информацию мы сможем увидеть после нажатия.

    Анализ неявных предпочтений пользователей, выраженных в переходах по ссылкам и длительности просмотра страниц, - важнейший фактор в ранжировании документов в результатах поиска или, например, показе рекламы и рекомендации новостей. Алгоритмы анализа кликов хорошо изучены. Но можно ли узнать что-то ещё об индивидуальных предпочтениях человека, используя больше информации о его поведении на сайте? Оказывается, траектория движения мыши позволяет узнать, какие фрагменты просматриваемого документа заинтересовали пользователя.

    Этому вопросу и было посвящено исследование, проведенное мной, Михаилом Агеевым , совместно с Дмитрием Лагуном и Евгением Агиштейном в Emory Intelligent Information Access Lab Университета Эмори.


    Мы изучали методы сбора данных и алгоритмы анализа поведения пользователя по движениям мыши, а также возможности применения этих методов на практике. Они позволяют существенно улучшить формирование сниппетов (аннотаций) документов в результатах поиска. Работа с описанием этих алгоритмов была отмечена дипломом «Best Paper Shortlisted Nominee» на международной конференции ACM SIGIR в 2013 году. Позже я представил доклад о результатах проделанной работы в рамках научно-технических семинаров в Яндексе. Его конспект вы найдете под катом.

    Сниппеты являются важнейшей частью любой поисковой системы. Они помогают пользователям искать информацию, и от их качества зависит удобство использования поисковой системы. Хороший сниппет должен быть удобочитаемым, должен показывать части документа, которые соответствуют запросу пользователя. В идеале сниппет должен содержать прямой ответ на вопрос пользователя или указание на то, что ответ есть в документе.

    Общий принцип состоит в том, что текст запроса сопоставляется с текстом документа, в котором выделяются наиболее релевантные предложения, содержащие слова запроса или расширения запроса. Формула вычисления наиболее релевантных фрагментов учитывает совпадения с запросом. Учитывается плотность текста, местоположение текста, структура документа. Однако для высокорелевантных документов, которые всплывают в верхней части поисковой выдачи, текстовых факторов зачастую недостаточно. В тексте могут многократно встречаться слова из запроса, и определить, какие фрагменты текста отвечают на вопрос пользователя на основе только текстовой информации невозможно. Поэтому требуется привлечение дополнительных факторов.

    При просмотре страницы внимание пользователя распространяется неравномерно. Основное внимание уделяется тем фрагментам, которые содержат искомую информацию.

    Мы провели эксперименты с применением оборудования, отслеживающего движения глазного зрачка с точностью до нескольких десятков пикселей. Вот пример распределения тепловой карты траектории зрачка пользователя, искавшего ответ на вопрос, сколько битых пикселей должно быть на iPad 3, чтобы его можно было заменить по гарантии. Он вводит запрос , который приводит его на страницу Apple Community Forums с подобным вопросом. На странице слова из запроса встречаются многократно, однако пользователь заостряет внимание на том фрагменте, который действительно содержит ответ, что и видно на тепловой карте.

    Если бы мы могли отслеживать и анализировать движения зрачков большего количества пользователей, мы могли бы только на основании этих данных выделять идеальные сниппеты для различных запросов. Проблема заключается в том, что у пользователей не установлены средства для айтрекинга, поэтому нужно искать другие пути получения необходимой информации.

    При просмотре веб-документов пользователи обычно совершают движения мышью, скроллят страницы. В своей статье 2010 года К. Гуо и Е. Агиштейн отмечают, что по траектории можно предсказывать движения глазного зрачка с точностью 150 пикселей и полнотой 70%.

    Ниже представлена тепловая карта движений мыши при просмотре документа, найденного по запросу . Видно, что наибольшая активность прослеживается именно на фрагменте, содержащем информацию о самых сильных засухах в США, именно из него можно сформировать идеальный сниппет.

    Идея нашего исследования состоит в том, что данные о движениях мыши можно собирать при помощи JavaScript API, работающего в большинстве браузеров. По поведению пользователей мы можем предсказывать, какие фрагменты содержат релевантную запросу информацию, и затем использовать эти данные для улучшения качества сниппетов. Для того, чтобы реализовать и проверить эту идею, нужно решить несколько задач. Во-первых, нужно понять, как собрать реалистичные и достаточно масштабные данные о поведении пользователей за страницей результатов поиска. Во-вторых, нужно научиться по движениям мыши определять наиболее заинтересовавшие пользователя фрагменты. У пользователей есть разные привычки: некоторые любят выделять читаемый текст или просто наводят на него мышь, другие же открывают документ и читают его сверху вниз, изредка пролистывая его вниз. При этом у пользователей могут быть разные браузеры и устройства ввода. Кроме того, объем данных о движениях мыши на два порядка выше объема данных о кликах. Также стоит задача объединения поведенческих факторов с традиционными текстовыми.

    Как собирать данные

    Для сбора данных мы использовали инфраструктуру, разработанную нами в 2011. Основная идея – создать игру, подобную кубку Яндекса по поиску. Игроку ставится цель за ограниченное время при помощи поисковой системы найти в интернете ответ на поставленный вопрос. Игрок находит ответ и отправляет его нам вместе с URL страницы, где он был обнаружен. Отбор участников происходит через Amazon Mechanical Turk. Каждая игра состоит из 12 вопросов. За участие в игре длиной примерно сорок минут предполагается гарантированная оплата в $1. Еще по одному доллару получают 25% лучших игроков. Это достаточно дешевый способ сбора данных, который при этом дает большое разнообразие пользователей с разных концов мира. Вопросы брались на сайтах Wiki.answers.com, Yahoo! Answers и им подобных. Главным условием было отсутствие готовых ответов на самих этих сайтах. При этом вопросы должны были быть не слишком простыми, но иметь четкий короткий ответ, который можно найти в интернете. Чтобы отсечь роботов и недобросовестных участников, потребовалось реализовать несколько этапов проверки качества результатов. Во-первых, на входе в систему стоит капча, во-вторых, пользователю необходимо ответить на 1-2 тривиальных вопроса, а в-третьих, пользователь должен выполнять задание, используя наш прокси-сервер, благодаря чему мы можем удостоверить, что он действительно задавал вопросы поисковой системе и посещал страницу с ответом.

    При помощи стандартных модулей для HTTP-сервера Apache mod_proxy_html и mod_sed мы реализовали проксирование всех обращений к поисковым сервисам. Пользователь заходил на нашу страницу, видел привычный интерфейс поисковика, но все ссылки там были заменены на наши. Переходя по такой ссылке, пользователь попадал на нужную страницу, но в нее уже был встроен наш JavaScript-код, отслеживающий поведение.

    При протоколировании возникает небольшая проблема: позиция мыши представлена координатами в окне браузера, а координаты текста в нем зависят от разрешения экрана, версии и настроек. Нам же нужна точная привязка именно к тексту. Соответственно, нам нужно вычислять координаты каждого слова на клиенте и хранить эту информацию на сервере.

    Результатом проведенных экспериментов стали следующие данные:

    С точки зрения статистики данные выглядят следующим образом:

    Код и собранные данные свободно доступны по этой ссылке .

    Предсказание фрагментов, заинтересовавших пользователей

    Чтобы выделить сниппеты, текст разбивается на фрагменты по пять слов. Для каждого фрагмента выделяется по шесть поведенческих факторов:
    • Длительность нахождения курсора над фрагментом;
    • Длительность нахождения курсора рядом с фрагментом (±100px);
    • Средняя скорость мыши над фрагментом;
    • Средняя скорость мыши рядом с фрагментом;
    • Время показа фрагмента в видимой части окна просмотра (scrollabar);
    • Время показа фрагмента в середине окна просмотра.
    При помощи машинного обучения все эти шесть факторов сворачиваются в одно число – вероятность интересности фрагмента. Но для начала нам нужно сформировать обучающее множество. При этом, мы не знаем доподлинно, что действительно заинтересовало читателя, что он читал, и где нашел ответ. Но мы можем в качестве положительных примеров взять фрагменты, которые пересекаются с ответом пользователя, а в качестве отрицательных – все остальные фрагменты. Это обучающее множество неточно и неполно, но его вполне достаточно для обучения алгоритма и улучшения качества сниппетов.

    Первый эксперимент состоит в проверке адекватности нашей модели. Мы обучили алгоритм предсказания интересности фрагмента на одном множестве страниц и применяем к другому множеству. На графике по оси x показана предсказанная вероятность интересности фрагмента, а по оси y – среднее значение меры пересечения фрагмента с ответом пользователя:

    Мы видим, что если алгоритм в большой степени уверен, что фрагмент хороший, то этот фрагмент имеет большое пересечение с ответом пользователя.

    При построении метода машинного обучения наиболее важными факторами оказались DispMiddleTime (время, в течение которого фрагмент текста был виден на экране) и MouseOverTime (время, в течение которого курсор мыши был над фрагментом текста).

    Улучшение сниппетов на основе анализа поведения

    Итак, мы можем определить, какие фрагменты заинтересовали пользователя. Как мы можем использовать это для улучшения сниппетов? В качестве отправной точки мы реализовали современный алгоритм генерации сниппетов, опубликованный исследователями из Yahoo! в 2008 году. Для каждого предложения вычисляется набор текстовых факторов и строится метод машинного обучения для предсказания качества фрагмента с точки зрения выделения сниппета при помощи асессорских оценок по шкале {0,1}. Затем сравниваются несколько методов машинного обучения: SVM , ranking SVM и GBDT . Мы добавили больше факторов и расширили шкалу оценок до {0,1,2,3,4,5}. Для формирования сниппета отбирается от одного до четырех предложений из набора лучших. Фрагменты отбираются при помощи жадного алгоритма, который собирает фрагменты с суммарным наилучшим весом.

    Мы используем следующий набор текстовых факторов:

    • Точное соответствие;
    • Количество найденных слов запроса и синонимов (3 фактора);
    • BM25 -like (4 фактора);
    • Расстояние между словами запроса (3 фактора);
    • Длина предложения;
    • Позиция в документе;
    • Удобочитаемость: количество знаков пунктуации, заглавных слов, различных слов (9 факторов).
    Теперь, когда у нас есть вес фрагмента с точки зрения текстовой релевантности, нам нужно объединить его с фактором интересности фрагмента, вычисленным по поведению пользователя. Мы используем простую линейную комбинацию факторов, и вес λ в формуле вычисления качества фрагмента – это вес поведения.

    Нам нужно выбрать правильный вес λ. Тут есть две крайности: если значение λ слишком маленькое, то поведение не учитывается и сниппеты отличаются от baseline, если же значение λ слишком большое, есть риск, что мы потеряем в качестве сниппетов. Для выбора λ проводим эксперимент с выбором из пяти значений от нуля до единицы {0.1,0.3,0.5,0.7,0.9}. Для сравнения экспериментов мы набрали асессоров, которые попарно сопоставляли сниппеты по трем критериям:

    • Representativeness: какой из сниппетов лучше отражает соответствие документа запросу? Необходимо прочитать документ до ответа на вопрос.
    • Readability: какой из сниппетов лучше написан, легче читается?
    • Judjeability: какой из сниппетов лучше помогает найти релевантный ответ и решить, нужно ли кликать на ссылку?
    На графиках ниже представлены доли пар сниппетов, в которых поведенческий алгоритм показал улучшение качества для трех критериев и пяти значений λ. Для каждого из значений λ асессоры давали разное количество оценок, и разное количество сниппетов отличаются по качеству. Поэтому доверительные интервалы для каждого из λ несколько различаются. Мы видим, что для λ=0.7 мы получаем статистически значимое улучшение качества сниппета по каждому из критериев. Coverage для этих сниппетов также достаточно большой: 40% сниппетов с учетом поведения отличаются от baseline.

    Основные предположения и ограничения рассмотренного подхода

    Во-первых эксперименты проводились на информационных вопросах, когда пользователь ищет текст ответа в документах. Однако существуют и другие типы пользовательского интента: например, коммерческие, навигационные. Для таких запросов поведенческие факторы могут вызывать помехи, либо требовать другого способа учета. Во-вторых, по постановке эксперимента мы предполагаем, что просмотры страниц сгруппированы по информационной потребности. В наших экспериментах все пользователи для каждой пары документ-запрос искали одно и то же. Поэтому мы агрегируем данные для всех пользователей, вычисляя среднее значение веса фрагмента по всем пользователям. В реальном мире пользователи могут задавать один и тот же запрос и смотреть тот же самый документ с разными целями. И нам нужно для каждого запроса группировать пользователей по интенту, чтобы иметь возможность применить эти методы и агрегировать данные поведения. Ну и в-третьих, чтобы внедрить эту технологию в реальную систему, нужно найти способ сбора данных о поведении пользователей. Сейчас уже есть плагины для браузеров, рекламные сети и счетчики посещений, которые собирают данные о пользовательских кликах. Их функциональность можно расширить, добавив возможность сбора данных о движениях мыши.

    Среди других применений метода можно отметить следующее:

    • Улучшение Click Model за счет предсказания P(Examine | Click=0). Если мы отслеживаем только клики, то сказать с уверенностью, по какой причине пользователь не кликнул по ссылке в поисковой выдаче, мы не можем. Он мог прочитать сниппет, и решить, что документ нерелевантен, либо он просто не видел документа. С применением отслеживания движений мыши эта проблема отпадает, и мы можем заметно улучшить предсказание релевантности документа.
    • Поведение пользователей на мобильных устройствах.
    • Классификация движений мыши по интенту. Если усложнить модель, можно научиться отличать случайные движения мыши от намеренных, когда пользователь действительно помогает себе читать при помощи курсора. Кроме того, можно учитывать моменты бездействия как один из дополнительных признаков интересности фрагмента.

    После доклада состоялась сессия вопросов и ответов, посмотреть которую можно на

     

     

  • Это интересно: