Що таке основні системи тематичності Google?

Тематичність у контексті алгоритмів ранжування пошуку стала цікавою для SEO після недавнього подкасту Google Search Off The Record, де згадувалися Core Topicality Systems як частина алгоритмів ранжування. Тому корисно розглянути, що можуть означати ці системи та що вони означають для SEO.

Нам відомо небагато про те, що може бути частиною цих основних систем тематичності, але можна зробити деякі висновки. Документація Google для їхньої комерційної хмарної пошукової системи дає визначення тематичності, яке, хоча й не в контексті їхньої власної пошукової системи, все ж надає корисне уявлення про те, що Google може мати на увазі, коли говорить про Core Topicality Systems.

Ось як ця документація визначає тематичність:

Тематичність відноситься до релевантності результату пошуку до початкових термінів запиту.

Це гарне пояснення відношення веб-сторінок до пошукових запитів у контексті результатів пошуку. Немає причин ускладнювати це.

Як досягти релевантності?

Початковою точкою для розуміння того, що може бути компонентом систем тематичності Google, є розуміння того, як пошукові системи розуміють пошукові запити та представляють теми у веб-документах.

  • Розуміння пошукових запитів
  • Розуміння тем

Розуміння пошукових запитів

Розуміння пошукових запитів

Розуміння того, що мають на увазі користувачі, можна розглядати як розуміння теми, яка цікавить користувача. У цьому є таксономічний характер, оскільки користувач пошукової системи може використовувати неоднозначний запит, коли насправді має на увазі щось конкретніше.

Першою AI-системою, яку Google розгорнула, була RankBrain, яка була впроваджена для кращого розуміння концепцій, закладених у пошукових запитах. Слово “концепція” ширше, ніж слово “тема”, оскільки концепції є абстрактними представленнями. Система, яка розуміє концепції у пошукових запитах, може допомогти пошуковій системі повертати релевантні результати на правильну тему.

Google пояснила завдання RankBrain так:

RankBrain допомагає нам знаходити інформацію, яку ми не могли раніше, завдяки ширшому розумінню того, як слова в пошуку пов’язані з реальними концепціями. Наприклад, якщо ви шукаєте ‘який титул споживача на найвищому рівні харчового ланцюга’, наші системи вчаться з бачення цих слів на різних сторінках, що концепція харчового ланцюга може стосуватися тварин, а не людей. Розуміючи та зіставляючи ці слова з пов’язаними концепціями, RankBrain розуміє, що ви шукаєте те, що зазвичай називають “апексовим хижаком”.

BERT є моделлю глибокого навчання, яка допомагає Google розуміти контекст слів у запитах для кращого розуміння загальної теми тексту.

Розуміння тем

Розуміння тем

Я не думаю, що сучасні пошукові системи використовують моделювання тем, оскільки існують технології глибокого навчання та AI. Проте, статистична техніка моделювання тем була використана раніше пошуковими системами для розуміння, про що йдеться на веб-сторінці, та її відповідності пошуковим запитам. Latent Dirichlet Allocation (LDA) була проривною технологією приблизно в середині 2000-х років, яка допомогла пошуковим системам розуміти теми.

Близько 2015 року дослідники опублікували статті про Neural Variational Document Model (NVDM), що був ще потужнішим способом представлення основних тем документів.

Однією з найновіших наукових статей є “Beyond Yes and No: Improving Zero-Shot LLM Rankers via Scoring Fine-Grained Relevance Labels”. Ця стаття про вдосконалення використання великих мовних моделей для ранжування веб-сторінок, процес оцінки релевантності. Вона передбачає перехід від бінарного ранжування (так або ні) до більш точного способу з використанням міток, таких як “Дуже релевантно”, “Деякі релевантно” та “Не релевантно”.

Ця наукова стаття стверджує:

Ми пропонуємо інтегрувати детальні мітки релевантності у промпт для LLM-ранжувальників, що дозволяє їм краще диференціювати документи з різними рівнями релевантності до запиту та, таким чином, отримати більш точне ранжування.

Уникнення редукціоністського підходу

Пошукові системи йдуть далі за простий пошук інформації і вже давно рухаються у напрямку відповідей на запитання, що значно прискорилося в останні роки та місяці. Це було передбачено у статті 2001 року під назвою “Rethinking Search: Making Domain Experts out of Dilettantes”, де пропонувалася необхідність повного залучення до повернення відповідей людського рівня.

Стаття починається так:

Коли користувачі стикаються з потребою в інформації, вони хочуть взаємодіяти з доменним експертом, але часто звертаються до системи пошуку інформації, такої як пошукова система. Класичні системи пошуку інформації не відповідають на потреби в інформації безпосередньо, а натомість надають посилання на (сподіваємось авторитетні) відповіді. Успішні системи відповідей на запитання пропонують обмежений корпус, створений на вимогу людськими експертами, який не є своєчасним або масштабованим. Заздалегідь навчені мовні моделі, навпаки, здатні безпосередньо генерувати текст, який може відповідати потребі в інформації, але на даний момент вони є дилетантами, а не доменними експертами – вони не мають справжнього розуміння світу…

Основний висновок полягає в тому, що самодурство застосовувати редукціоністське мислення до того, як Google ранжує веб-сторінки, роблячи щось на зразок перебільшеної уваги до ключових слів, елементів заголовка та заголовків. Підлеглі технології швидко рухаються у напрямку розуміння світу, тому, якщо думати про Core Topicality Systems, то корисно поставити це в контекст, який виходить за рамки традиційних “класичних” систем пошуку інформації.

Методи, які Google використовує для розуміння тем на веб-сторінках, що відповідають пошуковим запитам, стають все більш складними, і це гарна ідея ознайомитися з тим, як Google робив це в минулому та як вони можуть робити це зараз.

За матеріалами https://www.searchenginejournal.com/