Оценить:
 Рейтинг: 0

Поисковые алгоритмы ранжирования сайтов

Год написания книги
2022
<< 1 ... 4 5 6 7 8 9 10 11 12 ... 17 >>
На страницу:
8 из 17
Настройки чтения
Размер шрифта
Высота строк
Поля

Во-первых, поисковая система должна в какой-то момент найти ссылку на страницу, прежде чем она сможет запросить страницу и посетить ее. (Было известно, что при определенных конфигурациях поисковые системы подозревают, что могут быть другие, нераскрытые ссылки, такие как один шаг вверх в иерархии ссылок на уровне подкаталога или через некоторые ограниченные внутренние формы поиска на веб-сайте.)

Поисковые системы могут обнаруживать ссылки веб-страниц следующими способами:

· Когда администратор веб-сайта отправляет ссылку напрямую или раскрывает карту сайта поисковой системе.

· Когда другие сайты ссылаются на страницу.

· Через ссылки на страницу с собственного веб-сайта, при условии, что на веб-сайте уже есть некоторые проиндексированные страницы.

· Посты в социальных сетях.

· Ссылки найдены в документах.

· URL-адреса, найденные в письменном тексте и не связанные гиперссылками.

· Через метаданные различного рода файлов.

· И более.

В некоторых случаях веб-сайт дает указание поисковым системам не сканировать одну или несколько веб-страниц через свой файл robots. txt, который находится на базовом уровне домена и веб-сервера.

Файлы robots. txt могут содержать в себе несколько директив, указывающих поисковым системам, что веб-сайт запрещает сканирование определенных страниц, подкаталогов или всего веб-сайта.

Указание поисковым системам не сканировать страницу или раздел веб-сайта не означает, что эти страницы не могут отображаться в результатах поиска. Предотвращение их сканирования таким образом может серьезно повлиять на их способность хорошо ранжироваться по ключевым словам.

В других случаях поисковые системы могут с трудом сканировать веб-сайт, если сайт автоматически блокирует ботов.

Это может произойти, когда системы веб-сайта обнаружат, что:

· Бот запрашивает больше страниц за определенный период времени, чем человек.

· Бот одновременно запрашивает несколько страниц.

· IP-адрес сервера бота находится в пределах зоны, которую веб-сайт должен исключить.

· Запросы бота и/или запросы других пользователей на страницы перегружают ресурсы сервера, что приводит к замедлению обслуживания страниц или ошибкам.

Однако боты поисковых систем запрограммированы на автоматическое изменение коэффициента задержки между запросами, когда они обнаруживают, что сервер изо всех сил пытается не отставать от спроса.

Для крупных веб-сайтов с часто меняющимся содержимым страниц «краулинговый бюджет» может стать фактором, определяющим, смогут ли поисковые роботы сканировать все страницы.

По сути, Интернет – это что-то вроде бесконечного пространства веб-страниц с разной частотой обновления. Поисковые системы могут не успеть посетить каждую страницу, поэтому они расставляют приоритеты для сканируемых страниц.

Веб-сайты с огромным количеством страниц или сайты, которые медленнее реагируют, могут израсходовать свой доступный краулинговый бюджет до того, как будут просканированы все их страницы, если они имеют относительно более низкий ранговый вес по сравнению с другими веб-сайтами.

Полезно отметить, что поисковые системы также запрашивают все файлы, которые используются для создания веб-страницы, такие как изображения, CSS и JavaScript.

Как и в случае с самой веб-страницей, если дополнительные ресурсы, участвующие в создании веб-страницы, недоступны для поисковой системы, это может повлиять на то, как поисковая система интерпретирует веб-страницу.

РЕНДЕРИНГ

Когда поисковая система сканирует веб-страницу, она затем «рендерит» страницу. Это включает в себя использование информации HTML, JavaScript и каскадной таблицы стилей (CSS) для создания того, как страница будет отображаться для пользователей настольных компьютеров и/или мобильных устройств.

Это важно для того, чтобы поисковая система могла понять, как содержимое веб-страницы отображается в контексте. Обработка JavaScript помогает гарантировать, что они могут иметь весь контент, который пользователь-человек увидит при посещении страницы.

Поисковые системы классифицируют этап рендеринга как подпроцесс на этапе сканирования. Я перечислил это здесь как отдельный шаг в процессе, потому что получение веб-страницы и последующий анализ содержимого, чтобы понять, как оно будет выглядеть в браузере, – это два разных процесса.

Google использует тот же движок рендеринга, что и браузер Google Chrome, называемый «Rendertron», который построен на основе системы браузера Chromium с открытым исходным кодом.

Bingbot использует Microsoft Edge в качестве механизма для запуска JavaScript и отображения веб-страниц. Теперь он также построен на основе браузера на основе Chromium, поэтому он по существу отображает веб-страницы так же, как это делает Googlebot.

Google хранит копии страниц в своем репозитории в сжатом формате. Похоже, что Microsoft Bing тоже так делает (но я не нашел документации, подтверждающей это также как и на Яндекс). Некоторые поисковые системы могут хранить сокращенную версию веб-страницы, состоящую только из видимого текста, лишенного всего форматирования.

Рендеринг в основном становится проблемой в SEO для страниц, ключевые части контента которых зависят от JavaScript/AJAX.

И Google, и Яндекс, и Microsoft Bing будут выполнять JavaScript, чтобы увидеть весь контент на странице, а более сложные конструкции JavaScript могут быть сложными для работы поисковых систем.

Я видел веб-страницы, созданные с помощью JavaScript, которые были практически невидимы для поисковых систем. Это приводило к крайне неоптимальным веб-страницам, которые не могли ранжироваться, по своим поисковым запросам.

Я также видел случаи, когда страницы категорий с бесконечной прокруткой на веб-сайтах электронной коммерции плохо работали в поисковых системах, потому что поисковая система не могла видеть столько ссылок на продукты.

Другие условия также могут мешать рендерингу. Например, когда есть один или несколько файлов JavaScript или CSS, недоступных для роботов поисковых систем из-за того, что они находятся в подкаталогах, запрещенных robots. txt, будет невозможно полностью обработать страницу.

Googlebot YandexBot/3 и Bingbot в основном не будут индексировать страницы, для которых требуются файлы cookie. Страницы, которые условно предоставляют некоторые ключевые элементы на основе файлов cookie, также могут не отображаться полностью или должным образом.

ИНДЕКСАЦИЯ

После того, как страница просканирована и отображена, поисковые системы обрабатывают страницу, чтобы определить, будет ли она сохранена в индексе или нет, и понять, о чем эта страница.

Индекс поисковой системы функционально подобен индексу слов, найденных в конце книги.

В указателе книги будут перечислены все важные слова и темы, найденные в книге, в алфавитном порядке каждого слова, а также список номеров страниц, на которых будут найдены слова/темы.

Индекс поисковой системы содержит множество ключевых слов и последовательностей ключевых слов, связанных со списком всех веб-страниц, на которых найдены ключевые слова.

Индекс имеет некоторое концептуальное сходство с таблицей поиска базы данных, которая, возможно, изначально была структурой, используемой для поисковых систем. Но основные поисковые системы, вероятно, теперь используют что-то на пару поколений более сложное для достижения цели поиска ключевого слова и возврата всех URL-адресов, относящихся к слову.

Использование функциональности для поиска всех страниц, связанных с ключевым словом, является архитектурой, позволяющей экономить время, поскольку для поиска всех веб-страниц по ключевому слову в режиме реального времени каждый раз, когда кто-то ищет его, потребуется слишком много времени.

Не все просканированные страницы останутся в поисковом индексе по разным причинам. Например, если страница содержит метатег robots с директивой «noindex», он указывает поисковой системе не включать страницу в индекс.

Точно так же веб-страница может включать X-Robots-Tag в свой HTTP-заголовок, который указывает поисковым системам не индексировать страницу.

В других случаях канонический тег веб-страницы может указать поисковой системе, что страница, отличная от текущей, должна считаться основной версией страницы, в результате чего другие, неканонические версии страницы будут исключены из индекса.

Google также заявил, что веб-страницы не могут быть сохранены в индексе, если они имеют низкое качество (страницы с повторяющимся содержанием, страницы с недостаточным содержанием и страницы, содержащие полностью или слишком много нерелевантного контента).

Также существует долгая история, которая предполагает, что веб-сайты с недостаточным коллективным рейтингом PageRank могут не индексировать все свои веб-страницы – предполагая, что более крупные веб-сайты с недостаточным количеством внешних ссылок могут не быть тщательно проиндексированы.
<< 1 ... 4 5 6 7 8 9 10 11 12 ... 17 >>
На страницу:
8 из 17