Описание сервиса по анализу концентрации слов на странице

Содержание

Для чего может быть полезен данный сервис
Исходные данные
Уточнение про исходный текст
Результаты работы

Для чего может быть полезен данный сервис

Если Вам необходимо выяснить списки уникальных слов по разделам интересующей страницы сайта (или проверить, правильно ли справился с задачей нанятый фрилансер), то этот инструмент поможет в этом.

Исходные данные

Пользоваться инструментом очень просто. Надо указать URL анализируемой страницы и уровень детализации, т.е. уровень разбивки страницы на разделы.

Доступны всего 2 варианта детализации H2 (по-умолчанию) и H3. При выборе уровня детализации H2 — разделами страницы будут считаться тексты между заголовками уровня H2, включая и сам выше расположенный текст заголовка H2. При выборе уровня детализации H3 — тексты внутри разделов H2 будут дополнительно разбиваться на разделы, если будут встречаться заголовки уровня H3.

Не рекомендуется выбирать уровень детализации H3 в случаях, когда на странице много подзаголовков H3, в которых содержится мало текста.

В случае, когда исходный текст анализируемой страницы не удается автоматически получить (стоит какая-либо защита от парсинга) — надо в исходных данных указывать не URL страницы, а её исходный текст.

Уточнение про исходный текст

На всякий случай напоминаю, что для того, чтобы посмотреть исходный текст web-страницы, надо щелкнуть правой кнопкой мышки по свободному месту на страницы и в появившемся меню выбрать пункт «Просмотр кода страницы» (в бразузере Chrome). В других браузерах может называться иначе, но сходно по смыслу.

Если, контекстное меню заблокировано, можно получить исходный код, вручную указав в адресной строке браузера перед адресом интересующей страницы «view-source:«. Например, если Вам надо проанализировать страницу: с адресом https://akimenkoa.ru/analiz-koncentracii-slov-na-stranice/, то надо в адресной строке браузера написать:
view-source:https://akimenkoa.ru/analiz-koncentracii-slov-na-stranice/

Теперь полученный исходный код надо полностью скопировать (для этого можно нажать сначала Ctrl + A, чтобы выделить весь текст, а затем Ctrl + C, чтобы скопировать его в буфер обмена) и вставить его в соответствующее текстовое поле на страницу сервиса. Можно не копировать весь текст целиком со скриптами стилями и другой лишней информацией, а скопировать только содержимое тэга <body>, так будет меньше мусора:

После того, как задана анализируемая страница (её URL или исходный текст) — укажите уровень детализации H2 или H3 и нажмите на кнопку «Анализировать».

Результаты работы

После обработки исходных данных, сервис выдаст информацию по каждому разделу, в том числе и по тексту страницы, который расположен до первого подзаголовка страницы, например:

По каждому разделу указывается общее количество слов в разделе, количество разных слов (оно как правило меньше, т.к. некоторые слова в разделе могут повторяться) и количество (и доля в процентах) уникальных слов в разделе, т.е. тех слов, которые не встречаются в других разделах анализируемой web-страницы.

В рассматриваемом на рисунке выше примере, мы видим, что слово «артокс» всего встречается в разделе 2 раза, в том числе 1 раз в самом заголовке раздела и еще встречается 55 раз в 11-ти других разделах страницы.

А слово «безопасен» — встречается в тексте раздела 1 раз и больше нигде на анализируемой странице не встречается. Слова, которые встречаются только в одном разделе страницы — выделены в таблице жирным зеленым шрифтом и эти же слова собраны в отдельный список ниже таблицы.

И такие результаты выполнены по всем разделам анализируемой web-страницы.

Надеюсь, данный сервис будет Вам полезен.

Перейти на страницу сервиса