М Б С

Бесплатная помощь в раскрутке форума и сайта
Текущее время: 18-05, 21:48

Часовой пояс: UTC + 4 часа




Начать новую тему Ответить на тему  [ 1 сообщение ] 
Автор Сообщение
СообщениеДобавлено: 10-09, 12:36 
Не в сети
Модератор
Аватара пользователя

Зарегистрирован: 10-07, 14:57
Сообщения: 357
Откуда: Москва
Автор: Crystall
Источник: (www.WebStudent.ru)
(http://redirect.subscribe.ru/inet.webbu ... 29/2006082
3103015/7410=8782=t2=4979/m6841213/-/www.WebStudent.ru) Итак. В
ответ на запрос пользователя бот выдает результат поиска. Ищет он в
собственном индексе. В индексе у него лежат сайты в том виде, в
каком бот их понимает. У каждого бота это понимание свое, но общие
черты прослеживаются.
Индекс образуется двумя путями.
Первый - web-маз сам просит бот проиндексить его сайтец. Так
поступают чаще всего с популярными и уважаемыми ботами. Для Рунета
это: Яндекс, Рамблер и Апорт. Причем именно в такой
последовательности. Хотя Рамблер с Яндексом соперничают в этом
плане. На остальные боты можно не тратить время. Это мое мнение.
Второй путь - боты сами в ползают по Инету и вынюхивают изменения.
С новыми сайтами они поступают по разному. Чаще всего они
принюхиваются к ним какое-то время, а потом, если, по мнению бота,
со страницей все в порядке (посетители иногда появляются, спама нет
и др.) - они его индексят. То есть заносят информацию о нем в свой
индекс (базу данных). Самый тормозной в плане принюхивания - это
Рамблер. Он принюхивается по несколько месяцев. Самый непридирчивый
- Яндекс. Можно создать левый сайт и посмотреть, как скоро он
самопроизвольно появится в том или ином поисковике. В Яндексе: ну,
через месяц-два.
Кроме этого, боты следят за состоянием своего индекса. То есть за
его соответствием реальному положению дел в Инете. Сайт может
измениться, исчезнуть и т.д. Поэтому боты его обычно реиндексируют.
Правда, можно запретить это мета-тегами и цивилизованные боты не
будут этого делать. Самый скоростной по реиндексированию - Яндекс.
Скорость реиндекса - несколько дней, а то и чаще, если ресурс
популярный. Самый тормозной - Апорт. Скорость реиндекса страниц с
посещаемостью 50-100 хостов в сутки - до полугода! У меня был сайт,
который переехал. Так Апорт по запросу старый адрес еще несколько
месяцев выдавал, хотя по этому адресу уже несколько месяцев ничего
не было! И соответственно, посещаемость - 0. А Апорту все равно!
Дальше.
Результат поиска по запросу пользователя чаще всего выдается по
релевантности. Чем выше релевантность, тем выше позиция страницы в
результате работы поисковика. Страница с наиболее высокой (по
мнению бота) релевантностью отображается первой. Релевантность -
это степень соответствия содержимого индекса бота запросу
пользователя.
Например, пользователь вводит . Бот выдает страницы
проиндексированных сайтов, где встречается это слово. Причем не
просто встречается, а встречается в тех местах, которые бот
индексит.
Но об этом позже.
Яндекс, например, чаще всего выдает только одну страницу с сайта и
ссылки на то, что есть еще страницы с того же сервера. Замечали,
наверное. Другие боты могут по несколько страниц с одного сервака
на один запрос выдавать. Это не очень образованные боты, но их тоже
юзают.
Продолжим с примером про . Бот выдает результат поиска по
релевантности. То есть, если на странице имеется 100 слов и 4 из
них - (в именительном падеже, множественном числе), то
релевантность страницы по запросу 0.04. Четыре процента.
Соответственно, если слов будет 10, и 4 из них - , то релевантность
будет 40 %. То есть в 10 раз выше. Это грубоватый пример, так как
слова в заголовке (то что между <title></title>) и в тексте
страницы имеют для бота разный вес, равно как слова в падеже и
числе, указанном в запросе и имеющемся на странице. Но для
понимания понятия вполне сойдет.
Поясню про падежи и числа.
Если запрос , а на странице встречаются только слова и т.д. то
релевантность страницы по этому запросу будет ниже, чем тех
страниц, на которых прямо написано слово . Но в любом случае
страница все равно найдется по запросу (но в с конце списка ответа
поисковика).
Из сказанного следует, что страница должна содержать поменьше слов,
и слова должны быть, в основном, ключевые.
Куда же девать инфу, которая в 10-20 слов никак не поместится?
Ответ - страницы с инфой и страницы для ботов - это .
Страницы с инфой - это те страницы, на которые попадаешь по ссылке
со стартовой страницы. А стартовая страница (другие названия -
индексная, заходная, doorway и др.) - это страница которая как раз
и содержит 10-20 слов (включая заголовок и мета-теги). То есть эта
страница, созданная специально для бота. И больше ни для кого.
Обычно, на стартовой странице размещают лого, иногда еще несколько
слов - чтобы пользователь понял, куда попал, и кнопочку . Иногда
вместо кнопочки - ссылки на разные разделы сайта. То есть несколько
входов.
Если без текста на индексной странице, ну, никак не обойтись, можно
запихнуть его в картинки. Так Мелкософт (www.microsoft.com)
поступает, например. Правда, им-то чего о релевантности заботиться?
Важно, чтобы бот по запросу нашел хоть какую-то страницу на сайте.
Важно также, чтобы навигация на ВСЕХ страницах позволяла попасть в
КРАТЧАЙШИЙ срок в любое место сайта.
По крайней мере, ссылка на главную страницу, по моему мнению,
должна стоять на каждой странице. Если бот начнет индексить, он
надет одну страницу и дальше пойдет по ссылкам на ней. Нужно
облегчить ему эту задачу. Причем, чем больше ссылок на ту или иную
страницу (с разных страниц, ясен тетя), тем выше ее с точки зрения
бота.
Итак.
Стартовая страница делается для бота. На ней нет инфы, только
ссылка (ссылки) и куча хитростей (см. ниже) для заманивая ботов.
Страницы с инфой должны содержать ссылки друг на друга, нормальный
информативный заголовок и приемлемые мета-теги. Все. Их цель - дать
инфу и не препятствовать боту запихнуть их в свой индекс. Они не
должны первыми появляться по запросу пользователя. Так как в данном
случае это как раз те два зайца, за которыми никак не угнаться, да
и не надо.
Дальше.
Понятное дело, что есть не одно, а несколько ключевых слов, по
которым web-маз хочет, чтобы искался сайт. Чтобы этого добиться, по
хорошему, нужно делать столько стартовых страниц, сколько желаемых
web-мазом ключевых слов. Внешне эти страницы ничем не должны
отличаться. Ну, может, title`ом. Отличаться должна служебная инфа,
о которой речь пойдет ниже.
Например, у меня есть сайт для фирмешки, продающей стартеры для
иномарок. Я сделала с десяток-два индексных страниц для наиболее
популярных моделей иномарок. Внешне страницы отличаются только тем,
что на одной в заголовке написано , а на другой - . Все. Конечно,
отличаются мета-теги, alt`ы (подписи к картинкам) и т.д. Об этом
ниже. Каждую индексную страницу я индексила в ботах отдельно.
Итак.
Что же индексит бот? У каждого бота свой характер, но в целом
примерно так:
Во-первых title. Это самая важная часть. Слова в title`е имеют
самый большой вес. Большой вес имеют слова в alt`ах (подписях к
картинкам), слова между <h1> </h1>, <h2> </h2> и т.д. в порядке
убывания значимости, слова между <b> </b>.
Кроме того, слова, расположенные ближе (выше) к title`у, имеют
больший вес, чем слова расположенные ниже. То есть, чем выше слово,
тем выше его вес при определении релевантности. Полнотекстовые боты
(то есть практически все современные) индексят еще и сам текст. В
основном, на предмет наличия в тексте слов, указанных в заголовке и
метах. Но если текста нет или очень мало - соответственно.
Итого, как заставить бот выдавать твою страницу первой по запросу,
например, ?
Пишем:
<html>
<title>Лучший варез</title>
<title> Софт Варез Нелегальный софт</title>
То есть пишем второй title.
После второго title`a нужно поставить знак неразрывного пробела -
или . Так как Яндекс, например, выдаст оба заголовка
как один и без пробела последнее слово первого заголовка сольется с
первым словом второго заголовка.
Разумеется, ключевые слова (2-6) можно выдумать и другие.
На той же странице пишем дальше:
<meta name="keywords" content="Варез, софт, нелегальный софт">
<meta http-equiv="keywords" content="Варез, софт, нелегальный
софт">
<meta name="description" content="Лучшие программы">
<meta http-equiv="description" content="Лучшие программы">
В keywords`ах должно быть не более 10-ти слов, необходимо
использовать варианты (не более трех) наиболее частых падежей и
чисел: (например: программы, программ, программа), чередуя их с
другими словами (например: программы, софт, программ, варез,
программа).
В description - несколько слов (5-8 слов, не более 170 символов),
емко характеризующих сайт. В Апорте и Рамблере это описание
появится рядом с результатом поиска по запросу. В настоящее время
при индексировании содержимое description на релевантность не
влияет. По крайней мере, в рассмативаемых поисковиках.
Главное: МЕНЬШЕ СЛОВ! Преимущественно ключевые.
Name и http-equiv должны полностью совпадать. Одни боты понимают
name, другие - http-equiv.
Дальше на той же странице:
<meta name="robots" content="index,follow">
# Роботам - индексировать страницу и идти дальше по ссылкам на ней.
# Аналогично сработает: <meta name="robots" content="all">
Дальше:
<meta name="resourse-type" content="document">
#Если бот видит, что ресурс - это документ,
# он приступает (должен) к его индексации.
<meta name="document-state" content="dynamic">
# Если тип документа - динамический - бот запомнит что сюда
# нужно периодически возвращаться.
<meta name="revisit-after" content="10 days">
# Это пожелание боту, как часто реиндексировать документ.
# Пожелание - не более. Бот может послушаться, а может и нет.
# Если, например, он разок вернется через 10 дней и увидит,
# что страница и впрямь изменилась, может и еще разок вернется
# через 10 дней. А если написать revisit-after 1 day и не менять
# страницу вообще - бот может обидеться и посчитать это попыткой
# его спама. Он занесет такую страницу в черный индекс
# (точнее, сначала - в "серый"). Это плохо.
Дальше для Рамблера (только):
<!--<h1>Варез, софт, нелегальный софт</h1>//-->
То есть в тегах комментария в заголовке первого уровня пишем
ключевые слова. Яндекс то, что в тегах комментария не индексит, а
Рамблер ест как миленький.
Потом, все картинки, что ни есть, должны содержать alt`ы с
ключевыми словами.
Можно даже в неприметном месте страницы однопиксельных прозрачных
гифов запихать (не очень много - 3-4) и alt`ы к ним нужные
прикрутить. Это считается спамом поисковика (как и два title`а,
впрочем), но по опыту - они (боты) этого в упор не видят.
В общем, способы кончились дальше идут .
Можно сделать для IE:
<div style=""visibility:" hidden"> <h1>Программы, варез, софт,
программа</h1> </div>
Для NN:
<layer visibility="hide"><h1>Программы, варез, софт, программа</h1>
</layer>
Это не очень удобно. Нужно ставить скриптину, определяющую тип
браузера. Но боты глотают эту наживку и в список не запихивают.
Еще можно вот что сделать. Где-нибудь неприметненько запихиваем
прозрачные gif-чики и делаем из них ссылки. Бот и alt`ы проиндексит
и по ссылкам пойдет, особенно, если сами ссылки по дизайну на
страницу никак не поместить:
<a href="первая ссылка"><img src="images/gif_1.gif" width="1"
height="1" border="0" alt="Варез, софт, нелегальный софт"></a>
<a href="вторая ссылка"><img src="images/gif_1.gif" width="1"
height="1" border="0" alt="Софт, варез"></a>
<a href="третья ссылка"><img src="images/gif_1.gif" width="1"
height="1" border="0" alt="варез, софт"></a>
Ну, и нужен специально обученный человек, который будет следить за
эволюцией ботов, изменениями позиции страницы в поисковиках и
предпринимать сответствующие действия. Не каждый день, но раз в
недельку-две тестирование в поисковиках своим страницам нужно
устраивать.
И вот еще что! Если релевантность _слишком_ высока, Яндекс
обижается и не выдает страницу по запросу. За остальными не
замечала. Другие страницы того же сайта с меньшей релевантностью
может выдавать ( список). Так что, если на странице только слова -
это не выход. Релевантность должна быть не более 30 %. И одинаковые
слова подряд лучше не повторять.
И вот когда все это извращение готово - 10-15 стартовых качественно
написанных страниц - идешь на (http://www.design.ru/free/addurl/) и
каждую страницу индексишь одной пимпой в нескольких наиболее
популярных поисковиках. При этом видишь ответы серверов, и, если не
прошло - идешь индексить вручную.
Об остальных поисковиках спокойно забываешь, толку от них: Работы
больше.
Описание к каждой странице - разное, ясен тетя. Емкое, краткое
состоящее из ключевых слов.
Можно, и вручную добавлять сайт в каждый поисковик, но это
геморройно и не сильно выгодней. Впрочем, это мое мнение.
И последнее.
В корень (только в корень) помещаешь файт robots.txt (именно так и
никак иначе) со следующим содержимым:
User-agent: * # Первая строка.
# Комментарии, понятное дело, убрать
# Строка говорит, что любой бот может индексить ресурс
# Между первой и последующими -
# не должно быть переводов строк
Disallow: /cgi-bin/ #Не индексировать то, что в каталоге cgi-bin
Disallow: /images/ #Не индексировать то, что в каталоге images
Disallow: /scripts/ #Не индексировать то, что в каталоге scripts
# И далее по смыслу. В конце каждого имени каталога - слеш.
# Нече там ботам ползать. Нагрузку на сервак повышать. :)
Вот, собственно. Хотя можно еще много фантазировать на тему.

Использованы материалы:
(http://www.woweb.ru)
Copyright ї 2004 - 2006 by (www.frod.ru) (http://www.frod.ru/) Все
вопросы по E-mail (walera_b@mail.ru?Subject=Vopros-Rassilka)
При перепечатки статьи ссылка на http://mbs.flybb.ru/ обязательна!


Вернуться к началу
 Профиль  
 
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ 1 сообщение ] 

Часовой пояс: UTC + 4 часа


Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 0


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения

Найти:
Перейти:  
cron
Powered by Forumenko © 2006–2014
Русская поддержка phpBB