М Б С

Бесплатная помощь в раскрутке форума и сайта
Текущее время: 01-05, 15:48

Часовой пояс: UTC + 4 часа




Начать новую тему Ответить на тему  [ 1 сообщение ] 
Автор Сообщение
СообщениеДобавлено: 04-06, 10:02 
Не в сети
Администратор
Аватара пользователя

Зарегистрирован: 10-07, 10:14
Сообщения: 2347
Откуда: Москва
Дублирование контента: как с этим бороться?
Дублирование контента – это одна из тех проблем, которую создатели поисковых систем пытаются решить уже достаточно давно. Борьба с этим злом в области поисковых технологий происходит с переменным успехом, а, в конечном счете, страдают авторы материалов и простые пользователи.
Сами разработчики поисковых систем не раз поднимали эту проблему на множестве конференций, но воз, как и раньше ...
А что делать простому пользователю, который по определенному запросу на первых страницах находит один и тот же материал? Хорошо, если материал качественный, а если нет? Вот и остается пользователю либо довольствоваться тем, что дали, либо продолжить поиск, тратя на него свое время.
Проблема заключается еще и в том, что в большинстве случаев дублирование контента происходит незлонамеренно. Основными причинами дубляжа контента могут стать:
• перечисление небольших фрагментов идентичного текста на всех страницах сайта либо на страницах других сайтов (это могут небольшие информационные блоки о каких-либо событиях, компаниях, людях и т.д.);
• это могут быть сайты, на которых располагаются новостные агрегаторы (rss), которые просто перепечатывают новости с других сайтов;
• могут возникнуть копии страниц, расположенных на одном «доме». Здесь, в большинстве случаев, проблема в технических неполадках или неграмотно составленном файле robots.txt. Так, к примеру, веб-мастера частенько забывают закрывать от индексации версии страниц, предназначенные для печати. Нередко на сайте присутствуют идентификаторы сессий, которые приводят к тому, что одна и та же страница индексируется поисковой системой по несколько раз и т.д.
• нередко пользователи цитируют каких-либо людей, причем объемы цитат могут быть существенными, в этом случае поисковым системам не к чему придраться.
При этом не следует забывать, что переводные статьи (чем, собственно, занимается ваш слуга) не считаются дублированными статьями. Во всяком случае, об этом говориться на официальном блоге http://googlewebmastercentral.blogspot. ... ntent.html Google. Данная поисковая система даже старается помочь пользователям разных государств лучше понимать друг друга, осуществляя множественный перевод с одних языков мира на другие.
На блоге говорится, что фрагмент, который оформлен как цитата, дублированным контентом не считается. Хотя верится в это с трудом.
Несомненно, больше хлопот доставляют те, кто, не ставя ссылки на источник, сознательно ворует контент без соблюдения авторских прав.

Обнаружить «вредителей» можно с помощью следующих сервисов:
www.copyscape.com. (сервис позволяет найти, на каких сайтах сеть контент, похожий на тот, что представлен на введенной странице);
www.webconfs.com (http://www.webconfs.com/similar-page-checker.php) (сервис, показывающий процентное соотношении похожего контента на сравниваемых страницах).
Кроме этих сервисов, для выявления дубляжей используется параметр &rd=0 (только для поисковой системы Яндекс). В строку поиска вводится фрагмент текста, который, может быть, сворован, Яндекс выдает точные повторения, чтобы обнаружить нечеткие дубли в конец url на странице поиска ставится &rd=0, поиск проводится повторно. Но, повторюсь, данный параметр применим только для Яндекса.
Выявить сайты, которые воруют у вас контент, не ставя ссылку, - это полдела. Обратитесь к ним сначала с просьбой поставить ссылку. Безрезультатно? С предупреждением о том, что могут быть приняты адекватные меры. В том случае, если ваши требования не выполнены, можете смело жаловаться хостеру. Они обычно не церемонятся, в результате «сайт-вор» может прекратить свою деятельность на долгий срок.
Поисковые системы стараются бороться с дублирование текста так, как могут - придумывают различные фильтры. Конечно, какая-то часть повторяющегося материала отсеивается, но другая часть остается. И, к сожалению, очень много материала повторяется из-за ошибок веб-мастеров. Есть несколько шагов, которые помогут значительно сократить количество дублированного материала:
• закрывайте в robots.txt версии для печати, страницы с ненужной повторяющейся информацией;
• если вы перенесли свой сайт на другой домен, то не забудьте реализовать 301 редирект на новую версию сайта с помощью htaccess или просто закройте старую версию от индексации;
• постарайтесь не допускать наличия таких страниц на сайте, как /index.html;
• не допускайте на сайте наличия идентификаторов сессий;
• следите, чтобы сайт индексировался только с www., пропишите директиву host в robots.txt;
• если вы собираете на сайте подборку авторов с других сайтов, то не забывайте ставить ответную ссылку.
Поисковая система Google просит пользователей сообщать о нарушении авторских прав http://www.google.com/dmca.html , которое ведет к захламлению поиска спамом, и обещает принимать против нарушителей меры.
Иными словами, проблема, как сохранить релевантную выдачу, должна волновать не только разработчиков поисковых систем, но и всех, кто заинтересован в качественном поиске.

Перевод под ред. Сергея Стружкова ,
По материалам блога http://googlewebmastercentral.blogspot.com/ Центра поддержки веб-мастеров Google и сайта webconfs.com
Статься была взята сайта http://www.seonews.ru/
При перепечатке статьи ссылка на http://mbs.flybb.ru/ обязательна


Вернуться к началу
 Профиль  
 
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ 1 сообщение ] 

Часовой пояс: UTC + 4 часа


Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 0


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения

Найти:
Перейти:  
cron
Powered by Forumenko © 2006–2014
Русская поддержка phpBB