 Добро пожаловать,
|
|
|
|
|
|
Поиск
 |
Расскажу о таком сервисе гугла, который помогает отсеивать спам из поисковой выдачи. Этим в Google занимается один, малоизвестный человек Adam Lasnik. Конечно, чистотой поисковой выдачи и заспамлености поисковой машины следят много человек, их имена нам неизвестны. Они как бойцы невидимого фронты - мы их не видим, а результаты - чувствуются сразу.
Про вид деятельности Адама Лэсника говорит вот такая строка в его биографии - Google, Mountain View, CA, Index Quality Enhancement: Analyzing Web spam trends and helping colleagues fine tune indexing and ranking algorithms.
Вообщем деятельность этого человека лежит во взаимодействии вебмастеров и инженеров гугла. Естественно, что внутренняя политика поисковой машины Google запрещает разглашать какие-либо поисковые технологии и механизмы, но нужно уметь понимать то, что подобные специалисты пишут или говорят между строк.
На основании сайта этого человека можно сделать несколько выводов:
* Рапорты или жалобы, которые отправлены через сервис https://www.google.com/webmasters/sitemaps/spamreport?hl=en получат наибольшее внимание
* На основании только жалобы, без проверки самого факта нарушения использования поисковой машины, сайт не может быть исключен из индекса, т.е поисковой выдачи
* Проверка жалоб - практически полностью автоматическая, ручную проверку проходят лишь крупные сайты, представляющие для поисковой машины коммерческий интерес
* Первостепенным фактором в обработке рапортов лежит степень замусоренности (заспамленности, популярности) определенных ключевых слов, тематик. Ясное дело, что чем выше конкуренция по определенному ключевому слову, тем быстрее будет осуществлена проверка на спам
* Ручной обработки бана практически не существует (за исключением исключительных случаев). Инженеры Google ежедневно используют полученную информацию для улучшения алгоритма, с целью определения новых видов спамерский технологий. Потом эти изменения алгоритма тестируются и постепенно вводятся в реальную работу алгоритма
* Инженеры, которые ответственны за качество поискового индекса гугла, не имеют право использовать данные, собираемыми другими отделениями гугла (такими как Adsense, Adwords, Analytic). Это связанно с так называемыми “privacy terms”. Следует обратить внимание, что про тулбар ничего сказано не было, так что весьма вероятно что данные гуглбара могут использоваться для обнаружения поискового спама.
Вот, в принципе и все. Если хотите больше узнать о технологиях поисковой машины, то внимательно изучайте и почаще заходите на сайт Адама Лэсника (его сайт http://www.lasnik.net/). Успехов вам!
|
|
 |
Поисковые механизмы продолжают эволюционировать, становятся все более изощренными и усложненными, в то же время упрощаются их пользовательские интерфейсы, и размеры накопленных баз данных экспоненциально увеличиваются. Впрочем, постоянное развитие в этой области и неудивительно спрос на поиск нужной информации в Сети будет только расти, причем с каждым годом как пользователей, так и данных будет становиться все больше.
Поисковая индустрия также выглядит лакомым кусочком пирога для многочисленных стартапов, которые не прочь попробовать себя в этой области. Лидером здесь можно стать если не за считанные сутки, то за несколько месяцев, о чем свидетельствует история успеха Google. Два года назад о компании знали только энтузиасты, и еще недавно ссылались на данный поисковик как на "разработку студентов Стэнфордского университета", отмечая, что Google "имеет реальные шансы стать одной из самых авторитетных служб в своем классе".
Сегодня за место лидера рынка постоянно соревнуются две компании американская Google и норвежская FAST, и поэтому неудивительно, что в данном материале речь в основном пойдет именно о нововведениях этих фирм.
Файловые форматы
Признавая тот факт, что Internet постоянно пополняется большим количеством информации, которая не всегда выкладывается в формате HTML, Google сообщил о поддержке файловых форматов Microsoft Office. Таким образом, сегодня команда "Поиск" в Google, кроме HTML-документов, выдаст файлы форматов PostScript, Rich text Format, Lotus1-2-3, Lotus WordPro, MacWrite, Microsoft Word, Microsoft Excel и MicrosoftPowerPoint. До этого поисковик также успешно находил и PDF-документы.
Поддержка новых форматов вызвала немало проблем и даже курьезов. Сисадмины и специалисты по компьютерной безопасности наверняка не обрадуются поддержке форматов Microsoft Office. Теперь, щелкнув по ссылке, которая ведет на документ Word, пользователь имеет все шансы запустить у себя на машине макрос, и нет никакой гарантии, что он не причинит вреда. Именно для таких случаев Google предоставляет возможность ознакомления с HTML-версией документа, однако поддержка новых форматов влечет за собой новые проблемы для домашних пользователей теперь компьютерные вирусы можно будет получать прямо из поисковика.
Для более грамотных пользователей новые файловые форматы, несомненно, представляют ценность, так как в слайдах PowerPoint в Internet часто выкладывается учебная и деловая информация, а Excel является общепринятым способом распространения прайс-листов.
Специализация поиска
Норвежские разработчики также предпочли не просто наблюдать за рынком, а развивать специализированные услуги своего поисковика.
FAST запустила поиск новостей, являющийся, как утверждают разработчики, обладателем "желтой майки лидера", если вести речь о скорости. Ежедневно FAST News Search обрабатывает около 3 тыс. ресурсов, которые обновляются в режиме реального времени, как и положено новостийно-информационным изданиям. "Паук" от FAST индексирует около 800 статей каждую минуту.
В данном направлении ведут разработки и отечественные компании. Как сообщил нашему изданию Алексей Чуксин, директор по маркетингу компании"МЕТА", в рамках украинского поисковика создан "динамический индекс", который позволяет вносить обновленные страницы в базу данных"на лету", не замедляя таким образом скорость работы поиска.
Потенциально данная технология может быть использована для организации поиска новостей и обновлений, а также в качестве внутреннего поисковика для крупных сайтов. Разработчики "META" сегодня переводят на динамический поиск сайты своих клиентов, среди которых финансовый сервер Finance.com.ua, банковский Ukrsibbank.com и портал Volia.com.
FAST также предложила весьма интересную концепцию кластеризации результатов поиска. За основу технологии FAST Topics взят открытый каталог Dmoz.org, на его базе сделаны тематические подборки сайтов, которые затем объединяются в кластеры с общей тематикой. Введите "ukraine" в поисковике FAST, и всписке папок будет представлено девять категорий для возможного сужения поиска.
Релевантность
Даже самые громогласные тирады о всемогуществе современных поисковиков зачастую прекращаются, когда их создатели говорят о релевантности. Алгоритмы определения релевантности для ранжирования документов постоянно находятся в стадии разработки. Спаммеры поисковиков, с одной стороны, и добросовестные маркетологи сайтов, с другой, ведут борьбу за право оказаться в списке первых на странице с результатами поиска.
С ноября 2001 г. "МЕТА" для определения релевантности украинских сайтов начала использовать алгоритмы PageRank, где место в списке результатов зависит и от количества ссылок на документ. Google, которая возникла фактически благодаря технологии PageRank, на этот раз решила еще более усложнить путь для недобросовестных "раскрутчиков".
Разработчики Google тестируют технологию, которая позволит пользователям самостоятельно определять релевантность сайта, таким образом голосуя за более информативные ресурсы и исключая из списка результатов поиска сайты, не имеющие никакого отношения к запросу. Теоретически это может даже развязать руки спаммерам, голосующим за свой сайт с различных компьютеров, однако Google рассчитывает на то, что многомиллионная аудитория, ежедневно пользующаяся поисковиком, в целом будет рационально относиться к "избираемым" сайтам.
Быстрее, выше, сильнее?
Как оказалось, олимпийские лозунги не всегда обеспечивают позитивное отношение к поисковикам со стороны пользователей. По мере расширения своей базы данных и увеличения кэша на жестких дисках компании Google пришлось столкнуться с противодействием со стороны Web-мастеров. Google индексирует документы, не предназначенные для публичного использования, Google сохраняет на своем жестком диске копии документов, которые по каким-то причинам должны быть уничтожены, Google ставит под удар платные сайты, требующие денежной мзды за доступ к архивам с более старыми статьями.
На все эти обвинения компания реагирует весьма корректно. Что касается индексирования документов, которые выкладываются на серверы, однако не предназначены для посторонних глаз, представители Google утверждают, что их робот никогда не проиндексирует информацию, доступ к которой запрещен. Не будучи взломщиком, робот, тем не менее, индексирует все, что находит, и тот факт, что конфиденциальные документы попали в око "паука",свидетельствует о том, что неправильно был оформлен файл robots.txt или же администратор не принял должные меры защиты.
Для желающих уничтожить копии своих файлов на дисках Google (а туда, напомним, сейчас попадают и документы PDF, и Microsoft Word), Google представляет такую возможность на сайте для Web-мастеров.
Что касается расширения баз данных поисковиков, то здесь решили не останавливаться на достигнутом и разработчики "МЕТА" робот, по словам Алексея Чуксина, теперь поддерживает настройку полей для поиска структурированной информации (а проще говоря, может получить доступ и проиндексировать базу данных).
С миру по нитке
Что еще произошло в мире поиска за последнее время? Портал Yahoo! согласился сотрудничать с платным поиском Overture (ранее известным как Goto.com), и таким образом на Yahoo! теперь будут появляться платные ссылки, которые будут четко обозначены как коммерческие результаты. Overture, готовясь выйти на прибыль уже в ближайшее время, сумела доказать большинству пользователей, что продажа ссылок за деньги не есть что-то неприличное, а наоборот весьма прибыльный бизнес при условии, что посетитель четко осознает ангажированность результатов.
FAST внедрила свои поисковые технологии в Lycos. Две компании издавна являются партнерами, однако долгое время поиск в Lycos занимал последние места по части объема базы данных и релевантности ссылок. Новая версия поискового ядра от FAST способствует укреплению имиджа Lycos как поисковой машины для Web. На обновленное ядро перешла и российская версия портала, расположенная по адресу www.lycos.ru. Как сообщил"Компьютерному Обозрению" генеральный продюсер российской Lycos Андрей Себрант, основной задачей для разработчиков компании в ближайшее время станет ускорение индексации русскоязычных новостей и интеграция данного сервиса в Lycos.ru. Также одной из ключевых задач сегодняшнего дня является наращивание мультимедийной базы для поисковой машины.
Немного странно не видеть в данном обзоре Inktomi, которая обычно шествовала в колонне лидеров данного рынка. Компания в последнее время направляет свои усилия на корпоративный сектор, хотя игнорировать такого крупного игрока на рынке Internet-услуг пока что нельзя вряд ли Inktomi согласится стать побежденной в гонке лидеров, и вполне возможно, что скоро FAST и Google получат в ее лице достойного конкурента.
|
|
 |
Технология стека TCP/IP сложилась в основном в конце 1970-х годов и с тех пор основные принципы работы базовых протоколов, таких как IP, TCP, UDP и ICMP, практически не изменились. Однако, сам компьютерный мир за эти годы значительно изменился, поэтому долго назревавшие усовершенствования в технологии стека TCP/IP сейчас стали необходимостью.
Основными обстоятельствами, из-за которых требуется модификация базовых протоколов стека TCP/IP, являются следующие.
* Повышение производительности компьютеров и коммуникационного оборудования. За время существования стека производительность компьютеров возросла на два порядка, объемы оперативной памяти выросли более чем в 30 раз, пропускная способность магистрали Internet в Соединенных Штатах выросла в 800 раз.
* Появление новых приложений. Коммерческий бум вокруг Internet и использование ее технологий при создании intranet привели к появлению в сетях TCP/IP, ранее использовавшихся в основном в научных целях, большого количества приложений нового типа, работающих с мультимедийной информацией. Эти приложения чувствительны к задержкам передачи пакетов, так как такие задержки приводят к искажению передаваемых в реальном времени речевых сообщений и видеоизображений. Особенностью мультимедийных приложений является также передача очень больших объемов информации. Некоторые технологии вычислительных сетей, например, frame relay и ATM, уже имеют в своем арсенале механизмы для резервирования полосы пропускания для определенных приложений. Однако эти технологии еще не скоро вытеснят традиционные технологии локальных сетей, не поддерживающие мультимедийные приложения (например, Ethernet). Следовательно, необходимо компенсировать такой недостаток средствами сетевого уровня, то есть средствами протокола IP.
* Бурное расширение сети Internet. В начале 90-х годов сеть Internet расширялась очень быстро, новый узел появлялся в ней каждые 30 секунд, но 95-й год стал переломным - перспективы коммерческого использования Internet стали отчетливыми и сделали ее развитие просто бурным. Первым следствием такого развития стало почти полное истощение адресного пространства Internet, определяемого полем адреса IP в четыре байта.
* Новые стратегии администрирования. Расширение Internet связано с его проникновением в новые страны и новые отрасли промышленности. При этом в сети появляются новые органы администрирования, которые начинают использовать новые методы администрирования. Эти методы требуют появления новых средств в базовых протоколах стека TCP/IP.
Сообщество Internet уже несколько лет работает над разработкой новой спецификации для базового протокола стека - протокола IP. Выработано уже достаточно много предложений, от простых, предусматривающих только расширения адресного пространства IP, до очень сложных, приводящих к существенному увеличению стоимости реализации IP в высокопроизводительных (и так недешевых) маршрутизаторах.
Основным предложением по модернизации протокола IP является предложение, разработанное группой IETF. Сейчас принято называть ее предложение версией 6 - IPv6, а все остальные предложения группируются под названием IP Next Generation, IPng.
В предложении IETF протокол IPv6 оставляет основные принципы IPv4 неизменными. К ним относятся дейтаграммный метод работы, фрагментация пакетов, разрешение отправителю задавать максимальное число хопов для своих пакетов. Однако, в деталях реализации протокола IPv6 имеются существенные отличия от IPv4. Эти отличия коротко можно описать следующим образом.
* Использование более длинных адресов. Новый размер адреса - наиболее заметное отличие IPv6 от IPv4. Версия 6 использует 128-битные адреса.
* Гибкий формат заголовка. Вместо заголовка с фиксированными полями фиксированного размера (за исключением поля Резерв), IPv6 использует базовый заголовок фиксированного формата плюс набор необязательных заголовков различного формата.
* Поддержка резервирования пропускной способности. В IPv6 механизм резервирования пропускной способности заменяет механизм классов сервиса версии IPv4.
* Поддержка расширяемости протокола. Это одно из наиболее значительных изменений в подходе к построению протокола - от полностью детализированного описания протокола к протоколу, который разрешает поддержку дополнительных функций.
Адресация в IPv6
Адреса назначения и источника в IPv6 имеют длину 128 бит или 16 байт. Версия 6 обобщает специальные типы адресов версии 4 в следующих типах адресов:
* Unicast - индивидуальный адрес. Определяет отдельный узел - компьютер или порт маршрутизатора. Пакет должен быть доставлен узлу по кратчайшему маршруту.
* Cluster - адрес кластера. Обозначает группу узлов, которые имеют общий адресный префикс (например, присоединенных к одной физической сети). Пакет должен быть маршрутизирован группе узлов по кратчайшему пути, а затем доставлен только одному из членов группы (например, ближайшему узлу).
* Multicast - адрес набора узлов, возможно в различных физических сетях. Копии пакета должны быть доставлены каждому узлу набора, используя аппаратные возможности групповой или широковещательной доставки, если это возможно.
Как и в версии IPv4, адреса в версии IPv6 делятся на классы, в зависимости от значения нескольких старших бит адреса.
Большая часть классов зарезервирована для будущего применения. Наиболее интересным для практического использования является класс, предназначенный для провайдеров услуг Internet, названный Provider-Assigned Unicast.
Адрес этого класса имеет следующую структуру:
010
Идентификатор провайдера
Идентификатор абонента
Идентификатор подсети
Идентификатор узла
Каждому провайдеру услуг Internet назначается уникальный идентификатор, которым помечаются все поддерживаемые им сети. Далее провайдер назначает своим абонентам уникальные идентификаторы, и использует оба идентификатора при назначении блока адресов абонента. Абонент сам назначает уникальные идентификаторы своим подсетям и узлам этих сетей.
Абонент может использовать технику подсетей, применяемую в версии IPv4, для дальнейшего деления поля идентификатора подсети на более мелкие поля.
Описанная схема приближает схему адресации IPv6 к схемам, используемым в территориальных сетях, таких как телефонные сети или сети Х.25. Иерархия адресных полей позволит магистральным маршрутизаторам работать только со старшими частями адреса, оставляя обработку менее значимых полей маршрутизаторам абонентов.
Под поле идентификатора узла требуется выделения не менее 6 байт, для того чтобы можно было использовать в IP-адресах МАС-адреса локальных сетей непосредственно.
Для обеспечения совместимости со схемой адресации версии IPv4, в версии IPv6 имеется класс адресов, имеющих 0000 0000 в старших битах адреса. Младшие 4 байта адреса этого класса должны содержать адрес IPv4. Маршрутизаторы, поддерживающие обе версии адресов, должны обеспечивать трансляцию при передаче пакета из сети, поддерживающей адресацию IPv4, в сеть, поддерживающую адресацию IPv6, и наоборот.
|
|
Всего 18 на 2 страницах по 15 на каждой странице<< 1 2
Внимание! Если у вас не получилось найти нужную информацию, используйте рубрикатор или воспользуйтесь поиском
.
книги по программированию исходники компоненты шаблоны сайтов C++ PHP Delphi скачать
|
|