Обзор программ для поиска документов и данных. Софт и сервисы для профессионального поиска Интернет ресурсы для поиска профессиональной информации

Для профессионального поиска в Интернете необходимы специализированный софт, а также специализированные поисковики и поисковые сервисы.

ПРОГРАММЫ

http://dr-watson.wix.com/home – программа предназначена для исследования массивов текстовой информации с целью выявления сущностей и связей между ними. Результат работы – отчет об исследуемом объекте.

http://www.fmsasg.com/ - одна из лучших в мире программ по визуализации связей и отношений Sentinel Vizualizer . Компания полностью русифицировала свои продукты и подключил горячую линию на русском.

http://www.newprosoft.com/ – “Web Content Extractor” является наиболее мощным, простым в использовании ПО извлечения данных из web сайтов. Имеет также эффективный Visual Web паук.

SiteSputnik не имеющий в мире аналогов программный комплекс, позволяющий вести поиск и обработку его результатов в Видимом и Невидимом Интернете, используя все необходимые пользователю поисковики.

WebSite-Watcher – позволяет проводить мониторинг веб-страниц, включая защищенные паролем, мониторинг форумов, RSS каналов, групп новостей, локальных файлов. Обладает мощной системой фильтров. Мониторинг ведется автоматически и поставляется в удобном для пользователя виде. Программа с расширенными функциями стоит 50 евро. Постоянно обновляется.

http://www.scribd.com/ – наиболее популярная в мире и все более широко применяемая в России платформа размещения различного рода документов, книг и т.п. для свободного доступа с очень удобным поисковиком по названиям, темам и т.п.

http://www.atlasti.com/ – представляет собой самый мощный и эффективный из доступных для индивидуальных пользователей, небольшого и даже среднего бизнеса инструмент качественного анализа информации. Программа многофункциональная и потому полезная. Совмещает в себе возможности создания единой информационной среды для работы с различными текстовыми, табличными, аудио и видеофайлами, как единым целым, а также инструменты качественного анализа и визуализации.

Ashampoo ClipFinder HD – все возрастающая доля информационного потока приходится на видео. Соответственно, конкурентным разведчикам нужны инструменты, позволяющие работать с этим форматом. Одним из таких продуктов является представляемая бесплатная утилита. Она позволяет осуществлять поиск роликов по заданным критериям на видеофайловых хранилищах типа YouTube. Программа проста в использовании, выводит на одну страницу все результаты поиска с подробными сведениями, названиями, длительностью, временем, когда видео было загружено в хранилище и т.п. Имеется русский интерфейс.

http://www.advego.ru/plagiatus/ – программа сделана seo оптимизаторами, но вполне подходит как инструмент интернет-разведки. Плагиатус показывает степень уникальности текста, источники текста, процент совпадения текста. Также программа проверяет уникальность указанного URL. Программа бесплатная.

http://neiron.ru/toolbar/ – включает надстройку для объединения поиска Google и Yandex, а также позволяет осуществлять конкурентный анализ, базирующийся на оценке эффективности сайтов и контекстной рекламы. Реализован как плагин для FF и GC.

http://web-data-extractor.net/ – универсальное решение для получения любых данных, доступных в интернете. Настройка вырезания данных с любой страницы производится в несколько кликов мыши. Вам нужно просто выбрать область данных, которую вы хотите сохранять и Datacol сам подберет формулу для вырезания этого блока.

CaptureSaver – профессиональный инструмент исследования интернета. Просто незаменимая рабочая программа, позволяющая захватывать, хранить и экспортировать любую интернет информацию, включая не только web страницы, блоги, но и RSS новости, электронную почту, изображения и многое другое. Обладает широчайшим функционалом, интуитивно понятным интерфейсом и смешной ценой.

http://www.orbiscope.net/en/software.html – система веб мониторинга по более чем доступным ценам.

http://www.kbcrawl.co.uk/ – программное обеспечение для работы, в том числе в «Невидимом интернете».

http://www.copernic.com/en/products/agent/index.html – программа позволяет вести поиск, используя более 90 поисковых систем, более чем по 10 параметрам. Позволяет объединять результаты, устранять дубликаты, блокировать нерабочие ссылки, показывать наиболее релевантные результаты. Поставляется в бесплатной, личной и профессиональной версиях. Используется больше чем 20 млн.пользователей.

Maltego – принципиально новое программное обеспечение, позволяющее устанавливать взаимосвязь субъектов, событий и объектов в реале и в интернете.

СЕРВИСЫ

new – web браузер с десятками предустановленных инструментов для OSINT.

– эффективный поисковик-агрегатор для поиска людей в основных российских социальных сетях.

https://hunter.io/ – эффективный сервис для обнаружения и проверки email.

https://www.whatruns.com/ – простой в использовании, но эффективный сканер, позволяющий обнаружить, что работает и не работает на веб-сайте и каковы дыры в безопасности. Реализован также как плагин к Chrom.

https://www.crayon.co/ – американская бюджетная платформа рыночной и конкурентной разведки в интернете.

http://www.cs.cornell.edu/~bwong/octant/ – определитель хостов.

https://iplogger.ru/ – простой и удобный сервис для определения чужого IP .

http://linkurio.us/ – новый мощный продукт для работников экономической безопасности и расследователей коррупции. Обрабатывает и визуализирует огромные массивы неструктурированной информации из финансовых источников.

http://www.intelsuite.com/en – англоязычная онлайн платформа для конкурентной разведки и мониторинга.

http://yewno.com/about/ – первая действующая система перевода информации в знания и визуализации неструктурированной информации. В настоящее время поддерживает английский, французский, немецкий, испанский и португальский языки.

https://start.avalancheonline.ru/landing/?next=%2F – прогнозно-аналитические сервисы Андрея Масаловича.

https://www.outwit.com/products/hub/ – полный набор автономных программ для профессиональной работы в web 1.

https://github.com/search?q=user%3Acmlh+maltego – расширения для Maltego.

http://www.whoishostingthis.com/ – поисковик по хостингу, IP адресам и т.п.

http ://appfollow .ru / – анализ приложений на основе отзывов, ASO оптимизации, позиций в топах и поисковых выдачах для App Store , Google Play и Windows Phone Store .

http://spiraldb.com/ – сервис, реализованный как плагин к Chrom , позволяющий получить множество ценной информации о любом электронном ресурсе.

https://millie.northernlight.com/dashboard.php?id=93 - бесплатный сервис, собирающий и структурирующий ключевую информацию по отраслям и компаниям. Есть возможность использования информационных панелей основанных на текстовом анализе.

http://byratino.info/ – сбор фактографических данных из общедоступных источников в сети Интернет.

http://www.datafox.co/ – CI платформа собирающая и анализирующая информацию по интересующим клиентов компаниям. Есть демо.

https://unwiredlabs.com/home - специализированное приложение с API для поиска по геолокации любого устройства, подключенного к интернету.

http://visualping.io/ – сервис мониторинга сайтов и в первую очередь имеющихся на них фотографий и изображений. Даже если фотография появилась на секунду, она будет в электронной почте подписчика. Имеет плагин для G oogleC hrome.

http://spyonweb.com/ – исследовательский инструмент, позволяющий осуществить глубокий анализ любого интернет-ресурса.

http://bigvisor.ru/ – сервис позволяет отслеживать рекламные компании по определенным сегментам товаров и услуг, либо конкретным организациям.

http://www.itsec.pro/2013/09/microsoft-word.html – инструкция Артема Агеева по использованию программ Windows для нужд конкурентной разведки.

http://granoproject.org/ – инструмент с открытым исходным кодом для исследователей, которые отслеживают сети связей между персонами и организациями в политике, экономике, криминале и т.п. Позволяет соединять, анализировать и визуализировать сведения, полученные из различных источников, а также показывать существенные связи.

http://imgops.com/ – сервис извлечения метаданных из графических файлов и работы с ними.

http://sergeybelove.ru/tools/one-button-scan/ – маленький он-лайн сканер для проверки дыр безопасности сайтов и других ресурсов.

http://isce-library.net/epi.aspx – сервис поиска первоисточников по фрагменту текста на английском языке

https://www.rivaliq.com/ – эффективный инструмент для ведения конкурентной разведки на западных, в первую очередь, европейских и американских рынках товаров и услуг.

http://watchthatpage.com/ – сервис, который позволяет автоматически собирать новую информацию с поставленных на мониторинг ресурсов в интернете. Услуги сервиса бесплатные.

http://falcon.io/ – своего рода Rapportive для Web. Он не является заменой Rapportive, а дает дополнительные инструменты. В отличие от Rapportive дает общий профиль человека, как бы склеенный из данных из социальных сетей и упоминаний в web.http://watchthatpage.com/ – сервис, который позволяет автоматически собирать новую информацию с поставленных на мониторинг ресурсов в интернете. Услуги сервиса бесплатные.

https://addons.mozilla.org/ru/firefox/addon/update-scanner/ – дополнение для Firefox. Следит за обновлениями web-страниц. Полезно для web-сайтов, которые не имеют лент новостей (Atom или RSS).

http://agregator.pro/ – агрегатор новостных и медийных порталов. Используется маркетологами, аналитиками и т.п. для анализа новостных потоков по тем или иным темам.

http://price.apishops.com/ – автоматизированный веб-сервис мониторинга цен по выбранным товарным группам, конкретным интернет-магазинам и другим параметрам.

http://www.la0.ru/ – удобный и релевантный сервис анализа ссылок и бэклинков на интернет-ресурс.

www.recordedfuture.com – мощный инструмент анализа данных и их визуализации, реализованный как он-лайн сервис, построенный на «облачных» вычислениях.

http://advse.ru/ – сервис под слоганом «Узнай все про своих конкурентов». Позволяет в соответствии с поисковыми запросами получить сайты конкурентов, анализировать рекламные компании конкурентов в Google и Yandex.

http://spyonweb.com/ – сервис позволяет определить сайты с одинаковыми характеристиками, в том числе, использующими одинаковые идентификаторы сервиса статистики Google Analytics, IP адреса и т.п.

http://www.connotate.com/solutions – линейка продуктов для конкурентной разведки, управления информационными потоками и преобразования сведений в информационные активы. Включает как сложные платформы, так и простые дешевые сервисы, позволяющие эффективно вести мониторинг вместе с компрессией информации и получением только нужных результатов.

http://www.clearci.com/ – платформа конкурентной разведки для бизнеса различных размеров от стартапов и маленьких компаний до компаний из списка Fortune 500. Решена как saas.

http://startingpage.com/ – надстройка на Google, позволяющая вести поиск в Google без фиксации вашего IP адреса. Полностью поддерживает все поисковые возможности Google, в том числе и а русском языке.

http://newspapermap.com/ – уникальный сервис, очень полезный для конкурентного разведчика. Соединяет геолокацию с поисковиком он-лайн медиа. Т.е. вы выбираете интересующий вас регион или даже город, или язык, на карте видите место и список он-лайн версий газет и журналов, нажимаете на соответствующую кнопку и читаете. Поддерживает русский язык, очень удобный интерфейс.

http://infostream.com.ua/ – очень удобная отличающаяся первоклассной выборкой, вполне доступная для любого кошелька система мониторинга новостей «Инфострим» от одного из классиков интернет-поиска Д.В.Ландэ.

http://www.instapaper.com/ – очень простой и эффективный инструмент для сохранения необходимых веб-страниц. Может использоваться на компьютерах, айфонах, айпадах и др.

http://screen-scraper.com/ – позволяет автоматически извлекать всю информацию с веб-страниц, скачивать подавляющее большинство форматов файлов, автоматически вводить данные в различные формы. Скачанные файлы и страницы сохраняет в базах данных, выполняет множество других чрезвычайно полезных функций. Работает под всеми основными платформами, имеет полнофункциональную бесплатную и очень мощные профессиональные версии.

http://www.mozenda.com/- имеющий несколько тарифных планов и доступный даже для малого бизнеса веб сервис многофункционального веб мониторинга и доставки с избранных сайтов необходимой пользователю информации.

http://www.recipdonor.com/ - сервис позволяет осуществлять автоматический мониторинг всего происходящего на сайтах конкурентов.

http://www.spyfu.com/ – а это, если у вас конкуренты иностранные.

www.webground.su – созданный профессионалами Интернет-поиска сервис для мониторинга Рунета, включающий всех основных поставщиков информации, новостей и т.п., способен к индивидуальным настройкам мониторинга под нужды пользователя.

ПОИСКОВИКИ

https ://www .idmarch .org / – лучший по качеству выдачи поисковик мирового архива pdf документов. В настоящее время проиндексировано более 18 млн. pdf документов, начиная от книг, заканчивая секретными отчетами.

http://www.marketvisual.com/ – уникальный поисковик, позволяющий вести поиск собственников и топ-менеджмента по ФИО, наименованию компании, занимаемой позиции или их комбинации. В поисковой выдаче содержатся не только искомые объекты, но и их связи. Рассчитана прежде всего на англоязычные страны.

http://worldc.am/ – поисковик по фотографиям в свободном доступе с привязкой к геолокации.

https://app.echosec.net/ – общедоступный поисковик, который характеризует себя как самый продвинутый аналитический инструмент для правоохранительных органов и профессионалов безопасности и разведки. Позволяет вести поиск фотографий, размещенных на различных сайтах, социальных платформах и в социальных сетях в привязке к конкретным геолокационным координатам. В настоящее время подключено семь источников данных. До конца года их число составит более 450. За наводку спасибо Дементию.

http://www.quandl.com/ – поисковик по семи миллионам финансовых, экономических и социальных баз данных.

http://bitzakaz.ru/ – поисковик по тендерам и госзаказам с дополнительными платными функциями

Website-Finder – дает возможность найти сайты, которые плохо индексирует Google. Единственным ограничением является то, что для каждого ключевого слова он ищет только 30 веб-сайтов. Программа проста в использовании.

http://www.dtsearch.com/ – мощнейший поисковик, позволяющий обрабатывать терабайты текста. Работает на рабочем столе, в интернете и в интранете. Поддерживает как статические, так и динамические данные. Позволяет искать во всех программах MS Office. Поиск ведется по фразам, словам, тегам, индексам и многому другому. Единственная доступная система федеративного поиска. Имеет как платную, так и бесплатную версии.

http://www.strategator.com/ – осуществляет поиск, фильтрацию и агрегацию информации о компании из десятка тысяч веб-источников. Ищет по США, Великобритании, основным странам ЕЭС. Отличается высокой релевантностью, удобностью для пользователя, имеет бесплатные и платный вариант (14$ в месяц).

http://www.shodanhq.com/ – необычный поисковик. Сразу после появления получил кличку «Гугл для хакеров». Ищет не страницы, а определяет IP адреса, типы роутеров, компьютеров, серверов и рабочих станций, размещенных по тому или иному адресу, прослеживает цепочки DNS серверов и позволяет реализовать много других интересных функций для конкурентной разведки.

http://search.usa.gov/ – поисковик по сайтам и открытым базам всех государственных учреждений США. В базах находится много практической полезной информации, в том числе и для использования в нашей стране.

http://visual.ly/ – сегодня все шире для представления данных используется визуализация. Это первый поисковик инфографики в Вебе. Одновременно с поисковиком на портале есть мощные инструменты визуализации данных, не требующие навыков программирования.

http://go.mail.ru/realtime –поиск по обсуждениям тем, событий, объектов, субъектов в режиме реального, либо настраиваемого времени. Ранее крайне критикуемый поиск в Mail.ru работает очень эффективно и дает интересную релевантную выдачу.

Zanran – только что стартовавший, но уже отлично работающий первый и единственный поисковик для данных, извлекающий их из файлов PDF, таблиц EXCEL, данных на страницах HTML.

http://www.ciradar.com/Competitive-Analysis.aspx – одна из лучших в мире систем поиска информации для конкурентной разведки в «глубоком вебе». Извлекает практически все виды файлов во всех форматах по интересующей теме. Реализована как веб-сервис. Цены более чем приемлемые.

http://public.ru/ – Эффективный поиск и профессиональный анализ информации, архив СМИ с 1990 года. Интернет-библиотека СМИ предлагает широкий спектр информационных услуг: от доступа к электронным архивам публикаций русскоязычных СМИ и готовых тематических обзоров прессы до индивидуального мониторинга и эксклюзивных аналитических исследований, выполненных по материалам печати.

Cluuz – молодой поисковик с широкими возможностями для конкурентной разведки, особенно, в англоязычном интернете. Позволяет не только находить, но и визуализировать, устанавливать связи между людьми, компаниями, доменами, e-mail, адресами и т.п.

www.wolframalpha.com – поисковик завтрашнего дня. На поисковый запрос выдает имеющуюся по объекту запроса статистическую и фактологическую информацию, в том числе, визуализированную.

www.ist-budget.ru – универсальный поиск по базам данных госзакупок, торгов, аукционов и т.п.

Алексей Кутовенко

Профессиональный поиск в Интернете

Введение

Интернет-поиск – важный элемент работы в Сети. Точное количество веб-ресурсов современного интернета вряд ли кому-либо точно известно. В любом случае, счет идет на миллиарды. Для того чтобы можно было использовать информацию, необходимую в данный конкретный момент, не важно, в рабочих или развлекательных целях, сначала нужно ее найти в этом постоянно пополняемом океане ресурсов. Это совсем не простая задача, поскольку информация в современной Сети не структурирована, что создает проблемы ее нахождения. Не случайно своеобразными «окнами» в это информационное пространство стали именно интернет-поисковики.

Вряд ли среди интернет-пользователей найдутся люди, никогда не использовавшие крупные универсальные поисковые машины. Названия Google, Яндекс и пары-тройки других больших машин на слуху у всех. Они замечательно справляются с повседневными задачами интернет-поиска, и зачастую пользователи даже не пытаются искать им замену. В то же время количество поисковых интернет-машин в наше время исчисляется тысячами. Причины такого разнообразия альтернативных машин имеют различные корни. Одни проекты пытаются напрямую конкурировать с лидерами глобального рынка за счет тщательной работы с национальными интернет-ресурсами. Другие предлагают возможности составления запроса, отсутствующие у известных поисковиков. Значительное количество альтернативных машин специализируются на поиске по определенной тематической области или определенному типу контента, достигая в решении этих задач впечатляющих результатов. Как бы то ни было, включение таких поисковиков в собственный пользовательский арсенал средств интернет-поиска может заметно повысить его качество. Здесь, правда, существует один нюанс: надо знать о таких машинах и уметь пользоваться их возможностями.

Предполагаем, что читатели данной книги уже достаточно хорошо знакомы с техникой поиска с помощью универсальных поисковиков. Хорошо настолько, что почувствовали ограничения, связанные с их применением. Скорее всего, такие люди уже пробовали искать и применять те или иные дополнительные инструменты. Печатное слово не обходит стороной тему интернет-поиска: и статьи периодически появляются, и книги выходят. Вот только герои у них, как правило, одни и те же – несколько ведущих универсальных поисковиков. Наша книга отличается тем, что в ней делается попытка охватить весь спектр современных поисковых решений. Здесь вы найдете описания и рекомендации по использованию лучших современных сервисов, ориентированных на решение наиболее распространенных поисковых задач. Эта книга для людей, много работающих в интернете и использующих Сеть для поиска нужной информации – будь то бизнес, учеба или хобби.

Для того чтобы интернет-поиск был успешным, должны быть выполнены два условия: запросы должны быть хорошо сформулированы и задавать их нужно в подходящих местах. Другими словами, от пользователя требуется, с одной стороны, умение переводить свои поисковые интересы на язык поискового запроса, а с другой – хорошее знание поисковых систем, доступных инструментов поиска, их достоинств и недостатков, что позволит выбирать в каждом конкретном случае наиболее подходящие средства поиска.

В настоящее время не существует какого-либо одного ресурса, удовлетворяющего всем требованиям к интернет-поиску. Поэтому при серьезном подходе к поиску неизбежно приходится задействовать разные инструменты, используя каждый в наиболее подходящем случае.

Доступных средств поиска немало. Их можно объединить в несколько групп, каждая из которых обладает определенными достоинствами и недостатками. Главы нашей книги посвящены основным группам современных поисковых интернет-систем.

Глава 1, «Универсальные интернет-поисковики», посвящена крупным универсальным системам поиска информации в Сети. Основной акцент делается на их наиболее современных инструментах, которые обычно выпадают из поля зрения широкой публики. Обзор возможностей известных машин дает нам своеобразную точку отсчета и позволяет четко представить сферу применения альтернативных поисковых решений.

Глава 2, «Вертикальный поиск», рассказывает о системах, специализирующихся на определенных тематических областях или же определенных видах контента.

В главе 3, «Метапоиск», рассмотрены метапоисковые системы, способные отправить запрос одновременно на несколько интернет-поисковиков, а затем собрать и обработать полученные результаты в едином интерфейсе.

Глава 4, «Семантические и визуальные интернет-поисковики», представляет собой обзор экспериментальных систем, предлагающих оригинальные пользовательские интерфейсы, а также интересные подходы к обработке запросов.

В главе 5, «Рекомендательные машины», рассказывается о недавно появившихся поисковых сервисах, по-английски метко названных «Discovery Engines», то есть «машины открытий». С их помощью можно обрабатывать ряд запросов, которые «не по зубам» другим видам интернет-поисковиков.

Если вам не подходит ни один готовый продукт, вы можете создать собственный интернет-поисковик. Созданию таких персональных машин посвящена глава 6, «Персональные поисковики».

Несколько глав нашей книги посвящены поиску различных видов сетевого контента. В главе 7, «Поиск изображений», рассказывается о современных тенденциях интернет-поиска изображений, а также о возможностях соответствующих экспериментальных систем. Глава 8, «Поиск видео», предлагает обзор средств видеопоиска ведущих универсальных интернет-поисковиков, а также лучших специализированных систем этого направления.

Глава 9, «Поиск «скрытого» контента», является обзором систем, позволяющих вести поиск контента, который «не видят» универсальные поисковики. К такому «скрытому» контенту относятся, например, торренты или файлы, размещенные на FTP-серверах и файловых хостингах.

Глава 10, «Поиск для Web 3.0», рассказывает о средствах интернет-поиска данных в форматах «семантического веба».

Поиск не заканчивается простым получением результатов с того или иного поисковика. Инструментам обработки и сохранения результатов посвящена последняя глава нашей книги – глава 11, «Программы-помощники».

Прежде чем начинать рассказ о конкретных продуктах, имеет смысл разобраться с классификацией современных средств интернет-поиска, а также определиться с терминами, которые постоянно встречаются на страницах нашей книги.

Основные средства интернет-поиска можно разделить на следующие основные группы:

Поисковые машины;

Веб-каталоги;

Справочные ресурсы;

Локальные программы для поиска в интернете.

Наиболее популярным средством поиска являются поисковые машины – так называемые интернет-поисковики (Search Engines). Тройка лидеров в общемировом масштабе достаточно стабильна – это Google, Yahoo! и Bing. Во многих странах к этому перечню добавляются собственные локальные поисковики, оптимизированные для работы с местным контентом. С их помощью теоретически можно найти любое конкретное слово на страницах многих миллионов сайтов.

Несмотря на многие различия, все интернет-поисковики работают по схожим принципам и с технической точки зрения состоят из похожих подсистем.

Первая структурная часть поисковика – специальные программы, применяемые для автоматического поиска и последующего индексирования веб-страниц. Такие программы обычно называют пауками, или ботами. Они просматривают код веб-страниц, находят расположенные на них ссылки и тем самым обнаруживают новые веб-страницы. Есть и альтернативный способ включения сайта в индекс. Многие поисковики предлагают владельцам ресурсов возможность самостоятельно добавить сайт в свою базу. Как бы то ни было, затем веб-страницы скачиваются, анализируются и индексируются. В них выделяются структурные элементы, находятся ключевые слова, определяются их связи с остальными сайтами и веб-страницами. Производятся и другие операции, результатом выполнения которых становится формирование индексной базы поисковика. Эта база – второй главный элемент любого поисковика. Сейчас не существует какой-либо одной абсолютно полной индексной базы, которая содержала бы сведения обо всем контенте интернета. Поскольку разные поисковики используют разные программы поиска веб-страниц и строят свой индекс с помощью разных алгоритмов, индексные базы поисковиков могут существенно различаться. Некоторые сайты оказываются проиндексированными несколькими поисковиками, однако всегда остается определенный процент ресурсов, включенных в базу только какого-либо одного поисковика. Наличие у каждого поисковика такой оригинальной и непересекающейся части индекса позволяет сделать важное практическое заключение: если вы пользуетесь только одним поисковиком, пусть даже самым крупным, вы обязательно потеряете некоторый процент полезных ссылок.

Н айти нужную и актуальную информацию в Интернете порой очень непросто. Количество информационного мусора в Сети растет как снежный ком, и добраться до данных, которые вам действительно необходимы, используя традиционные Яндекс и Google, иногда просто невозможно. Книга, которую вы держите в руках, позволит увеличить эффективность вашего поиска информации в Интернете во много раз. Здесь описаны приемы, поисковые сайты и программы для специализированного поиска информации. Рассмотрены современные разновидности интернет-поиска: универсальный поиск, вертикальный поиск, метапоисковые системы, построение персональных поисковиков, поиск аудиовизуального контента, поиск по скрытому Интернету. Для всех рассмотренных систем приведены их характеристика и советы по максимально эффективному использованию.

Введение

Интернет-поиск – важный элемент работы в Сети. Точное количество веб-ресурсов современного интернета вряд ли кому-либо точно известно. В любом случае, счет идет на миллиарды. Для того чтобы можно было использовать информацию, необходимую в данный конкретный момент, не важно, в рабочих или развлекательных целях, сначала нужно ее найти в этом постоянно пополняемом океане ресурсов. Это совсем не простая задача, поскольку информация в современной Сети не структурирована, что создает проблемы ее нахождения. Не случайно своеобразными «окнами» в это информационное пространство стали именно интернет-поисковики.

Вряд ли среди интернет-пользователей найдутся люди, никогда не использовавшие крупные универсальные поисковые машины. Названия Google, Яндекс и пары-тройки других больших машин на слуху у всех. Они замечательно справляются с повседневными задачами интернет-поиска, и зачастую пользователи даже не пытаются искать им замену. В то же время количество поисковых интернет-машин в наше время исчисляется тысячами. Причины такого разнообразия альтернативных машин имеют различные корни. Одни проекты пытаются напрямую конкурировать с лидерами глобального рынка за счет тщательной работы с национальными интернет-ресурсами. Другие предлагают возможности составления запроса, отсутствующие у известных поисковиков. Значительное количество альтернативных машин специализируются на поиске по определенной тематической области или определенному типу контента, достигая в решении этих задач впечатляющих результатов. Как бы то ни было, включение таких поисковиков в собственный пользовательский арсенал средств интернет-поиска может заметно повысить его качество. Здесь, правда, существует один нюанс: надо знать о таких машинах и уметь пользоваться их возможностями.

Предполагаем, что читатели данной книги уже достаточно хорошо знакомы с техникой поиска с помощью универсальных поисковиков. Хорошо настолько, что почувствовали ограничения, связанные с их применением. Скорее всего, такие люди уже пробовали искать и применять те или иные дополнительные инструменты. Печатное слово не обходит стороной тему интернет-поиска: и статьи периодически появляются, и книги выходят. Вот только герои у них, как правило, одни и те же – несколько ведущих универсальных поисковиков. Наша книга отличается тем, что в ней делается попытка охватить весь спектр современных поисковых решений. Здесь вы найдете описания и рекомендации по использованию лучших современных сервисов, ориентированных на решение наиболее распространенных поисковых задач. Эта книга для людей, много работающих в интернете и использующих Сеть для поиска нужной информации – будь то бизнес, учеба или хобби.

Для того чтобы интернет-поиск был успешным, должны быть выполнены два условия: запросы должны быть хорошо сформулированы и задавать их нужно в подходящих местах. Другими словами, от пользователя требуется, с одной стороны, умение переводить свои поисковые интересы на язык поискового запроса, а с другой – хорошее знание поисковых систем, доступных инструментов поиска, их достоинств и недостатков, что позволит выбирать в каждом конкретном случае наиболее подходящие средства поиска.

В настоящее время не существует какого-либо одного ресурса, удовлетворяющего всем требованиям к интернет-поиску. Поэтому при серьезном подходе к поиску неизбежно приходится задействовать разные инструменты, используя каждый в наиболее подходящем случае.

Глава 1

Универсальные интернет-поисковики

Универсальные интернет-поисковики – это основное и наиболее известное средство интернет-поиска. Такие поисковики обеспечивают максимальный охват различных ресурсов. Именно к универсальному типу относятся крупнейшие и наиболее популярные поисковые машины. Это действительно мощные решения с большим количеством возможностей и инструментов, о которых зачастую не знают многие пользователи. Понимание особенностей и возможностей универсального поиска позволяет узнать сильные и слабые стороны таких систем и осознанно выбирать максимально эффективные инструменты поиска.

Рынок универсальных поисковиков достаточно велик. В этой главе мы рассмотрим только наиболее мощные машины, способные достойно работать с запросами на русском языке. Открывают главу рассказы о лидерах русского поиска – системах Google.ru и Яндекс. О каждом из этих поисковиков написаны книги и масса статей. Мы сосредоточимся на основных характеристиках, имеющих значение для конечного пользователя, а также попытаемся определить их сильные стороны.

Компанию им составляет новая поисковая разработка корпорации Microsoft – система Bing, которая пока заметно обделена вниманием, а также полезный и достаточно мощный поисковик Exalead, преимуществом которого является хорошая поддержка поиска в европейских интернет-ресурсах. Данная система – пока редкий гость в поисковом арсенале наших пользователей, поэтому она рассматривается подробнее остальных.

В этой главе при обзоре систем Google и Яндекс мы сосредоточимся только на возможностях веб-поиска, а поиск в специализированных базах этих проектов рассматривается в следующих главах, посвященных поиску изображений и видео. Для других универсальных поисковиков сведения о мультимедиа-поиске приводятся сразу же при знакомстве с ними.

Поскольку три из четырех героев этой главы имеют зарубежное происхождение, сразу отметим, что мы анализируем возможности только их русских версий. Дело в том, что некоторые функции зарубежных систем, особенно экспериментальные, зачастую доступны только в оригинальных, как правило, англоязычных версиях сервисов.

Google

Поисковик Google заслуженно считается мировым лидером современного интернет-поиска. Основанная в 1998 году компания Google по сей день остается среди ведущих законодателей мод в сфере интернет-поиска и веб-сервисов.

Разработчики Google всегда отличались повышенным вниманием к совершенствованию алгоритмов своего поисковика, а также разумным консерватизмом в области пользовательского интерфейса. Возможности составления запроса на Google можно назвать классическими, да и способы отображения результатов поиска также стали своеобразным стандартом. В последнее время разработчики Google предприняли серьезные изменения в этих областях – слишком уж старомодно стал смотреться крупнейший поисковик на фоне молодых конкурентов.

Google обладает одной из крупнейших в мире индексных баз, что обеспечивает широкий охват источников информации. Индексная информация Google сведена в несколько вертикальных баз. Кроме наиболее известной базы «Веб», это несколько мультимедиа-баз («Картинки», «Видео»), работающих с источниками актуальной информации и сообщениями на RSS-лентах база «Новости», а также индексирующая сетевые дневники база «Блоги». Кроме того, Google предлагает широкий выбор дополнительных ресурсов, среди которых стоит отметить картографический сервис, каталог сайтов, службу вопросов и ответов. Эти ресурсы также можно рассматривать как инструменты поиска.

В базе «Веб» для составления запроса Google предлагает режимы простого и расширенного поиска. В режиме простого поиска из дополнительных инструментов доступна только виртуальная клавиатура. Расширенный поиск предлагает больше возможностей. Поскольку форма расширенного поиска доступна практически во всех поисковых продуктах Google, остановимся на ней подробнее (рис. 1.1).

Яндекс

Официально представленный широкой публике в 1997 году поисковик Яндекс успешно развивался и через десять лет впервые попал в число десяти крупнейших поисковых машин мира. В русском сегменте интернета он добился лидирующих позиций, которые пока не собирается уступать, несмотря на возрастающую конкуренцию. Отличительными чертами Яндекса с начала его существования стали собственные оригинальные алгоритмы определения релевантности результатов поиска, гибкие инструменты работы с текстом запросов и учет особенностей морфологии русского языка при их обработке.

Яндекс опирается на собственные индексные базы. Кроме поиска по веб-документам система предлагает неплохой выбор специализированных ресурсов и дополнительных сервисов. Яндекс в настоящее время работает с изображениями, видео, новостями, блогами и словарями. Мощные поисковые возможности заложены также в собственном картографическом сервисе и в системе поиска товаров. Кроме того, Яндекс ведет собственный каталог веб-сайтов. Сильной стороной Яндекса является развитая программа локального поиска, что особенно актуально для наших пользователей. Яндекс предоставляет возможность доступа к своим базам сторонним разработчикам. Как следствие, немало русских проектов альтернативного интернет-поиска так или иначе используют ресурсы Яндекса. Кроме обычной системы поиска предлагается и сокращенный вариант Яндекса, доступный по адресу ya.ru. Интерфейс этой версии состоит только из поля ввода запроса и кнопки начала поиска.

Поиск в веб-документах предлагает режимы простого и расширенного поиска. Простой поиск не предоставляет каких-либо фильтров, что компенсируется возможностью автоматического разбора запросов на естественном языке, уверенной обработкой относительно длинных запросов, а также системой автоматического дополнения запроса. Максимальная длина запроса – сорок слов.

Форма расширенного поиска для составления запроса предлагает только одно поле. Логические операторы, связывающие слова запроса, предлагается вводить вручную, благо. Яндекс располагает достаточно подробным языком запросов. Остальные инструменты формы расширенного поиска – это различные фильтры (1.4).

Bing

Историю интернет-поиска от Microsoft простой не назовешь. На последовательно предлагаемых публике сервисах неоднократно менялись алгоритмы, используемые базы данных и, конечно же, названия. До начала 2000-х поисковик не располагал собственными базами и работал с внешними индексами от AltaVista, Inktomi и Looksmart. Первоначальное имя MSN Search использовалось до 2006 года, а затем на несколько лет изменение названий поисковика стало для Microsoft традицией.

Вместе с окончательным переходом на поиск в собственных индексныхMSN Search была переименована сначала в Windows LiveLive Search. Наконец, в начале лета 2009 на смену Live Search пришел новый поисковый проект Bing.

«Bing позволит иначе взглянуть на поиск информации в интернете и поможет пользователям в принятии важных решений», – именно таким заявлением начинался пресс-релиз Microsoft, посвященный запуску Bing. Стремления разработчиков были понятны: поисковики от Microsoft, несмотря на все старания, на Западе стабильно уступали по популярности лидерам – Google и Yahoo!. Если же говорить о русскоязычных версиях предыдущих поисковых проектов Microsoft, то по количеству и качеству находимых ссылок они намного уступали крупным российским поисковикам. В попытке догнать конкурентов разработчики Bing сделали ставку на улучшение качества поиска и внедрение новых технологий, многие из которых были приобретены вместе с создавшими их фирмами.

Необходимо заметить, что русскоязычная версия Bing, как и большинство других локализованных версий, лишена ряда дополнительных функций, например поиска по магазинам. Поскольку они, по сути, работают только в Северной. Америке, подробно останавливаться на них смысла нет.

Exalead

Одной из особенностей Европы, в том числе и в сфере интернет-поиска, является большое количество национальных языков. Поисковик, претендующий на место ведущего в Европе, просто обязан хорошо индексировать национальные сегменты интернета и качественно обрабатывать запросы на многочисленных европейских языках – как крупнейших, так и менее распространенных. Именно в данной области европейская разработка может получить серьезное конкурентное преимущество по сравнению с мощными заокеанскими конкурентами. На роль такого европейского поисковика в настоящее время всерьез претендует система Exalead. Данный проект был разработан в рамках исследовательской программы Quaere, финансируемой Евросоюзом.

Exalead располагает собственными индексными базами. Основные поисковые ресурсы системы – это базы веб-документов, изображений, видео и новостей. Стартовая страница Exalead предлагает возможность персональной настройки. На этой странице можно разместить ссылки на свои любимые сайты – они будут отображаться в виде графических миниатюр-скриншотов. Правда, для этого придется бесплатно зарегистрировать аккаунт, а также разрешить браузеру хранить куки-файлы Exalead.

Веб-поиск Exalead предлагает режимы простого и расширенного поиска. Форма расширенного поиска, как и в Bing, открывается прямо на странице выдачи Отметим, что Exalead предлагает не просто привычную форму с набором дополнительных полей, а сложное выпадающее меню, которое играет роль мастера по уточнению запроса (рис. 1.7). При выборе того или иного пункта в меню мастера в строку запроса добавляются новые элементы, а при необходимости операторы и спецсимволы.

Что это

DuckDuckGo - это довольно известная поисковая система с открытым исходным кодом. Серверы находятся в США. Кроме собственного робота, поисковик использует результаты других источников: Yahoo, Bing, «Википедии».

Чем лучше

DuckDuckGo позиционирует себя как поиск, обеспечивающий максимальную приватность и конфиденциальность. Система не собирает никаких данных о пользователе, не хранит логи (нет истории поиска), использование файлов cookie максимально ограничено.

DuckDuckGo не собирает личную информацию пользователей и не делится ею. Это наша политика конфиденциальности.

Гэбриел Вайнберг (Gabriel Weinberg), основатель DuckDuckGo

Зачем это вам

Все крупные поисковые системы стараются персонализировать поисковую выдачу на основе данных о человеке перед монитором. Этот феномен получил название «пузырь фильтров»: пользователь видит только те результаты, которые согласуются с его предпочтениями или которые система сочтёт таковыми.

Формирует объективную картину, не зависящую от вашего прошлого поведения в Сети, и избавляет от тематической рекламы Google и «Яндекса», основанной на ваших запросах. При помощи DuckDuckGo легко искать информацию на иностранных языках, тогда как Google и «Яндекс» по умолчанию отдают предпочтение русскоязычным сайтам, даже если запрос введён на другом языке.


Что это

not Evil - система, осуществляющая поиск по анонимной сети Tor. Для использования нужно зайти в эту сеть, например запустив специализированный .

not Evil не единственный поисковик в своём роде. Есть LOOK (поиск по умолчанию в Tor-браузере, доступен из обычного интернета) или TORCH (один из самых старых поисковиков в Tor-сети) и другие. Мы остановились на not Evil из-за недвусмысленного намёка на Google (достаточно посмотреть на стартовую страницу).

Чем лучше

Ищет там, куда Google, «Яндексу» и другим поисковикам вход закрыт в принципе.

Зачем это вам

В сети Tor много ресурсов, которые невозможно встретить в законопослушном интернете. И их число будет расти по мере того, как ужесточается контроль властей над содержанием Сети. Tor - это своеобразная сеть внутри Сети со своими социалками, торрент-трекерами, СМИ, торговыми площадками, блогами, библиотеками и так далее.

3. YaCy

Что это

YaCy - децентрализованная поисковая система, работающая по принципу сетей P2P. Каждый компьютер, на котором установлен основной программный модуль, сканирует интернет самостоятельно, то есть является аналогом поискового робота. Полученные результаты собираются в общую базу, которую используют все участники YaCy.

Чем лучше

Здесь сложно говорить, лучше это или хуже, так как YaCy - это совершенно иной подход к организации поиска. Отсутствие единого сервера и компании-владельца делает результаты полностью независимыми от чьих-то предпочтений. Автономность каждого узла исключает цензуру. YaCy способен вести поиск в глубоком вебе и неиндексируемых сетях общего пользования.

Зачем это вам

Если вы сторонник открытого ПО и свободного интернета, не подверженного влиянию государственных органов и крупных корпораций, то YaCy - это ваш выбор. Также с его помощью можно организовать поиск внутри корпоративной или другой автономной сети. И пусть пока в быту YaCy не слишком полезен, он является достойной альтернативой Google с точки зрения процесса поиска.

4. Pipl

Что это

Pipl - система, предназначенная для поиска информации о конкретном человеке.

Чем лучше

Авторы Pipl утверждают, что их специализированные алгоритмы ищут эффективнее, чем «обычные» поисковики. В частности, приоритетными являются профили социальных сетей, комментарии, списки участников и различные базы данных, где публикуются сведения о людях, например базы судебных решений. Лидерство Pipl в этой области подтверждено оценками Lifehacker.com, TechCrunch и других изданий.

Зачем это вам

Если вам нужно найти информацию о человеке, проживающем в США, то Pipl будет намного эффективнее Google. Базы данных российских судов, видимо, недоступны для поисковика. Поэтому с гражданами России он справляется не так хорошо.

Что это

FindSounds - ещё один специализированный поисковик. Ищет в открытых источниках различные звуки: дом, природа, машины, люди и так далее. Сервис не поддерживает запросы на русском языке, но есть внушительный список русскоязычных тегов, по которым можно выполнять поиск.

Чем лучше

В выдаче только звуки и ничего лишнего. В настройках можно выставить желаемый формат и качество звучания. Все найденные звуки доступны для скачивания. Имеется поиск по образцу.

Зачем это вам

Если вам нужно быстро найти звук мушкетного выстрела, удары дятла-сосуна или крик Гомера Симпсона, то этот сервис для вас. И это мы выбрали только из доступных русскоязычных запросов. На английском языке спектр ещё шире.

Если серьёзно, специализированный сервис предполагает специализированную аудиторию. Но вдруг и вам пригодится?

Что это

Wolfram|Alpha - вычислительно-поисковая система. Вместо ссылок на статьи, содержащие ключевые слова, она выдаёт готовый ответ на запрос пользователя. Например, если ввести в форму поиска «сравнить население Нью-Йорка и Сан-Франциско» на английском, то Wolfram|Alpha сразу выведет на экран таблицы и графики со сравнением.

Чем лучше

Этот сервис лучше других подходит для поиска фактов и вычисления данных. Wolfram|Alpha накапливает и систематизирует доступные в Сети знания из различных областей, включая науку, культуру и развлечения. Если в этой базе находится готовый ответ на поисковый запрос, система показывает его, если нет - вычисляет и выводит результат. При этом пользователь видит только и ничего лишнего.

Зачем это вам

Если вы, например, студент, аналитик, журналист или научный сотрудник, то можете использовать Wolfram|Alpha для поиска и вычисления данных, связанных с вашей деятельностью. Сервис понимает не все запросы, но постоянно развивается и становится умнее.

Что это

Метапоисковик Dogpile выводит комбинированный список результатов из поисковых выдач Google, Yahoo и других популярных систем.

Чем лучше

Во-первых, Dogpile отображает меньше рекламы. Во-вторых, сервис использует особый алгоритм, чтобы находить и показывать лучшие результаты из разных поисковиков. Как утверждают разработчики Dogpile, их системы формирует самую полную выдачу во всём интернете.

Зачем это вам

Если вы не можете найти информацию в Google или другом стандартном поисковике, поищите её сразу в нескольких поисковиках с помощью Dogpile.

Что это

BoardReader - система для текстового поиска по форумам, сервисам вопросов и ответов и другим сообществам.

Чем лучше

Сервис позволяет сузить поле поиска до социальных площадок. Благодаря специальным фильтрам вы можете быстро находить посты и комментарии, которые соответствуют вашим критериям: языку, дате публикации и названию сайта.

Зачем это вам

BoardReader может пригодиться пиарщикам и другим специалистам в области медиа, которых интересует мнение массовой по тем или иным вопросам.

В заключение

Жизнь альтернативных поисковиков часто бывает скоротечной. О долгосрочных перспективах подобных проектов Лайфхакер спросил бывшего генерального директора украинского филиала компании «Яндекс» Сергея Петренко .


Сергей Петренко

Бывший генеральный директор «Яндекс.Украины».

Что касается судьбы альтернативных поисковиков, то она проста: быть очень нишевыми проектами с небольшой аудиторией, следовательно без ясных коммерческих перспектив или, наоборот, с полной ясностью их отсутствия.

Если посмотреть на примеры в статье, то видно, что такие поисковики либо специализируются в узкой, но востребованной нише, которая, возможно только пока, не выросла настолько, чтобы оказаться заметной на радарах Google или «Яндекса», либо тестируют оригинальную гипотезу в ранжировании, которая пока не применима в обычном поиске.

Например, если поиск по Tor вдруг окажется востребованным, то есть результаты оттуда понадобятся хотя бы проценту аудитории Google, то, конечно, обычные поисковики начнут решать проблему, как их найти и показать пользователю. Если поведение аудитории покажет, что заметной доле пользователей в заметном количестве запросов более релевантными кажутся результаты, данные без учёта факторов, зависящих от пользователя, то «Яндекс» или Google начнут давать такие результаты.

«Быть лучше» в контексте этой статьи не означает «быть лучше во всём». Да, во многих аспектах нашим героям далеко до и «Яндекса» (даже до Bing далековато). Но зато каждый из этих сервисов даёт пользователю нечто такое, чего не могут предложить гиганты поисковой индустрии. Наверняка вы тоже знаете подобные проекты. Поделитесь с нами - обсудим.

Глобальная сеть Интернет к середине 2015 года соединила уже 3,2 млрд пользователей, то есть практически 43,8% населения планеты. Для сравнения: 15 лет назад пользователями Сети было всего 6,5% населения, то есть количество пользователей увеличилось более чем в 6 раз! Но более впечатляют не количественные, а качественные показатели расширения внедрения интернет-технологий в различных областях человеческой деятельности: от глобальных коммуникаций социальных сетей до бытовых интернет-вещей. Мобильный интернет предоставил возможность пользователям находиться он-лайн вне офиса и дома: в дороге, за городом на природе.
В настоящее время существуют сотни систем для поиска информации в Интернет. Наиболее популярные из них доступны для подавляющего большинства пользователей поскольку они бесплатны и просты в эксплуатации: Google, Yandex,Nigma, Yahoo!,Bing..... К услугам более опытных пользователей интерфейсы "расширенного поиска", специализированные поиски "по социальным сетям",по новостным потокам и объявлениям купли-продажи... Но у всех этих замечательных поисковиков есть существенный недостаток, который выше я уже отмечал как достоинство: они бесплатны.
Если инвесторы вкладывают в развитие поисковиков миллиарды долларов, то возникает вполне уместный вопрос: а где же они зарабатывают?
А зарабатывают они в частности на том, что предоставляют на запросы пользователей не столько ту информацию, которая была бы полезна с точки зрения пользователя, а ту которую считают полезной для пользователя владельцы поисковых систем. Осуществляется это путем манипулирования порядком выдачи списков ответов на поисковые запросы пользователей. Здесь и открытая реклама определенных интернет- ресурсов, и скрытая подтасовка релевантности ответов исходя из коммерческих, политических и идеологических интересов владельцев поисковых систем.
Поэтому среди профессиональных специалистов поиска информации в Интернете весьма актуальна проблема пертинентности результатов работы поисковых систем.
Пертине́нтность — это соответствие найденных информационно-поисковой системой документов информационным потребностям пользователя, независимо от того, как полно и как точно эта информационная потребность выражена в самом тексте информационного запроса. Это соотношение объёма полезной информации к общему объёму полученной информации. Грубо говоря, это эффективность поиска.
Специалистам, осуществующим квалифицированный поиск информации в Интернете, требуется прилагать определенные усилия по фильтрации поисковых результатов,отсеивая ненужный информационный "шум". А для этого используются поисковые средства профессионального уровня.
Одна из таких профессиональных систем - российская программа FileForFiles & SiteSputnik (СайтСпутник) .
Разработчик Алексей Мыльников из Волгограда.

"Программа FileForFiles & SiteSputnik (СайтСпутник) предназначена для организации и автоматизации профессионального поиска, сбора и мониторинга информации, размещенной в интернете. Особое внимание уделяется получению поступающей новой информации на интересующие темы. Реализовано несколько функций анализа информации. "


Mониторинг и рубрикация потоков информации


Сначала несколько слов о мониторинге потоков информации , частным случаем которого является мониторинг СМИ и социальных сетей:

  • пользователь указывает Источники, которые могут содержать нужную информацию, и Правила выбора этой информации;

  • программа скачивает свежие ссылки из Источников, освобождает их контент от мусора и повторов и раскладывает по Рубрикам согласно Правилам.

  • Чтобы живьём увидеть простой, но реальный процесс мониторинга, в котором задействованы 6 источников и 4 рубрики:
  • откройте Демоверсию программы ;


  • далее, в появившемся окне, - на кнопку Совместно ;

  • и когда СайтСпутник в реальном масштабе времени выполнит этот Проект, Вы:
    — в списке "Чистый поток" увидите всю новую информацию из Источников,
    — в Рубрике "Пост-запрос" - только удовлетворяющие правилу экономические и финансовые новости,
    — в Рубриках "О президенте", "О премьере" и "Центробанк", - информацию относящуюся к соотвествующим объектам.

  • В реальных Проектах можно задействовать практически любое количество Источников и Рубрик.
    Свои первые рабочие Проекты можно создать за несколько часов, их совершенствование - в процессе эксплуатации.
    Описанная обработка информации доступна в комплектации SiteSputnik Pro+News и выше.

2. Простой и пакетный поиск, сбор информации

Для ознакомления с возможностями SiteSputnik Pro (базового варианта комплектации программы):

  • откройте Демоверсию программы ;

  • введите свой первый запрос, например, своё ФИО, как это сделал я:

    и нажмите на кнопку Поиск .


  • Программа (смотрите табличку, которую построил СайтСпутник) за несколько секунд опросит 7 источников, откроет в них 24 поисковые страницы, найдет 227 релевантные ссылки, уберет повторно встретившиеся ссылки и из оставшихся 156 уникальных ссылок составит список "Объединение" .

    Наименование
    Источника

    Заказано
    страниц

    Скачано
    страниц

    Найдено
    ссылок

    Время
    поиска

    КПД
    поиска

    Ссылки
    Новые

    КПД
    Новые
    Yandex 5 5 50 0:00:05 32% 0 0
    Google 5 5 44 0:00:03 28% 0 0
    Yahoo 5 5 50 0:00:05 32% 0 0
    Rambler 5 4 56 0:00:07 36% 0 0
    MSN (Bing) 5 3 23 0:00:04 15% 0 0
    Yandex.Блоги 5 1 1 0:00:01 1% 0 0
    Google.Блоги 5 1 3 0:00:01 2% 0 0
    Итого: 35 24 227 0:00:26 0 0
    Итого: количество уникальных ссылок - 156 , повторяющихся ссылок - 46 %.

  • (! ) Повторите Ваш запрос через несколько часов или суток, и Вы увидите в отдельном списке только новые ссылки , появившиеся в выдаче Источников за этот промежуток времени. В двух последних столбцах таблички можно будет увидеть сколько новых ссылок принес каждый Источник и его КПД по "новизне". При многократном выполнении запроса список, содержащий только новые ссылки , создается относительно всех предыдущих выполнений этого запроса. Казалось бы, элементарная и нужная функция, но автору не известна ни одна программа, в которой она реализована.

  • (!! ) Описанные возможности поддерживаются не только для отдельных запросов, но и для целых пакетов запросов :

    Пакет, который Вы видите, состоит из семи разных запросов, собирающих информацию о Василие Шукшине из нескольких Источников, среди которых есть поисковики, Википедия, точный поиск в новостях Яндекса, метапоиск и поиск упоминаний на ТВ и радиостанциях. В сценарий ТВ и Радио входят: "Первый канал", "ТВ Россия", НТВ, РБК ТВ, "Эхо Москвы", радиокомпания "Маяк", ... и другие Источники информации. Для каждого Источника прописана своя глубина поиска или просмотра в страницах. Она указана в третьем столбце.

    Пакетный поиск позволяет по одному щелчку мышки осуществлять всесторонний сбор информации на заданную тему.
    Отдельный список новые ссылки , при повторных выполнениях пакета, будет содержать только не найденные ранее ссылки.
    Запоминать что и когда Вы спросили у Интернета и что он Вам ответил не надо - всё автоматически сохраняется в библиотеках и в базах данных программы.
    Повторюсь, что описанные в данном пункте возможности целиком и полностью входят в комплектацию SiteSpunik Pro .


  • Подробнее в инструкции: SiteSputnik Pro для начинающих.

3. Объекты и мониторинг поиска

Довольно часто перед Пользователем возникает следующая задача. Нужно узнать, что есть в интернете о конкретном объекте: человеке или фирме. Например, при приеме на работу нового сотрудника или при появлении нового контрагента Вы всегда знаете ФИО, название фирмы, телефоны, ИНН, ОГРН или ОГРНИП, также можете взять ICQ, Скайп и некоторые другие данные. Далее, используя обращение к специальной функции программы СайтСпутник "Сбор информации об объекте " (комплектация SiteSputnik Pro+Objects ):

Вы вносите те данные, которые Вам известны, и по одному щелчку мышки осуществляете точный и полный поиск ссылок, содержащих заданную информацию. Поиск выполняется сразу на нескольких поисковиках, сразу по всем реквизитам, сразу по нескольким возможным комбинациям записи реквизитов: вспомните как по-разному можно записать номер телефона. Через определенный промежуток времени Вы, не выполняя скучной рутинной работы, получите список ссылок, очищенный от повторов и, главное, упорядоченный по релевантности для искомого объекта. Релевантность (значимость) достигается за счет того, что первыми в выдаче СайтСпутника будут идти те ссылки, на которых находится большее количество заданных Вами реквизитов, а не те, которые продвинули вверх выдачи поисковиков Веб-мастера.

Важно .
Программа СайтСпутник умеет лучше других программ добывать реальную , а не официальную информацию об Объекте. Например, в официальной базе данных сотового оператора может быть записано, что телефон принадлежит Василию Терехину, а реально на этом телефоне "висит" информация о том, что Александр продавал автомобиль Форд Фокус в 2013 году, что является дополнительной информацией к размышлению.

Мониторинг поиска .
Под мониторингом поиска понимается следующее. Если требуется отслеживать появление новых ссылок , по заданному объекту или произвольному пакету запросов, то Вам достаточно периодически повторять соответствующий ему поиск. Также как и для простого запроса, программа СайтСпутник создаст список "Новые", в который поместит только те ссылки, которые не были найдены ни в одном из предыдущих поисков.

Мониторинг поиска интересен не только сам по себе. Он может быть задействован в мониторинге СМИ, соцсетей и других новостных источников, который упоминался выше в пункте 1. В отличие от других программ, в которых возможно снятие новой информации только из RSS-потоков, в программе СайтСпутник можно использовать для этого встроенные в сайты поиски и поисковики . Также возможна эмуляция (самостоятельное создание) нескольких RSS-потоков с произвольных страниц, более того, эмуляция RSS-потока по запросу и даже пакету запросов.


  • Чтобы получить максимум пользы от программы, задействуйте её основные функции, а именно:

    • пакеты запросов, пакеты с параметрами, используйте Ассемблер (сборщик), операцию "Аналитическое объединение" результатов работы нескольких заданий, при необходимости, примените базовые функции поиска в невидимом интернете;

    • подключите к встроенным в программу источникам информации свои источники: другие поисковики и встроенные в сайты поиски, существующие RSS-потоки, созданные Вами собственные RSS-потоки с произвольных страниц, примените функцию поиска новых источников;

    • используйте возможности следующих видов мониторинга : СМИ, соцсетей и других источников, мониторинга комментариев к новостям и сообщениям, отслеживайте появление новой информации на уже существующих страницах;

    • задействуйте Рубрики , Внешние функции, Планировщик задач, рассылку, несколько компьютеров, Инструктор Проектов, установите сигнализацию для оповещения о наступлении значимых событий, примените другие перечисленные ниже функции.



4. Программа SiteSputnik (СайтСпутник): варианты комплектации и функции

- Программа SiteSputnik постоянно совершенствуется в направлении: "Мне нужно найти всё и с гарантией" .
"Программа для допроса интернета" , - ещё одно определение Пользователя для назначения программы.

А. Функции поиска и сбора информации.

. Пакет запросов - выполнение сразу нескольких запросов с объединением результатов поиска или раздельно. При формировании объединенного результата повторно найденные ссылки удаляются. Подробнее о пакетах - во введении в SiteSputnik , наглядно - на видео: совместное и раздельное выполнение запросов. Нет аналогов в отечественных и зарубежных разработках.

. Пакеты с параметрами . Любые запросы и пакеты запросов, предназначенные для решения стандартных поисковых задач, например, поиск по телефону, ФИО или e-mail, - могут быть параметризованы, сохранены и выполнены из библиотеки готовых запросов с подстановкой фактических (нужных) значений параметров. Каждый пакет с параметрами - это собственная специальная расширенная форма поиска . В ней можно задействовать не один, а несколько поисковиков. Можно создать очень сложные по своему функциональному назначению формы. Чрезвычайно важно, что формы могут быть созданы самими пользователями, без участия автора программы или программиста. Предельно просто об этом написано в инструкции , подробнее в отдельной публикации о параметризации поиска и на форуме , наглядно на видео: поиск сразу по всем вариантам записи номера мобильного телефона и по нескольким вариантам записи адреса электронной почты . Нет аналогов.

. Ассемблер NEW - сборка поискового задания из нескольких готовых: запросов, пакетов запросов и пакетов с параметрами. Пакеты могут в своем тексте содержать другие пакеты. Глубина вложенности пакетов неограничена. Можно составить несколько поисковых заданий, например, о нескольких юридических и физических лицах, и выполнить эти задания одновременно. Подробнее на форуме и в отдельной публикации об Ассемблере , наглядно на видео . Нет аналогов.

. Метапоиск - выполнение конкретного запроса одновременно на на заданную "глубину" поиска для каждого из них. Возможен метапоиск по встроенным поисковикам, к которым относятся Яндекс, Рамблер, Google, Yahoo, MSN (Bing), Mail, блоги Яндекса и Google, и по подключенным средствам поиска. Работа с несколькими поисковиками выглядит так, как будто Вы работаете с одним поисковиком . Повторно найденные ссылки удаляются. Наглядно метапоиск по трем подключенным социальным сетям: VKontakte, Twitter и Youtube, - показан на видео .

. Метапоиск по сайту - объединение поиска по сайту в Google, Yahoo, Яндексе, MSN (Bing). Наглядно на видео .

. Метапоиск в офисных документах - объединение поиска в файлах формата PDF, XLS, DOC, RTF, PPT, FLASH в Google, Yahoo, Яндексе, MSN (Bing). Можно выбрать любую комбинацию форматов файлов .

. Метапоиск кэш-копий ссылок в Яндексе, Google, Yahoo, MSN (Bing). Составляется список, в каждом пункте которого собраны все сниппеты , найденные для каждой ссылки каждым поисковиком. Нет аналогов.

. Глубокий поиск для Яндекса, Google и Рамблера позволяет объединить в один список все ссылки из обычного поиска и все ссылки, соответственно, из списков "Еще с сайта", "Дополнительные результаты с сайта" и "Искать на сайте (Всего...)". Подробнее о глубоком поиске на форуме . Нет аналогов.

. Точный и полный поиск . Под этим понимается следующее. С одной стороны, каждый запрос может быть выполнен на том и только на том источнике, на языке запросов которого он написан. Это точный поиск . C другой стороны, таких запросов и источников может быть произвольное количество. Это обеспечивает полный поиск . Подробнее в отдельной публикации о процедурном поиске . Нет аналогов.

. Поиск в невидимом интернете .

    Он включает в себя следующие базовые функции:

    Специальный пакет запросов, который может быть усовершенствован Пользователем,
    - поиск невидимых ссылок при помощи спайдера (паука),
    - поиск невидимых ссылок в окрестности видимой ссылки или папки по "образу и подобию",
    - специальные поиски папок открытых,
    - поиск невидимых ссылок и папок со стандартными именами с использованием специальных словарей,
    - применение собственных встроенных в сайты поисков.

    Подробнее в отдельной публикации по SiteSputnik Invisible. Базовые функции "хорошо известны в узких кругах", но способ их применения аналогов не имеет. Суть этого способа заключается в построении видимой из интернета карты сайта (другими словами, материализации видимого интернета), и уже только на базе видимых ссылок и относительно них поиск невидимых ссылок. Поиска и без того видимых ссылок "невидимыми" методами не осуществляется.

Б. Функции мониторинга информации.

. Мониторинг на предмет появления в интернете новых ссылок по заданной теме. Мониторить появление новых ссылок можно при помощи целых пакетов запросов , в которых задействованы любые упомянутые выше методы поиска, а не отдельные первые страницы поисковиков. Реализовано объединение и пересечение новых ссылок из нескольких отдельных поисков. Подробнее в публикации о мониторинге (см. § 1) и на фо руме . Нет аналогов.

. Коллективная обработка информации . Создание корпоративной или профессиональной сети для коллективного сбора, мониторинга и анализа информации. Участниками и создателями такой сети являются сотрудники корпорации, члены профессионального сообщества или группы по интересам. Географическое расположение участников не имеет значение. Подробнее в отдельной публикации об организации сети коллективного сбора, мониторинга и анализа информации .

. Мониторинг ссылок (веб-страниц) на предмет обнаружения изменений в их содержании (контенте). Бета версия. Найденные изменения выделяются цветом и специальными знаками. Подробнее в отдельной публикации о мониторинге (см. § 2 и 3).

В. Функции анализа информации.

. Рубрикация материалов уже описывалась выше. Подробнее - в отдельной публикации о Рубриках . Правила попадания в Рубрики позволяют указывать ключевые слова и расстояние между ними, задавать логические "И", "ИЛИ" и "НЕ", применять многоуровневую скобочную структуру и словари (файлы-вставки), к которым можно применять логические операции.

. ВФ-технология - практически произвольное расширение возможности рубрикации материалов посредством реализации внешних функций , которые органически встраиваются в Правила попадания в Рубрики и могут быть реализованы программистом самостоятельно без участия автора программы.

. Численный анализ заполняемости Рубрик, установка сигнализации и оповещение о наступлении значимых событий посредством выделения цветом Рубрик и/или отправки по e-mail отчета о срабатывании сигнализации.

. Фактическая релевантность. Существует возможность упорядочить ссылки в порядке близком со значимостью этих ссылок по отношению к решаемой задаче, обойдя уловки веб-мастеров, применяющих различные способы повышения рейтинга сайтов в поисковиках. Это достигается на основе анализа результатов выполнения нескольких "разноплановых" запросов на заданную тему. Вычисляются, в прямом смысле этого слова, ссылки, содержащие максимум искомой информации . Подробнее в описании способа поиска оптимального поставщика и на форуме . Нет аналогов.

. Вычисление связей объектов - поиск ссылок, ресурсов (площадок), папок и доменов, на которых одновременно упоминаются объекты. Наиболее распространенные объекты - это люди и фирмы. Для поиска связей могут быть задействованы все упомянутые на этой странице средства программы SiteSputnik , что значительно повышает эффективность проделанной Вами работы. Операция выполняется над любым количеством объектов. Подробнее во введении в программу , а также в описании новой функции "объекты и их связи ". Нет аналогов.

. Формирование, объединение и пересечение потоков информации на самые различные темы, сопоставление потоков. Подробнее в отдельной публикации о потоках .

. Построение веб-карт сайтов, ресурсов, папок и искомых объектов на основе найденных в интернете при помощи Google, Yahoo, Яндекса, MSN (Bing) и Altavista ссылок, принадлежащих сайту. Специалисты могут узнать: не видно ли "лишней" информации из интернета на их сайтах, а также исследовать на этот предмет сайты конкурентов. Веб-карта сайта - это материализация видимого интернета . Подробнее в отдельной публикации о построении веб-карт , наглядно на видео . Нет аналогов.

. Поиск новых источников информации на заданную тему, которые затем можно применить для отслеживания появления новой нужной информации. Подробнее на .

Г. Сервисные функции.

. Планировщик задач (Scheduler) обеспечивает работу по расписанию: выполняет в заданное время заданные функции программы. Подробнее в отдельной публикации о Планировщике .

. Инструктор Проектов NEW - это помощник при создании и сопровождении Проектов по поиску, сбору, мониторингу и анализу информации (рубрикации и сигнализации). Подробнее на форуме .

. Автоматическая архивация. В базах данных автоматически запоминаются все результаты Вашей работы, а именно: запросы, пакеты запросов, протоколы поиска и мониторинга, любые другие вышеперечисленные функции и результаты их выполнения. Можно структурировать работу по темам и подтемам.

. База данных включает сортировки, простой поиск и произвольный поиск по SQL-запросу. Для последнего имеется мастер составления SQL-запросов. Используя эти средства, можно найти и ознакомиться с той работой, которую Вы делали вчера, в прошлом месяце, год назад, определить в качестве критерия поиска тему или задать другой критерий поиска по содержанию базы данных.

. Технические ограничения поисковиков. Некоторые ограничения, связанные, например, с длиной строки запроса, могут быть преодолены. Обеспечивается выполнение не одного, а нескольких запросов с объединением результатов поиска или раздельно. О способе преодоления нарушения закона аддитивности для основных поисковиков можно прочитать . Для одного слова или одной фразы, взятой в кавычки, реализован поиск в поисковиках с учетом регистра, в частности, поиск по аббревиатуре .

Встроенный браузер . Навигатор по страницам. Многоцветный маркер для выделения ключевых и произвольных слов. Билистинг и N-листинг из сформированных документов.

. Выгрузка новостных лент в табличное представление , ориентированное на импорт в Excel, MySQL, Access, Кронос и другие Приложения.


5. Установка и запуск Программы, требования к компьютеру.

Для установки и запуска программы:

  • Скачайте файл , скопируйте из него папку FileForFiles на свой жесткий диск, например, на D:\ ;

  • Демонстрационный вариант программы проинсталлируется и откроется.

  • Программа будет работать на любом компьютере, на котором установлен Windows любой версии.