Специальный Синтаксис Google
Самое то, для создания запросов для парсинга
Специальный Синтаксис Google
В дополнение к основному and и or Google предлагает некоторый довольно обширный специальный синтаксис для того, чтобы сузить Ваши поиски. Как полно-текстовая поисковая машина, индексы Google индексирует все веб-страницы вместе с всеми описаниями этих страниц. Дополнительные команды, названные специальным синтаксисом, или передовыми операторами, позволяют пользователям Google искать определенные части веб-страниц для определенных типов информации. Это пригождается, когда Вы имеете дело с больше чем восьмью миллиардами веб-страниц и нуждаетесь в каждой возможности сузить Ваши результаты поиска. Определение, что Ваши слова вопроса должны появиться только в названии или URL возвращенной веб-страницы, является отличным способом определить Ваши результаты, не делая Ваши ключевые слова слишком определенными. Опишем какие специальные элементы синтаксиса есть у Google.
Некоторые из этих элементов синтаксиса работают хорошо в комбинации. Другие не работаю в комбинации вовсе. Для детального обсуждения этих вопросов смотрите раздел Смешанный синтаксис.
intitle:
intitle: ограничивает Ваш поиск названиями веб-страниц. Как вариант
allintitle: находит страницы, в которых все указанные слова появляются в названии веб-страницы. Используя allintitle: в основном то же самое как использование intitle: перед каждым ключевым словом:
intitle:»george bush»
allintitle:»money supply» economics
allintitle: не очень удобен так как его невозможно использовать в смешанном синтаксисе.
intext:
intext: ищет только в теле текста (то есть игнорирует ссылки, линки и заголовки). В то время как его использование ограничено, но очень хорошо подходит для того, чтобы найти слова вопроса, которые могли быть слишком распространены в URL:
intext:»yahoo.com»
intext:html
Как вариант allintext:, который также не работает в смешанном случае.
inanchor:
inanchor: поиски текста в якорях связи страницы. Якорь связи – описательный текст связи. Например, якорь связи в ссылке HTML СМИ O’Reilly является «СМИ O’Reilly.»
inanchor:»tom peters»
Как и другие элементы с синтаксисом in*: существует также и allinanchor: вариация, не работающая в смешанном режиме.
site: позволяет Вам сужать свой поиск именем сайта или верхним доменом. У поисковой машины AltaVista, в отличие от Google, есть два элемента синтаксиса для этой функции (хост: и домен:), но у Google есть только этот:
site:loc.gov
site:thomas.loc.gov
site:edu
site:nc.us
Знайте что site: бесполезен для того, чтобы искать страницу, которая существует ниже главной страницы сайта или сайта по умолчанию (то есть, в подразделе такой как / ~sam/album/). Например, если Вы ищете что-то ниже главного страницы сайта GeoCities, Вы не можете использовать site: , чтобы найти все страницы в http://www.geocities.com/Heartland/Meadows/6485/; Google не возвращает результатов. Использование inurl: вместо этого для нормального вывода результатов.
inurl: ограничивает Ваш поиск URL веб-страниц. Этот синтаксис обычно работает хорошо на обнаружение страниц поиска и помощи, потому что они имеют тенденцию быть регулярными в составе сайта. allinurl: находит все слова перечисленными в URL, но не смешивается с другими словами синтаксиса.
inurl:help
allinurl:search help
Вы можете видеть, что использование inurl: запроса вместо site: имеет одно непосредственное преимущество: Вы можете использовать этот запрос, чтобы искать подразделы и подстраницы.
В то время как http://префикс в URL игнорируется Google когда используется с site: результов получается мало, когда оно включено в inurl: запрос. Убедитесь, что удалили префиксы в любом inurl: запросе для лучшей выдачи результатов.
link:
возвращает список страниц, которые ссылаются на указанный URL. Наберите link:www.google.com, и Вы получите список страниц, которые связываются с домашней страницей Google. Не волнуйте по поводу ввода префикса http://; Вы не нуждаетесь в нем и, похоже что Google игнорирует его. link: работает точно также с «глубокими» URL такими как http://www.raelity.org/apps/blosxom.
cache:
находит копию страницы, которую вносили в указатель Google, даже если эта страница больше не доступна по своему оригинальному URL или с тех пор изменила свое содержание полностью:
cache:www.yahoo.com
Если Google возвращает результат, который, кажется, имеет мало общего с Вашим вопросом, но Вы почти уверены найти то, что Вы ищете в последней кешированной странице.
filetype:
ищет расширения имени файла или суффиксы, различные типы файла; filetype:htm и filetype:html дадут Вам различное количество результатов, даже при том, что они являются тем же самым типом файла. Вы можете даже искать различные страницы как ASP, PHP, CGI, и таким образом сайт не скрывает их от пользователя. Индексы Google нескольких различных форматов Microsoft, включая PowerPoint (.ppt), Excel (.xls), и Word (.doc):
homeschooling filetype:pdf
«leading economic indicators» filetype:ppt
related:
related: предоставляет находить страницы, которые связаны с указанной страницей. Это – хороший способ найти категории страниц; например, поиск related:google.com возвращает множество поисковых машин, включая Lycos, Yahoo!, и Northern Light:
related:www.yahoo.com
related:www.cnn.com
Также можно определить страницы, которые не связаны с другими страницами.
info:
info: выводит страницу связей и большее количество информации об указанном URL. Эта информация включает связь с кэшем URL, список страниц, которые связываются с URL, страницы, которые связаны с URL, и страницами, которые содержат URL:
info:www.oreilly.com
info:www.nytimes.com/technology
Отметьте, что эта информация зависит от того, проиндексировал ли Google указанный URL; в противном случае информация будет намного более ограничена.
phonebook:
phonebook: как Вы могли бы ожидать, ищет телефонные номера:
например phonebook: John Doe CA
phonebook: (510) 555-1212
define:
define: дает Вам страницу, полную определений слова со всей Сети:
define:paradigm
Google часто показывает связанные фразы в дополнение к определениям и URL, где определения были найдены.
movie:
Используйте movie: синтаксис, чтобы найти обзоры кинофильмов в Сети, например:
movie:matrix
Вы можете также использовать почтовый индекс или город и ввести комбинацию, чтобы найти местные театральные списки:
movie:97333
movie:corvallis
music:
music: явные поиски связанной с музыкой информации:
music:pink floyd
Вам даст страницу, которая разделить результаты на соответствие музыкантам, альбомам и текстам и Вы можете исследовать любую из этих областей подробно.
Без рубрики, О поисковиках, Поисковое продвижение, особенности продвижения