Website Geotargeting (russian)
Click here to load reader
-
Upload
ivan-begtin -
Category
Technology
-
view
1.157 -
download
2
description
Transcript of Website Geotargeting (russian)
Автоматическая геоклассификация вебсайтов
Иван БегтинDPLabs
Зачем это нужно?Области применения
Области применения
1. Региональный поиск
2. Обогащение интернет каталогов
3. Дополнительные данные для других алгоритмов классификации*
* Например, при выявлении SEO ссылок или определения геопривязки email адресов.
Основы
геоклассификацииТермины и онтология
Основы геоклассификации
1. Геометки - тематическая привязка сайта к определенному географическому положению
2. Геосправочники – справочники и классификаторы для выявления геометок
3. Геопризнаки – информационные объекты связанные с веб-сайтом содержащие информацию о его географическом положении
Виды геометок
1. Местонахождение - где находится домен/ IP адрес хостинга
2. Владение - где находится владелец
3. Аудитория – откуда приходят посетители, какие посетители привлекаются
4. Тематика – какой теме посвящен веб-сайт
Местонахождение
Как используется
• Отвечает на вопрос: Где расположенсайт?
• Определяется по принадлежности домена и IP адреса хостинга
Ограничения
• Не применимо к бесплатным хостингам
• Не применимо к сайтам скрытым за CDN
Владение
Как используется
• Отвечает на вопрос: Где находится владелец сайта?
• Определяется по контактным данным владельца:
– в WHOIS
– на страницах веб-сайта
Ограничения
• WHOIS данные недоступны для большинства доменов 3-го уровня
• Контактные данные неизвлекаемы для сайтов на Flash и публикующими контакты в виде изображений
Аудитория
Как используется
• Отвечает на вопрос: Где находятся посетители сайта?
• Определяется по :
– по геопривязке IP адресов посетителей сайта
– по регистрационным данным в онлайн каталогах
– по языку веб сайта (в случае национальных языков РФ)
Ограничения
• Требуется доступ к счетчикам сайта с геопривязкой – GA, LI.ru
• Небольшое число сайтов в онлайн каталогах
Тематика
Как используется
• Отвечает на вопрос: О чем написано на веб сайте?
• Определяется по ключевым словам в тексте страниц сайта
Ограничения
• Значительная ресурсоѐмкость если не ограничивать число проверяемых страниц
• Разные типы сайтов могут иметь более одной геопривязки
Подготовка к
классификацииРабота со справочниками
Справочники и классификаторы
• База LIRов (IPGeobase)
• База почтовых индексов РФ
• Телефонные коды городов (ABC коды)
• Телефонные коды сотовых операторов (DEF коды)
• Справочник СОУН (база налоговых органов)
• База юридических лиц РФ
• База кредитных учреждений РФ
• База ключевых слов/фраз/регулярных выражений геотематики
• Классификация доменов– По географическим доменам
– По ключевым словам в названиях
– По типовым шаблонам в названиях доменов
• множество других…
Нормализация справочников
• Нормализация справочников проводится для сайтов относящихся только к Рунету
• Все справочнику приводятся к единому рубрикатору на базе КЛАДР
• Обязательный уровень детализации – субъект РФ
• Допустимый уровень детализации –муниципальные образования и города регионального значения
ГеопризнакиРабота со справочниками
Виды геопризнаков
• Адреса, включая почтовые индексы
• Телефонные номера – городские и мобильные
• Ключевые слова в тексте
• Аббревиатуры и сокращения
• Коды ИНН, КПП, ОГРН
• Коды расчетных счетов + БИК
КлассификацияРабота со справочниками
Текущий статус
• Алгоритм создан в 2008 году Иваном Бегтиным в рамках DPLabs в рамках исследований по географической и тематической классификации сайтов
• Классифицировано около 20 000 сайтов
• Ведется работа по построению онтологии геоклассификации
Как это работает
1. Веб-сайт анализируется на наличие различных геопризнаков на его страницах и связанных с ним информационных объектах: WHOIS домена, IP адресах
2. Геопризнаки согласно специальным правилам проверяются по справочникам и приводятся к геометкам
3. Правила обладают приязкой к месту нахождения геометки и объекту, а также имеют разный вес.
4. Результат состоит из двух отчетов:
– детальный отчет со всеми правилами и метками
– суммарный отчет по совокупности числа правил и меток учитывая их вес