Website Geotargeting (russian)

19

Click here to load reader

description

Автоматическая Геоклассификация веб сайтов.Иван Бегтин

Transcript of Website Geotargeting (russian)

Page 1: Website Geotargeting (russian)

Автоматическая геоклассификация вебсайтов

Иван БегтинDPLabs

Page 2: Website Geotargeting (russian)

Зачем это нужно?Области применения

Page 3: Website Geotargeting (russian)

Области применения

1. Региональный поиск

2. Обогащение интернет каталогов

3. Дополнительные данные для других алгоритмов классификации*

* Например, при выявлении SEO ссылок или определения геопривязки email адресов.

Page 4: Website Geotargeting (russian)

Основы

геоклассификацииТермины и онтология

Page 5: Website Geotargeting (russian)

Основы геоклассификации

1. Геометки - тематическая привязка сайта к определенному географическому положению

2. Геосправочники – справочники и классификаторы для выявления геометок

3. Геопризнаки – информационные объекты связанные с веб-сайтом содержащие информацию о его географическом положении

Page 6: Website Geotargeting (russian)

Виды геометок

1. Местонахождение - где находится домен/ IP адрес хостинга

2. Владение - где находится владелец

3. Аудитория – откуда приходят посетители, какие посетители привлекаются

4. Тематика – какой теме посвящен веб-сайт

Page 7: Website Geotargeting (russian)

Местонахождение

Как используется

• Отвечает на вопрос: Где расположенсайт?

• Определяется по принадлежности домена и IP адреса хостинга

Ограничения

• Не применимо к бесплатным хостингам

• Не применимо к сайтам скрытым за CDN

Page 8: Website Geotargeting (russian)

Владение

Как используется

• Отвечает на вопрос: Где находится владелец сайта?

• Определяется по контактным данным владельца:

– в WHOIS

– на страницах веб-сайта

Ограничения

• WHOIS данные недоступны для большинства доменов 3-го уровня

• Контактные данные неизвлекаемы для сайтов на Flash и публикующими контакты в виде изображений

Page 9: Website Geotargeting (russian)

Аудитория

Как используется

• Отвечает на вопрос: Где находятся посетители сайта?

• Определяется по :

– по геопривязке IP адресов посетителей сайта

– по регистрационным данным в онлайн каталогах

– по языку веб сайта (в случае национальных языков РФ)

Ограничения

• Требуется доступ к счетчикам сайта с геопривязкой – GA, LI.ru

• Небольшое число сайтов в онлайн каталогах

Page 10: Website Geotargeting (russian)

Тематика

Как используется

• Отвечает на вопрос: О чем написано на веб сайте?

• Определяется по ключевым словам в тексте страниц сайта

Ограничения

• Значительная ресурсоѐмкость если не ограничивать число проверяемых страниц

• Разные типы сайтов могут иметь более одной геопривязки

Page 11: Website Geotargeting (russian)

Подготовка к

классификацииРабота со справочниками

Page 12: Website Geotargeting (russian)

Справочники и классификаторы

• База LIRов (IPGeobase)

• База почтовых индексов РФ

• Телефонные коды городов (ABC коды)

• Телефонные коды сотовых операторов (DEF коды)

• Справочник СОУН (база налоговых органов)

• База юридических лиц РФ

• База кредитных учреждений РФ

• База ключевых слов/фраз/регулярных выражений геотематики

• Классификация доменов– По географическим доменам

– По ключевым словам в названиях

– По типовым шаблонам в названиях доменов

• множество других…

Page 13: Website Geotargeting (russian)

Нормализация справочников

• Нормализация справочников проводится для сайтов относящихся только к Рунету

• Все справочнику приводятся к единому рубрикатору на базе КЛАДР

• Обязательный уровень детализации – субъект РФ

• Допустимый уровень детализации –муниципальные образования и города регионального значения

Page 14: Website Geotargeting (russian)

ГеопризнакиРабота со справочниками

Page 15: Website Geotargeting (russian)

Виды геопризнаков

• Адреса, включая почтовые индексы

• Телефонные номера – городские и мобильные

• Ключевые слова в тексте

• Аббревиатуры и сокращения

• Коды ИНН, КПП, ОГРН

• Коды расчетных счетов + БИК

Page 16: Website Geotargeting (russian)

КлассификацияРабота со справочниками

Page 17: Website Geotargeting (russian)

Текущий статус

• Алгоритм создан в 2008 году Иваном Бегтиным в рамках DPLabs в рамках исследований по географической и тематической классификации сайтов

• Классифицировано около 20 000 сайтов

• Ведется работа по построению онтологии геоклассификации

Page 18: Website Geotargeting (russian)

Как это работает

1. Веб-сайт анализируется на наличие различных геопризнаков на его страницах и связанных с ним информационных объектах: WHOIS домена, IP адресах

2. Геопризнаки согласно специальным правилам проверяются по справочникам и приводятся к геометкам

3. Правила обладают приязкой к месту нахождения геометки и объекту, а также имеют разный вес.

4. Результат состоит из двух отчетов:

– детальный отчет со всеми правилами и метками

– суммарный отчет по совокупности числа правил и меток учитывая их вес

Page 19: Website Geotargeting (russian)

Вопросы?

Иван Бегтин

Email: [email protected]

Сайт: http://ivan.begtin.name