Автоматическая геоклассификация вебсайтов
Иван БегтинDPLabs
Зачем это нужно?Области применения
Области применения
1. Региональный поиск
2. Обогащение интернет каталогов
3. Дополнительные данные для других алгоритмов классификации*
* Например, при выявлении SEO ссылок или определения геопривязки email адресов.
Основы
геоклассификацииТермины и онтология
Основы геоклассификации
1. Геометки - тематическая привязка сайта к определенному географическому положению
2. Геосправочники – справочники и классификаторы для выявления геометок
3. Геопризнаки – информационные объекты связанные с веб-сайтом содержащие информацию о его географическом положении
Виды геометок
1. Местонахождение - где находится домен/ IP адрес хостинга
2. Владение - где находится владелец
3. Аудитория – откуда приходят посетители, какие посетители привлекаются
4. Тематика – какой теме посвящен веб-сайт
Местонахождение
Как используется
• Отвечает на вопрос: Где расположенсайт?
• Определяется по принадлежности домена и IP адреса хостинга
Ограничения
• Не применимо к бесплатным хостингам
• Не применимо к сайтам скрытым за CDN
Владение
Как используется
• Отвечает на вопрос: Где находится владелец сайта?
• Определяется по контактным данным владельца:
– в WHOIS
– на страницах веб-сайта
Ограничения
• WHOIS данные недоступны для большинства доменов 3-го уровня
• Контактные данные неизвлекаемы для сайтов на Flash и публикующими контакты в виде изображений
Аудитория
Как используется
• Отвечает на вопрос: Где находятся посетители сайта?
• Определяется по :
– по геопривязке IP адресов посетителей сайта
– по регистрационным данным в онлайн каталогах
– по языку веб сайта (в случае национальных языков РФ)
Ограничения
• Требуется доступ к счетчикам сайта с геопривязкой – GA, LI.ru
• Небольшое число сайтов в онлайн каталогах
Тематика
Как используется
• Отвечает на вопрос: О чем написано на веб сайте?
• Определяется по ключевым словам в тексте страниц сайта
Ограничения
• Значительная ресурсоѐмкость если не ограничивать число проверяемых страниц
• Разные типы сайтов могут иметь более одной геопривязки
Подготовка к
классификацииРабота со справочниками
Справочники и классификаторы
• База LIRов (IPGeobase)
• База почтовых индексов РФ
• Телефонные коды городов (ABC коды)
• Телефонные коды сотовых операторов (DEF коды)
• Справочник СОУН (база налоговых органов)
• База юридических лиц РФ
• База кредитных учреждений РФ
• База ключевых слов/фраз/регулярных выражений геотематики
• Классификация доменов– По географическим доменам
– По ключевым словам в названиях
– По типовым шаблонам в названиях доменов
• множество других…
Нормализация справочников
• Нормализация справочников проводится для сайтов относящихся только к Рунету
• Все справочнику приводятся к единому рубрикатору на базе КЛАДР
• Обязательный уровень детализации – субъект РФ
• Допустимый уровень детализации –муниципальные образования и города регионального значения
ГеопризнакиРабота со справочниками
Виды геопризнаков
• Адреса, включая почтовые индексы
• Телефонные номера – городские и мобильные
• Ключевые слова в тексте
• Аббревиатуры и сокращения
• Коды ИНН, КПП, ОГРН
• Коды расчетных счетов + БИК
КлассификацияРабота со справочниками
Текущий статус
• Алгоритм создан в 2008 году Иваном Бегтиным в рамках DPLabs в рамках исследований по географической и тематической классификации сайтов
• Классифицировано около 20 000 сайтов
• Ведется работа по построению онтологии геоклассификации
Как это работает
1. Веб-сайт анализируется на наличие различных геопризнаков на его страницах и связанных с ним информационных объектах: WHOIS домена, IP адресах
2. Геопризнаки согласно специальным правилам проверяются по справочникам и приводятся к геометкам
3. Правила обладают приязкой к месту нахождения геометки и объекту, а также имеют разный вес.
4. Результат состоит из двух отчетов:
– детальный отчет со всеми правилами и метками
– суммарный отчет по совокупности числа правил и меток учитывая их вес
Top Related