ALEXIS ANDRÉS AGUILERAALEXIS ANDRÉS …media.utp.edu.co/.../capacitacionbuscadores.pdf · iif ió...

47
ALEXIS ANDRÉS AGUILERA ALEXIS ANDRÉS AGUILERA UNIVERSIDAD TECNOLÓGICA DE PEREIRA PEREIRA OCTUBRE 16 DE 2009 PEREIRA, OCTUBRE 16 DE 2009

Transcript of ALEXIS ANDRÉS AGUILERAALEXIS ANDRÉS …media.utp.edu.co/.../capacitacionbuscadores.pdf · iif ió...

ALEXIS ANDRÉS AGUILERAALEXIS ANDRÉS AGUILERA

UNIVERSIDAD TECNOLÓGICA DE PEREIRA

PEREIRA OCTUBRE 16 DE 2009PEREIRA, OCTUBRE 16 DE 2009

Los motores de búsqueda son los más importantes sistemas de información documental de nuestro tiempo. Forman parte del paisaje de Internet de una manera quedel paisaje de Internet de una manera que parece definitiva. Nadie imagina hoy la posibilidad de explotar la inmensa riqueza de p p qla Web sin el auxilio de los motores de búsqueda cuyas funciones no han dejado ni d t i d i t bide aumentar ni de experimentar cambios desde su temprana aparición en los años 90.

Luego de conocer conceptualmente la consulta de i f ió b d b dinformación en buscadores y metabuscadores es necesario tener una orientación sobre qué tipo de fuentes de información utilizar de acuerdo con los objetivos de factores críticos de vigilancia definidos en el inicio del proceso.

Es necesario definir el procedimiento para obtener la información que responda a los objetivos de vigilancia de manera constante y periódica aplicando alguna de las siguientes herramientas:

Un servicio de alertaUn software de monitorización de páginas webU d bú dUn agente de búsquedaUn buscador, multibuscador, metabuscador, buscador de noticias buscador de weblogsbuscador de noticias, buscador de weblogsUn procedimiento de minería de datosUna base de datos bibliográficaUna base de datos bibliográficaUna base de datos de patentesAlgunas base de datos de la web invisibleAlgunas base de datos de la web invisible

◦ Bases de datos bibliográficas de artículos de prensa especializadaespecializada◦ Noticias de prensa accesibles por medio de

buscadores de noticiasP ibl di d◦ Patentes y normas accesibles por medio de buscadores o bases de datos de patentes◦ Bases de datos y sedes web de empresasy p◦ Estadísticas◦ Blogs accesibles por medio de buscadores de blogs

Actas de congresos jornadas o conferencias◦ Actas de congresos, jornadas o conferencias◦ Listas de distribución

Las fuentes de información informales, como conversaciones, entrevistas, focus group o encuestas, con clientes, proveedores, competidores empleados socios ocompetidores, empleados, socios o inversores son una fuente de información muy importante:y p

◦ Es necesario formalizarlas, escribirlas o grabarlas i i dcuanto antes para evitar que se pierdan.

◦ Sirve para validar la recopilación de datos o informaciones secundarias

ATENCIÓN:Ú Ó◦ LA BÚSQUEDA DE INFORMACIÓN EN VIGILANCIA

TECNOLÓGICA IMPLICA…

◦ REALIZAR PRIMERO LA BÚSQUEDA DE INFORMACIÓN SECUNDARIALOS VACIOS DE INFORMACIÓN QUE SE PRESENTEN◦ LOS VACIOS DE INFORMACIÓN QUE SE PRESENTEN EN LA BÚSQUEDA DE FUENTES SECUNDARIAS, SE DEBERÁN TRABAJAR CON FUENTES PRIMARIAS.

SIRVE PARA VALIDAR LO ENCONTRADOSIRVE PARA LEVANTAMIENTO DE INFORMACIÓN

FACTOR CRÍTICOS DE FUENTE DE Ó

HERRAMIENTAS DE VIGILANCIA INFORMACIÓN CONSULTA

¿Qué productos y serviciosofrecen nuestroscompetidores?

Sede wed de la empresacompetidora

monitor de cambios, agenteagregador

Qué novedades hay enrelación al PageRank deGoogle?.

weblogs especializados minería de datos

Google?.

¿Qué enlaces entrantestienen nuestroscompetidores?

buscadores Buscadores

competidores?¿Qué nuevas tecnologías seestán desarrollando enbiotecnología?

Patentes base de datos de patentes

Existen en la red una multitud de servicios, programas informáticos y servicios web que pueden ser usados para buscar la información necesaria para el seguimiento deinformación necesaria para el seguimiento de los Factores Críticos de Vigilancia (FCV) en el contexto de un proceso de Vigilancia p gTecnológica.

El motor de búsqueda es un sistema que automáticamente explora la web , en una base de datos, consultable por los usuarios, y que ofrece resultados a las solicitudesque ofrece resultados a las solicitudesrealizadas, mediante un buscador, ordenadoscon base en unos criterios subjetivos en el jque e tienen en cuenta diferentes variables.

“formación por competencias” + Sena and “técnica y tecnológica”

Pero…. ofrece búsquedas avanzadas, filtros y profundizacionesprofundizaciones.

Google NO es la única forma de recuperar información en InternetHay otras tipologías de herramientas para la recuperación de informaciónrecuperación de informaciónY pueden ser más útiles, en función de nuestras necesidades específicasnuestras necesidades específicas

Consideraciones

◦ Son bases de datos de paginas websRobots para ir de enlace en enlace indexando◦ Robots para ir de enlace en enlace, indexando nuevas páginas◦ No llegan a toda la red◦ www.altavista.com◦ www.google.com◦ www yahoo com◦ www.yahoo.com

Google no diferencia mayúsculas de minúsculas, nitiene en cuenta los tíldes y por defecto buscatiene en cuenta los tíldes y por defecto buscapáginas en las que las palabras aparezcan encualquier parte del textoF t “ ill ” b l i diFrases entre “comillas”, para buscar lo que indicande forma literalPara relacionar dos palabras o frases se utiliza elsigno +Booleanos AND / OR. Por defecto utiliza ANDimplícito Podemos utilizar OR entre palabras paraimplícito. Podemos utilizar OR entre palabras, paraque nos busque una u otra.Paréntesis . Futbol (millonarios or santa fé)

Negación. Introducimos signo -, para indicarque una palabra o frase no aparezca en elresultadoIntitle: Restringe la búsqueda al título (intitle:Intitle: Restringe la búsqueda al título (intitle:armeria) Allintitle: Encuentra páginas en las cualesAllintitle: Encuentra páginas en las cualestodas las palabras especificadas seencuentran en el título (allintitle: animación3D)

Intext: Busca en el texto, no en los títulos,enlaces, urlInurl: Restringe la búsqueda a la direcciónwebwebAllinurl: Busca todas las palabras de laconsulta en las urlconsulta en las urlInanchor: Busca el texto en la descripción delas páginasp gAllinanchor: Busca todas las palabras de laconsulta en las descripciones de las páginas

Site: restringe la búsqueda a un sitio web o aun dominio de máximo nivelLink: Devuelve una lista de páginas queenlazan con la url especificadaenlazan con la url especificadaCache: Encuentra una copia de la página en lacaché de Googlecaché de GoogleFiletype: Restrige la búsqueda al tipo dearchivo especificado (armeria filetype:pdf)p ( yp p )

Aplicaciones web ique permiten

buscar en varios buscadores albuscadores al mismo tiempoLanzan la búsqueda qsobre diversos motores de bú dbúsquedaEliminan duplicados

25

M t C l htt // t l◦ MetaCrawler http://www.metacrawler.com◦ Dogpile http://www.dogpile.com◦ Clusty http://www.clusty.com (clúster de y p // y (

resultados)◦ Iboogie http://www.iboogie.com◦ KartOO http://www kartoo com (mapas temáticos)◦ KartOO http://www.kartoo.com (mapas temáticos)◦ Grokker http://www.grokker.com◦ Metasearch www.metasearch.com

Ventajas1. Ofrecen (en teoría) un abanico más amplio

de res ltadosde resultados2. Permiten una gran parametrización de los

resultados de búsqueda (elige buscadoresresultados de búsqueda (elige buscadores, criterios de ordenación de resultados)

27

InconvenientesS á l l b d1. Son más lentos que los buscadores, ya que deben conectarse a varias bases de datos

2 Podemos obtener resultados duplicados o2. Podemos obtener resultados duplicados o redundantes

3. Cada buscador dispone de su propia i i d bú dsintaxis de búsqueda

28

Lanzan la búsqueda sobre diversos motores de búsquedaNo eliminan duplicados

◦ Metasearch www.metasearch.com

Scirus http://www scirus comScirus http://www.scirus.comGoogle Schoolar http://scholar.google.esA9 http://a9 comA9 http://a9.comCiteSeer http://citeseer.ist.psu.eduSciencedirect www sciencedirect comSciencedirect www.sciencedirect.com

Páginas Amarillashttp://www.paginas-amarillas.com El corredor http://www.elcorredor.comEl corredor http://www.elcorredor.comEmpresas en suraméricahttp://www.aladi.org/nsfaladi/entidEmp.nsf/wentidProexport Colombia phttp://weblocal.proexport.com.co/directorios/empresascolombianasconsultaexterna/buscar.aspEmpresas mundiales htt // b i l /di t i /http://www.businesscol.com/directorio/http://colombia.acambiode.comhttp://www.alibaba.comwww kompass comwww.kompass.comGoogle products www.google.com/productsMapas de comercio www.trademap.org

Paginas que contienen información resumida, cronológica de un sector, con anotaciones a las noticias.

Technorati http://www.technorati.comGoogle blogs http://blogsearch google comGoogle blogs http://blogsearch.google.com

Espacenet http://es.espacenet.comEspacenet http://es.espacenet.comOficina Americana de Patentes y Marcas http://www.uspto.gov/patft/index.htmlGoogle Patent Search http://www.google.com/advanced_patent_se

harchPatent Scope http://www.wipo.int/pctdb/en/Free patent www freepatentsonline comFree patent. www.freepatentsonline.com

Son sitios no indexados por los motores.I f ió l lid dInformación con alta calidad.Bases de datos especializadas

◦ Complete Planet http://completeplanet.com◦ Direct Search http://www.freepint.com/gary/direct.htm◦ Search Engine Guide http://www.searchengineguide.comSearch Engine Guide http://www.searchengineguide.com◦ Internetinvisible http://www.internetinvisible.com◦ www.invisibleweb.net◦ www.thebighub.comwww.thebighub.com◦ www.findarticles.com◦ Beta.profusion.com

Automatización de tareasBú d iBúsqueda en varios motoresMuchos gratuitos, los mejores son de pago

◦ MySpiders http://myspiders.informatics.indiana.edu◦ iteseer http://citeseer.ist.psu.edu◦ Copernic AgentCopernic Agent

http://www.copernic.com/en/products/agent/index.html

◦ Agentland http://www.agentland.comg p g◦ BotSpot http://www.botspot.com◦ Infonauta http://www.infonauta.net

Un agente es una entidad autónoma capaz de l i i t b í ialmacenar conocimiento sobre sí misma y

sobre su entorno, con unos objetivos y capacidad (Lara y Martínez-Usero, 2004)p ( y , )Características básicas: Autonomía e InteroperabilidadL t i t li t it t lLos agentes inteligentes permiten rastrear la web, encontrar cambios en páginas web predeterminadas y recuperar los resultados p y pde una búsqueda predefinida, incluso en la web invisible

41

Yahoo Alerts http://alerts.yahoo.comGoogle Alerts http://www.google.com/alertsCrawler Alert http://www.crawler-alert.netGoogleAlert http://www.googlealert.com

Tipo de sitio web queTipo de sitio web que contiene un conjunto de enlaces organizados a otros sitios web bajo unasitios web, bajo una estructura jerárquicaMuy comunes en los comienzos de Internet

• Un directorio es un conjunto dedirecciones web estructuradas.direcciones web estructuradas.Precisa de la intervenciónhumanaExisten multitud de directorios• Existen multitud de directorioslocales, regionales, nacionalesy mundiales

44

• Yahoo, Google, Dmoz,Cámaras de comercio, Ya,

El presente documento sólo puede ser utilizado, difundido o reproducido por autorización expresa y escrita del autorautorización expresa y escrita del autor.