LA DEEP WEB

25
UNIVERSIDAD PERUANA LOS ANDES FACULTAD DE INGENIERÍA ESCUELA PROFESIONAL DE INGENIERÍA DE SISTEMAS Y COMPUTACIÓN NIVEL ACADÉMICO : PRIMER CICLO ASIGNATURA : TECNOLOGÍAS DE LA INFORMACIÓN Y COMUNICACIÓN CATEDRATICO : MG. WAGNER VICENTE RAMOS ESTUDIANTES : Hinojosa Laura Mark Antony Caja Ventura Jhon Castillo Gavino Jhonatan HUANCAYO – 2015 DEEP WEB

description

RED PROFUNDA

Transcript of LA DEEP WEB

Page 1: LA DEEP WEB

UNIVERSIDAD PERUANA LOS ANDESFACULTAD DE INGENIERÍA

ESCUELA PROFESIONAL DEINGENIERÍA DE SISTEMAS Y COMPUTACIÓN

NIVEL ACADÉMICO : PRIMER CICLO

ASIGNATURA : TECNOLOGÍAS DE LA INFORMACIÓN Y

COMUNICACIÓN

CATEDRATICO : MG. WAGNER VICENTE RAMOS

ESTUDIANTES :

Hinojosa Laura Mark Antony Caja Ventura Jhon Castillo Gavino Jhonatan

HUANCAYO – 2015

DEEP WEB

Page 2: LA DEEP WEB

ContenidoINTRODUCCIÓN............................................................................................................................................3

DEEP WEB......................................................................................................................................................4

CAPITULO I.....................................................................................................................................................4

FUNDAMENTOS DE LA DEEP WEB......................................................................................................4

1.1. CONCEPTOS............................................................................................................................4

1.2. CARACTERISTICAS......................................................................................................................4

1.3. VENTAJAS......................................................................................................................................5

1.4. DESVENTAJAS..............................................................................................................................5

CAPÍTULO II....................................................................................................................................................7

LA DEEP WEB............................................................................................................................................7

2.1 MITO O REALIDAD..................................................................................................................7

2.2 YA SABEMOS NAVEGAR.......................................................................................................8

2.3 PONER EN MARCHA NUESTRO ANONIMATO.................................................................8

2.4 APLICACIONES DE LA DEEP WEB............................................................................................8

2.5 NO ES SEGURO.............................................................................................................................9

CAPITULO III.................................................................................................................................................10

MÉTODOS DE PROFUNDIZACIÓN......................................................................................................10

4.1 TOR.................................................................................................................................................10

4.2 BITCOIN..........................................................................................................................................11

4.3 WEB CRAWER..............................................................................................................................11

CAPITULO IV................................................................................................................................................12

INFLUENCIA CIBERNÉTICA..................................................................................................................12

4.1 ESPIONAJE.............................................................................................................................................12

4.2 ¿CÓMO ACCEDER A LA DEEP WEB?.......................................................................................................13

Precauciones que se debe tomar :..........................................................................................................13

Navegar sin dejar rastro:.........................................................................................................................14

¿Cómo hacerlo?......................................................................................................................................14

CAPITULO V.................................................................................................................................................14

INTERNET PROFUNDO.........................................................................................................................15

5.1 ORIGEN..........................................................................................................................................15

5.2 TAMAÑO.........................................................................................................................................15

5.3 DENOMINACIÓN...........................................................................................................................16

5.4 RASTREANDO EL INTERNET PROFUNDO............................................................................16

5.5 RECURSOS DEL INTERNET PROFUNDO..............................................................................17

2

Page 3: LA DEEP WEB

INTRODUCCIÓN

Cuando hablamos de la Internet profunda, hablamos a vez de un espacio más libre, más

abierto pero no tan neutral como la Internet comercial que todas conocemos. Dicen las

malas lenguas que en este espacio podremos encontrar sicarios a sueldo, venta directa

de drogas, armas..., todo lo que la común mente podría tachar de deleznable. Aunque la

teoría conspirativa suene a ciencia ficción, hay veces en que las malas lenguas no están

demasiado alejadas de la realidad.

Hoy buscar información en Internet puede llegar a convertirse en una experiencia poco

agradable, puede recuperarse gran cantidad de información irrelevante y no encontrar lo

que necesita. No sólo porque hay que saber cómo utilizar los llamados buscadores o

máquinas de búsquedas tradicionales para obtener el máximo provecho, sino porque

éstos apenas indizan una pequeña parte de todo lo que la red puede ofrecer. Buscar

información utilizando los buscadores tradicionales puede ser comparado con arrastrar

una red en la superficie de un océano. No podrá obtener muchos peces de aguas

profundas.

La empresa BrightPlanet sostiene, merced a un estudio basado en datos recogidos entre

el 13 y el 30 de marzo de 2000, que la disponibilidad de información pública en el llamado

Deep Web o Web Profundo es alrededor de 550 veces mayor que en el Web Superficial

(Surface Web), lo que comúnmente llamamos World Wide Web.

El Web Profundo almacena páginas dinámicas que se obtienen en respuesta a

interrogaciones directas a bases de datos; almacena documentos en formatos específicos

diferentes de HTML, como por ejemplo pdf, doc, software, audio, videos, entre otros. La

mayor parte de esta información no se recupera utilizando los buscadores tradicionales.

3

Page 4: LA DEEP WEB

En este trabajo se pretende dar a conocer qué es el Deep Web o Web Profundo y mostrar

algunas de las herramientas que existen en la actualidad para acceder a la información

que en él se encuentra.

DEEP WEB

CAPITULO I

FUNDAMENTOS DE LA DEEP WEB

1.1. CONCEPTOS

La Deep web o en español internet profunda es una porción presumiblemente muy grande

de la Internet que es difícil de rastrear o ha sido hecha casi imposible de rastrear y

deliberadamente, como lo es el caso del Proyecto Thor, caso en el cuál ha sido hecha de

ésta manera vía usando métodos poco convencionales, cómo con la prosificación con

muchos proxy`s, el no utilizar direcciones de Internet, sino códigos y el utilizar el

pseudodominio de nivel superior unión, la cual fue creada por la Armada de los Estados

Unidos como una prueba y ahora es aprovechada por delincuentes cibernéticos.

1.2. CARACTERISTICAS

a) Posee entre 400 y 500 veces más información que la Web normal

b) Entorno al 95% de la web profunda es de información accesible al público,

es decir, no hay que pagar nada por ella.

c) Hay más de 200 mil millones de sitios web asociados a la Deep Web

4

Page 5: LA DEEP WEB

d) La relación contenido-calidad es de alrededor de un 1000% respecto de la

web superficial.

e) Las páginas funcionan bajo software que protege su identidad, como puede

ser TOR.

1.3. VENTAJAS

El inmenso potencial de las redes y el interés por saber quiénes están detrás del

teclado realizando todo tipo de actividades, ha dado pie a que las personas

protejan su identidad y así, que lleven a cabo al máximo su libertad de expresión

de manera anónima. El anonimato va más allá de "hackear" a usuarios, el

anonimato real permite que las personas se expresen sin riesgos. La Red

Profunda, es una herramienta muy útil para el gobierno ya que sirve para

monitorear crímenes, terrorismo y actividades ilícitas. También, podemos navegar

libremente por ella sin que se guarden los datos de lo que vemos y visitamos.

Existe una gran cantidad de información que sólo lo podemos encontrar en lo

profundo como:

Investigaciones científicas

Libros censurados por el gobierno y libros normales

Directorios

Venta de productos

1.4. DESVENTAJAS

En la Red Profunda hay demasiadas cosas como para contarlas, el contenido de esta

supera por mucho al de la que normalmente conocemos y en ella vas a encontrar desde

lo bueno y útil hasta lo asqueroso y detestable.

5

Page 6: LA DEEP WEB

Lamentablemente, al ser una red muy grande, sin restricciones y anónima, hay una gran

posibilidad de encontrar contenido como:

Pornografía de todo tipo

Imágenes grotescas

Videos de crímenes

Piratería

Contratación de personas para asesinatos

Venta de armas y drogas

Tráfico de órganos

Teniendo en cuenta los aspectos anteriores, podremos hacer un juicio de los peligros y

beneficios que supone la Red Profunda. La decisión es personal y no debemos dejar que

las opiniones de los demás influyan en nuestra decisión. Es cierto que es peligroso pero si

se toman las precauciones necesarias y no se ingresa a archivos desconocidos o de

aspecto peligroso, no se encontrarán contenidos indeseables.

6

Page 7: LA DEEP WEB

CAPÍTULO II

LA DEEP WEB

2.1 MITO O REALIDAD

Lejos de las posibles conspiraciones cibernéticas, centrarnos el artículo en las

posibilidades reales y positivas de la Deep Web. La Deep web o Internet profunda son

redes que escapan a los buscadores más conocidos de la superficie, de ahí su nombre.

Sus páginas, manuales, documentos..., no están indexados y necesitamos usar

programas específicos para poder acceder a ellas. Son las bases de datos no indexadas,

son redes que no quieren mantener comunicación con la Internet común, son las entrañas

de la red, los suburbios. No se trata de un dogma de fe, algo supuesto e intangible; ¡en el

2000 se hablaba de 7.500 Tera Bytes de información! ¿Impresionados? Bien. Pues sabed

que la Universidad de Berkeley, California, estima que actualmente la Internet Profunda

debe tener unos 91.000 Tera Bytes. Tal vez la forma más sencilla, aunque poco original

de explicar este fenómeno, sea el iceberg. Es un excelente símil; claro y conciso.

Se dice que la Deep web no se navega, se bucea, y es común sentirse perdido las

primeras veces; se trata de un ejercicio nuevo en un elemento conocido, y eso genera

cierta confusión y tendencia a abandonar el intento. Los principales problemas con los

que tropezamos son los siguientes:

No sabemos cuáles son los enlaces de interés ni sabemos cómo llegar a ellos.

También es común que al intentar acceder a un servicio de la Deep web, este se

encuentre caído, perdido o muerto.

7

Page 8: LA DEEP WEB

Hay que tener en cuenta que el mantenimiento de estas páginas, foros, chat, servicios.

No es tan habitual como el de una página web comercial, la de un periódico de éxito o la

de un blog conocido en la Internet común, pero como todo en esta vida, no tenemos más

que seguir buscando, curioseando e incluso fisgando para poder encontrar cuales son

esos buenos enlaces.

2.2 YA SABEMOS NAVEGAR

Cuando nos adentramos en los suburbios de nuestras ciudades, acostumbramos a

hacerlo con cautela, paseamos con alguien que conozca el terreno, por ejemplo, o al

menos, buscamos información de primera mano sobre lo que pretendemos explorar. Lo

mismo deberíamos hacer al entrar a la Deep web.

Son muchos los servicios y programas que nos permiten bucear por ella y aunque TOR

es una de los más conocidos y es sobre el que haré hincapié en este artículo, también es

cierto que existen algunos otros y que funcionan igual de bien, o incluso mejor que TOR.

Cabe mencionar también dos grandes redes que aunque menos conocidas son igual de

importantes: Freenet o i2p.

Tenemos que hacer la elección correcta en base a nuestras necesidades ya que todas

han sido desarrolladas con diferentes propósitos. Es común pensar, de hecho así lo hago

yo, que la idea romántica y hacker del anonimato es una de las más importantes

convicciones a la hora de acceder a este tipo de redes.

2.3 PONER EN MARCHA NUESTRO ANONIMATO

La gente que busca preservar el anonimato de su identidad en la red (tanto si es en la

onion web como en la Internet comercial) usa servicios que están en la red TOR. Todas y

cada una de nosotras tenemos la posibilidad de desplegar servicios ocultos en nuestros

servidores con una relativa facilidad. A la hora de instalar un Hidden Service web tenemos

que hacer unas configuraciones muy simples en los ficheros de configuración de TOR.

8

Page 9: LA DEEP WEB

2.4 APLICACIONES DE LA DEEP WEB

La lista de beneficios de usar la red TOR para navegar en internet no es que sea

muy larga, pero las ventajas que obtenemos son importantes. Algunas de las

ventajas obtenidas son las siguientes:

Poder navegar anónimamente en la red. Nuestra identidad estará

completamente oculta. Ni nuestro proveedor de internet podrá saber las

páginas web que hemos visitado.

El tráfico que generamos viajará de forma cifrada. Por lo tanto

la navegación es más segura.

Acceder a la totalidad de contenido ubicado en la llamada Deep web.

Acceder a contenidos web que están bloqueados geográficamente.

2.5 NO ES SEGURO

Aunque los suburbios y el anonimato pueden ser un excelente caldo de cultivo de

acciones deleznables, también se gestionan contracciones por parte de los usuarios de

estos “bajos fondos”.

Así pues, cuando Freedom Hosting permitía que redes de pederastas montaran sus

servicios dentro de sus servidores, Anonymous, al igual que otros muchos, pensó que eso

no se podía permitir y se lanzó uno de los mayores ataques colectivos que se han dado

en la Internet oculta: #opDarknet Dicha acción fue un éxito y cayeron servicios importante

de pederastia como lo fue TORpedo.

Los integrantes de Anonymous lo comunicaron tanto en The house of anonymous como

en la Internet comercial. Con esto no quiero decir que todo lo que se hace en los

suburbios sea bueno o sea malo, quiero decir que el anonimato y sus posibilidades son

una herramienta más, no un modo moderno de ser impune.

9

Page 10: LA DEEP WEB

CAPITULO III

MÉTODOS DE PROFUNDIZACIÓN

4.1 TOR

The Onion Router, en su forma abreviada Tor, es un proyecto cuyo objetivo principal es el

desarrollo de una red de comunicaciones distribuida de baja latencia y superpuesta sobre

internet en la que no se revele la identidad de los usuarios (anonimato a nivel de red)

además de mantener la integridad y el secreto de la información mientras esta viaja a

través de ella. Por este motivo se dice que esta tecnología pertenece a la llamada Deep

web.

El uso de este tipo de herramientas está bastante extendido en las activistas políticas. El

uso de los proxyes camufla tu rastro en Internet y además te permite saltarte algunas de

las restricciones que, como es bien conocido, algunos gobiernos imponen sobre la red y

su uso. TOR permite preservar tu privacidad dentro de las web que visitas, permite ocultar

los destinos en línea de nuestros ISPs y por último y no por ello menos importante nos

permite saltarnos filtros de censura en Internet. Pero es importante saber que TOR fue

diseñado para preservar tu privacidad en una capa de red pero no lo fue para preservarla

en tus comunicaciones en línea. Por lo que no debería ser utilizado para enviar

información a servicios web que usen una canal de comunicación inseguro (http).

10

Page 11: LA DEEP WEB

TOR ofrece un software para conectarnos a los diferentes proxyes de su red. Para ello es

necesario acceder a su web en la Internet comercial y descargarnos el software en forma

de bundle o instalarlo en GNU/Linux usando el gestor de paquetes de nuestra distribución

favorita.

En los dos casos se recomienda la instalación del Vidalia, su panel de administración, así

como Polipo, nuestro propio PROXY. Y en caso de que elijamos la segunda forma de

instalación tendremos que instalar el plugin ProxyFoxy para Firefox, en el primer caso el

navegador en formato de Bundle ya dispone de la gestión de proxy necesaria para red

TOR usando la extensión de Firefox TOR Buttom.

4.2 BITCOIN

Mercados ilegales están alojados en servidores que son exclusivos para usuarios de

TOR. En estos sitios, se pueden encontrar drogas, armas, o incluso asesinos a sueldo. Se

utiliza la moneda digital llamada Bitcoin, que tiene sus orígenes en 2009, pero que se ha

vuelto todo un fenómeno desde 2012, que se intercambia a través de billeteras digitales

entre el usuario y el vendedor, lo que hace que sea prácticamente imposible de rastrear.

Existen muchos mitos acerca de la internet profunda. El internet profundo no es una

región prohibida o mística de internet, y la tecnología relacionada con ella no es malévola.

Ya que en ella también se alberga lo que ahora se conoce como AIW (Academic Invisible

Web: ‘internet académica invisible’ por sus siglas en inglés) y se refiere a todas las bases

de datos que contienen avances tecnológicos, publicaciones científicas, y material

académico en general.

4.3 WEB CRAWER

Cuando se ingresa a un buscador y se realiza una consulta, el buscador no recorre la

totalidad de internet en busca de las posibles respuestas, sino que busca en su propia

base de datos, que ha sido generada e indizada previamente. Se utiliza el término «araña

web» (en inglés web crawler) o robots (por software, comúnmente llamados "bots")

inteligentes que van haciendo búsquedas por enlaces de hipertexto de página en página,

registrando la información ahí disponible.

11

Page 12: LA DEEP WEB

El contenido que existe dentro de la internet profunda es en muy raras ocasiones

mostrado como resultado en los motores de búsqueda, ya que las «arañas» no rastrean

bases de datos ni los extraen. Las arañas no pueden tener acceso a páginas protegidas

con contraseñas, algunos desarrolladores que no desean que sus páginas sean

encontradas insertan etiquetas especiales en el código para evitar que sea indexada. Las

«arañas» son incapaces de mostrar páginas que no estén creadas en lenguaje HTML, ni

tampoco puede leer enlaces que incluyen un signo de interrogación. Pero ahora sitios web

no creados con HTML, o con signos de interrogación están siendo indexados por algunos

motores de búsqueda. Sin embargo, se calcula que incluso con estos buscadores más

avanzados solo se logra alcanzar el 16% de la información disponible en el internet

profunda. Existen diferente técnicas de búsqueda para extraer contenido de la internet

profunda como librerías de bases de datos o simplemente conocer el URL al que quieres

acceder y escribirlo manualmente.

CAPITULO IV

INFLUENCIA CIBERNÉTICA

4.1 ESPIONAJEDesde la existencia del internet como fuente de información pública, esta gigantesca red

mundial nos ha proporcionado el contacto y la comunicación global, pero con el transcurrir

de los años al desarrollarse nuevas tecnologías, el espionaje ha crecido de la mano del

internet, es por esta razón que muchas personas (en especial hackers) se han dedicado a

sacar a la luz información confidencial de los gobiernos (especialmente las potencias

mundiales) como una manera de protesta, con el fin de mostrar la realidad a la gente y de

alguna manera recapacitar sobre los actos que la humanidad desconoce.

Los casos más conocidos que se han suscitado últimamente son:

Julian Assange.- Es el creador y director de la organización Wikileaks, en la que se lo

acusa por haber filtrado y citado en esta página muchos secretos del gobierno, bancos y

empresas de EE.UU, que perjudicaban a los ciudadanos, que buscaban enriquecer más

12

Page 13: LA DEEP WEB

al gobierno mediante la estafa. Él reveló aquella información y por eso que el gobierno lo

busca para su detención inmediata. En la actualidad Julian Assange se encuentra en la

embajada de Ecuador en Londres. Donde el Estado americano no puede hacer nada para

su realizar su detención.

Edward Snowden.- Es un consultor tecnológico, ex informante de la CIA (Central Inteligence Agency) y la NSA (National Security Agency), en el año 2013 Snowden hizo públicos algunos documentos de estado concernientes a proyectos de la NSA (National Security Agency) y software de vigilancia electrónica como el PRISM y XKeyscore utilizados para espiar las acciones de otros Estados, al revelar dicha información pone en jaque mate la “supuesta” integridad del estado.

4.2 ¿CÓMO ACCEDER A LA DEEP WEB?Para acceder a la Deep Web debemos estar totalmente preparados frente a lo que

podamos encontrar, por más inocente que sea el motivo por el cual accedamos a ella no

puede dañar y cambiar nuestra manera de pensar totalmente. Es recomendable no

acceder ni aventurarse en este lado del internet.

A continuación, será necesaria una serie de pasos que se debe seguir si se quiere tener

una navegación segura. Para acceder a la Deep Web, se preguntarán a que se debe

tanta seguridad, pero es necesaria por diferentes razones, principalmente porque ahí

todos los dominios son de tipo “.onion”, esto quiere decir que solo ciertas personas tienen

permiso pueden acceder tranquilamente a esta red, para todos los demás es necesaria

13

Page 14: LA DEEP WEB

esta seguridad para no ser rastreados y que sus datos personales sean usados por

diferentes operativos para fines totalmente desconocidos.

A continuación, se pondrán a su disposición todos los pasos y precauciones que se debe

tomar antes de ingresar a este sitio.

Precauciones que se debe tomar : Usar un equipo con un sistema operativo avanzado (Linux)

Cubrir la Web Cam en su totalidad, esto se debe a la existencia de espías

cibernéticos

Apagar el micrófono, recomendable “Desconectarlo”

Asegurarse con un firewall seguro y activo

Si es posible se podría congelar la máquina

Usar una cuenta de pc que no sea tuya, sino una extra

No compartir en la Deep web ninguna información “mucho menos el E-mail”

Navegar sin dejar rastro:Necesitamos un nuevo proxy o un navegador que cambie nuestra dirección IP, para

no dejar rastro de nuestra ubicación al momento de sumergirnos en la Deep Web, el

navegador recomendado es “Tor Browser Bundle”

¿Cómo hacerlo?Hacerse con el programa es sencillo una vez descargado, lo extraemos, ejecutamos

normalmente y “Listo”, automáticamente se abrirá una ventana similar a la del

navegador Mozilla Firefox, nadie dentro de la Deep web, no puede rastrear con este

programa, tendremos una seguridad total, lo siguiente seria conseguir links de la

Deep Web para investigar lo oscuro que esta posee, los cuales no aparecerán en

esta monografía ya que es un trabajo que sirve para informar mas no para provocar.

4.3 ¿PARA QUIENES FUE CREADA LA DEEP WEB?

La Deep web fue formada para realizar actividades ilícitas, todos los humanos hemos

tenido en un momento de la vida pensamientos macabros, pero está en nosotros en dejar

el mal atrás porque sabemos las consecuencias a las que nos llevarían estos actos, para

todos aquellos que el controlarse no existe en su vocabulario la Deep web les ayuda a

14

Page 15: LA DEEP WEB

formar grupos vandálicos anónimamente asegurando su identidad (ya que es más fácil

cometer actos violentos sin ser descubierto).

Aquellas personas tienen un concepto muy deformado de pensar, esta gente tiende a ser

extremista y esta inclinada a la violencia en todas sus formas. Entre sus gustos

encontramos adicción por el GORE, JAILBAIT y pornografía fetiche…etc.

Conociendo el contenido en la Deep web es indiscutible que no es para nosotros, lo único

que se puede hacer es intentar olvidar que existe esto, ir con cuidado mientras se navega

diariamente.

CAPITULO V

INTERNET PROFUNDO

5.1 ORIGEN

La principal causa de la existencia del internet profundo es la imposibilidad de los motores

de búsqueda (Google, Yahoo! Bing, etc.) de encontrar o indexar gran parte de la

información existente en internet. Si los buscadores tuvieran la capacidad para acceder a

toda la información entonces la magnitud de la «internet profunda» se reduciría casi en su

totalidad.

No obstante, aunque los motores de búsqueda pudieran indexar la información del

internet profundo esto no significaría que esta dejará de existir, ya que siempre existirán

las páginas privadas. Los motores de búsqueda no pueden acceder a la información de

estas páginas y solo determinados usuarios, aquellos con contraseña o códigos

especiales, pueden hacerlo.

5.2 TAMAÑO

El internet profundo es un conjunto de sitios web y bases de datos que buscadores

comunes no pueden encontrar ya que no están indexadas. El contenido que se puede

hallar dentro de la internet profunda es muy amplio.

15

Page 16: LA DEEP WEB

Se estima que el internet profundo es 500 veces mayor que el internet superficial, siendo

el 95 % de esta información públicamente accesible.

El internet se ve dividido en dos ramas, El internet profundo y la superficial. El internet

superficial se compone de páginas estáticas o fijas, mientras que la web profunda está

compuesta de páginas dinámicas. Las páginas estáticas no dependen de una base de

datos para desplegar su contenido sino que residen en un servidor en espera de ser

recuperadas, y son básicamente archivos HTML cuyo contenido nunca cambia.

Todos los cambios se realizan directamente en el código y la nueva versión de la página

se carga en el servidor. Estas páginas son menos flexibles que las páginas dinámicas.

Las páginas dinámicas se crean como resultado de una búsqueda de base de datos. El

contenido se coloca en una base de datos y se proporciona solo cuando lo solicite el

usuario.

En 2010 se estimó que la información que se encuentra en la internet profunda es de

7500 terabytes, lo que equivale a aproximadamente 550 billones de documentos

individuales. El contenido de la internet profunda es de 400 a 550 veces mayor de lo que

se puede encontrar en la internet superficial. En comparación, se estima que la internet

superficial contiene solo 19 terabytes de contenido y un billón de documentos individuales.

También en 2010 se estimó que existían más de 200 000 sitios en la internet profunda.

Estimaciones basadas en la extrapolación de un estudio de la Universidad de California

en Berkeley especula que actualmente la internet profunda debe tener unos 91 000

Terabytes.

5.3 DENOMINACIÓN

Son páginas de texto, archivos, o en ocasiones información a la cual se puede acceder

por medio de la World Wide Web que los buscadores de uso general no pueden, debido a

limitaciones o deliberadamente, agregar a sus índices de páginas webs.

La Web profunda se refiere a la colección de sitios o bases de datos que un buscador

común, como Google, no puede o quiere indexar. Es un lugar específico del internet que

se distingue por el anonimato. Nada que se haga en esta zona puede ser asociado con la

identidad de uno, a menos que uno lo deseé.

16

Page 17: LA DEEP WEB

Bergman, en un artículo semanal sobre la Web profunda publicado en el Journal of

Electronic Publishing, mencionó que Gil Ellsworth utilizó el término «Web invisible» en

1994 para referirse a los sitios web que no están registrados por algún motor de

búsqueda.

5.4 RASTREANDO EL INTERNET PROFUNDO

Los motores de búsqueda comerciales han comenzado a explorar métodos alternativos

para rastrear la Web profunda. El Protocolo del sitio (primero desarrollado e introducido

por Google en 2005) y OAI son mecanismos que permiten a los motores de búsqueda y

otras partes interesadas descubrir recursos de la internet profunda en los servidores web

en particular. Ambos mecanismos permiten que los servidores web anuncien las

direcciones URL que se puede acceder a ellos, lo que permite la detección automática de

los recursos que no están directamente vinculados a la Web de la superficie.

El sistema de búsqueda de la Web profunda de Google pre-calcula las entregas de cada

formulario HTML y agrega a las páginas HTML resultantes en el índice del motor de

búsqueda de Google. Los resultados surgidos arrojaron mil consultas por segundo al

contenido de la Web profunda. Este sistema se realiza utilizando tres algoritmos claves:

La selección de valores de entrada, para que las entradas de búsqueda de texto acepten

palabras clave.

La identificación de los insumos que aceptan solo valores específicos (por ejemplo,

fecha).

La selección de un pequeño número de combinaciones de entrada que generan URLs

adecuadas para su inclusión en el índice de búsqueda Web.

5.5 RECURSOS DEL INTERNET PROFUNDO

Los recursos del internet profundo pueden estar clasificados en las siguientes categorías:

contenido de acceso limitado: los sitios que limitan el acceso a sus páginas de una

manera técnica (Por ejemplo, utilizando el estándar de exclusión de robots o captcha, que

prohíben los motores de búsqueda de la navegación por y la creación de copias en caché.

17

Page 18: LA DEEP WEB

contenido dinámico: las páginas dinámicas que devuelven respuesta a una pregunta

presentada o acceder a través de un formulario, especialmente si se utilizan elementos de

entrada en el dominio abierto como campos de texto.

contenido no enlazado: páginas que no están conectadas con otras páginas, que

pueden impedir que los programas de rastreo web tengan acceso al contenido. Este

material se conoce como páginas sin enlaces entrantes.

contenido programado: páginas que solo son accesibles a través de enlaces producidos

por JavaScript, así como el contenido descargado de manera dinámica a partir de los

servidores web a través de soluciones de Flash o Ajax.

sin contenido HTML: contenido textual codificado en multimedia (imagen o video)

archivos o formatos de archivo específicos no tratados por los motores de búsqueda.

web privada: los sitios que requieren de registro y de una contraseña para iniciar sesión

web contextual: páginas con contenidos diferentes para diferentes contextos de acceso

(por ejemplo, los rangos de direcciones IP de clientes o secuencia de navegación

anterior).

18