Características de la Web de España
Promovido por la Cátedra Telefonica de la Universidad Pompeu Fabra se ha realizado el primer estudio masivo del contenido y la estructura de la Web española. Para ello, se ha recorrido y recogido su contenido textual utilizando "crawlers" como los utilizados en la generación de grandes máquinas de búsqueda.
Los estudios se han realizado sobre más de 16 millones de páginas hospedadas en servidores situados en territorio español. La recolección de páginas se llevo a cabo en septiembre y octubre del 2004 y las conclusiones del análisis se presentaron en junio del 2005
Del análisis de estos datos, destacan las siguientes observaciones:
- La Web de España está compuesta por más de 300.000 sitios, y estos sitios contienen más de 16 millones de páginas. Muchas de sus características son muy similares a las de la Web global en general.
- Los sitios con mayor cantidad de texto público son las Cortes de Castilla-La Mancha, la Universidad de Barcelona, la empresa EuroVia, la organización Rediris y el diario El Mundo.
- La mayoría de los sitios con gran cantidad de información en la Web de España son mayoritariamente réplicas de documentación o centros de documentación gubernamentales o académicos.
- Alrededor del 50% de las páginas de España están en castellano, seguidos de 30% en inglés y 8% en catalán. El contenido en Gallego y Vasco constituye aproximadamente el 2% de las páginas.
- Los sustantivos que más aparecen en páginas Web incluyen los nombres de las ciudades "Madrid'' (11% de las páginas) y "Barcelona'' (7% de las páginas).
Respecto a los sitios y dominios:
- El dominio de primer nivel donde se encuentra el mayor número de dominios Web españoles es .com (66%), contra 16% en .es; sin embargo, si contamos el número de páginas, se tiene 31% para .com y 56% para .es. Además, los sitios en .es tienen más contenido, están mucho mejor conectados y presentan bastante menos spam que los sitios de España en los otros dominios.
- Los dominios que reciben más enlaces internamente son: Adobe (sitio de descarga del programa Adobe Reader), el Boletín Oficial del Estado, el Diario El Mundo, el Ministerio de Educación y Ciencia y el Diario El País. El resto de los dominios más referenciados son mayoritariamente universidades y sitios gubernamentales.
- El 63% de los sitios Web estudiados no es apuntado por otro sitio Web de España, lo que los hace más difíciles de encontrar.
- Los países más referenciados desde España son Alemania, el Reino Unido, Italia, Francia y Canadá, y existe una fuerte correlación entre el intercambio comercial con estos países y su número de enlaces.
Respecto a las tecnologías:
- El formato más usado para páginas dinámicas es PHP con un 46% de participación, seguido de ASP con un 41% de participación.
- Los formatos más usados para documentos exceptuando HTML, son Adobe PDF y texto simple, cada uno con aproximadamente un 40% de participación.
- El 60% de los sitios Web tiene solamente una página Web indexable por sistemas de búsqueda en la Web, y alrededor de la mitad de estos sitios tienen otras páginas, pero esas otras páginas son difíciles o imposibles de acceder por los sistemas de búsqueda actuales.
Vía | irsweb
Descargas | Documento completo del estudio
Trackback URL for this post:
Responder
Contenido popular
Hoy:
- Personalizando Firefox: about:config, User.js , Prefs.js, userChrome.css, userContent.css
- ¿Como resetear la password de la Bios de un ordenador por Software?
- Tip para Internet Explorer 7: Mostrar la barra de Menús
- Prueba Windows Live Mail (sin invitación)
- Recuperar contraseñas guardadas con firefox
- Google como operador móvil virtual (OMV) en el Reino Unido




