El tiempo y el presupuesto constituyen dos factores clave a la hora de realizar estudios e informes de cualquier tipo. En primer lugar, se necesita tiempo para que los encuestadores recopilen información de una muestra de individuos lo bastante amplia como para obtener datos representativos.
En segundo término, hay que disponer de medios económicos que cubran el coste de todo el proceso. Ambos condicionantes impiden la realización de muchos estudios y frenan la periodicidad de los que sí se llevan a cabo. El Big Data (los grandes conjuntos de datos que sostiene Internet), se constituye como un complemento o alternativa a esta metodología, que puede revolucionar, acelerar y abaratar la elaboración de informes y estudios estadísticos.
Para determinar las posibilidades que esta técnica puede representar para el futuro, el Observatorio Nacional de las Telecomunicaciones y de la Sociedad de la Información (ONTSI), en colaboración con la Universidad Carlos III de Madrid, ha realizado un proyecto piloto pionero sobre reutilización de información de Internet como fuente de datos (Internet as Data Source – IaD).
Para ello, se han desarrollado dos experiencias piloto en las que se han recogido datos de Internet en base a dos objetivos: Detectar las empresas españolas que realizan comercio electrónico y analizar la oferta y la demanda de profesionales del sector TIC en nuestro país.
En el primer caso, en lugar de utilizar datos procedentes de encuestas y otras fuentes, se trató de detectar de manera automática las empresas con página web en las que se pueden hacer compras. Esta primera experiencia ha permitido detectar que, mediante técnicas de aprendizaje de máquina (Machine Learning – ML), es posible detectar automáticamente la presencia de comercio electrónico con una precisión del 92%. Los datos obtenidos se han comparado con la encuesta de uso de TIC y comercio electrónico que el Instituto Nacional de Estadística publica anualmente, con una buena concordancia.
En paralelo, el ONTSI trató de establecer la viabilidad de Internet como fuente de datos para rastrear y analizar automáticamente la oferta y la demanda de profesionales TIC. Por un lado, se analizaron los perfiles laborales que ofrecen los centros universitarios y de formación profesional. Por otro, se observaron los perfiles de profesionales que demandan las empresas el sector TIC en portales de empleo especializados. La experiencia, en este caso, ha determinado que el cruce de datos presenta importantes dificultades para obtener conclusiones. Sin embargo, ha arrojado múltiples márgenes de mejora y la posibilidad de afinar técnicas hasta conseguir resultados representativos y reales.
El origen de esta experiencia piloto surge de la demanda de la Comisión Europea, Eurostat y la Organización para la Cooperación y el Desarrollo Económico (OCDE) a los organismos encargados de generar estadísticas sobre Sociedad de la Información, a los que ha pedido que realicen proyectos piloto para desarrollar esta técnica. El estudio del ONTSI ha subrayado la importancia de continuar con esta experiencia y avanzar en el ajuste de métodos y herramientas que permitan aprovechar el enorme caudal de datos que existe en Internet.