Comunicación presentada al I Congreso Ciudades Inteligentes:
Autores
- Miguel Picornell Tronch, Program Manager Smart Cities, Nommon Solutions and Technologies
- Oliva García-Cantú Ros, Principal Researcher, Nommon Solutions and Technologies
- Ricardo Herranz López, Managing Director, Nommon Solutions and Technologies
- Manuel Álvarez Nieto, Deputy Managing Director,
Resumen
Conocer los patrones de movilidad de una ciudad es una tarea crítica para la planificación y gestión del transporte. Los métodos tradicionales (encuestas domiciliarias, de interceptación, etc.) aportan información detallada pero son procesos lentos y muy costosos, por lo que muchas regiones no pueden actualizar sus modelos de transporte con la frecuencia y calidad deseadas. La telefonía móvil permite acceder a una gran cantidad de datos geolocalizados a lo largo del tiempo. Esta comunicación explica cómo analizar estos datos para obtener matrices origen-destino, estadísticas de viajes y distribución de la población en diferentes momentos del día, a un coste significativamente menor y con mayor frecuencia de actualización que con los métodos tradicionales.
Introducción
La planificación y gestión de los sistemas de transporte necesita información de la demanda de viajes precisa, fiable y actualizada. Conocer los perfiles socioeconómicos de los viajeros, el origen y destino de los viajes, el propósito del viaje, el modo de transporte y la elección de la ruta es una tarea crítica para las autoridades metropolitanas de transporte, los operadores del sector o las concesionarias de autopistas, por mencionar algunos ejemplos.
Los métodos tradicionales, como, por ejemplo, las encuestas domiciliarias o las encuestas de interceptación, aportan información detallada sobre la movilidad de los ciudadanos, incluyendo sus perfiles sociodemográficos, pero la recogida y el tratamiento de los datos a través de estos métodos son procesos lentos que pueden llevar meses, o incluso años, hasta su finalización y que requieren movilizar una gran cantidad de recursos para su ejecución, lo que limita el tamaño de la muestra que se puede abordar y la frecuencia de actualización de dichos datos. Como consecuencia, muchos usuarios de esta información no pueden actualizar sus modelos de transporte con la frecuencia y la calidad deseadas.
Tecnologías como la telefonía móvil, las redes sociales en Internet o las tarjetas inteligentes permiten recoger de forma automática una gran cantidad de datos geolocalizados a lo largo del tiempo. Estas fuentes de datos, combinadas con adecuadas técnicas de análisis y fusión de datos, ofrecen nuevas oportunidades para complementar o reemplazar los métodos tradicionales, proporcionando matrices origen-destino, estadísticas de viajes y distribuciones de la población en diferentes momentos del día, a un coste significativamente menor y con mayor frecuencia de actualización que con los métodos tradicionales.
Descripción de la solución
Durante la última década, se han llevado a cabo un número considerable de estudios con el objetivo de investigar cómo los datos de telefonía móvil pueden utilizarse para caracterizar la movilidad de las personas. En el sector del transporte, la investigación se ha centrado en el uso de los datos de telefonía móvil para la estimación de variables relevantes en la caracterización de la demanda de transporte, tales como el tiempo de viaje (Bar-Gera 2007), el modo de transporte (Wang et al. 2010; Doyle et al., 2011) o las matrices origen-destino (White and Wells 2002; Cáceres et al. 2007; Sohn and Kim 2008; Calabrese et al. 2011). En línea con estas investigaciones, Nommon ha desarrollado una solución que explota y analiza diversas fuentes de datos basadas en las TIC, solas o en combinación con fuentes tradicionales, para proporcionar información de la demanda del transporte, a un coste significativamente menor y permitiendo una mayor frecuencia de actualización.
Cada fuente de información tiene sus ventajas e inconvenientes: la telefonía móvil, por ejemplo, captura el origen y destino de los viajes, pero con ella distinguir el modo de transporte no siempre es posible; las tarjetas inteligentes del transporte, proporcionan información detallada sobre los modos del transporte público, pero no dicen nada sobre tramos adicionales del viaje realizados, por ejemplo, a pie, por lo que pueden no capturar con precisión el origen y destino del viajero; las redes sociales de Internet o las tarjetas de crédito, pueden ayudar a identificar el propósito del viaje, pero típicamente proporcionan una resolución temporal en los datos demasiado baja.
La solución propuesta por Nommon combina todos estos datos para extraer matrices de origen-destino (esto es, el número de viajes entre cada origen y destino), el propósito de los viajes (por ejemplo, casa-trabajo, trabajo-otro, etc.), los modos de transporte y la ruta elegida. El uso de datos basados en las TIC, en la mayoría de los casos almacenados para propósitos diferentes al de la planificación del transporte (por ejemplo, para la facturación o la gestión de la red en el caso de la telefonía móvil), y el coste inferior de la tecnología utilizada, eliminan muchas de las desventajas de los métodos tradicionales: los datos se pueden recoger y analizar en semanas, y el tamaño y alcance del estudio puede ajustarse a las necesidades de cada cliente de una forma eficaz y asequible, aprovechando economías de escala.
Metodología
Datos de partida
Esta comunicación se centra en el uso de datos de telefonía móvil, y, en particular, de los que reciben el nombre de CDRs (Call Detail Records). Los CDRs son registros de telefonía móvil, almacenados para el proceso de facturación del servicio, que contienen datos relacionados con llamadas telefónicas, mensajes SMS y conexiones a Internet. Cada registro proporciona información espacio-temporal del dispositivo relacionando su posición con una zona de cobertura de la antena llamada celda. Puesto que no siempre se dispone de la información del mapa de cobertura hasta el detalle de las celdas, se utiliza un nivel superior, el de la antena o BTS (Base Transceiver Station), que agrupa varias celdas, para las cuales la información de su localización suele ser más accesible.
Los datos que se utilizan son, por tanto, un conjunto de registros anonimizados que contiene tanto llamadas de voz, como de tráfico de datos, y que registran la actividad de los usuarios. Los registros de voz incluyen llamadas y mensajes SMS, mientras que los registros de tráfico de datos contienen conexiones a Internet. Cada llamada proporciona dos localizaciones del usuario, una al principio de la llamada y otra al finalizar la misma. Por su parte, los mensajes SMS y el tráfico de datos sólo proporcionan una localización por registro.
Los datos proporcionados por un operador de telefonía pueden incluir también información socio-demográfica ligada a los usuarios, como la edad, el género, el código postal de residencia, la factura (no relevante para el cálculo de matrices) y el tipo de contrato (empresa o particular). En algunos proyectos realizados por Nommon, se han manejado hasta 7.200 millones de registros, correspondiente a la actividad de 15 días de alrededor de 19 millones de usuarios.
Pre-procesado y limpieza de datos
En esta primera fase se realiza un primer pre-procesado de datos de cara a facilitar la gestión de los mismos, ordenando y agrupando los registros de la forma más conveniente para su posterior utilización. También se realiza un análisis previo de integridad de los datos para eliminar información relativa a las antenas o a los usuarios que claramente corresponden a errores en origen (por ejemplo, identificadores fuera de rango, identificadores no únicos, posiciones de antenas fuera del territorio español, etc.).
Construcción de la muestra y análisis de representatividad
Para construir la muestra se ha hace una selección de los usuarios que potencialmente son válidos para proporcionar información de viajes. Esta selección se realiza de acuerdo a unos criterios relacionados con su actividad telefónica, de manera que ésta sea suficiente para establecer sus patrones de actividad y de movilidad. Aplicando el algoritmo de localización del hogar, se asignan los usuarios a secciones censales y se realiza un análisis de la representatividad de la muestra obtenida, comparándola con los datos del censo. Esta información se utiliza para expandir la muestra y generar las matrices de viaje completas.
Análisis de datos y obtención de la matriz de viajes
El análisis de los datos consta de dos partes diferenciadas aunque interrelacionadas. En primer lugar, se realiza una identificación de las actividades del usuario y las posiciones donde las realiza, identificando tres tipos diferentes de actividad: hogar, trabajo y otros. Después se realiza la asignación de viajes, que se realiza una vez conocidas las posiciones donde un usuario realiza actividades en un día laborable medio, estimando el momento en el que se producen los mismos mediante una función de probabilidad.
Expansión de la muestra
La expansión de las matrices base se realiza aplicando un factor de expansión según la zona de estudio, por ejemplo, por cada distrito censal. Este factor viene definido por la relación entre la población total de dicha zona y el número de usuarios de la muestra identificados a través de los algoritmos como residentes en esa misma área. Para obtener las matrices origen-destino para la totalidad de la población, se aplica dicho factor multiplicativo a la totalidad de los viajes de la matrices base realizados por los usuarios residentes en el distrito censal correspondiente. Según el grado de detalle del estudio que se esté realizando, la metodología de expansión se puede refinar utilizando otros parámetros socioeconómicos que es posible extraer o inferir de los datos de telefonía, tales como sexo, edad, etc.
Comparación con métodos tradicionales
Una de las validaciones del método propuesto por Nommon ha consistido en comparar los resultados obtenidos a partir de los datos de telefonía móvil con los de la Enquesta de Mobilitat en dia Feiner, EMEF 2009, realizada por el Área Metropolitana de Barcelona.
En este caso, los CDRs utilizados sólo proporcionaban información sobre llamadas telefónicas de 2.360.369 usuarios, de los cuales se seleccionaron por su idoneidad 68.247 para la muestra final. La encuesta EMEF, por su parte, se realizó sobre 5.797 personas, extrapolando sus resultados al total de la población del área de estudio (4.231.425 habitantes). Nótese que la muestra proporcionada por los datos de telefonía móvil es del orden de diez veces mayor que la utilizada en la encuesta.
La Tabla I muestra algunas estadísticas básicas de viaje comparando ambos procedimientos. Las principales diferencias entre la encuesta EMEF 2009 y el método de Nommon se encuentran el porcentaje de personas que realiza al menos un viaje, 91,1% frente a 80,3%. El número medio de viajes estimados con los datos de telefonía móvil es un 6% inferior al obtenido por la encuesta. Estas diferencias podrían variar con un diseño diferente de la muestra, o utilizando datos con una resolución temporal más alta.
Respecto a la distribución de viajes entre las zonas de estudio, hay que notar que la EMEF se refiere a 7 zonas del área metropolitana de Barcelona para las cuales la encuesta proporciona el porcentaje de viajes internos comparados con el total de viajes que se han originado en una zona y el número de viajes entre zonas. Las siguientes figuras muestran que el método de Nommon proporciona una buena estimación del porcentaje de viajes intrazona, así como de la distribución de viajes entre zonas distintas.
Respecto a la distribución de viajes a lo largo del día, las distribuciones proporcionadas por ambos métodos son muy similares. El método con telefonía móvil detecta mayor número de viajes en el pico de la mañana y retrasa algo la hora del pico de viajes de la tarde (típicamente el regreso del trabajo al hogar).
Conclusiones y futuras líneas de trabajo
Las ventajas de utilizar datos de telefonía móvil para el cálculo de matrices origen-destino y estadísticas con respecto a las encuestas de movilidad tradicionales son varias:
- Recolección pasiva de los datos, que elimina algunas de las limitaciones inherentes a las encuestas, tales como las respuestas imprecisas o incorrectas, o la dependencia de la disponibilidad y el deseo de responder del entrevistado
- Muestras mucho más grandes, capaces de capturar una mayor variedad de comportamientos;
- Posibilidad de actualización con la frecuencia deseada, dado que los datos se recogen y almacenan de manera continua en el tiempo
- Reducción de costs
Las aplicaciones que se pueden realizar vienen determinadas por la resolución temporal y la resolución espacial que caracteriza a estos datos. La utilización de CDRs con llamadas, mensajes SMS y datos de conexión a Internet, ofrecen una resolución temporal de buena calidad, puesto que permiten obtener por término medio un gran número de posiciones por usuario a lo largo del día. No obstante, la resolución espacial es limitada, puesto que sólo se puede ubicar al usuario dentro de un área de Voronoi, de acuerdo con un despliegue de torres conocido, y no su posición exacta.
Con datos con estas características se pueden obtener matrices origen-destino para cualquier zona que pueda ser cubierta por áreas de Voronoi, identificando viajes a lo largo de un día, ya sean de un día promedio o, incluso, de un día específico, y las actividades principales, como hogar y trabajo. Sin embargo, dada la limitación para tener precisión espacial, no se puede obtener, solamente con ellos, el modo de transporte o la ruta escogida para el desplazamiento, sino que éstos han de ser estimados a partir de modelos de transporte.
Existen otro tipo de datos, los denominados “eventos de red”, que son recogidos por sondas que son instaladas en la red de telefonía para la gestión del tráfico de comunicaciones, y que son registrados incluso cuando el usuario no está interactuando con el teléfono. Este tipo de datos ofrece la máxima resolución temporal ya que son recogidos periódicamente en intervalos de tiempo inferiores a una hora. Su utilización permite identificar las actividades y los viajes de los usuarios con mucha mayor precisión, si bien, para conocer el modo de transporte, de nuevo es necesario disponer de información adicional. Esta información podría obtenerse, por ejemplo, triangulando la posición de los usuarios una vez conocidas la orientación de las antenas y la potencia de emisión de la señal. Otra opción para obtener el modo sería complementar el análisis utilizando otras fuentes de datos como las procedentes de la tarjeta inteligente de transporte, las espiras de tráfico, etc.
En conclusión, la obtención de matrices origen-destino, estadísticas de viaje y distribución de la población (a lo largo del día y para distintos días de la semana), obtenidas a partir de registros de actividad de telefonía móvil ya es una realidad, que Nommon ofrece como producto. En cualquier caso, la explotación de nuevas fuentes de datos para los procesos de planificación de transporte sigue teniendo un recorrido de investigación y desarrollo, identificándose como futuras líneas de trabajo, en un horizonte cercano, la mejora en la resolución temporal para incrementar la precisión en la identificación de actividades y viajes, y el aumento de la resolución espacial para determinar el modo de transporte.
Referencias
- Bar-Gera, H. (2007). Evaluation of a cellular phone-based system for measurements of traffic speeds and travel times: A case study from Israel. Transportation Research Part C, 15, 2007, 380–391.
- Caceres, N., Wideberg, J. P. and Benitez, F. G. (2007). Deriving origin–destination data from a mobile phone network. IET Intelligent Transport Systems, 1, 1, 2007, 15-26.
- Calabrese, F., Lorenzo, G. D., Liu, L. and Ratti, C. (2011) Estimating origin-destination flows using mobile phone location data. Pervasive Computing, IEEE, 10, 4, 2011, 36–44.
- Doyle, J., Hung, P., Kelly, D., Mcloone, S. and Farrell, R. (2011). Utilising mobile phone billing records for travel mode discovery. ISSC 2011, Trinity College Dublin, 2011, June 2011.
- Sohn, K. and Kim, D. (2008). Dynamic origin–destination flow estimation using cellular communication system. IEEE Transactions on Vehicular Technology, 57, 5, 2008, 2703-2713.
- Wang, H., Calabrese, F., Lorenzo, G. D. and Ratti, C. (2010). Transportation mode inference from anonymized and aggregated mobile phone call detail records. 13th International IEEE Annual Conference on Intelligent Transportation Systems, 2010, 318-323.
- White, J. and Wells, I. (2002). Extracting origin destination information from mobile phone data. Road Transport Information and Control, 2002, 19-21 March 2002.
Nota: Este artículo fue presentado y publicado en el Libro de Comunicaciones del I Congreso Ciudades Inteligentes.