Comunicación presentada al VI Congreso Ciudades Inteligentes
Autor
- Miguel Ballabriga, Sales Manager, Dallmeier
Resumen
No importa si es en estaciones de autobuses, en callejones pequeños o en cruces con mucho tráfico, la Inteligencia Artificial (IA) está considerada como una supuesta solución integral para la mejora de la tecnología de vídeo en el área de “Smart City”. En el foco de atención están los extensos espacios públicos, siendo decisivo el uso de la cámara adecuada. Los sistemas de sensores multifocales, por ejemplo, ofrecen una alternativa eficiente a las cámaras PTZ y megapíxel y sus limitaciones. Junto con la cámara apropiada, el uso sabio de inteligencia artificial requiere tanto la consideración de determinantes técnicos –tales como la calidad de imagen y tasa de fotogramas– como el cumplimiento de las obligaciones propias de la protección de datos personales. La eficacia en la combinación de inteligencia artificial y tecnología de vídeo depende de múltiples factores. Pese a ello, la IA ya hoy está apoyando a las autoridades. A modo de ejemplo se puede mencionar la regulación de flujos de tráfico urbano o bien la de grupos de personas. No obstante, en el uso de inteligencia artificial en el área de “Smart City” como con cualquier sistema con visión de futuro, hay que tener en cuenta que hoy, igual que antes, y probablemente aún por mucho tiempo, el ser humano –el operador, el policía, pero también el ciudadano– es el centro del proyecto.
Palabras clave
Videovigilancia, Calidad de Datos, Gestión de Datos, Análisis de Vídeo, Inteligencia Artificial, Cámara de Vigilancia, Safe City, Sistema de Sensores Multifocal, Tecnología de Vídeo
Introducción
Es difícil encontrar en la actualidad otro tema tecnológico que cause tanto revuelo como la Inteligencia Artificial (IA). Surgen grandes expectativas, particularmente en el área de la tecnología de vídeo. Muchas ideas eclosionan, ya sea el reconocimiento de caras individuales en una multitud, la célebre detección automática de una “maleta bomba” o la de determinados comportamientos como ataques a personas. La IA, como cada innovación técnica, hace su aparición con definiciones imprecisas, expectativas exageradas e interpretaciones diversas en cuanto a sus capacidades. Nadie “sabe de verdad”, pero todos tienen algo que opinar.
El mercado tiene que aprender a distinguir entre soluciones que funcionan y proyectos de investigación. Es importante examinar y cuestionar al detalle: ¿qué funciones están más o menos listas para su comercialización e implementación y cuáles se encuentran todavía en puro estado de investigación? Sobre todo, de cara a decisiones e inversiones estratégicas, los usuarios interesados deberían preguntarse primero cuándo se puede esperar un determinado resultado: en doce meses, en cinco años o jamás. De lo contrario, corren el riesgo de perder de vista soluciones obvias para problemas urgentes. Además, en muchas innovaciones pasa a un segundo plano que casi siempre requieren una discusión social y, por tanto, cambios de condiciones marco muy concretas antes de poder implementarlas de forma generalizada. El dilema –aún no resuelto– del coche autónomo y su comportamiento en caso de accidente se ha convertido ya en un ejemplo casi clásico. El uso de IA en la tecnología de videoseguridad se enfrenta a preguntas similares todavía sin resolver: ¿Cuánta libertad de decisión se da a un sistema? ¿Qué criterios de calidad se establecen, p.ej. en la detección de objetos? ¿A quién se exigen responsabilidades cuando, por ejemplo, un sistema IA no detecta un ataque, a pesar de que tal vez ya existan entonces grandes expectativas entre la población?
Dada esta situación inicial aún muy confusa, el objetivo de este artículo es, por un lado, dar una vista general de las condiciones marco del uso de tecnología de videoseguridad e IA en el ámbito de “Smart City” a la vez que evaluar de forma crítica las expectativas actuales. Por otro lado, intenta poner de relieve las ya hoy posibles aplicaciones de tecnología de vídeo e IA en el área de ciudades.
Para una videoobservación eficiente se necesita la cámara adecuada
Plazas de mercado, estaciones de autobuses o estadios: plazas grandes y superficies extensas se encuentran en casi cada paisaje urbano. Hay que tener en cuenta que para cada área de aplicación existe la correspondiente cámara. Cámaras PTZ y megapíxel o sistemas de sensores multifocales: el mercado para cámaras de vídeo ofrece los productos más diversos. A continuación, se muestran las ventajas e inconvenientes de diferentes sistemas de cámaras en su uso en los espacios públicos.
Cámaras PTZ: el zoom óptico limita el campo de visión
La abreviatura “PTZ” representa los términos ingleses “Pan”, “Tilt” y “Zoom”, es decir, “girar”, “inclinar” y “hacer zoom”. Gracias a estas tres funciones, las cámaras PTZ pueden captar objetos y personas y ampliar encuadres seleccionados mediante zoom óptico para una identificación más exacta. Las cámaras PTZ se usan especialmente en la vigilancia en vivo. Ayudan a los responsables de seguridad, por ejemplo, en un aeropuerto o en estadios, a reconocer rápidamente delitos y así intervenir inmediatamente. Las cámaras PTZ conllevan tanto ventajas como inconvenientes: mediante su función de giro, inclinación y zoom, ofrecen a los operadores la posibilidad de captar pequeñas áreas parciales detalladamente. Pero los hechos y sucesos que ocurren en zonas no observadas en ese momento, siguen sin detectarse, lo que precisamente en áreas muy frecuentadas puede representar un problema para la seguridad pública. Además, con estos sistemas, no es posible un análisis, ya que el encuadre y la calidad de imagen cambian continuamente. A esto hay que añadir el interés por la protección de datos; con los sistemas PTZ, muchas veces, el cumplimiento de sus requerimientos, como puede ser el “enmascaramiento de privacidad” de determinadas zonas de la imagen, es insuficiente.
Cámaras megapíxel: un zoom digital tampoco es la medida de todas las cosas
El caso de las así llamadas cámaras megapíxel es diferente. Estas están enfocadas en una parte de la imagen y disponen, al contrario de las cámaras PTZ, de una opción de zoom digital. Aquí es donde surge el problema: la cámara proporciona, según vaya aumentando el zoom en un encuadre no enfocado, una imagen cada vez más borrosa. La razón para ello está en la resolución inferior del área de imagen captada de esta manera. Durante un zoom digital, el procesador de imagen calcula los píxeles ocultos y solamente los añade a la imagen parcial captada. Esta interpolación significa pérdidas sustanciales en la calidad de imagen, haciendo prácticamente imposible una identificación prometedora de delincuentes ya que las imágenes obtenidas, en caso de duda, no garantizan su admisibilidad ante los tribunales ni las posibilidades de análisis.
Tanto las cámaras PTZ como las megapíxel tienen sus ventajas, pero cuando se trata de la vigilancia de superficies grandes presentan numerosas limitaciones.
Sistemas de sensores multifocales: suman las ventajas de cámaras megapíxel y PTZ
Un hito importante en la observación y vigilancia de áreas extensas fue el desarrollo de la denominada tecnología de sensores multifocal en el año 2011, la cual ofrece, con la ayuda de hasta ocho objetivos y sensores individuales, la posibilidad de establecer un foco por cada sensor en la imagen completa. De este modo, los responsables de seguridad pueden captar áreas amplias con un número de cámaras considerablemente más reducido que con la tecnología preexistente. La policía de Colonia (Alemania), por ejemplo, necesita para la vigilancia y observación de la Domplatte (plaza de la catedral), de unos 9.000 metros cuadrados, solamente ocho sistemas de sensores multifocales instalados en dos puntos. Una solución comparable con cámaras PTZ convencionales hubiera requerido más de cien dispositivos individuales y muchos más puntos de instalación, pero redundando al mismo tiempo en una menor eficacia debido a su complejidad notablemente mayor.
Las cámaras multifocales muestran un área muy grande en una imagen de vista general y graban de forma continua toda la escena con una resolución definible con precisión para todas las zonas de la imagen, permitiendo el uso simultáneo del zoom sobre esta imagen de vista general por varios operadores. Esto facilita un seguimiento de todos los procesos al detalle así como una grabación de alta resolución de todos los sucesos en la zona a captar. Además del número muy reducido de monitores que hay que mantener a la vista –un operador bueno consigue normalmente cubrir un máximo de cuatro a seis imágenes a la vez–, tiene la ventaja para el personal de observación de que los contextos globales siguen siendo siempre claros y visibles con una resolución alta. La unión de estos diferentes factores tiene como resultado una eficacia considerablemente superior a las de otras soluciones en la observación y vigilancia de espacios públicos.
IA y tecnología de vídeo: Un enfoque integral es clave
Ya no se puede imaginar el discurso público sin mencionar la inteligencia artificial. Especialmente, en el sector de la videoseguridad, el tema ha llegado a tener una gran relevancia al tratar posibles aplicaciones del análisis de vídeo.
Ya desde hace años, las cámaras son consideradas excelentes para la captación de datos de análisis: en teoría, existen pocas opciones mejores que una imagen de vídeo para extraer los más diversos tipos de datos de contextos complejos con relativamente poco esfuerzo. Por esa razón, ya era posible en ausencia de IA, detectar movimientos dentro de una imagen de vídeo mediante la comparación de píxeles y así, por ejemplo, obtener el momento de producción de un evento junto con la secuencia de vídeo correspondiente.
La inteligencia artificial –en particular, el reconocimiento y clasificación de objetos– ayuda en el intento de afinar este enfoque y así detectar delincuentes o comportamientos sospechosos mediante características externas. Sin embargo, este tipo de aplicaciones, a pesar de todos los empeños, o bien no están listas para su comercialización o bien su implementación no es acorde con la ley.
Determinantes decisivos para la combinación de IA y tecnología de vídeo
Ignorar o no la importancia de la calidad de datos juega un papel significativo. Uno de los errores más comunes que se cometen a la hora de razonar sobre el análisis de contenido basado en IA, es considerar y evaluar únicamente el sistema de análisis y no la solución integral. Esto lleva muchas veces a la decepción de aquellos usuarios que quieren “simplemente poner un par de cámaras” y, después, dejar “correr” unos análisis sobre las imágenes así obtenidas. Conforme a la probada regla “Quality In, Quality Out”, la calidad de los resultados de análisis sólo puede ser, obviamente, tan buena como la calidad de imagen y, por tanto, como la calidad de los datos de entrada. La calidad de imagen está definida como “píxel por metro (px/m)” en la norma DIN EN 62676-4, con validez internacional. Regula la densidad de píxeles requerida según aplicación. Para garantizar una seguridad global en los espacios públicos, como pueden ser zonas peatonales o estaciones, es necesario representar tanto los objetos más alejados como los objetos en primer plano de la imagen con la misma resolución. En la práctica, la experiencia muestra, por regla general, que un mínimo de 62,5 px/m asegura una diferenciación de ser humano, animal u objeto en una clasificación de objetos basada en IA; que 125 px/m garantizan el reconocimiento de personas o autores conocidos y que 250 px/m permiten la identificación inequívoca de individuos desconocidos. Esto hace la labor de la policía considerablemente más efectiva, el trabajo de investigación mucho más fácil y la intervención en caso de emergencia más rápida y rigurosamente enfocada. Por consiguiente, la calidad de imagen es un parámetro esencial para cualquier sistema de vídeo.
Por otra parte, la tasa de imágenes también es de importancia fundamental. Se indica en la unidad “fotogramas por segundo” (fps) y proporciona una representación fluida del suceso grabado. Para una impresión visual óptima se requiere una tasa de imágenes más bien alta. Si, por ejemplo, un coche va a una velocidad elevada en un paso de cebra y la cámara registra el suceso sólo con una tasa de imágenes de 10 fps, el vehículo literalmente desaparece en la grabación entre fotograma y fotograma. Sólo con una tasa de imágenes de aprox. 24 fps se genera la impresión de un movimiento fluido y la grabación se efectúa en “tiempo real”. También el ser humano detrás del sistema tiene un papel decisivo en la evaluación global, sobre todo en cuanto a cualificación y cuestiones organizativas.
Incluso cumpliendo estas condiciones, las expectativas son muchas veces demasiado altas
Sólo teniendo en cuenta todos estos factores –es decir, el suministro fiable en toda la superficie a captar de los valores mínimos necesarios para una determinada forma de análisis basada en IA en combinación con el operador cualificado–, es posible garantizar el cumplimiento de todos los estándares actuales y futuros de sistemas integrales. En ello, el fabricante que dispone de herramientas y sistemas de planificación adecuados, así como del know-how y los expertos necesarios para llevar a cabo esas planificaciones –desde la densidad mínima de píxeles requerida en la superficie completa, pasando por la tasa de imágenes, hasta el ángulo de cámara a ajustar–, desempeña un papel fundamental.
A pesar de todo ello, no pocas veces, las expectativas son demasiado altas: encontrar automáticamente una “maleta bomba” abandonada en contextos complejos aún seguirá siendo durante mucho tiempo una utopía; en los sistemas ya implementados faltan el análisis fiable derivado de determinados comportamientos y los avisos de alarma; las tasas de aclaraciones supuestamente altas conllevan numerosas sospechas falsas e inmensas cifras de “no detectados” (falsos positivos). Asimismo, precisamente cuando se trata de la observación de superficies grandes en los espacios públicos y un análisis de su contenido, la protección de datos es un factor básico.
Criterios de calidad para la conservación de los derechos de personas no involucradas
También en la protección de datos en el área de “Smart City” se trata, tal como se requiere en el Reglamento General de Protección de Datos (RGPD) de la Unión Europea, de velar por el principio de minimización de datos en aras de la salvaguarda de los derechos de los interesados. El uso indiscriminado de software de reconocimiento facial, por ejemplo, está considerado como intromisión ilícita en los derechos de la persona y, por tanto, sólo se permite bajo condiciones muy estrictas. Adicionalmente, en los espacios públicos, hay que tener en cuenta algunos factores esenciales:
Ya que no cada persona captada es relevante, p.ej. para investigaciones policiales, es necesario considerar el derecho del interesado y recurrir a medidas como puede ser el así llamado “People Masking” (“pixelado”). En el pasado, este tipo de anonimizaciones sólo eran viables en objetos parados. Hoy, las cámaras de vigilancia, en combinación con la última tecnología de chips e IA, ofrecen la posibilidad de realizar este enmascaramiento incluso cuando las personas se mueven. Ocurre lo mismo con la definición de las llamadas “zonas de privacidad”. Estas protegen la privacidad de personas no involucradas, pero no mediante pixelado, sino estableciendo áreas ennegrecidas. Por otra parte, es fundamental definir una duración reglamentada de almacenamiento de las imágenes. Afecta a cada una de las pistas de grabación garantizando así la eliminación de los datos tras cumplir sus objetivos. Hay que constatar que las autoridades competentes pueden anular este tipo de anonimizaciones para determinados fines. Esta situación podría tener lugar, por ejemplo, en el marco de una persecución penal así como en la protección y defensa ante peligros en el ámbito de la seguridad pública.
Con todas esas cautelas: IA mejora ya hoy la seguridad pública
Aunque las expectativas actuales frente a la inteligencia artificial han de ser evaluadas de manera crítica y la protección de datos representa un punto clave en su uso en la videoseguridad, las redes neuronales, naturalmente, juegan en el área de “Smart City” un papel cada vez más importante. Los primeros escenarios de uso práctico muestran que, cumpliendo los estándares de calidad, sí es posible implementar soluciones que funcionan. Ya hoy, la IA apoya a las autoridades en el seguimiento de matrículas, así como en el control eficiente de flujos de tráfico urbano. También, en la así llamada “gestión de masas”, los responsables de seguridad cuentan ya con el soporte de las redes neuronales. El análisis de vídeo basado en IA ayuda –garantizados los 62,5 px/m– en la clasificación de personas y objetos en grandes contextos espaciales. De este modo, el sistema detecta de manera autónoma si, por ejemplo, un ser humano o animal penetra en las así llamadas “áreas estériles”, y da la alarma correspondiente a los responsables de seguridad. Esto facilita ya hoy enormemente la vigilancia de autopistas o cauces de río, pero también mantener despejadas las vías de emergencia y evacuación. Asimismo, la IA ayuda en el control eficiente de multitudes como las que pueden producirse durante los días de partido en los estadios de fútbol. Además, la IA permite un seguimiento automático de objetos, la verificación automática de alarmas y el conteo automático de grupos de personas, lo que posibilita un análisis exacto de situaciones complejas.
Ya en la actualidad, la tecnología de videoseguridad basada en IA aporta mucho a la seguridad en el área de “Smart City”. Pone a disposición servicios de asistencia externos útiles. No obstante, igual que con todos los sistemas con visión de futuro, es importante tener en cuenta que hoy y probablemente aún por mucho tiempo, el ser humano –el operador, el policía y, en cualquier caso, el ciudadano– es el protagonista.