Comunicación presentada al V Congreso Ciudades Inteligentes
Autor
- Miguel Ballabriga, Sales Manager, Dallmeier
Resumen
Al contrario de la tecnología de cámaras convencional, con los así llamados sistemas de sensores multifocales es posible proteger incluso grandes áreas –especialmente grandes plazas públicas– con una alta calidad de resolución de manera rentable y con poco gasto. Esto lo demuestra el ejemplo de la ciudad de Colonia, donde sólo ocho sistemas de cámaras en dos puntos de instalación bastan para vigilar, o mejor dicho, observar activamente la superficie de 8.800 m² de la Domplatte (explanada de la catedral) con tecnología de videoseguridad. El uso de la inteligencia artificial abrirá en un siguiente paso posibilidades completamente nuevas, tales como una precisa clasificación y seguimiento de objetos, permitiendo así controlar grandes aglomeraciones de personas en el espacio público más fácilmente. En el futuro habrá cada vez más aplicaciones en las que la imagen de vídeo ya no será visualizada, sino que servirá solamente para la extracción de datos. Por tanto, la tecnología de vídeo se convierte en un componente clave en cada infraestructura de Smart City.
Palabras clave
Videovigilancia, Análisis de Vídeo, Gestión de Datos, Inteligencia Artificial, Cámara de Vigilancia, Safe City, Sistema de Sensores Multifocal, Tecnología de Vídeo
Introducción
Un dinamismo enorme caracteriza actualmente el desarrollo técnico en el área “Safe City”: La tecnología de videoseguridad clásica se está convirtiendo más y más en un instrumento polivalente. En el foco de interés están, por supuesto, las nuevas posibilidades de análisis mediante el uso de inteligencia artificial (IA) y tecnologías como el reconocimiento facial. Asimismo, los usuarios descubren día a día, que las cámaras son idóneas como “sensores de datos” en los que la imagen en sí misma pasa cada vez más a un segundo plano. El desarrollo de la así llamada “tecnología de sensores multifocal” marca desde 2011 un momento crucial, tanto en la observación y vigilancia de áreas y espacios grandes como en IA y captación de datos, ya que sólo la tecnología multifocal permite obtener densidades de resolución exactamente definibles en toda la superficie. Y estas son requisito para una calidad constante de reconocimiento, así como para determinadas posibilidades de análisis.
Los sistemas de sensores multifocales revolucionan la tecnología de vídeo
¿Realmente garantizan más cámaras o cámaras con más resolución más seguridad? Durante mucho tiempo, el montaje de grandes sistemas con la máxima cantidad de cámaras posible fue considerado la única vía lógica para poder proteger ampliamente áreas extensas e inabarcables. Sin embargo, en la mayoría de los casos, resultó que tal procedimiento simplemente no llevaba al resultado esperado, ya que la calidad de las imágenes no era suficiente y los operadores no podían trabajar de forma eficiente debido al gran número de monitores a observar. Esto unido a los altos costes operativos totales, rara vez posibilitaba obtener una relación aceptable coste-beneficio.
Esto ha cambiado de manera radical en el año 2011 con la llegada de los sistemas de cámaras multifocales que desde entonces se siguen desarrollando consecuentemente. En el concepto de sensores multifocal, las imágenes de hasta siete sensores de detalle y un sensor de vista general en un sistema de cámaras se unen en una única imagen completa. Con ello, un número prácticamente a voluntad de operadores puede hacer zoom en cualquier zona de la imagen completa, y con máxima densidad de resolución, tanto en vivo como en la grabación. De la misma forma, la imagen completa se conserva siempre, tanto en vivo como en la grabación. Por tanto, con estos sistemas es posible captar áreas muy extensas con un número de cámaras claramente inferior que con enfoques convencionales basados en cámaras de un solo sensor. Incluso en la combinación de cámaras megapíxel para la vista general con sistemas PTZ se pierde la imagen completa al hacer zoom, porque la cámara PTZ sólo puede visualizar una zona parcial en alta resolución. En cambio, al hacer zoom en la imagen completa de las cámaras megapíxel, la calidad de la imagen de detalle no es suficiente.
¿Qué significa “densidad de resolución”?
La calidad de imagen está descrita en la EN 62676-4 y es definida a través de la densidad de resolución “píxel por metro” (px/m). Para la identificación de una persona desconocida, por ejemplo, se requieren 250 px/m, para el reconocimiento de una persona conocida basta con la mitad de la densidad de resolución (125 px/m) y para la detección de una persona o un objeto son suficientes 62,5 px/m. Con las soluciones de cámaras existentes hasta ahora (cámaras PTZ, cámaras megapíxel), no se podía establecer esta resolución definida por toda el área.
Una cámara multifocal, sin embargo, muestra una zona muy grande en una imagen de vista general y la graba ininterrumpidamente. A la par, otros sensores adicionales captan áreas individuales de la imagen completa en alta resolución. En estos se puede hacer zoom como con las cámaras PTZ y, no obstante, se mantienen visibles y reconocibles con alta resolución los contextos generales, tanto en la situación en vivo como en la grabación. Estos distintos factores juntos proporcionan una efectividad notablemente elevada de observación y vigilancia y al mismo tiempo con costes totales reducidos.
“SAFE City” Colonia: protección de 8.800 m² de superficie con ocho sistemas de cámaras
En la Nochevieja 2015/2016, se produjeron en la ciudad alemana de Colonia en la zona de la estación principal y de la catedral un número elevado de agresiones sexuales a mujeres, lesiones corporales y delitos de robo por grupos de hombres jóvenes. Pero sólo se pudo detener a unos pocos autores en la situación general inabarcable. Las grabaciones de vídeo –cuando existían– no permitieron ninguna identificación de la autoría. Como consecuencia, la policía de Colonia reconoció la necesidad de revisar su actual concepto de seguridad, particularmente en cuanto a la protección de grandes plazas públicas. En la primavera de 2016, presentaron los primeros conceptos de cómo se podría mejorar la vista general para la policía y la gestión del personal de intervención en el amplia área Bahnhofsvorplatz/Domplatte (explanada de la estación y de la catedral) mediante el empleo de sistemas de vídeo, especialmente cuando la concentración de personas fuera mayor. Ya en esta temprana fase de planificación se vieron ante un problema considerable: el uso de tecnología de vídeo convencional no permitiría captar plenamente la superficie a cubrir de 8.800 m².
Tampoco encontraron ninguna tecnología de cámara que pudiera proporcionar la resolución requerida de toda el área para las investigaciones policiales. Finalmente, se concluyó también que un sistema de vídeo convencional con muchas cámaras individuales llevaría a una avalancha de imágenes poco abarcable y que, por tanto, dificultaría esencialmente la observación proactiva y reacción rápida de los funcionarios de servicio en el centro de control.
Menos cámaras para una mejor protección
Tras implicar a los expertos en el campo de sistemas de sensores multifocales, estos, tras una breve introducción en la tarea, fueron capaces de idear un sistema que no sólo cumpliría los requerimientos definidos, sino que los superaría incluso. Finalmente, a mediados de diciembre de 2016, comenzó el montaje de los sistemas de sensores multifocales. En lugar de un sistema con más de 100 cámaras PTZ o megapíxel que hubiera significado una instalación laboriosa, así como altos costes de infraestructura y mantenimiento, se construyó una solución de videoseguridad que cubre toda el área a vigilar y que, sin embargo, mantiene una presencia discreta. Únicamente fueron necesarios ocho sistemas de sensores multifocales en dos puntos de instalación para proteger la zona frente a la catedral de Colonia con una densidad de resolución continua con un mínimo de 200 px/m. Ya durante la planificación fue posible definir exactamente mediante una precisa simulación 3D la densidad de resolución para cada zona del área a cubrir y especificar los modelos de cámara y ubicaciones correspondientes.
El resultado: costes totales considerablemente reducidos en infraestructura y mantenimiento del sistema y, al mismo tiempo, una eficiencia notablemente más alta de los operadores en el centro de control, teniendo que observar muchas menos imágenes simultáneamente. La densidad de resolución mínima requerida es alcanzada o superada en cado uno de los 8.800 m² garantizando así una calidad de prueba fiable de las imágenes.
La protección de datos es cosa sabida
En Alemania, la protección de datos personales ya estaba reglamentada estrictamente por ley antes de la introducción del Reglamento General de Protección de Datos (RGPD). Por eso, la policía de Colonia fue absolutamente consciente de su responsabilidad en el tratamiento de datos de vídeo: diferentes medidas se encargan de que los datos grabados cumplan las normas de protección de datos. Determinadas áreas de la imagen pueden ser ocultadas completamente de la captación por la cámara y caras y matrículas de vehículos pueden ser desfiguradas mediante pixelado. Adicionalmente, la conservación de los datos está limitada en el tiempo – sólo se guardan en casos de sospecha fundada y con fines probatorios ante los tribunales.
Observación activa en lugar de vigilancia pasiva
Las autoridades policiales, en lugar de tener que fiarse de que un gran número de cámaras de vigilancia instaladas lleven a una disminución del índice de delincuencia, ahora tienen la opción de sustituir esa vigilancia pasiva inefectiva por una observación activa por vídeo. La policía también se beneficia de la posibilidad de llevar a cabo videoobservaciones y evaluaciones específicas para centrar su trabajo de investigación preventivo en lugares detectados como áreas peligrosas. Esto significa que situaciones potenciales de peligro son detectadas antes de que puedan convertirse en acontecimientos en la estadística policial. El personal de intervención es avisado rápidamente y dirigido al lugar de los hechos. Y en el caso de que ante los “ojos” de los funcionarios se cometiera un delito, existirían, gracias a los sistemas de sensores multifocales, datos relevantes y admisibles ante los tribunales para el seguimiento penal.
De la imagen de vídeo al análisis de IA y gestión de datos
Además de la tecnología de cámaras descrita, la tecnología de vídeo está en los albores de un salto tecnológico significativo, impulsado por los rápidos avances en la inteligencia artificial. Si bien la detección de la maleta bomba de modo totalmente automático probablemente aún seguirá siendo ficción en el futuro inmediato, es posible desde hace tiempo identificar objetos más exactamente y detectar si han sido añadidos o removidos objetos, reconocer primeros patrones de movimiento llamativos o también movimientos en la dirección errónea, lo que es, por ejemplo, de gran importancia en la vigilancia de tráfico o en aeropuertos. Otras posibilidades son el seguimiento automático de las personas seleccionadas a través de largos trayectos o una evaluación forense mediante la búsqueda de personas determinadas en la grabación.
La capacidad de aprendizaje abre un enorme potencial en todas las áreas de aplicación de la tecnología de vídeo: el análisis de vídeo efectúa el trabajo previo, se reducen las falsas alarmas, se preseleccionan los eventos y el ser humano se hace cargo de la labor más exigente de la valoración de sucesos. Con el mismo gasto de personal, ya hoy se pueden cubrir zonas claramente más grandes, ya que los sistemas basados en IA pueden observar de forma autónoma y tomar decisiones preliminares. Así, se reduce progresivamente la carga de trabajo del operador del sistema, no interviniendo el ser humano hasta el momento en que surja una posible situación problemática cuando entonces tomará las decisiones subsecuentes y actuará en caso necesario.
Conclusión: La tecnología de vídeo se convierte en un sensor de datos inteligente
Hasta ahora, en la mayoría de las veces, pensamos en la captación de “datos Smart City” en dos sistemas separados: por un lado, sensores y otros sistemas que captan los más diversos datos y que los ponen a disposición en las estructuras Smart City; y, por otro, imágenes de vídeo para la verificación y observación. Las imágenes de vídeo todavía son percibidas como datos “desestructurados” que han de ser evaluados por personas.
Con el empleo de tecnologías de análisis esto cambia fundamentalmente: las imágenes de vídeo con herramientas basadas en IA asumirán en muchas áreas las tareas de sistemas más complejos y caros con muchos sensores individuales. Si hay disponibles herramientas de análisis adecuadas, no existe ninguna opción más sencilla de captar un sinnúmero de diferentes datos que con una imagen de vídeo. Y los defensores de la protección de datos pueden estar tranquilos porque para la extracción de datos de tráfico, conteo de personas, gestión inteligente de aparcamiento y muchas otras aplicaciones imaginables no es necesaria la imagen de vídeo en sí sino simplemente las informaciones anonimizadas captadas por ella.