Meta AI y Carnegie Mellon lanzan MapAnything: el futuro de la reconstrucción 3D


La colaboración entre Meta Reality Labs y la Universidad Carnegie Mellon ha dado origen a MapAnything, un destacado modelo de reconstrucción 3D que promete transformar el panorama de la visión por computadora. Este innovador sistema, basado en una arquitectura de transformador de extremo a extremo, genera geometría de escenas 3D métricas mediante el procesamiento de imágenes y entradas de sensores opcionales. Disponible bajo la licencia Apache 2.0, MapAnything se presenta con su código de entrenamiento y benchmarking, estableciendo un hito en la capacidad de soportar más de 12 tareas diferentes de visión 3D en un solo proceso.
La necesidad de un modelo universal para la reconstrucción 3D
Tradicionalmente, las técnicas de reconstrucción 3D a partir de imágenes han dependido de procesos fragmentados que abarcan desde la detección de características hasta la estimación de pose en múltiples vistas y la inferencia de profundidad monocular. Si bien estos métodos han demostrado eficacia, requieren ajustes específicos, optimización y un extenso procesamiento posterior.
Los modelos recientes que utilizan transformadores, como DUSt3R, MASt3R y VGGT, han simplificado algunos aspectos de este proceso, pero todavía enfrentan limitaciones como espacios de vistas fijas, rigurosos supuestos sobre las cámaras y dependencia de representaciones que requieren costosas optimizaciones.
MapAnything se destaca al superar estas limitaciones. Este modelo puede aceptar hasta 2,000 imágenes de entrada en una sola inferencia, permite la incorporación flexible de datos auxiliares, como intrínsecos de cámara y mapas de profundidad, y genera reconstrucciones métricas 3D directamente, sin necesidad de ajustes complicados. Su enfoque modular y generalizado ofrece avances significativos respecto a enfoques anteriores.
Arquitectura y representación
La arquitectura de MapAnything se basa en un transformador de atención alternante multivista. Cada imagen de entrada se codifica utilizando características DINOv2 ViT-L, mientras que las entradas complementarias (rayos, profundidad y poses) son codificadas en el mismo espacio latente mediante CNNs superficiales o MLPs. Un token de escala aprendible permite la normalización métrica entre diferentes vistas.
La red proporciona una representación factorizada que incluye:
- Direcciones de rayos por vista, facilitando la calibración de cámara.
- Profundidad a lo largo de los rayos predicha a escala.
- Posiciones de cámara relativas a una vista de referencia.
- Un único factor de escala métrico que transforma las reconstrucciones locales en un sistema consistente a nivel global.
Esta representación explícita previene redundancias y permite que el modelo aborde diversas tareas, desde la estimación de profundidad monocular hasta la reconstrucción a partir del movimiento (SfM) y la completación de profundidad, sin la necesidad de cabezas especializadas.
Estrategia de entrenamiento
MapAnything fue entrenado utilizando 13 conjuntos de datos variados que abarcan dominantes interiores, exteriores y sintéticos, incluyendo BlendedMVS, Mapillary Planet-Scale Depth, ScanNet++ y TartanAirV2. Se han lanzado dos versiones del modelo:
- Un modelo con licencia Apache 2.0 entrenado en seis conjuntos de datos.
- Un modelo con licencia CC BY-NC que ha sido entrenado en los trece conjuntos para lograr un rendimiento superior.
Las estrategias clave de entrenamiento incluyen:
- Deserción de entrada probabilística: Durante el proceso, las entradas geométricas (rayos, profundidad y pose) se proveen con probabilidades variables, lo que brinda robustez en configuraciones diversas.
- Muestreo basado en covisibilidad: Asegura que las vistas de entrada tengan una superposición significativa, lo que permite la reconstrucción a partir de más de 100 vistas.
- Pérdidas factorizadas en espacio logarítmico: La profundidad, escala y pose son optimizadas usando pérdidas de regresión robustas e invariantes a escala, mejorando así la estabilidad del modelo.
El entrenamiento se realizó en 64 GPUs H200 utilizando precisión mixta, con verificación de gradientes y una programación curricular que aumentó progresivamente de 4 a 24 vistas de entrada.
Resultados de benchmarking
Reconstrucción densa multivista
En pruebas realizadas en los conjuntos de datos ETH3D, ScanNet++ v2 y TartanAirV2-WB, MapAnything ha logrado resultados de vanguardia (SoTA) en términos de mapas de puntos, estimación de profundidad, poses y rayos. Este modelo ha superado a las referencias como VGGT y Pow3R, incluso cuando se limita únicamente al uso de imágenes. Además, su rendimiento mejora notablemente con datos de calibración o priors de pose.
Por ejemplo, el error relativo del mapa de puntos se reduce a 0.16 solo con imágenes, mejorando desde el 0.20 registrado por VGGT. Al incorporar imágenes junto a intrínsecos, poses y profundidad, el error desciende a 0.01, logrando más del 90% de ratios de inler.
Reconstrucción en dos vistas
En comparación con DUSt3R, MASt3R y Pow3R, MapAnything consistentemente supera a estos modelos en precisión de escala, profundidad y poses. Con priors adicionales, logra más del 92% de ratios de inler en tareas de dos vistas, alcanzando niveles de rendimiento significativamente mayores que los modelos anteriores en retroalimentación.
Calibración de una sola vista
A pesar de que MapAnything no fue específicamente entrenado para la calibración de imágenes individuales, logró un error angular promedio de 1.18°, superando a AnyCalib (2.01°) y MoGe-2 (1.95°).
Estimación de profundidad
En las evaluaciones robustas MVD, MapAnything establece un nuevo récord SoTA para la estimación de profundidad métrica en múltiples vistas. Con ayudas auxiliares, sus tasas de error rivalizan o superan a modelos especializados en profundidad como MVSA y Metric3D v2.
En general, los benchmarks demuestran una mejora de hasta el doble respecto a los métodos anteriores SoTA en una variedad de tareas, validando así los beneficios de un enfoque unificado en el entrenamiento.
Contribuciones clave
El equipo de investigación atribuye cuatro contribuciones principales a MapAnything:
- Un modelo de retroalimentación unificado que puede abordar más de 12 configuraciones de problemas, abarcando desde la profundidad monocular hasta SfM y estéreo.
- Una representación de escena factorizada que permite la separación explícita de rayos, profundidad, poses y escala métrica.
- Rendimiento de estado del arte en diversos benchmarks, con menos redundancias y mayor escalabilidad.
- Publicación de código abierto, que incluye procesamiento de datos, scripts de entrenamiento, benchmarks y pesos preentrenados bajo licencia Apache 2.0.
Conclusión
MapAnything establece un estándar innovador en la visión 3D, unificando múltiples tareas de reconstrucción, como SfM, estéreo, estimación de profundidad y calibración, dentro de un único modelo basado en transformador con una representación de escena factorizada. Este modelo no solo excede los métodos especializados en una variedad de benchmarks, sino que también se adapta eficientemente a entradas heterogéneas, como intrínsecos, poses y profundidad. Con su código fuente abierto, modelos preentrenados y soporte para más de 12 tareas diferentes, MapAnything sienta las bases para una auténtica reconstrucción 3D de propósito general.
Para conocer más sobre avances en tecnología e innovación, los invito a seguir explorando más contenido en mi blog.