NVIDIA impulsa el desarrollo de modelos de IA abiertos en NeurIPS 2025

Los investigadores de todo el mundo dependen de tecnologías de código abierto como base para su trabajo. Con el fin de equipar a la comunidad con los últimos avances en IA digital y física, NVIDIA está expandiendo su colección de modelos, conjuntos de datos y herramientas de IA abiertas, que tienen aplicaciones potenciales en prácticamente todos los campos de investigación.

En NeurIPS, una de las conferencias de IA más destacadas a nivel mundial, NVIDIA presentó modelos y herramientas de IA física abiertas para apoyar la investigación, incluyendo Alpamayo-R1, el primer modelo de acción de lenguaje de visión de razonamiento (VLA) a escala industrial para la conducción autónoma. En el ámbito de la IA digital, NVIDIA lanzó nuevos modelos y conjuntos de datos para el reconocimiento de voz y la seguridad de la IA.

NVIDIA DRIVE Alpamayo-R1: Un Avance en la Investigación de Conducción Autónoma

NVIDIA DRIVE Alpamayo-R1 (AR1) es el primer modelo VLA abierto para la investigación de vehículos autónomos, integrando razonamiento de IA con planificación de trayectorias, un componente crítico para mejorar la seguridad en situaciones complejas en las carreteras y habilitar la autonomía de nivel 4.

A diferencia de versiones anteriores de modelos de conducción autónoma, que enfrentaron dificultades en situaciones sutiles, el razonamiento proporciona a los vehículos autónomos el sentido común necesario para conducir de una manera más similar a la de los humanos.

El AR1 logra esto desglosando un escenario y razonando a través de cada paso. Considera todas las trayectorias posibles y utiliza datos contextuales para elegir la mejor ruta.

Por ejemplo, al aprovechar el razonamiento en cadena que permite el AR1, un vehículo autónomo que circula en una zona con alta densidad de peatones podría procesar datos de su trayectoria, incorporar trazas de razonamiento —explicaciones sobre por qué tomó determinadas acciones— y usar esa información para planificar su trayectoria futura, como alejarse de un carril de bicicletas o detenerse ante posibles peatones imprudentes.

La fundación abierta de AR1, basada en NVIDIA Cosmos Reason, permite a los investigadores personalizar el modelo para sus propios casos de uso no comerciales, ya sea para benchmarking o para desarrollar aplicaciones experimentales de vehículos autónomos.

Personalizando NVIDIA Cosmos para Cualquier Caso de Uso en IA Física

Los desarrolladores pueden aprender a utilizar y realizar un post-entrenamiento de modelos basados en Cosmos mediante recetas paso a paso, ejemplos de inferencia rápida y flujos de trabajo avanzados de post-entrenamiento, ahora disponibles en el Cosmos Cookbook. Este es un recurso integral para desarrolladores de IA física que cubre cada paso en el desarrollo de IA, incluyendo la curación de datos, generación de datos sintéticos y evaluación de modelos.

Las aplicaciones basadas en Cosmos ofrecen posibilidades prácticamente ilimitadas. Algunos ejemplos recientes de NVIDIA incluyen:

  • LidarGen, el primer modelo mundial que puede generar datos lidar para simulación de vehículos autónomos.
  • Omniverse NuRec Fixer, un modelo para simulación de vehículos autónomos y robótica que utiliza NVIDIA Cosmos Predict para abordar casi instantáneamente artefactos en datos reconstruidos neuralmente.
  • Cosmos Policy, un marco para convertir grandes modelos de video preentrenados en políticas robustas para robots.
  • ProtoMotions3, un marco de código abierto y acelerado por GPU para entrenar humanos digitales y robots humanoides simulados físicamente.
Muestras de salida del modelo LidarGen, construido sobre Cosmos. La fila superior muestra los datos de entrada con los datos lidar generados superpuestos.

Los modelos de políticas pueden ser entrenados en NVIDIA Isaac Lab y Isaac Sim, y los datos generados pueden ser utilizados para realizar un post-entrenamiento de modelos NVIDIA GR00T N para robótica.

Política humanoide entrenada con ProtoMotions3 en Isaac Sim, con escena de fondo 3D generada por Lyra con Cosmos WFM.

Los socios del ecosistema de NVIDIA están desarrollando sus últimas tecnologías con los WFMs de Cosmos.

Nuevas Adiciones de NVIDIA Nemotron Fortalecen el Kit de Herramientas para Desarrolladores de IA Digital

NVIDIA también está lanzando nuevos modelos de IA de voz con múltiples hablantes, un nuevo modelo con capacidades de razonamiento y conjuntos de datos para la seguridad de la IA, así como herramientas abiertas para generar conjuntos de datos sintéticos de alta calidad para el aprendizaje por refuerzo y la personalización de modelos específicos de dominio. Estas herramientas incluyen:

  • MultiTalker Parakeet: Un modelo de reconocimiento de voz automático para audio en streaming que entiende a múltiples hablantes, incluso en conversaciones superpuestas.
  • Sortformer: Un modelo que distingue con precisión a varios hablantes en un flujo de audio en tiempo real.
  • Nemotron Content Safety Reasoning: Un modelo de seguridad de IA basado en razonamiento que aplica políticas personalizadas en diferentes dominios.
  • Nemotron Content Safety Audio Dataset: Un conjunto de datos sintético que ayuda a entrenar modelos para detectar contenido de audio no seguro.
  • NeMo Gym: Una biblioteca de código abierto que acelera y simplifica el desarrollo de entornos de aprendizaje por refuerzo.
  • NeMo Data Designer Library: Ahora de código abierto, esta biblioteca proporciona un kit de herramientas integral para generar y validar conjuntos de datos sintéticos de alta calidad.

Los socios del ecosistema de NVIDIA que utilizan las herramientas Nemotron y NeMo para construir IA seguras y especializadas incluyen a CrowdStrike, Palantir y ServiceNow.

Los asistentes a NeurIPS pueden explorar estas innovaciones en el Nemotron Summit, que se lleva a cabo hoy, de 4 a 8 p.m. PT, con una charla inaugural de Bryan Catanzaro, vicepresidente de investigación en aprendizaje profundo aplicado en NVIDIA.

NVIDIA Avanza en Innovaciones de IA de Lenguaje

<pEntre los numerosos trabajos de investigación de NVIDIA presentados en NeurIPS, destacan algunos que avanzan en modelos de lenguaje:

Para más detalles sobre el evento, visita NeurIPS, que se celebra hasta el domingo 7 de diciembre en San Diego.