GPU de la serie RTX 3000 de NVIDIA: esto es lo nuevo

El 1 de septiembre de 2020, NVIDIA reveló su nueva línea de GPU para juegos: la serie RTX 3000, basada en su arquitectura Ampere. Hablaremos de las novedades, el software impulsado por IA que lo acompaña y todos los detalles que hacen que esta generación sea realmente asombrosa.

Conozca las GPU de la serie RTX 3000

Línea de GPU RTX 3000

El anuncio principal de NVIDIA fueron sus nuevas y brillantes GPU, todas construidas en un proceso de fabricación personalizado de 8 nm, y todas aportando importantes aceleraciones tanto en el rendimiento de rasterización como de trazado de rayos.

En el extremo inferior de la alineación, está el RTX 3070, que cuesta 499 dólares. Es un poco caro para la tarjeta más barata presentada por NVIDIA en el anuncio inicial, pero es un robo absoluto una vez que se entera de que supera a la RTX 2080 Ti existente, una tarjeta de primera línea que se vende regularmente por más de $ 1400. Sin embargo, después del anuncio de NVIDIA, el precio de venta de terceros cayó, y una gran cantidad de ellos se vendieron por pánico en eBay por menos de $ 600.

No hay puntos de referencia sólidos a partir del anuncio, por lo que no está claro si la tarjeta es objetivamente «mejor» que una 2080 Ti, o si NVIDIA está modificando un poco el marketing. Los puntos de referencia que se ejecutaron estaban en 4K y probablemente tenían RTX activado, lo que puede hacer que la brecha parezca más grande de lo que será en los juegos puramente rasterizados, ya que la serie 3000 basada en Ampere funcionará más del doble en el trazado de rayos que Turing. Pero, dado que el trazado de rayos ahora es algo que no afecta mucho al rendimiento y que es compatible con la última generación de consolas, es un punto de venta importante que funcione tan rápido como el buque insignia de la última generación por casi un tercio del precio.

Tampoco está claro si el precio seguirá siendo así. Los diseños de terceros agregan regularmente al menos $ 50 al precio, y con la alta demanda probable, no será sorprendente ver que se venda por $ 600 en octubre de 2020.

Justo encima de eso está el RTX 3080 a $ 699, que debería ser el doble de rápido que el RTX 2080, y llegar alrededor de un 25-30% más rápido que el 3080.

Luego, en el extremo superior, el nuevo buque insignia es el RTX 3090, que es cómicamente enorme. NVIDIA es muy consciente y se refirió a ella como «BFGPU», que la compañía dice que significa «Big Ferocious GPU».

RTX 3090 GPU

NVIDIA no mostró ninguna métrica de rendimiento directa, pero la compañía mostró que ejecuta juegos de 8K a 60 FPS, lo que es realmente impresionante. Por supuesto, es casi seguro que NVIDIA esté usando DLSS para alcanzar esa marca, pero los juegos de 8K son juegos de 8K.

Por supuesto, eventualmente habrá una 3060 y otras variaciones de tarjetas más orientadas al presupuesto, pero esas suelen llegar más tarde.

Para enfriar realmente las cosas, NVIDIA necesitaba un diseño renovado. El 3080 tiene una potencia nominal de 320 vatios, lo cual es bastante alto, por lo que NVIDIA ha optado por un diseño de ventilador doble, pero en lugar de colocar ambos ventiladores vwinf en la parte inferior, NVIDIA ha colocado un ventilador en el extremo superior donde suele ir la placa posterior. El ventilador dirige el aire hacia arriba, hacia el enfriador de la CPU y hacia la parte superior de la carcasa.

el ventilador hacia arriba en la GPU conduce a un mejor flujo de aire de la carcasa

A juzgar por cuánto puede verse afectado el rendimiento por un mal flujo de aire en una carcasa, esto tiene mucho sentido. Sin embargo, la placa de circuito está muy apretada debido a esto, lo que probablemente afectará los precios de venta de terceros.

DLSS: una ventaja de software

El trazado de rayos no es el único beneficio de estas nuevas tarjetas. En realidad, todo es un truco: la serie RTX 2000 y la serie 3000 no son mucho mejores para realizar el trazado de rayos real, en comparación con las generaciones anteriores de tarjetas. El trazado de rayos de una escena completa en un software 3D como Blender suele tardar unos segundos o incluso minutos por fotograma, por lo que no se puede aplicar la fuerza bruta en menos de 10 milisegundos.

Por supuesto, hay hardware dedicado para ejecutar cálculos de rayos, llamados núcleos RT, pero en gran medida, NVIDIA optó por un enfoque diferente. NVIDIA mejoró los algoritmos de eliminación de ruido, que permiten que las GPU generen una sola pasada muy barata que se ve terrible y, de alguna manera, a través de la magia de la IA, lo conviertan en algo que un jugador quiere mirar. Cuando se combina con técnicas tradicionales basadas en rasterización, ofrece una experiencia agradable mejorada por efectos de trazado de rayos.

imagen ruidosa suavizada con el eliminador de ruido de NVIDIA

Sin embargo, para hacer esto rápido, NVIDIA ha agregado núcleos de procesamiento específicos de IA llamados núcleos Tensor. Estos procesan todas las matemáticas necesarias para ejecutar modelos de aprendizaje automático y lo hacen muy rápidamente. Son un total un cambio de juego para la IA en el espacio del servidor en la nube, ya que muchas empresas utilizan ampliamente la IA.

Más allá de la eliminación de ruido, el uso principal de los núcleos Tensor para los jugadores se llama DLSS, o supermuestreo de aprendizaje profundo. Toma un fotograma de baja calidad y lo escala a calidad nativa completa. Básicamente, esto significa que puede jugar con velocidades de cuadro de nivel de 1080p, mientras mira una imagen 4K.

Esto también ayuda bastante con el rendimiento del trazado de rayos:puntos de referencia de PCMag muestre un RTX 2080 Super Running Control con calidad ultra, con todos los ajustes de trazado de rayos al máximo. En 4K, lucha con solo 19 FPS, pero con DLSS activado, obtiene 54 FPS mucho mejores. DLSS es un rendimiento gratuito para NVIDIA, posible gracias a los núcleos Tensor en Turing y Ampere. Cualquier juego que lo admita y esté limitado por GPU puede experimentar graves aceleraciones solo con el software.

DLSS no es nuevo y se anunció como una característica cuando se lanzó la serie RTX 2000 hace dos años. En ese momento, era compatible con muy pocos juegos, ya que requería que NVIDIA entrenara y ajustara un modelo de aprendizaje automático para cada juego individual.

Sin embargo, en ese tiempo, NVIDIA lo ha reescrito por completo, llamando a la nueva versión DLSS 2.0. Es una API de uso general, lo que significa que cualquier desarrollador puede implementarla, y la mayoría de las versiones principales ya la están utilizando. En lugar de trabajar en un fotograma, toma datos vectoriales de movimiento del fotograma anterior, de manera similar a TAA. El resultado es mucho más nítido que DLSS 1.0 y, en algunos casos, se ve mejor y más nítido incluso que la resolución nativa, por lo que no hay muchas razones para no activarlo.

Hay un inconveniente: cuando se cambia de escena por completo, como en las escenas de corte, DLSS 2.0 debe representar el primer fotograma con una calidad del 50% mientras espera los datos del vector de movimiento. Esto puede resultar en una pequeña caída de la calidad durante unos milisegundos. Pero el 99% de todo lo que mires se renderizará correctamente y la mayoría de las personas no lo notan en la práctica.

Arquitectura Ampere: construida para IA

El amperio es rápido. Realmente rápido, especialmente en los cálculos de IA. El núcleo RT es 1,7 veces más rápido que Turing, y el nuevo núcleo Tensor es 2,7 veces más rápido que Turing. La combinación de los dos es un verdadero salto generacional en el rendimiento del trazado de rayos.

Mejoras en el núcleo de RT y Tensor

A principios de mayo, NVIDIA lanzó la GPU Ampere A100, una GPU de centro de datos diseñada para ejecutar IA. Con él, detallaron mucho de lo que hace que Ampere sea mucho más rápido. Para cargas de trabajo informáticas de alto rendimiento y centros de datos, Ampere es en general alrededor de 1,7 veces más rápido que Turing. Para el entrenamiento de IA, es hasta 6 veces más rápido.

Mejoras en el rendimiento de HPC

Con Ampere, NVIDIA está utilizando un nuevo formato de número diseñado para reemplazar el estándar de la industria «Floating-Point 32» o FP32, en algunas cargas de trabajo. Bajo el capó, cada número que procesa su computadora ocupa un número predefinido de bits en la memoria, ya sean 8 bits, 16 bits, 32, 64 o incluso más. Los números que son más grandes son más difíciles de procesar, por lo que si puede usar un tamaño más pequeño, tendrá menos para procesar.

FP32 almacena un número decimal de 32 bits y usa 8 bits para el rango del número (cuán grande o pequeño puede ser) y 23 bits para la precisión. La afirmación de NVIDIA es que estos 23 bits de precisión no son del todo necesarios para muchas cargas de trabajo de inteligencia artificial, y puede obtener resultados similares y un rendimiento mucho mejor con solo 10 de ellos. Reducir el tamaño a solo 19 bits, en lugar de 32, hace una gran diferencia en muchos cálculos.

Este nuevo formato se llama Tensor Float 32, y los Tensor Cores en el A100 están optimizados para manejar el formato de tamaño extraño. Esto es, además de las reducciones de troqueles y los aumentos en el recuento de núcleos, cómo están obteniendo la velocidad masiva de 6 veces en el entrenamiento de IA.

Nuevos formatos de números

Además del nuevo formato numérico, Ampere está experimentando importantes aceleraciones de rendimiento en cálculos específicos, como FP32 y FP64. Estos no se traducen directamente en más FPS para el profano, pero son parte de lo que lo hace casi tres veces más rápido en general en las operaciones de Tensor.

mejoras en el rendimiento del núcleo tensorial

Luego, para acelerar aún más los cálculos, han introducido el concepto de escasez estructurada de grano fino, que es una palabra muy elegante para un concepto bastante simple. Las redes neuronales funcionan con grandes listas de números, llamadas ponderaciones, que afectan la salida final. Cuantos más números procese, más lento será.

Sin embargo, no todos estos números son realmente útiles. Algunos de ellos son literalmente cero, y básicamente pueden descartarse, lo que conduce a aceleraciones masivas cuando puede procesar más números al mismo tiempo. La dispersión esencialmente comprime los números, lo que requiere menos esfuerzo para hacer cálculos. El nuevo «Sparse Tensor Core» está diseñado para operar con datos comprimidos.

A pesar de los cambios, NVIDIA dice que esto no debería afectar notablemente la precisión de los modelos entrenados en absoluto.

datos dispersos comprimidos

Para los cálculos de Sparse INT8, uno de los formatos de números más pequeños, el rendimiento máximo de una sola GPU A100 es superior a 1,25 PetaFLOP, un número asombrosamente alto. Por supuesto, eso es solo cuando se procesa un tipo específico de número, pero de todos modos es impresionante.