Las GPU AMD Instinct continúan impulsando la IA en los puntos de referencia de la industria y en los modelos de IA más exigentes de la actualidad

5 de abril de 20255 de abril de 2025 Alberto Marin AMD

Los clientes que evalúan la infraestructura de IA en la actualidad confían en una combinación de puntos de referencia estándar del sector y métricas de rendimiento de modelos del mundo real, como las de Llama 3.1 405B, DeepSeek-R1 y otros modelos líderes de código abierto, para guiar sus decisiones de compra de GPU.

En AMD, creemos que ofrecer valor en ambas dimensiones es esencial para impulsar una adopción más amplia de la IA y la implementación en el mundo real a escala. Es por eso que adoptamos un enfoque holístico, optimizando el rendimiento para rigurosos puntos de referencia de la industria como MLperf y, al mismo tiempo, permitimos el soporte del día 0 y el ajuste rápido para los modelos más utilizados en producción por nuestros clientes. Esta estrategia ayuda a garantizar que las GPU AMD Instinct™ no solo ofrezcan un rendimiento sólido y estandarizado, sino también inferencia de IA escalable y de alto rendimiento en los últimos modelos generativos y de lenguaje utilizados por los clientes.

En este blog, exploramos cómo la inversión continua de AMD en evaluación comparativa, habilitación de modelos abiertos, software y herramientas de ecosistema ayuda a generar un mayor valor para los clientes, desde los resultados de MLPerf Inference 5.0 hasta el rendimiento de Llama 3.1 405B y DeepSeek-R1, los avances del software ROCm y más.

Serie de primicias para AMD Instinct en MLPerf Inference 5.0

En la ronda MLPerf Inference 5.0, AMD marcó un hito con una serie de primicias significativas que destacan nuestro creciente impulso en este punto de referencia estándar clave de la industria.

Presentamos nuestros primeros números de inferencia MLPerf para AMD Instinct MI325X, nuestra última generación de GPU Instinct lanzada en octubre de 2024.
Apoyamos la primera presentación de varios nodos con la solución AMD Instinct en colaboración con un socio.
Por primera vez, permitimos que varios socios enviaran resultados utilizando nuestras últimas GPU MI325X.

Creciente adopción de la industria y ampliación de nuestra presencia

Estamos orgullosos de que varios socios —Supermicro (SMC), ASUS y Gigabyte (GCT) con Instinct MI325X, y MangoBoost con Instinct MI300X— hayan presentado con éxito los resultados de MLPerf utilizando las GPU AMD Instinct por primera vez.

Todas las presentaciones de los socios con Instinct MI325X en Llama 2 70B lograron un rendimiento comparable con los resultados presentados por AMD (Figura 1), lo que subraya la consistencia y confiabilidad de nuestras GPU en diversos entornos.

Además de Llama 2 70B, AMD ha ampliado sus presentaciones para incluir Stable Diffusion XL (SDXL) con las últimas GPU Instinct MI325X, lo que demuestra un rendimiento competitivo en cargas de trabajo de IA generativa (ver figura 1). Nuestras técnicas únicas de partición de GPU jugaron un papel fundamental para lograr un rendimiento competitivo frente a NVIDIA H200 en nuestra presentación inaugural de SDXL.

Figura 1: : AMD (1× Nodo Instinct MI325X, MLPerf 5.0 – Llama2-70B, ID: 5.0-0001 | SDXL, ID: 5.0-0002) vs NVIDIA (1× nodo H200 – Llama2-70B Y SDXL, ID: 5.0-0060) Resultados de presentación para las pruebas de rendimiento Llama 2, 70B y SDXL

Más allá de MLPerf, AMD continúa ayudando a los clientes a implementar con confianza los modelos de IA más avanzados a escala. Recientemente, entregamos soporte de día 0 para los modelos Gemma 3 de Google, lo que ayuda a permitir el acceso temprano a la inferencia de alto rendimiento en las GPU AMD Instinct. Nuestro trabajo continuo con Llama 3.1, 405B y DeepSeek-R1 también brindó un rendimiento de liderazgo a través de rápidos avances liderados por el software ROCm . Profundizaremos en estos aspectos destacados del rendimiento más adelante en el blog, ¡así que sigue leyendo!

Demostración de la escalabilidad: una presentación multinodo que bate récords

MangoBoost, un proveedor de soluciones de sistemas avanzados que maximizan la eficiencia de los centros de datos de IA, realizó la primera presentación de socios a MLperf utilizando múltiples nodos de soluciones AMD Instinct, específicamente con cuatro nodos de Instinct MI300X. En particular, esta presentación estableció un nuevo punto de referencia, logrando el rendimiento fuera de línea más alto registrado en las presentaciones de MLPerf para el punto de referencia Llama 2 70B (consulte la Figura 2). Esta presentación valida la escalabilidad y el rendimiento de las soluciones AMD Instinct en cargas de trabajo de IA de varios nodos.

Figura 2: MangoBoost (4× nodos Instinct MI300X, MLPerf 5.0) vs. AMD (1× nodo Instinct MI300X, MLPerf 4.1) Resultados de la presentación para Llama 2 70B Benchmark

Información sobre el rendimiento de MLPerf

En el centro de los sólidos resultados de AMD MLPerf Inference 5.0 se encuentra la sinergia entre el hardware Instinct MI325X y la innovación de software impulsada por ROCm™.

Cada nodo MI325X ofrece 2,048 TB de memoria HBM3e y un ancho de banda de 6 TB/s, lo que permite que modelos como Llama 2, 70B y SDXL se ejecuten completamente en memoria, incluso en una sola GPU, incluida la caché KV, evitando la sobrecarga entre GPU y maximizando el rendimiento.

Los últimos contenedores ROCm quincenales de AMD, disponibles a través de Infinity Hub, aportaron optimizaciones clave en la programación del kernel, el ajuste de GEMM y la eficiencia de la inferencia, lo que ayudó a desbloquear todo el potencial del MI325X. Además, la herramienta AMD Quark permitió la cuantificación de FP16 a FP8, mientras que las mejoras en vLLM y el manejo de memoria aumentaron aún más el rendimiento de la inferencia.

Las últimas actualizaciones en todo el ecosistema ROCm están preparadas para mejorar aún más el rendimiento futuro de MLPerf de AMD y ayudar a los clientes de Instinct a escalar las cargas de trabajo de IA de manera más eficiente. El nuevo AI Tensor Engine for ROCm (AITER) acelera las operaciones críticas como GEMM, Attention y Mixture-of-Experts utilizando kernels preoptimizados y directos, lo que ofrece una ejecución de decodificador hasta un 17× más rápida, un 14× mejoras en la atención de múltiples cabezales y un rendimiento de más del 2× en la inferencia de LLM.

AMD también presentó recientemente Open Performance and Efficiency Architecture (OPEA), un marco multiplataforma que ofrece telemetría profunda en computación, memoria y energía. Integrado con ROCm y compatible con PyTorch, Triton y configuraciones de múltiples GPU, OPEA ayuda a los clientes de Instinct a optimizar el rendimiento y escalar desde el borde hasta la nube.

Además, el operador de GPU de AMD simplifica la implementación nativa de Kubernetes de las GPU de AMD para entornos de IA de producción. Las actualizaciones recientes incluyen automatización mejorada, compatibilidad con GPU de múltiples instancias (MIG) y una integración más profunda de ROCm, lo que reduce la sobrecarga operativa y acelera el tiempo de generación de valor para los usuarios de Instinct.

Juntas, estas mejoras continuarán ayudando a AMD a ofrecer resultados sólidos en las presentaciones de MLPerf, al tiempo que brindan un valor y una escalabilidad aún mayores para los clientes de Instinct.

Mantener un rendimiento sólido en los modelos de código abierto más avanzados y recientes disponibles en la actualidad

Sobre la base de nuestro éxito en MLPerf, AMD continúa ofreciendo un rendimiento excepcional en los principales modelos de IA de código abierto, en particular DeepSeek-R1 y Llama 3.1 405B.

Optimizado para las GPU AMD Instinct™ MI300X, DeepSeek-R1 se beneficia de optimizaciones rápidas de ROCm™, logrando un aumento de la velocidad de inferencia 4 veces mayor en solo 14 días. Si bien el MI300X compite directamente con el H100 de NVIDIA, su rendimiento rivaliza con el H200 (consulte la figura 3), lo que lo convierte en una excelente opción para la escalabilidad, el alto rendimiento y la eficiencia.

Figura 3: Resultados de rendimiento de AMD (1× nodo Instinct MI300X) frente a NVIDIA (1× nodo H200) para Deepseek R1 Benchmark

El modelo Llama 3.1 405B se ha optimizado para las GPU AMD Instinct™ MI300X, lo que ayuda a AMD por su liderazgo en rendimiento. El MI300X supera al H100 de NVIDIA en cargas de trabajo vinculadas a la memoria debido a su mayor ancho de banda, al tiempo que reduce los costes de infraestructura al requerir menos nodos para los modelos grandes. Con el soporte del día 0, AMD ayudó a garantizar la implementación y optimización sin problemas de este modelo de vanguardia desde el principio.

Figura 4: (1× nodo Instinct MI300X) frente a (1x nodo NVIDIA H100) Llama 3.1 405B FP8 rendimiento frente a latencia con TP4 y TP8

Impulso continuo y compromiso con la transparencia

La inversión de AMD en la escalabilidad de la IA, el rendimiento, los avances de software y la estrategia de código abierto son evidentes en nuestros resultados de MLPerf v5.0, las colaboraciones de la industria y las optimizaciones para modelos de vanguardia como DeepSeek-R1 y Llama 3.1 405B. Con MI300X y MI325X, ofrecemos soluciones de IA escalables y de alto rendimiento que impulsan la eficiencia y la rentabilidad.

A medida que impulsamos la IA, AMD sigue dedicada a la transparencia, la innovación y a empoderar a los clientes para que escalen la IA con confianza. Estén atentos a nuestra próxima presentación de MLPerf: esperamos compartir nuestro progreso y conocimientos con usted.

AMD mantiene su compromiso con el código abierto y la transparencia. Todos los resultados se pueden reproducir siguiendo las instrucciones de nuestra publicación de blog ROCm. Puedes leer en profundidad sobre las optimizaciones de MLperf que hicimos en esta ronda en este blog. Los resultados completos de los envíos están disponibles en el sitio web de MLCommons, y los artefactos de origen están disponibles en este repositorio.