Noticias Tecnológicas

Una breve descripción general de la nueva CPU de mainframe Telum de 7 nm de IBM

Base– La frecuencia del reloj se ejecuta por encima de 5 GHz. Un sistema típico tiene un total de dieciséis de estos chips dispuestos en cuatro «cajones». = «»>
Agrandar / Cada paquete Telum consta de dos procesadores de 7 nm con ocho núcleos y dieciséis subprocesos que se ejecutan a una velocidad base Frecuencia de reloj superior a 5 GHz. Un sistema típico tiene un total de dieciséis de estos chips dispuestos en cuatro «cajones» de zócalos.

Desde la perspectiva de un entusiasta de la informática x86 tradicional, o profesional, los mainframes son bestias arcaicas y extrañas. Son físicamente enormes, consumen mucha energía y son costosos en comparación con los equipos tradicionales del centro de datos, y generalmente ofrecen menos potencia de procesamiento por rack a un costo más alto.

Esto plantea la pregunta: «Entonces, ¿por qué seguir usando mainframes?» Una vez que entrega las respuestas cínicas a «porque siempre lo hicimos», las respuestas prácticas dependen en gran medida de la fiabilidad y la coherencia. Como señala Ian Cutress de AnandTech en un artículo especulativo que se centra en el caché rediseñado de Telum, «Downtime This» [IBM Z] Los sistemas se miden en milisegundos por año «. (Si eso es cierto, al menos Siete Nueve.)

El propio anuncio de IBM del Telum indica cuán diferentes son las prioridades de la computación de mainframe y de productos básicos. Describe casualmente la interfaz de memoria de Telum como «capaz de tolerar un canal completo o fallas DIMM y diseñada para recuperar datos de manera transparente sin afectar el tiempo de respuesta».

Si extrae un DIMM de un servidor x86 activo, ese servidor no «restaura datos transparentes», simplemente falla.

Arquitectura de la serie Z de IBM

Telum está diseñado para ser una especie de chip-to-go-the-all para mainframes, reemplazando una configuración mucho más heterogénea en mainframes IBM anteriores.

La CPU IBM z15 de 14 nm que Telum está reemplazando tiene un total de cinco procesadores: dos pares de procesadores informáticos de 12 núcleos y un controlador de sistema. Cada procesador de cómputo aloja una caché de 256 MiB L3 compartida por sus 12 núcleos, mientras que el controlador del sistema aloja una enorme caché de 960 MiB L4 compartida por los cuatro procesadores de cómputo.

Cinco de estos procesadores z15, cada uno de los cuales consta de cuatro procesadores informáticos y un controlador de sistema, forman un «cajón». Cuatro cajones se unen en un solo mainframe alimentado por z15.

Aunque el concepto de múltiples procesadores en un cajón y múltiples cajones en un sistema permanece, la arquitectura dentro de Telum es radicalmente diferente y enormemente simplificada.

Arquitectura de armas

Telum es un poco más simple que z15 a primera vista: es un procesador de ocho núcleos basado en el proceso de 7 nm de Samsung, con dos procesadores combinados en cada caso (similar al enfoque chiplet de AMD para Ryzen). No hay un procesador controlador del sistema separado; todos los procesadores Telum son idénticos.

A partir de aquí, cuatro paquetes de CPU Telum forman un «cajón» con cuatro zócalos, y cuatro de estos cajones entran en un solo sistema de mainframe. Esto ofrece un total de 256 núcleos en 32 CPU. Cada núcleo se ejecuta en un base Frecuencia de reloj superior a 5 GHz: proporciona una latencia más predecible y consistente para transacciones en tiempo real que una base más baja con una tasa de turbo más alta.

Bolsillos llenos de caché

La eliminación del procesador del sistema central en cada paquete también significó un rediseño de la caché de Telum: la enorme caché de 960 MiB L4 se ha ido, al igual que la caché L3 compartida por chip. En Telum, cada núcleo tiene una caché L2 privada de 32 MiB, y eso es todo. No hay caché de hardware L3 o L4 en absoluto.

Aquí es donde las cosas se ponen profundamente extrañas: si bien la caché de 32 MiB L2 de cada núcleo Telum es técnicamente privada, en realidad lo es virtual Privado. Cuando se elimina una línea de la caché L2 de un núcleo, el procesador busca un espacio vacío en la L2 de los otros núcleos. Si encuentra alguno, elimine la línea de caché L2 del núcleo X se marca como una línea de caché L3 y se almacena en el núcleo yes L2.

Bien, tenemos una caché L3 virtual compartida de hasta 256 MiB en cada procesador Telum, que consta de la caché L2 «privada» de 32 MiB en cada uno de sus ocho núcleos. A partir de aquí, las cosas van un paso más allá: esos 256 MiB compartidos «L3 virtual» en cada procesador pueden, a su vez, ser utilizados como «L4 virtuales» compartidos por todos los procesadores de un sistema.

La «L4 virtual» de Telum funciona de manera muy similar a su «L3 virtual»: las líneas de caché L3 eliminadas de un procesador buscan un hogar en otro procesador. Si otro procesador en el mismo sistema Telum tiene espacio libre, la línea de caché L3 eliminada se vuelve a marcar como L4 y, en su lugar, vive en la L3 virtual del otro procesador (que consta de las L2 «privadas» de sus ocho núcleos).

Ian Cutress de AnandTech analiza más de cerca los mecanismos de caché de Telum. Finalmente lo resume respondiendo: «¿Cómo es eso posible?» con una simple «magia».

Aceleración de inferencia de IA

Christian Jacobi de IBM describe brevemente la aceleración de la IA de Telum en este clip de dos minutos.

Telum también está introduciendo un acelerador de inferencia 6TFLOPS en chip. Entre otras cosas, se utilizará para la detección de fraudes en tiempo real. tiempo Transacciones financieras (a diferencia de poco después de la transacción).

En busca del máximo rendimiento y la mínima latencia, IBM enhebra varias agujas. El nuevo acelerador de inferencia se coloca en el chip, lo que permite conexiones entre el acelerador y los núcleos de la CPU con menor latencia. no integrado en los propios núcleos, al estilo del conjunto de instrucciones AVX-512 de Intel.

El problema con la aceleración de inferencia en el núcleo como la de Intel es que generalmente limita la potencia de procesamiento de IA disponible a un solo núcleo. Un núcleo Xeon que ejecuta una instrucción AVX-512 solo tiene disponible el hardware en su propio núcleo, lo que significa que las solicitudes de inferencia más grandes deben dividirse en varios núcleos Xeon para lograr el rendimiento total disponible.

El acelerador de Telum está en marcha, pero fuera de núcleo. De esta manera, un solo núcleo puede manejar cargas de trabajo de inferencia con el poder del completo Acelerador en la matriz, no solo la parte incorporada.

Imagen de oferta de IBM

Publicaciones relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba