NVIDIA'nın Sözde "Sıcak Çipleri" Aslında "Sıcak Platformlar"

Sep 03, 2024

Mesaj bırakın

NVIDIA, karmaşık üretken yapay zeka zorluklarını ele alabilen gelişmiş sistemler ve platformlar oluşturmayı amaçlayan sistem düzeyinde ve veri merkezi düzeyinde mühendislik projelerine odaklanıyor.

Bu ayın başlarında, NVIDIA, şirketin merakla beklenen "Blackwell" GPU hızlandırıcılarının tasarım kusurları nedeniyle üç aya kadar gecikebileceğine dair raporlar ortaya çıktığında nadir görülen kötü haberlerle karşılaştı. Ancak, bir NVIDIA sözcüsü her şeyin planlandığı gibi ilerlediğini belirtti. Bazı tedarikçiler hiçbir şeyin değişmediğini belirtirken, diğerleri bazı normal gecikmelere dikkat çekti.

Sektör uzmanları, NVIDIA'nın 2025 mali yılının ikinci çeyreğine ilişkin mali sonuçlarını önümüzdeki Çarşamba günü açıkladığında kullanıcıların Blackwell'in durumu hakkında daha fazla bilgi edineceğini öngörüyor.

Blackwell yongalarının-B100, B200 ve GB200-bu yılki Hot Chips konferansının öne çıkanları olacağı bildiriliyor. Konferans gelecek hafta Kaliforniya'daki Stanford Üniversitesi'nde düzenlenecek. NVIDIA mimarisini tanıtacak, bazı yeni yenilikleri detaylandıracak, yonga tasarımında AI kullanımını özetleyecek ve bu büyüyen AI iş yüklerini çalıştırmak için kullanılan veri merkezlerindeki sıvı soğutma araştırmalarını tartışacak. NVIDIA'nın Hızlandırılmış Hesaplama Ürünleri Direktörü Dave Salvator'a göre şirket ayrıca veri merkezlerinden birinde halihazırda çalışan Blackwell yongalarını da sergileyecek.

Blackwell chips

▲ Blackwell yongaları

NVIDIA'nın Blackwell hakkında tartıştığı şeylerin çoğu zaten biliniyor, örneğin Blackwell Ultra GPU'nun gelecek yıl piyasaya sürülmesi ve yeni nesil Rubin GPU ve Vera CPU'nun 2026'da piyasaya sürülmeye başlaması gibi. Ancak Salvator, Blackwell hakkında konuşurken onu tek bir çipten ziyade bir platform olarak görmenin çok önemli olduğunu vurguladı. Salvator, bu hafta Hot Chips hazırlıklarının bir parçası olarak gazeteciler ve analistler için yaptığı brifingde bu noktaya değindi.

"NVIDIA ve inşa ettiğimiz platformları düşündüğünüzde, GPU, ağ ve hatta CPU'muz sadece başlangıçtır," dedi. "Gerçekten dışarı çıkıp bu gerçekten zorlu üretken AI zorluklarının üstesinden gelebilecek bu sistemleri ve platformları inşa etmek için sistem düzeyinde ve veri merkezi düzeyinde mühendislik yapıyoruz. Modellerin ölçeğinin zamanla büyüdüğünü gördük ve çoğu üretken AI uygulamasının gerçek zamanlı olarak çalışması gerekiyor, çıkarım talepleri son birkaç yılda önemli ölçüde arttı. Gerçek zamanlı büyük dil modeli çıkarımı birden fazla GPU gerektirir ve yakın gelecekte birden fazla sunucu düğümü gerektirecektir."

ANNOUNCING NVIDIA BLACKWELLPLATFORM FOR TRILLION-PARAMETER SCALE GENERATIE AI

Bunlara yalnızca Blackwell GPU'ları ve Grace CPU'ları değil, aynı zamanda NVLink Switch yongaları, Bluefield-3 DPU'ları, ConnextX-7 ve ConnectX-8 NIC'leri, Spectrum-4 Ethernet anahtarları ve Quantum-3 InfiniBand anahtarları da dahildir. Salvator ayrıca NVLink Switch (aşağıda), hesaplama, Spectrum-X800 ve Quantum-X800 için farklı içgörüler sağladı.

NVIDIA, bu yılın Mart ayında GTC 2024 konferansında çok beklenen Blackwell mimarisini tanıttı ve hiper ölçekli satıcılar ve OEM'ler hızla imza attı. Şirket, büyük dil modellerinin (LLM'ler) daha da büyük hale geldiği hızla genişleyen üretken AI alanını hedefliyor. Haziran ayında piyasaya sürülen Meta'nın Llama 3.1'i, 4,05 trilyon parametreli bir modele sahip olarak bu eğilimin bir kanıtıdır. Salvator, LLM'ler büyüdükçe gerçek zamanlı çıkarım talebinin devam ettiğini, daha fazla hesaplama ve daha düşük gecikme gerektirdiğini ve bunun da bir platform yaklaşımı gerektirdiğini belirtti.

'Diğer birçok LLM'de olduğu gibi, bu modelin desteklediği hizmetlerin gerçek zamanlı olarak çalışması bekleniyor. Bunu başarmak için birden fazla GPU'ya ihtiyacınız var. Zorluk, GPU'ların yüksek performansı, GPU'ların yüksek kullanımı ve bu AI destekli hizmetleri tüketen son kullanıcılar için iyi bir kullanıcı deneyimi sağlama arasında büyük bir dengeyi nasıl kuracağınızdır," dedi.

Hız İhtiyacı

NVIDIA, Blackwell ile her bir anahtarın bant genişliğini iki katına çıkararak 900 GB/sn'den 1,8 TB/sn'ye çıkardı. Şirketin Ölçeklenebilir Hiyerarşik Toplama ve Azaltma Protokolü (SHARP) teknolojisi, anahtarların içinde bulunan sistemlere daha fazla bilgi işlem getiriyor. Performansı hızlandırmaya yardımcı olmak için bazı görevleri GPU'dan boşaltmamızı sağlıyor ve ayrıca NVLink yapısı üzerinden ağ trafiğini yumuşatmaya yardımcı oluyor. Bunlar, platform düzeyinde yönlendirmeye devam ettiğimiz yeniliklerdir.

Çok düğümlü GB200 NVL72, raf ölçekli bir tasarımda 72 Blackwell GPU ve 36 Grace CPU'yu bağlayan sıvı soğutmalı bir şasidir. NVIDIA, GPT-MoE-1.8T gibi trilyon parametreli LLM'ler için daha yüksek çıkarım performansı sağladığını ve etkili bir şekilde tek bir GPU olarak işlev gördüğünü iddia ediyor. Performansı HGX H100 sisteminin 30 katıdır ve eğitim hızı H100'den dört kat daha hızlıdır.

NVIDIA ayrıca, şirketin FP16 ile aynı hassasiyeti sunarken bant genişliği kullanımını %75 oranında azaltan Quasar Quantization System'ını kullanarak FP4 için yerel destek ekledi. Quasar Quantization System, doğruluğu sağlamak için Blackwell'in Transformer Engine'inden yararlanan bir yazılımdır. Salvator bunu, ikisi arasında çok az veya hiç fark edilebilir fark olmadan FP4 ve FP16 kullanılarak oluşturulan üretken AI görüntülerini karşılaştırarak gösterdi.

FP4 kullanılarak modeller daha az bellek kullanabilir ve Hopper GPU'da FP8'den bile daha iyi performans gösterebilir.

Sıvı Soğutma Sistemleri

Sıvı soğutma alanında NVIDIA, veri merkezi güç tüketimini %28 oranında azaltabilecek sıcak su doğrudan çipten çipe yöntemini tanıtacak.

Salvator, "Bu yöntemle ilgili ilginç olan şey, artan soğutma verimliliği, daha düşük işletme maliyetleri, uzatılmış sunucu ömrü ve yakalanan ısıyı başka amaçlar için yeniden kullanma potansiyeli gibi bazı avantajlarıdır. Kesinlikle soğutma verimliliğini artırmaya yardımcı olur. Adından da anlaşılacağı gibi, bunun elde edilmesinin yollarından biri, bu sistemin aslında soğutucuları kullanmamasıdır. Bir buzdolabının nasıl çalıştığını düşünürseniz, oldukça iyi çalışır. Ancak aynı zamanda elektrik de gerektirir. Bu sıcak su çözümünü benimseyerek, soğutucuları kullanmak zorunda kalmayız, bu da bize biraz enerji tasarrufu sağlar ve işletme maliyetlerini düşürür." dedi.

Başka bir konu da NVIDIA'nın AI'yı, kırk yıldır koddaki devreleri tanımlamak için kullanılan bir donanım tanımlama dili olan Verilog kullanarak AI çiplerini tasarlamak için nasıl kullandığıdır. NVIDIA bu çabayı VerilogCoder adlı otonom bir Verilog aracısı aracılığıyla ilerletiyor.

AI chips

"Araştırmacılarımız, sistemlerimizi tanımlayan Verilog kodunun oluşturulmasını hızlandırabilecek büyük bir dil modeli geliştirdiler. Bunu, bu kodların oluşturulmasına yardımcı olmak için gelecekteki ürün nesillerinde kullanacağız. Birçok şey yapabilir. Tasarım ve doğrulama sürecini hızlandırmaya yardımcı olabilir. Tasarımın manuel işlemlerini hızlandırabilir ve temelde birçok görevi otomatikleştirebilir." dedi.