Bbabo NET

Bilim ve Teknoloji Haberler

Tesla, Dojo süper bilgisayarı için D1 çipinin mimarisi hakkında konuştu

Tesla, Dojo AI süper bilgisayarının temelini oluşturacak olan kendi D1 işlemcisi hakkında detayları paylaştı. Şirket, yeni çipin mimarisi, cihazı ve yetenekleri hakkında konuştu.

Tesla, geliştirmesini Hot Chips 34 konferansında sundu.Sunum, Tesla donanımını oluşturmak ve geliştirmek için çalışan AMD'nin yerlisi Emil Talpes tarafından gerçekleştirildi.

Büyük bir bilgi işlem sistemi içindeki mekanizmaların ölçeklenebilirliği için, SRAM'a dayalı dağıtılmış bir depolama ağı kullanılır.

İşlemcinin temeli, RISC-V kümesindeki bazı talimatlar üzerindeki tamsayı hesaplamalarının özü ve makine öğrenimi çekirdeklerinin gereksinimleri için optimize edilmiş özel talimatlardır. Aynı zamanda, vektör matematiği bloğu neredeyse sıfırdan oluşturuldu.

Dojo komut seti, skaler, matris ve SIMD komutlarının yanı sıra verileri yerel bellekten uzak belleğe taşımak için ilkelleri ve sistem çapında bellek tutarlılığı için engellenmiş semaforları içerir. Makine öğrenimi için özel talimatlar, donanımdaki çipte uygulanır.

D1, belirli hızlandırıcılar olmadan yüksek performanslı genel amaçlı bir işlemci olacaktır. Bilgi işlem birimlerinin her biri, yerel belleğe ve G/Ç arabirimlerine (64 bit süperskalar) sahip bir D1 çekirdeği içerir.

Çekirdek, saat başına performansı artırmak için çoklu iş parçacığı (SMT4) desteği uygular. Bu uygulama sanal belleği desteklemez ve koruma mekanizmaları işlevsellik açısından sınırlıdır. Dojo kaynaklarının yönetiminden özel bir yazılım yığını ve özel yazılım sorumludur.

64 bit çekirdek, 8 adede kadar talimat içerebilen 32 baytlık bir getirme penceresine sahiptir. Bu, kod çözücünün genişliğine karşılık gelir. Saat başına iki iş parçacığı işleyebilir. Sonuç, onu bir tamsayı hesaplama birimine (iki ALU) veya bir vektör birimine (64 bayt genişliğinde SIMD + 8×8×4 matris çarpımı) gönderen zamanlayıcılara gider.

Her D1 çekirdeğinde 1.25 MB SRAM bulunur. Bu bellek, verileri 400 GB/sn'de yükleme ve 270 GB/sn'de depolama kapasitesine sahiptir. Özel talimatlar, diğer Dojo çekirdeklerindeki verilerle çalışmanıza izin verir. Uzak bellekle çalışmak ek işlemler gerektirmez.

Vektör ve matris blokları, karışık hassas hesaplamalar (FP32, BF16, CFP16 ve CFP8) dahil olmak üzere çok çeşitli kayan nokta formatlarını desteklerken, skaler blok 8 ila 64 bit tamsayı formatlarını destekler. Dojo derleyicisi mantis ve üs değerlerini dinamik olarak değiştirebilir ve sistem 16 adede kadar farklı vektör formatı kullanabilir.

D1 topolojisi, her 12 çekirdeğin bir mantıksal blokta birleştirildiği ve çipin kendisinin 18 × 20 çekirdekten oluşan bir dizi olduğu, ancak çipte bulunan 360 çekirdekten yalnızca 354'ünün mevcut olduğu bir ağ yapısı kullanır. 645 mm2'lik kalıp, TSMC'nin tesisinde 7 nm'lik bir işlem kullanılarak üretilir. Saat frekansı 2 GHz, toplam SRAM miktarı 440 MB'dir.

D1 işlemci, BF16/CFP8 modunda 362 teraflop geliştirir (FP32 modunda 22 teraflop'a kadar). FP64 modu, D1 vektör blokları tarafından desteklenmez ve birçok geleneksel HPC iş yükü için işlemci uygun değildir.

Her bir D1 kalıbının, dört tarafında da (8 TB/sn) birleşik çıktı ile 576 bitlik bir SerDes harici arabirimi vardır. Kristalleri tek bir 5x5 matris halinde birleştirir. 25 D1 kristalinden oluşan bir matrise Dojo eğitim karosu denir.

Dojo eğitim karosu bir termoelektromekanik modüldür. Her tarafta 4,5 TB/s bant genişliğine sahip harici bir arayüze, toplam 11 GB SRAM'a ve ayrıca kendi 15 kW güç sistemine sahiptir. Bilgi işlem gücü, BF16/CFP8 formatında 9 PFlop'tur.

Dojo eğitim karoları daha güçlü matrisler halinde birleştirilebilir. İletişim için, DIP blokları kullanılır - Dojo Arayüz İşlemcileri - matrislerin ana bilgisayar sistemleriyle iletişim kurduğu arayüz işlemcileri. Her DIP, 32 GB HBM belleği içerir.

DIP, 900 GB / s ve Ethernet üzerinden - 50 GB / s verim sağlayan kendi taşıma protokolünü (Tesla Taşıma Protokolü, TTP) kullanır. Kartların harici arabirimi PCI Express 4.0'dır ve her arabirim kartı bir çift DIP taşır. HBM yığınlarından 4,5 TB/s'ye varan hızlar sağlayan her sıranın her iki yanına 5 adet DIP kurulur.

Çok fazla atlama gerekiyorsa (uçtan uca erişim durumunda 30'a kadar), sistem bir yağ ağacı topolojisinde 400 GbE ağıyla harici olarak bağlanan DIP'leri kullanabilir.

Temel sürümündeki Dojo V1 süper bilgisayarı, BF16/CFP8 modunda 1 Eflop üretir ve 1,3 TB'a kadar modelleri doğrudan SRAM'e yükleyebilir ve DIP HBM düzeneklerinde 13 TB'lık bir veri daha depolanabilir. Dojo'nun tam ölçekli versiyonu, 20 eflopa kadar bir performansa sahip olacak.Tesla, Ağustos 2021'de Dojo D1 çipini tanıttı. Veri merkezleri içinde yapay zeka modellerini eğitmek için tasarlanmıştır. Tesla çipleri, modellerin arabaların içindeki kameralar tarafından toplanan video akışlarından çeşitli nesneleri tanımasına yardımcı olacak.

Şu anda şirket, kendi amaçları için dünyanın en büyük yedinci GPU-süper bilgisayarını kullanıyor. 80 GB belleğe sahip Nvidia A100 hızlandırıcılarda çalışır. Toplamda, süper bilgisayar 7360 video kartı içerir.

Tesla, Dojo süper bilgisayarı için D1 çipinin mimarisi hakkında konuştu