Ana Sayfa Donanım Qualcomm, MLPerf Çıkarım Başlığı için Nvidia’yı Aldı

Qualcomm, MLPerf Çıkarım Başlığı için Nvidia’yı Aldı

Qualcomm Cloud AI100 PCIe ve M.2 kartları (Kaynak: Qualcomm)

En son MLPerf AI çıkarım kıyaslama puanları geldi. Nvidia, başından beri hem MLPerf eğitimine hem de çıkarsama sonuçlarına hakim oldu, ancak bu turda Qualcomm, veri merkezi/uç sunucu çıkarımı söz konusu olduğunda Nvidia’nın kuyruğuna yakın görünüyor.

Qualcomm, 16x Cloud AI100 hızlandırıcısına sahip bir sistem için MLPerf çıkarım puanları sundu ve bu, kapalı bölümde veri merkezi çıkarımı için ResNet-50 ve SSD-Large kriterlerini kazandı. Ancak Nvidia’nın bu bölümdeki en büyük A100 sistemi 8x A100’lere sahipti. 8x A100 sistemleri, Qualcomm’un ResNet-50 ve SSD-Large üzerindeki 8x Cloud AI100 sistemi için puanları rahat bir şekilde geride bıraktı.

A10, A30, A100, AGX Xavier ve Xavier NX hızlandırılmış sistemlerin birçok yinelemesinin yanı sıra Nvidia, Arm tabanlı bir sunucu CPU’su (bu durumda, bir Ampere Altra CPU) kullanan bir sistem için bazı puanlar verdi. aynı hızlandırıcı kurulumuna sahip ancak AMD Epyc x86 sunucu CPU’lu sistem. Bu, Arm tabanlı bir CPU ile x86 eşdeğeri arasında ilk kez doğrudan karşılaştırmaya izin verdi. Sonuçlar, performans açısından kabaca eşit olan iki sisteme sahiptir. Nvidia, bunun yalnızca Arm CPU’ların veri merkezi için hazır olduğunu kanıtlamakla kalmayıp, Nvidia’nın kendi yazılımının da bu olasılığa hazır olduğunu söylüyor.Özellikle, bazı güç verimliliği ölçümlerinde Qualcomm’un Cloud AI100’ü, Nvidia’nın A100’üne dayalı bazı sistemlerden daha iyi performans gösterdiği şeklinde yorumlanabilir. Qualcomm’un Cloud AI100’ü, bazı GPU rakiplerinin tipik olarak ihtiyaç duyduğu yüzlerce Watt’tan çok daha düşük, 75 W civarında bir TDP’ye sahiptir. Performans rakamları genel olarak Nvidia’nın A100’ünden daha düşük olsa da, güç tüketimine bölündüğünde, bazı durumlarda Qualcomm kısmı öne çıkıyor.

İşte sonuçlara daha derin bir dalış. MLPerf Inference 1.1 puanlarının tam elektronik tablosu burada görüntülenebilir .


Nvidia’nın veri merkezi çıkarım sonuçlarında aldığı performans puanları , kapalı bölme, aşağıdaki grafikte özetlenmiştir. Bu rakamlar, hızlandırıcı çipi başına normalleştirilir ve ardından A30’un performansına göre normalleştirilir. Her iş yükündeki en uzun iki çubuk, Arm tabanlı sunucu ile aynı Nvidia hızlandırıcılarına sahip x86 tabanlı sunucu arasındaki karşılaştırmayı gösterir. Performans benzer olsa da, x86 sistemi neredeyse tüm durumlarda marjinal olarak daha iyiydi.

Kol tabanlı CPU’lar, veri merkezi için güç açısından verimli bir çözüm olarak lanse edildi. Ancak Nvidia, bu turda Arm tabanlı sistem için güç ölçüm puanları sunmadı. Benzer bir x86 tabanlı sistemle aynı veya biraz daha kötü kıyaslama puanları üretmenin, veri merkezi operatörlerini geçiş yapmaya ikna etmek için yeterli olup olmayacağını göreceğiz.

Nvidia’nın grafiğinde Qualcomm’un Cloud AI100’ü, yalnızca ResNet-50 kıyaslamaları için 165 W civarında bir TDP’ye sahip ana akım çıkarım hızlandırıcı GPU’su Nvidia A30’dan daha iyi performans gösteriyor.

MLPerf Çıkarımı Nvidia Graph1
Nvidia’nın Qualcomm Cloud AI100 (gri çubuk) ve Intel Xeon Ice Lake (mavi çubuk) sonuçlarını gösteren kapalı veri merkezi çıkarım bölümü sonuçları grafiği (büyütmek için tıklayın) (Kaynak: Nvidia)

Qualcomm, 16 Bulutlu bir sistem için sunucu modunda (gecikme hedefiyle) saniyede yaklaşık 310.000 çıkarım ve çevrimdışı modda (gecikme hedefi olmadan) saniyede yaklaşık 342.000 çıkarımla kapalı veri merkezi bölümünde ResNet-50 karşılaştırmasını kazandı. AI100’ler. Yukarıdaki grafikte bu şekilde görünmüyor çünkü Nvidia hızlandırıcı başına normalleştirdi, ancak Qualcomm’dan ürün yönetimi kıdemli direktörü John Kehrli, hızlandırıcı başına normalleştirmenin puanları karşılaştırmanın tek yolu olmadığını belirtti.

“Nvidia için veri merkezi sunumunda her biri 500 Watt’ta sekiz A100 kartı vardı – [toplam] 4 kilovat” dedi. “Her biri 75 Watt’lık, [toplam] 1,2 kilovatlık 16 kart gönderdik, bu yüzden gücün bir kısmıyla performansa öncülük ediyoruz… Bunun çok, çok zorlayıcı bir hikaye olduğunu düşünüyoruz.”

(Kehrli örneğindeki 1,2 kW’ın yalnızca hızlandırıcıların tüketimi olduğuna dikkat edin. Bu durumda tüm 2U sistemi Qualcomm’a göre “1.84 kW’ın altında” tüketir).

Qualcomm MLPerf Çıkarım grafiği performansı ResNet
Qualcomm’un performans sunumu, veri merkezi kapalı bölümünden elde edildi. Bu grafik, çevrimdışı modda yalnızca ResNet-50 kıyaslama sonuçlarını gösterir (büyütmek için tıklayın) (Kaynak: Qualcomm)

Kenar performansı
Nvidia, yine hızlandırıcı çipi başına normalleştirilmiş, bu sefer Nvidia Jetson Xavier NX’in performansına normalleştirilmiş kapalı kenar bölümünden en iyi puanların bir grafiğini sundu (aşağıda). Bu şekilde kırıldığında, Qualcomm’un Cloud AI100 sonuçları, görüntü işleme için Jetson Xavier NX ve AGX Xavier arasında bir yere yerleştiriyor, ancak NLP karşılaştırmalı Bert’teki her iki sistemi de kolayca geride bırakıyor.

MLPerf Çıkarımı Nvidia grafiği2
Nvidia sistemlerini yeşil ve Qualcomm Cloud AI100’ü açık gri olarak gösteren kapalı uç çıkarım performansı bölümünden sonuçlar (büyütmek için tıklayın) (Kaynak: Nvidia)

Güç puanları
Veri merkezi çıkarım gücü sonuçları, işlerin daha da ilginçleşmeye başladığı yerdir. Qualcomm, ResNet-50 için Watt puanı başına saniyede çıkarımlarını, Nvidia ve Nvidia’nın ortağı Dell tarafından sunulan ve sağlam bir şekilde yendiği Nvidia hızlandırıcıları için çeşitli puanlarla karşılaştırarak gösterdi (aşağıdaki grafik – bunun güç tüketimi ile normalleştirildiğini unutmayın, değil hızlandırıcı sayısına göre).

MLPerf Çıkarımı Qualcomm güç verimliliği grafiği
Qualcomm’un, ResNet-50 kıyaslaması için bazı Nvidia ve Nvidia ortak sistemlerine kıyasla Cloud AI100’ün güç verimliliği grafiği. Bu, hızlandırıcı çipi başına normalleştirilmemiştir (farklı boyutlardaki sistemleri karşılaştırır). (büyütmek için tıklayın) (Kaynak: Qualcomm)

İşte aynı grafiğin Nvidia’nın versiyonu, ayrıca hızlandırıcı tarafından normalleştirilmemiş. Qualcomm’un ResNet-50 ve SSD-Large’da Watt başına performansta liderliği görülebilir. Nvidia’nın Bert-Large kıyaslamalarında Watt başına kazanılan performansı ve Qualcomm’un sonuçları göndermediği kıyaslamalar da görülebilir.

Nvidia’dan Dave Salvator EE Times’a “Buradaki ana mesajımız, her iş yükünü çalıştırabilmenin çok yönlülüğü ile ilgili” dedi . “ResNet’te kesinlikle çok verimliyiz, ancak en verimlisi değiliz. Daha yeni bir vintage iş yükü olan Bert gibi şeylere baktığınızda, açıkçası hem performans hem de verimlilik konusunda öncülük ediyoruz. Her şeyi çalıştırabiliyor ve her şeyde performans gösterebiliyoruz.”

Nvidia MLPerf Çıkarım Grafiği veri merkezi güç verimliliği
Veri merkezi donanımı, kapalı bölüm için güç verimliliği sonuçları. Yeşil çubuklar Nvidia A100 puanlarını, gri çubuklar Qualcomm Cloud AI100 puanlarını gösterir (Kaynak: Nvidia).

Edge güç sonuçlarında Qualcomm yine bir zafer elde etti. Şirket, Cloud AI100 geliştirme kitini (15 ve 20W TDP kısıtlı sürümlerde gelir) Nvidia AGX Xavier ve Xavier NX sistemlerine karşı koydu.

Uç sunucular için Qualcomm, Nvidia ortakları Dell ve Inspur tarafından girilen tek Nvidia A10 ve çift A100 hızlandırmalı sistemlere karşı beş hızlandırıcılı bir Cloud AI100 sistemine girdi.

Qualcomm’dan John Kehrli, “ResNet-50’deki rakipten %50 daha iyiyiz” dedi. “Bu bizim için beş kartlı 75 Watt’lık bir çözüm; rakip için iki adet 300 Watt’lık karta karşı Cloud AI100. Yani yine, gücün yarısından biraz fazlasına sahibiz, ancak %50 daha iyi performansla gücün yaklaşık yarısına sahibiz.”

MLPerf Çıkarımı Qualcomm uç güç verimliliği grafiği
Qualcomm’un kenar sonuçları için watt başına saniye başına çıkarım grafiği. “AEDK”, çift M.2 (20W TDP) ve M.2e (15W TDP) formatlarında (Kaynak: Qualcomm) gelen Cloud AI100 için Qualcomm’un AI Edge Geliştirme Kitini ifade eder.

Nvidia’dan Dave Salvator, Qualcomm’un sonuçlarını özenle seçiyor gibi göründüğünü, oysa Nvidia’nın girdiği her sistem için tüm iş yükleri için puan verdiğini bir kez daha belirtti.

“Her şeyi çok iyi ya da en azından iyi yapabilmek karşısında bir ya da iki şeyi iyi yapabilmek meselesi var” dedi.

Sonuçların başka yerlerinde
Nvidia, Triton çıkarım sunucu yazılımına karşı Nvidia’nın özel, yoğun şekilde optimize edilmiş kodunu kullanan, aksi takdirde özdeş sistemler için sonuçlar da sundu. 8x Nvidia A10 hızlandırmalı bir sistem için, sunucu kurulumunda ResNet-50’de özel kod biraz daha iyiyken, örneğin Triton özellikli sistem çevrimdışı DLRM sonuçlarında biraz ilerideydi. Genel olarak, iki sistemden elde edilen sonuçlar arasında seçim yapmak için fazla bir şey yoktu.

Nvidia A100
Nvidia A100-SXM-80GB (Kaynak: Nvidia)

Bu strateji, daha önce Nvidia’nın büyük kaynaklarını sistemlerini kıyaslama puanları göndermek için optimize etmeye harcadığından şikayet eden kötüleyicilere cevap vermeyi amaçlıyor. Nvidia’dan Dave Salvator, Triton’un yalnızca GPU hızlandırmalı sistemler için olmadığını (örneğin yalnızca CPU sistemleriyle çalıştığını) belirterek, Triton’un AI modellerini uygun ölçekte dağıtmayı kolaylaştırmak için tasarlandığını söyledi.

“Triton, [bulut hizmetleri sağlayıcıları] içindeki yönetilen Kubernetes hizmetleri için Kubernetes desteği için yüksek entegrasyon getiren altyapı yöneticileri için dağıtımı kolaylaştırıyor ve [onlara] otomatik yük dengeleme ve otomatik ölçeklendirme yapma yeteneği veriyor” dedi.

Nvidia ayrıca, aynı anda daha küçük iş yüklerini çalıştırmak için büyük bir GPU’yu birkaç küçük örneğe bölen çok örnekli GPU özelliği olan MIG’yi kullanarak birkaç sonuç sundu. Örneğin, bir A100-80GB, her biri 10 GB belleğe sahip 7 küçük hızlandırıcıya bölünebilir (sekizinci bölüm kontrol ve durum yönetimi için kullanılır). Bir bölümde kıyaslama yapılmış iş yüküyle yüklenen ve ardından diğerlerinde kıyaslama paketinin geri kalanını aynı anda çalıştıran bir A100 MIG gönderimi, yalnızca kıyaslanan iş yükünü çalıştıran bir A100’ün performansının yaklaşık %95’ini sağlayabilir. Salvator, aynı anda birden fazla sinir ağının çalıştırılmasını gerektiren konuşma AI gibi uygulamaları çalıştırırken bunun yararlı olduğunu söyledi. A30 ayrıca MIG özelliklerine sahiptir (4 daha küçük GPU’ya bölünebilir).

Intel Xeon puanları
Nvidia ve Qualcomm genel taç için mücadele ederken, Intel ayrıca kapalı veri merkezi performans bölümünde 3. Nesil Buz Gölü ve Cooper Lake Xeon CPU’ları için puanlar sundu ve geniş bir veri merkezi çalıştırmanın pratik olduğunu kanıtlamak amacıyla Xeon CPU’larda çeşitli AI iş yükleri.

CPU lideri, Nisan ayındaki son turda sunulan aynı sistemler için hem donanım hem de yazılım iyileştirmelerine dayanan çıkarım puanlarına karşı gelişmiş sonuçlarını vurguladı.

Intel, bu turda Ice Lake ve Cooper Lake puanlarını doğrudan karşılaştırmamıza izin vermese de, son turdaki 2. nesil Xeon’lar (Cascade Lake) ile bu en son puanlar arasında karşılaştırma yapmak mümkün . Intel, Ice Lake’in önceki Cascade Lake’e göre daha fazla bilgi işlem, bellek kapasitesi ve bellek bant genişliği sunduğunu ve bunun 1,5 kat performans artışına yansıdığını söyledi.

Intel Buz Gölü İşlemcisi
Intel Ice Lake Xeon Ölçeklenebilir CPU (Kaynak: Intel)

Ice Lake, PyTorch veya OpenVINO çerçevelerini kullanarak INT8 çıkarım iş yükleri için bu turda kullanılan DLBoost hızlandırmasını (vektör sinir ağı (VNNI) talimatlarını içerir) puanlar. OpenVino puanları, PyTorch’tan 1.3 kat daha hızlı çıktı. Son turdaki Cascade Lake başvurularıyla karşılaştırıldığında, Ice Lake DLRM puanları 2,2 kat arttı.

DLBoost avantajına ve BF16 hassasiyeti desteğine sahip olan Cooper Lake, yalnızca yazılım iyileştirmelerine dayalı olarak RNN-T iş yükü için 1.8 kat performans artışı elde etti (önceki Cooper Lake puanlarına kıyasla). Bu, BF16 ve INT8 hassasiyetinin bir karışımı kullanılarak elde edildi.

AI Ürünleri Direktörü Jordan Plawner, “Tüm bu veri bilimcilerin [hiper ölçekli müşterilerimizde] olması gerektiği gibi canlı, tüm modellerde 8-bit’te belirtilen doğruluğu elde etmenin gerçekten, gerçekten zor olduğu ortaya çıktı.” Intel’deki iş EE Times’a söyledi . “Ve eğer o son teknoloji şirketlerden biri değilseniz, daha da zor. Karma hassasiyet, verimliliğin yarısını elde etmenin bir yoludur [ancak] bu son teknoloji doğruluğa yaklaşmanın bir yoludur ve veri merkezinde ihtiyaç duyma eğilimindeyiz.”

Intel’in 2-CPU Buz Gölü sistemi için DLRM çıkarım puanı saniyede yaklaşık 20.000-23.000 çıkarıma ulaştı. Bu, son turdan bu yana iki katına çıkmış olsa da, çift Nvidia A10 hızlandırmalı sistemin altında hala bir büyüklük sırası ve girilen daha büyük Nvidia A100 özellikli sistemlerin bazılarının altında bir başka büyüklük sırası.

Intel bunu hala bir kazanç olarak sayıyor mu ve Intel bu düşük puanları Xeon CPU’ları satmak için nasıl kullanıyor?

Plawner, “MLPerf gibi bir şeyin olumsuz etkilerinden biri, bir çipin değerini en yüksek performansa düşürmesidir.” Dedi. “Müşterilerimizin %100’ünün bugün zaten Xeon kullanması ayrıcalığına sahibiz, bu nedenle Xeon işlemcinin birçok yönüne veya özelliğine değer veriyorlar. Biri, onlara sahip olmaları. İkincisi, genel amaçlı olmaları ve üçüncüsü, hesaplama ekleme ve çıkarma ve dinamik olarak kümeler oluşturma açısından inanılmaz derecede ölçeklenebilir olmaları.”

Plawner, tavsiyenin, benzer hedeflere sahip diğer müşteri türlerine olgunlaştıkça ölçeği artan hiper ölçekleyiciler için çok değerli bir iş yükü olduğunu ekledi ve DLRM’nin ötesinde, müşterilerin öneri modellerinin aslında çok çeşitli olduğuna dikkat çekti.

Plawner, “Gördüğümüz şey, birçok dahili modelde CPU’ların aslında rekabete eşit veya hatta onlardan daha iyi performans gösterdiğidir, çünkü çok büyük miktarda bellek araması, binlerce ve binlerce gömme özelliği yapıyorlar” dedi. “Bellek bant genişliği çok büyük ve hepsi hesaplamayla dengede. Sürekli bellekteki bu gömme tablolarına çarptığınızda, büyük miktarda FLOPS’a sahip olmak, [hesaplamanın] boşta kaldığı anlamına gelir.”

Plawner’a göre Intel, bir hızlandırıcının daha iyi sonuç vereceği işi kazanmaya çalışmıyor – Intel’in Ponte Vecchio ve Habana Labs gibi sunabileceği kendi AI hızlandırıcıları var – bunun yerine şirket fikir paylaşımı kazanmaya çalışıyor.

“[MLPerf ile] tek amacımız genden nesle geliştirdiğimizi ve çok sayıda modeli destekleyebileceğimizi göstermek, çünkü büyük bir zihin payına sahip bir rakibimiz var” dedi. “Birçoğu, piyasaya, herkesin Xeon’da yapay zeka yapabileceğinin sinyalini veriyor.”

Sanallaştırma ile bare metal
VMWare karşılaştırması, Dell ile ortaklaşa olarak, aksi takdirde özdeş sistemlerde VMWare vSphere sanallaştırması olan ve olmayan puanlar sundu. Sistemin Dell PowerEdge 7525 ana bilgisayarında 128 mantıksal çekirdekli iki AMD EPYC 7502 işlemci bulunur. VMware, yalnızca 24 CPU çekirdeği (artı sistemin 3 Nvidia GPU A100’ü) ile eşdeğer çıplak metal performansının %96’sını veya daha fazlasını elde etti. Bu, kalan 104 mantıksal CPU çekirdeğinin ek görevler için kullanılabilir olacağı anlamına gelir. Ancak, sanallaştırılmış sistem için puanların yalnızca SSD-Large ve Bert iş yükleri için gönderildiğini belirtmek gerekir.

VMware Performance Engineering’de baş personel mühendisi Uday Kurkure, “Genel algı, ML’nin çok fazla performans gerektirdiği ve bu nedenle insanlar onu çıplak metal ortamında çalıştırıyor” dedi. “Sanallaştırılmış hipervizörler çalıştırırsanız, sanallaştırmanın avantajlarını hem veri merkezinde hem de uçta elde edebilirsiniz. Ancak yine de performansı sıfıra yakın alabilirsiniz ve bu nedenle, makine öğrenimi iş yükünü sanallaştırılmış ortamda çalıştırmanın müşteriler için faydalı olduğunu ve veri merkezi işlemlerinin maliyetini düşürebileceğini göstermek için sonuçları gönderdik.”

Kriterleri demokratikleştirme
Startup OctoML, kullanıcı gereksinimlerine ve kısıtlamalarına göre herhangi bir derin öğrenme çerçevesinden herhangi bir hedef donanıma yapay zeka modellerini otomatik olarak optimize etmek, kıyaslamak ve dağıtmak için bir dağıtım platformu geliştiriyor.

OctoML’nin Apache TVM derleyicisi, ResNet-50 için kapalı bölümde (tek akış ve çevrimdışı mod), biri Raspberry Pi için ve diğeri AWS EC2 (Graviton 2) donanımı üzerinde olmak üzere iki uç çıkarım kıyaslama puanı için kullanıldı. Apache TVM derleyicisi, herhangi bir çerçeveden çeşitli donanım arka uçlarına kadar derin öğrenme modellerini derlemek için tasarlanmıştır. OctoML ayrıca bu derleyiciyi kullanarak açık kenar çıkarım bölümünde bazı puanlara sahiptir.

OctoML MLOps başkan yardımcısı Grigory Fursin, “Müşterilerle çalışırken, modelleri yeni donanımlar için optimize etmenin neden bu kadar zor olduğu hakkında birçok soru alıyoruz” dedi. “Mevcut çerçeveleri genişletmek zor ve bu zaman alan bir süreç… Süreci daha basit hale getirmeye odaklandık.”

OctoML ayrıca MLPerf çıkarım ölçütlerini hazırlama, birleştirme, çalıştırma, doğrulama ve yeniden üretme sürecini otomatikleştiren bir açık kaynaklı çerçeve olan Kolektif Bilgi (CK) çerçevesi üzerinde de çalışmaktadır. OctoML, Apache TVM’yi CK ile birleştirerek, MLPerf puanları için giriş engelini azaltacağını ve böylece kaliteli MLPerf sonuçlarının sunulmasını demokratikleştireceğini umuyor. CK, MLPerf’ten sorumlu kuruluş olan MLCommons’a bağışlanmıştır. Halihazırda diğer kuruluşlar tarafından kullanılıyor; Örneğin Qualcomm’un karşılaştırmalı değerlendirme ortağı Krai, bu turda CK otomasyon paketini kullandı.

Furiosa AI Savaş Çocuğu
Furiosa AI’nın Warboy hızlandırıcısı (Kaynak: Furiosa AI)

Bu seferki diğer önemli girişler Furiosa AI ve Neuchips’ten geldi.

2017’de kurulan Koreli bir girişim olan Furiosa AI, Warboy çıkarım hızlandırıcı çipi için ikinci bir puan verdi (2019’daki FPGA prototip sunumunun ardından). Warboy, veri merkezi ve kurumsal veri merkezi uygulamaları için tasarlanmıştır. Çip, 64 TOPS (INT8) ile en yüksek performansa sahiptir. Bu, bir veri merkezi yongası için yetersiz gibi görünse de, ResNet ve SSD-Küçük iş yükleri (gecikme ve örnekler/ler, kapalı kenar çıkarım bölümü) için Nvidia T4 hızlandırılmış sistemin (130 TOPS/önceki nesil teknoloji) önüne geçti. Furiosa, burada düşük parti boyutunda bir kazanç olduğunu iddia ediyor ve çipinin T4’ten çok daha düşük fiyatlı olduğunu ekliyor. Warboy’un üretimi gelecek yıl hızlanacak.

Tayvanlı girişim Neuchips, kapalı veri merkezi çıkarım kategorisinde, araştırma/geliştirme sınıfında (önümüzdeki 6 ay içinde ticari olarak piyasaya sürülmesi beklenmeyen sistemler için) yine bir puan sundu. Şirket, özellikle DLRM için özel olarak tasarlanmış 3 RecAccel hızlandırıcısı tarafından hızlandırılan bir sistem için bir DLRM puanı sundu. Şirket, puanlarının önceki turlara kıyasla arttığını söylese de, puanlar 2x Intel CPU puanlarının altında bir büyüklük sırasıydı.

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz