IBM Telum, Langkah Baru Dalam Teknologi Chip yang Terintegrasi Secara Vertikal

Sains & Teknologi 6 bulan yang lalu Administrator 6 Menit membaca 591x Dilihat Play Pause Resume Stop
Chips-768x432.jpg

Hari ini di konferensi IEEE's Hot Chips 33, IBM mempresentasikan pratinjau IBM Telum, prosesor generasi berikutnya untuk sistem IBM z dan LinuxONE, yang direncanakan untuk paruh pertama tahun 2022.


Mari kita periksa deteksi penipuan kartu kredit lebih lanjut. AI tertanam langsung dalam transaksi secara real-time dengan latensi rendah mencegah penipuan kartu kredit sebelum transaksi selesai, bukan hanya terdeteksi setelah fakta. Untuk mencoba dan melakukan ini di luar platform, Anda pasti akan mengalami penundaan jaringan yang menyebabkan latensi lebih tinggi dan kurangnya konsistensi. Di luar platform, Anda benar-benar perlu memindahkan data dari Z ke platform lain. Latensi rendah diperlukan untuk mencetak setiap transaksi secara konsisten. Dengan lonjakan latensi, beberapa transaksi tidak akan dicentang, dan beberapa pelanggan hanya mencapai 70% transaksi sehingga 30% transaksi tidak terlindungi. Ada peluang bisnis untuk melakukan AI scoring pada semua transaksi secara konsisten. Dalam sistem keuangan bahkan ada persyaratan kecepatan transaksi, tantangan lain.


Selain itu, keluar dari platform menciptakan risiko keamanan dalam mengirimkan data sensitif atau pribadi ke platform terpisah melalui jaringan dengan kekhawatiran tentang enkripsi, audit, dan permukaan serangan yang meningkat.


Tujuan desain untuk akselerator Telum AI


Mampu secara langsung menyematkan tugas AI ke dalam broker transaksi di IBM z memungkinkan pelanggan menjalankan model paling akurat untuk tugas tersebut dan menjalankannya pada latensi rendah tanpa masalah keamanan. Telum dihasilkan dari pembuatan akselerator on-chip terpusat AI dengan akses bersama oleh semua inti dan latensi inferensi yang sangat rendah dan konsisten.


Setiap kali inti beralih ke AI, ia mendapatkan kapasitas komputasi dari seluruh akselerator untuk melakukan tugas AI. Latensi rendah dihasilkan dari kekuatan penuh akselerator yang tersedia untuk inti saat dibutuhkan. Ada kapasitas komputasi total yang cukup dalam akselerator AI untuk memungkinkan setiap transaksi memiliki AI yang disematkan, karena setiap akselerator memiliki kapasitas komputasi enam teraflop (TFLOP).


Beberapa kasus penggunaan menggunakan berbagai teknologi AI, bukan hanya pembelajaran mendalam. Rentangnya mencakup algoritme pembelajaran mesin tradisional ke berbagai jaringan saraf dalam seperti convolutional (CNN) dan jaringan saraf berulang (RNN). Akselerator memiliki operasi yang membantu dalam semua jenis model AI yang berbeda ini.


Meskipun tidak ada data yang keluar dari platform, keamanan tetap penting, dan akselerator on-chip memiliki virtualisasi dan perlindungan memori tingkat perusahaan.


Pertimbangan penting lainnya untuk akselerator AI adalah ekstensibilitas dengan pembaruan firmware dan perangkat keras di masa mendatang. AI adalah bidang yang relatif baru, berkembang dengan cepat. Desainnya mencakup firmware yang memungkinkan pengiriman fungsionalitas baru pada platform perangkat keras yang sama dari waktu ke waktu.


Biarkan saya membawa Anda selangkah lebih jauh ke dalam detail tentang cara kerja akselerator. IBM telah merancang set instruksi CISC memori-ke-memori baru yang disebut bantuan sistem pemrosesan jaringan saraf. Kumpulan instruksi baru ini beroperasi langsung pada data tensor (struktur data utama yang digunakan oleh jaringan saraf) di ruang pengguna program, memungkinkan fungsi perkalian, konvolusi, penyatuan, dan aktivasi matriks. Primitif ini membentuk algoritma AI yang khas.


Firmware yang berjalan pada inti dan akselerator AI dalam kombinasi mengimplementasikan instruksi baru. Inti melakukan terjemahan alamat dan pemeriksaan akses untuk data tensor, menerjemahkan alamat program virtual ke alamat fisik, dan melakukan semua pemeriksaan akses untuk diteruskan ke akselerator.


Core juga mengambil data tensor ke dalam cache L2 agar siap tersedia untuk akselerator AI. Firmware mengoordinasikan pementasan data ke dalam cache l2 dan akselerator.


Akselerator dapat mengirimkan enam TFLOP per chip dari dua array komputasi independen, satu diarahkan untuk operasi matriks dan yang kedua diarahkan untuk fungsi aktivasi. Sistem 32 chip dengan empat baki akan menyediakan lebih dari 200 TFLOP komputasi dan memiliki akses ke total cache sistem 8 GB.


Array matriks terdiri dari 128 ubin prosesor dengan SIMD FP16 delapan arah yang terhubung dalam topologi seperti mesh. Array aktivasi terdiri dari 32 ubin prosesor ubin dengan delapan arah FP-16/FP-32 SIMD dioptimalkan untuk RELU, Sigmoid, tanh, log, dan fungsi aktivasi kompleks seperti SigMoid dan LSTM (digunakan dalam pemrosesan bahasa alami).


Sebuah kain data cerdas mengontrol aliran data untuk menjaga enam array komputasi TFLOP sibuk. Prefetcher cerdas bekerja dengan inti untuk menerima alamat yang diterjemahkan, mengambil sumber, dan menyimpan hasil. Akselerator AI memiliki prefetch cerdas, pengontrol penulisan kembali, bantalan gores besar, dan buffer data yang dikendalikan oleh inti mikro untuk memastikan penggunaan kapasitas komputasi yang efisien.


Penggerak data dapat mengacak data ke dan dari cincin chip dengan bandwidth sekitar 100GB/dtk. Kemudian secara internal, data ini dapat didistribusikan dari awal ke mesin komputasi dengan bandwidth lebih dari 600GB/dtk, memastikan pemanfaatan tinggi array komputasi, yang menyediakan kemampuan AI dengan latensi rendah dan bandwidth tinggi.


Ada ekosistem perangkat lunak yang memungkinkan eksploitasi akselerator ini. Pelanggan dapat membangun dan melatih model AI di mana saja di platform apa pun. Alat yang familier yang digunakan oleh ilmuwan data seperti Keras, PyTorch, SAS, MATLAB, Chainer, mxnet, dan TensorFlow didukung. Model terlatih yang diekspor ke format pertukaran jaringan saraf terbuka (ONNX) diumpankan ke IBM Deep Learning Compiler untuk mengompilasi dan mengoptimalkannya untuk dieksekusi langsung pada akselerator AI pada chip Telum.


Ini mungkin tampak tidak dimulai dengan AI, tetapi di situlah panasnya. Tapi ada lebih. IBM mengatakan itu memberikan “40% per peningkatan kinerja soket. Setiap chip menghasilkan 8 core/16 thread dengan kecepatan lebih dari 5Ghz. Performa maksimal dihadirkan dengan 32 core / 64 thread dengan konfigurasi sistem empat laci. Setiap chip memiliki 32MB L2 yang terhubung melalui ring 320GB/s untuk L3 dan L4. Setiap chip berukuran 530m2, transistor 22.B, dan dipasang pada Samsung 7"nm." Saya menggunakan "nm" karena saya tidak percaya simpul itu sebenarnya 7nm. Berdasarkan karakteristik kinerja, daya, dan kepadatan, saya pikir ini lebih dekat dengan proses Intel 10nm atau Intel 7.


chip Telum


Telum adalah hasil kerja tim yang luas di seluruh IBM yang mencakup desain chip, sistem operasi, dan perangkat lunak, dengan penelitian untuk menentukan teknologi silikon dan akselerator AI.


Yang lain berbicara tentang inferensi waktu nyata dan pembelajaran mendalam, seringkali dalam konteks pengenalan gambar. Apa yang ditangani IBM di sini lebih dari sekadar mengenali kucing dan anjing hingga mengoptimalkan deteksi penipuan dengan menghadirkan AI real-time dan inferensi pembelajaran mendalam ke beban kerja transaksional yang sangat sensitif terhadap latensi.


Adalah adil untuk mengatakan bahwa IBM adalah yang pertama membawa pembelajaran mendalam secara real-time ke beban kerja transaksional yang sensitif terhadap waktu. Faktor pembeda saat melakukan inferensi adalah bahwa seluruh 6 TFLOPS per chip akselerator inferensi tersedia untuk satu inti untuk pekerjaan AI. Sebaliknya, chip kompetitif mengalokasikan silikon khusus di banyak inti. Akselerator AI menyediakan kapasitas inferensi total untuk membuat setiap transaksi berjalan pada latensi rendah.

Komentar

Label Konten

Baca Juga

Jun 04, 2024 • 394x Dilihat
Pembuatan Website Aplikasi Top Up Game dan Pulsa

Pembuatan Website Aplikasi Top Up Game dan Pulsa - Kami Menyediakan banyak pilihan tampilan dan fitur…

May 22, 2024 • 357x Dilihat
Panduan Lengkap Menjadi Freelancer Sukses di Era Digital

Panduan Lengkap Menjadi Freelancer Sukses di Era Digital - Era digital telah membuka banyak peluang…

May 19, 2024 • 489x Dilihat
Manfaatkan Waktumu dengan Bijak! Temukan Kerja Online Menguntungkan Dibayar ke DANA

Manfaatkan Waktumu dengan Bijak! Temukan Kerja Online Menguntungkan Dibayar ke DANA - Di era digital…