Dari Cloud ke Core: Bangkitnya Beban Kerja AI di Pusat Data Perusahaan

Seiring dengan meningkatnya permintaan terhadap AI, pusat data (data center) kini mulai dirancang ulang untuk mengatasi tantangan komputasi dan jaringan yang unik dari beban kerja AI. Masa depan cloud AI akan sangat bergantung pada Ethernet berbasis standar untuk memberikan skala, performa, dan fleksibilitas yang dibutuhkan untuk aplikasi dan beban kerja generasi berikutnya.

Apakah jaringan Anda siap untuk beban kerja AI?

Pusat data tradisional kini sedang mengalami perubahan besar. Dulu, AI hanya digunakan di bagian tertentu saja. Sekarang, AI diharapkan hadir di mana-mana—dari perangkat pengguna, pusat data, hingga cloud.

Agar bisa mengikuti perkembangan ini, organisasi perlu mempercepat pengembangan infrastruktur AI agar bisa menjalankan beban kerja kapan saja, di mana saja, dan dalam skala berapa pun. Untuk itu dibutuhkan jaringan pusat data AI yang dirancang khusus untuk performa tinggi, skalabilitas besar, dan komunikasi tanpa kehilangan data (lossless).


Masalah besar di jaringan: Tantangan berat beban kerja AI

Beban kerja AI dan pembelajaran mesin (ML) sangat beragam, mulai dari menganalisis data, membuat prediksi, hingga mengotomatisasi keputusan. Beban kerja ini sangat penting untuk teknologi-teknologi canggih saat ini, namun menuntut infrastruktur data center yang jauh lebih kuat—terutama dalam hal kecepatan jaringan, penyimpanan, dan komputasi.

Misalnya, melatih model bahasa besar (LLM) membutuhkan data terpusat dalam jumlah besar serta koneksi bandwidth tinggi secara terus-menerus. Di sisi lain, beban kerja inference (pengambilan hasil dari model yang sudah dilatih) cenderung lebih terdistribusi, membuat lalu lintas data berpindah-pindah antara perangkat, edge, core, dan cloud.

Lalu lintas di data center tradisional biasanya bersifat asinkron—misalnya permintaan dari database atau pengguna yang mengakses server web. Sebaliknya, beban kerja AI menghasilkan lalu lintas yang disebut “elephant flows”: aliran data besar dan terus-menerus yang bergerak secara horizontal (east-west) antar mesin dalam data center. Hampir tidak ada lalu lintas yang keluar-masuk dari/ke luar data center (north-south), karena hingga 90% lalu lintasnya terjadi antar mesin di dalam.

Di dalam klaster AI, sebagian besar data berpindah antar GPU dalam jangka waktu panjang. Tidak seperti jaringan biasa di mana proses bisa jalan secara paralel, jaringan GPU membutuhkan semua data tersedia sebelum melanjutkan proses. Keterlambatan di satu GPU saja bisa memperlambat seluruh pekerjaan. Karena itu, jaringan menjadi faktor kunci yang perlu dirancang khusus untuk memenuhi kebutuhan AI.


Merancang jaringan untuk AI

Banyak perusahaan kini mempertimbangkan untuk menjalankan beban kerja AI di lingkungan on-premises (di pusat data sendiri), bukan di cloud. Alasannya mencakup privasi data, kepatuhan regulasi, keamanan, latensi, dan tingginya biaya bandwidth cloud.

Sebuah pusat data yang mendukung AI biasanya terdiri dari tiga komponen utama:

  1. Jaringan front-end dan back-end
  2. Sistem penyimpanan (storage)
  3. Klaster komputasi (GPU/CPU)

Ukuran dan desain klaster AI tergantung pada kompleksitas model, ukuran dataset, dan kecepatan pelatihan/inference yang diinginkan. Klaster ini bisa sekecil perusahaan biasa atau sebesar data center hyperscale dengan ribuan node.


Arsitektur jaringan AI

Arsitektur jaringan AI umumnya menggunakan desain bertingkat (layered), yaitu struktur leaf-and-spine (CLOS) yang terpisah antara front-end dan back-end.

  • Front-end fabric: Menghubungkan CPU dan lalu lintas dari pengguna luar.
  • Back-end fabric: Menghubungkan GPU dengan NIC RoCEv2 untuk komunikasi cepat dan lossless.

Desain ini membuat beban kerja penyimpanan dan komputasi terpisah sehingga bisa diskalakan secara efisien.

  • Jaringan front-end menangani API, koordinasi, dan pengumpulan data telemetri.
  • Jaringan back-end menangani aliran data besar untuk pelatihan model dan penyimpanan.

Di bagian back-end, terdapat dua bagian penting:

  • Jaringan komputasi (GPU)
  • Jaringan penyimpanan (storage)

Keduanya harus dirancang tanpa oversubscription, artinya koneksi ke switch harus cukup besar agar tidak terjadi kemacetan data. Semakin besar klaster, semakin penting untuk menjaga kepadatan port, bandwidth, dan arsitektur yang efisien.


Solusinya

Cloud menawarkan skalabilitas dan fleksibilitas. Tapi karena AI generatif membutuhkan sumber daya besar dan mahal, banyak organisasi mulai berpikir ulang—apakah beban kerja AI sebaiknya dijalankan di pusat data sendiri saja?

Selain biaya, menjalankan AI di on-premises juga memberikan kontrol lebih baik atas keamanan dan privasi data. Model AI biasanya menggunakan data dalam jumlah besar dan sering kali sensitif. Meski cloud aman, banyak organisasi lebih nyaman menyimpan data di dalam sistem mereka sendiri.

Ethernet, teknologi jaringan yang telah digunakan selama puluhan tahun, kini sedang bertransformasi untuk mendukung beban kerja AI. Ethernet generasi baru mendukung kecepatan hingga 400, 800, bahkan 1.6 Tbps, dan dirancang agar tidak kehilangan data (lossless).

Tantangan utama jaringan AI adalah keterbatasan tumpukan TCP/IP lama di kecepatan tinggi, karena beban berat pada CPU. Solusinya adalah Remote Direct Memory Access (RDMA), yang memindahkan tugas komunikasi dari CPU ke perangkat keras khusus, sehingga performa meningkat drastis.

Khususnya, RDMA over Converged Ethernet (RoCE) jika dikombinasikan dengan fitur seperti:

  • DCQCN (Data Center Quantized Congestion Notification)
  • PFC (Priority Flow Control)
  • ECN (Explicit Congestion Notification)
  • Load balancing dinamis

…membentuk fabric Ethernet lossless yang sangat cocok untuk beban kerja AI.


Ultra Ethernet: Masa depan jaringan AI

InfiniBand memang selama ini jadi standar emas dalam komputasi kinerja tinggi (HPC), tapi RoCE punya keunggulan besar:

  • Lebih mudah diintegrasikan dengan Ethernet yang sudah ada
  • Biaya lebih rendah
  • Cocok untuk pusat data AI

Namun, RoCE juga punya keterbatasan. Karena itu, sejumlah vendor dan operator membentuk Ultra Ethernet Consortium (UEC), yang bertujuan meningkatkan performa dan skalabilitas Ethernet untuk memenuhi tuntutan beban kerja AI yang terus berkembang.

UEC ingin menambahkan fitur-fitur baru pada teknologi Ethernet agar bisa menangani pertukaran data dalam jumlah sangat besar antar node komputasi di klaster AI.


Kembali ke pusat data sendiri

Ethernet sudah menjadi tulang punggung data center, baik untuk beban kerja tradisional maupun AI. Dengan semakin banyaknya model AI open-source seperti DeepSeek, kita akan melihat peningkatan kembali penggunaan data center milik perusahaan sendiri (on-premises).

Model-model AI kini semakin ringan dan bisa berjalan di perangkat yang lebih sederhana. Artinya, AI tidak harus selalu dijalankan di cloud. Ini membuat pusat data lokal menjadi lebih menarik, karena bisa menekan biaya operasional.

Menjalankan AI di on-premises juga memberikan kontrol yang lebih baik atas data sensitif dan memenuhi aturan privasi dan kedaulatan data.

Karena AI menjadi lebih ringan dan efisien, ke depan kita akan melihat pergeseran ke komputasi edge—yaitu menjalankan AI di lokasi yang dekat dengan pengguna. Ini mengurangi latensi, menghemat bandwidth cloud, dan membawa layanan AI lebih dekat ke pengguna akhir.


Masa depan pusat data AI

Kombinasi antara Ethernet kinerja tinggi, model AI yang inovatif, dan kebutuhan perusahaan yang terus berkembang akan membentuk ulang lanskap pusat data. Organisasi yang mulai berinvestasi sejak sekarang—dengan memadukan teknologi Ethernet yang sudah terbukti dengan fabric generasi baru seperti Ultra Ethernet—akan menjadi yang paling siap memanfaatkan potensi penuh AI. Ini akan mengubah kemampuan teknologi menjadi keunggulan kompetitif nyata.


Infrastruktur IT yang kuat adalah kunci produktivitas perusahaan. Dengan extremenetworks indonesia, Anda bisa mendapatkan solusi IT lengkap yang sesuai dengan kebutuhan Anda. iLogo Indonesia sebagai mitra terpercaya siap mengintegrasikan semuanya agar bisnis Anda tetap berjalan lancar dan aman.
Hubungi kami sekarang atau kunjungi extremenetworks.ilogoindonesia.id untuk informasi lebih lanjut!