AI Coding PewDiePie Ungguli ChatGPT-4o dalam Tes Benchmark Terbaru

Hawa

Minggu, 1 Maret 2026 11:11 pm

SWEDIA, HAWA – Felix Kjellberg, yang populer sebagai YouTuber PewDiePie, mengejutkan dunia teknologi dengan mengembangkan proyek AI Coding PewDiePie yang diklaim mampu mengungguli performa ChatGPT-4o pada tugas pemrograman tertentu. Melalui video yang diunggah pada 26/02, Felix menunjukkan hasil modifikasi model bahasa besar open source yang mampu mencapai skor efisiensi tinggi dalam pengkodean.

Proyek ambisius ini menggunakan model dasar Qwen2.5-Coder-32B dari Alibaba yang kemudian melalui proses fine tuning secara mandiri. Berdasarkan hasil pengujian pada benchmark Aider AI Polyglot, model buatan Felix mencapai skor 39.1 persen. Angka tersebut melampaui ChatGPT-4o yang hanya mencatatkan skor antara 18.2 persen hingga 27 persen pada kategori pengujian yang sama.

PewDiePie membangun infrastruktur komputasi sendiri di rumahnya dengan merakit rig berisi 10 unit GPU, termasuk delapan RTX 4090 yang telah dimodifikasi menjadi 48GB. Dalam prosesnya, Felix menghadapi kendala teknis serius seperti kabel daya yang meleleh akibat beban listrik lebih dari 2000 Watt serta satu unit kartu grafis yang meledak saat pelatihan berlangsung.

“Proyek ini dimulai sebagai tantangan pribadi untuk lebih memahami pembelajaran mesin, bukan untuk membangun model dari nol,” kata Felix Kjellberg, YouTuber.

Model AI Coding PewDiePie ini dilatih menggunakan dataset berkualitas tinggi yang terdiri dari 100.000 contoh pemrograman serta 15.000 sampel penalaran dari DeepSeek API. Felix sempat mengulang proses pelatihan dari awal setelah mendeteksi adanya kontaminasi data benchmark yang membuat hasil awal menjadi tidak valid sebelum akhirnya mencapai skor final yang signifikan.

“GPT-4.5 Preview mencatat skor 45 persen pada benchmark polyglot coding milik Aider,” kata Paul Gauthier, Founder Aider AI.

Meskipun berhasil mengalahkan ChatGPT-4o, model buatan Felix ini masih berada di bawah performa beberapa model AI papan atas lainnya. Sebagai perbandingan, Claude 3.7 Sonnet masih memegang posisi puncak dengan skor berkisar antara 60 hingga 65 persen, sementara DeepSeek V3 mencatatkan skor sekitar 48 persen pada pengujian yang serupa.