GILAA! GPT-5.4 Bisa “Nge-Claim” 83% Pekerjaan Manusia

Pernah nggak sih lo ngalamin momen di mana lo ngerasa kerjaan lo itu berat, ribet, dan kayanya cuma manusia super yang bisa nyelesaiin? Terus lo pasrah, “Ya udahlah, namanya juga kerja.”

Nah, sekarang bayangin ada entitas digital yang bisa nyelesaiin 83% dari tugas-tugas profesional itu dalam waktu singkat. Bukan cuma ngetik-ngetik doang, tapi bener-bener mikir, ngecek spreadsheet, bikin presentasi, sampe opererin komputer lo kayak lo sendiri yang lagi megang mouse.

Selamat datang di era GPT-5.4, model terbaru dari OpenAI yang dirilis 5 Maret 2026 . Ini bukan sekadar upgrade biasa kayak nambahin fitur dark mode. Ini adalah lompatan kuantum yang bikin para profesional di seluruh dunia—dari analis keuangan, programmer, sampe konsultan—serentak mikir, “Gue masih dibutuhin nggak ya 5 tahun lagi?”

Baca Juga:

OpenAI dengan pedenya ngasih judul model ini sebagai “yang paling mampu dan efisien untuk pekerjaan profesional” . Dan datanya… jujur aja, bikin merinding. Tapi tenang, kita bakal bedah tuntas dengan kepala dingin (dan sedikit candaan biar nggak makin depresi).

Bukan Cuma Ngelamun: GPT-5.4 Beneran “Mikir Keras” Kayak Manusia

Fitur paling keren yang langsung bikin alis lo naik adalah GPT-5.4 Thinking. Ini versi model yang bisa “mikir keras” sebelum ngomong. Bedanya sama model biasa?

Model biasa: Lo tanya, dia jawab. Kadang jawabannya asal-asalan, kadang bagus. Lo nggak tahu proses di dalem otaknya kayak gimana.

GPT-5.4 Thinking: Lo tanya, dia bakal nampilin alur penalarannya dulu. Kayak lo liat orang lagi coret-coret kertas sambil mikir. “Oke, dari pertanyaan ini, gue harus breakdown jadi 3 bagian. Pertama, gue perlu data X. Kedua, gue perlu cross-check ke sumber Y…” .

Ini bukan sekadar gimmick. Dengan lo bisa liat proses berpikirnya, lo bisa interupsi di tengah jalan. Misalnya, “Eh jangan pake pendekatan itu, pake yang ini aja.” Dan dia bakal nurut, nggak perlu mulai dari awal lagi . Ini kayak lo punya asisten yang nggak cuma nurut, tapi juga terbuka sama proses kerjanya.

Di balik layar, OpenAI juga ngenalin konsep baru yang agak filosofis: Chain-of-Thought (CoT) Controllability . Ini adalah ukuran seberapa mampu model mengendalikan alur berpikirnya sendiri. Hasilnya? GPT-5.4 Thinking cuma bisa ngendaliin 0.3% dari proses berpikirnya .

Kedengarannya kecil, tapi ini justru kabar baik buat keamanan. Artinya, model ini sulit “berbohong” atau menyembunyikan niat buruknya selama proses berpikir. Jadi, kalau dia lagi mikir sesuatu yang jahat, kita bisa liat dari “rekaman mikirnya”. Ini mekanisme keamanan yang penting banget di era AI udah secanggih sekarang.

Benchmark yang Bikin Jatuh Cinta (Sekaligus Jatuh Mental)

Data benchmark selalu bisa dimanipulasi, tapi angka-angka yang dirilis OpenAI ini terlalu gede buat diabaikan. Mari kita bedah satu-satu.

1. GDPval: 83% Ngalahin Profesional Manusia

GDPval adalah benchmark internal OpenAI yang dirancang buat ngukur kemampuan model di tugas-tugas profesional yang punya nilai ekonomi nyata. Cakupannya luas banget: dari analisis hukum, pemodelan finansial, sampe desain engineering .

Hasilnya? GPT-5.4 mencapai atau melampaui level profesional industri dalam 83% perbandingan . Bandingin sama GPT-5.2 yang cuma 70.9% . Kenaikannya 12% dalam waktu kurang dari 3 bulan. Itu percepatan yang bikin pusing.

Yang lebih serem: dalam benchmark ini, model diadu sama manusia profesional yang ngerjain tugas yang butuh waktu 4-8 jam . Dan hasilnya, menurut penilaian manusia lain (yang nggak tahu mana hasil AI mana hasil manusia), AI menang telak. Bayangin lo udah kerja banting tulang 8 jam, trus ada AI ngerjain tugas yang sama dalam 5 menit, dan dinilai lebih baik.

2. OSWorld-Verified: Bisa Opererin Komputer Lebih Baik dari Manusia

Ini mungkin fitur yang paling “sci-fi” tapi udah jadi kenyataan. GPT-5.4 sekarang punya kemampuan native computer use—artinya dia bisa liat layar komputer, gerakin mouse, dan ngetik di keyboard kayak manusia .

Di benchmark OSWorld-Verified yang ngukur kemampuan navigasi desktop, GPT-5.4 mencapai 75.0% success rate. Manusia? Cuma 72.4% . Iya, lo baca benar: AI sekarang lebih jago pake komputer daripada rata-rata manusia.

Bayangin skenario: lo tinggal bilang, “Tolong buka Excel, ambil data dari file laporan Maret, bikin pivot table, dan kirim email ke atasan dengan grafik ringkasannya.” Dan dia jalanin semua itu, buka aplikasi, klik sana-sini, tanpa lo harus ngajarin. Ini bukan lagi asisten virtual, ini karyawan virtual beneran.

3. Akurasi Faktual Naik Drastis, Halusinasi Turun

Salah satu masalah terbesar AI adalah “halusinasi”—ngarang jawaban dengan pedenya. Nah, OpenAI klaim di GPT-5.4, kesalahan faktual pernyataan individu turun 33%, dan kemungkinan seluruh jawaban mengandung kesalahan turun 18% dibanding GPT-5.2 .

Ini berarti model ini jadi yang paling “jujur” sepanjang sejarah OpenAI. Dia lebih jarang ngarang, lebih sering ngaku “nggak tahu” kalau emang nggak tahu.

4. Tool Search: Ngirit Token Sampe 47%

Buat para developer, ini kabar gembira banget. GPT-5.4 punya fitur Tool Search yang revolusioner. Dulu, setiap kali manggil API, model harus bawa semua “definisi tools” di setiap permintaan, yang bisa bikin tagihan token membengkak .

Sekarang, model cukup bawa daftar tools yang ringan, dan cari definisi lengkapnya cuma pas beneran butuh. Hasilnya? Di pengujian dengan 36 server MCP, total konsumsi token turun 47% dengan akurasi tetap sama . Ini artinya, ngembangin aplikasi AI kompleks jadi lebih murah dan lebih cepet.

Excel dan Spreadsheet: Medan Perang Baru AI

Salah satu sektor yang paling kena dampak adalah pekerjaan finansial dan analisis data. OpenAI luncurin ChatGPT for Excel dan Google Sheets dalam versi beta, dan hasilnya gila .

Di tes internal yang nyontek tugas analis bank investasi pemula, GPT-5.4 dapet 87.3%, jauh di atas GPT-5.2 yang cuma 68.4% . Di tes pemodelan spreadsheet, GPT-5.4 Thinking mencetak 88.0%, sementara versi sebelumnya cuma 43.7% .

Salah satu perusahaan investasi, Walleye Capital, ngelaporin bahwa di evaluasi internal mereka, akurasi naik 30% berkat model baru ini, yang memungkinkan otomatisasi yang lebih luas buat update model dan analisis skenario .

Bayangin lo kerja di tim keuangan, tiap akhir bulan harus bikin laporan berulang-ulang. Sekarang lo tinggal setup sekali, dan AI jalanin tiap bulan tanpa lo harus ngajarin ulang.

Tiga Tingkatan: Mana yang Cocok Buat Dompet Lo?

GPT-5.4 hadir dalam tiga rasa :

Model	Target Pengguna	Harga API (Input/Output per 1M token)	Fitur Unggulan
GPT-5.4 (Standard)	Developer & pengguna umum	$2.50 / $15.00	Keseimbangan kemampuan & biaya
GPT-5.4 Thinking	Pengguna ChatGPT Plus/Team/Pro ($20/bln)	Termasuk subscription	Show reasoning, bisa diinterupsi
GPT-5.4 Pro	Enterprise & ChatGPT Pro ($200/bln)	$30.00 / $180.00	Performa maksimal, zero error tolerance

Catatan penting: konteks 1 juta token—bisa muat dokumen sepanjang novel 3 kali lipat—kini tersedia . Tapi ada harga yang harus dibayar: kalau input lo lebih dari 272.000 token, tarifnya naik 2x lipat . Jadi tetap harus bijak.

Implikasi: Apakah Lo Bakal Digantikan?

Pertanyaan ini pasti muncul di kepala lo sekarang. Data 83% ini memang menakutkan. Tapi mari kita liat dengan perspektif lebih tenang.

Ethan Mollick, profesor di Wharton yang intens ngamatin perkembangan AI, nyebut GDPval sebagai “mungkin ukuran kemampuan AI yang paling relevan secara ekonomi” . Dan progresnya memang bikin ngeri: dari 38.8% di November 2025, ke 70.9% di Desember, ke 83% sekarang . Dalam 4 bulan, peningkatan hampir 2.5 kali lipat.

Tapi yang perlu diingat: benchmark ini ngukur tugas-tugas individual, bukan peran pekerjaan secara utuh. Seorang analis keuangan nggak cuma bikin spreadsheet. Dia juga negosiasi, baca situasi politik, baca bahasa tubuh klien, dan ambil keputusan etis. Itu semua belum bisa digantiin AI.

Yang lebih mungkin terjadi adalah restrukturisasi kerja, bukan penggantian total. Peran-peran yang dulu butuh tim 10 orang mungkin sekarang cukup 3 orang dengan bantuan AI. Pekerjaan yang dulu butuh waktu seminggu mungkin sekarang selesai sehari.

CEO Mercor, Brendan Foody, ngasih analogi menarik: “Saat ini, AI itu kayak intern yang bener 25% dari waktu” . Tapi intern ini nggak pernah capek, nggak minta gaji naik, dan belajarnya cepet banget. Bayangin kalau intern itu tiba-tiba jadi setara profesional dalam 83% kasus.

Kesimpulan: Bukan Lagi Tentang “Jika”, Tapi “Kapan”

GPT-5.4 bukan sekadar rilis model baru. Ini adalah sinyal bahwa era AI sebagai “rekan kerja setara” udah dimulai. Bukan lagi soal “AI bisa bantu apa”, tapi “lo bisa kasih value apa di atas yang bisa dilakukan AI”.

Dengan kemampuan computer use, integrasi spreadsheet, dan penalaran yang transparan, model ini dirancang buat jadi pekerja digital yang beneran. Bukan cuma chatbot yang ngobrol doang.

Buat lo yang kerja di bidang profesional—apapun itu—ini saatnya bukan buat panik, tapi buat upgrade skill. Pelajari cara memanfaatkan tools ini. Jadilah orang yang bisa “nyetir” AI, bukan yang “disetir” sama AI. Karena secepat apapun AI berkembang, yang punya visi, etika, dan sentuhan manusia tetaplah… manusia.

Dan buat lo yang masih ngerjain tugas-tugas repetitif yang 83%-nya bisa diambil alih AI… mungkin ini saat yang tepat buat belajar hal baru. Atau setidaknya, belajar cara “ngomong” sama AI biar dia ngerjain kerjaan lo, sementara lo rebahan sambil mikirin ide besar berikutnya.

Selamat datang di masa depan, di mana lo bisa punya karyawan pribadi yang nggak pernah ngeluh, cuma butuh listrik dan langganan $20/bulan.