GPT-5.3-Codex adalah model agentic coding terbaru OpenAI yang menggabungkan performa coding GPT-5.2-Codex dan kemampuan penalaran GPT-5.2 dalam satu agen kerja serba bisa.
- Model ini sekitar dua puluh lima persen lebih cepat dan mencetak rekor baru pada benchmark penting seperti SWE-Bench Pro dan Terminal-Bench 2.0.
- Fitur steer memungkinkan Anda mengubah arah kerja agen secara real time tanpa kehilangan konteks ketika tugas masih berjalan.
- GPT-5.3-Codex mampu mengelola tugas panjang di komputer, mulai dari menulis kode, menjalankan tes, sampai membuat presentasi dan spreadsheet.
- Fokus keamanan siber menjadikannya model pertama yang diklasifikasikan sebagai berkapabilitas tinggi untuk deteksi dan perbaikan kerentanan perangkat lunak.
- Cocok untuk tim engineering, data, dan bisnis yang ingin mengotomasi alur kerja kompleks, namun tetap memerlukan pengawasan manusia yang bertanggung jawab.
GPT-5.3-Codex, Singkatnya Apa dan Kenapa Sekarang Ramai Dibicarakan
Di tengah persaingan terbuka antara OpenAI dan Anthropic, nama GPT-5.3-Codex muncul sebagai pemain baru yang tidak sekadar lebih cepat di atas kertas, tetapi menawarkan cara berbeda dalam memandang agen AI yang bekerja di komputer sepanjang hari. OpenAI menyebutnya sebagai model pengodean agentik paling canggih yang pernah mereka rilis, menggabungkan performa coding GPT 5.2 Codex dengan penalaran dan pengetahuan profesional GPT 5.2 dalam satu model yang diklaim sekitar dua puluh lima persen lebih cepat. Model ini mencetak standar baru di tolok ukur seperti SWE Bench Pro dan Terminal Bench 2.0, sekaligus menunjukkan performa kuat di OSWorld dan GDPval, sinyal bahwa GPT 5.3 Codex dirancang bukan hanya untuk mengisi editor kode, tetapi untuk menangani rangkaian tugas panjang yang biasanya dipegang developer dan pekerja kantoran. Pertanyaan yang lebih penting, sejauh apa GPT 5.3 Codex bisa benar benar diandalkan sebagai rekan kerja digital, dan apa artinya bagi cara kita merancang workflow di tim teknik maupun bisnis ke depan.[1]
Ringkasan Cepat GPT-5.3-Codex
| Aspek | GPT-5.3-Codex |
|---|---|
| Tipe model | Agentic coding dan general work agent OpenAI |
| Posisi di lini produk | Penerus GPT-5.2-Codex dan bagian dari keluarga GPT-5 |
| Kekuatan utama | Agentic coding jangka panjang, tool use, dan reasoning profesional |
| Kecepatan | Sekitar dua puluh lima persen lebih cepat dibanding GPT-5.2-Codex[5] |
| Benchmark penting | Pencapaian tertinggi di SWE-Bench Pro dan Terminal-Bench 2.0, serta performa kuat di OSWorld-Verified dan GDPval[1][5] |
| Fokus tambahan | Keamanan siber dan deteksi kerentanan, diklasifikasikan sebagai model berkapabilitas tinggi untuk cybersecurity[4][5] |
| Permukaan penggunaan | Codex app, CLI, IDE extension, dan web, dengan akses API menyusul[2][5] |
| Target pengguna | Developer, tim data, tim produk, security engineer, dan pekerja kantoran yang mengandalkan komputer sepanjang hari |
Kehadiran GPT-5.3-Codex tidak terjadi di ruang hampa, peluncurannya datang hanya selisih beberapa menit dari rilis Claude Opus 4.6 milik Anthropic, sehingga media menggambarkannya sebagai bab baru dalam persaingan ketat alat coding berbasis AI.[8] Di satu sisi, OpenAI menonjolkan kemampuan agen yang lebih cepat dan lebih mandiri, di sisi lain Anthropic menekankan konteks yang sangat panjang dan gaya berpikir yang lebih mendalam, kondisi ini membuat banyak tim teknik mulai serius membandingkan cara kerja dua kubu model tersebut dalam proyek nyata.[6][5]
Bagi pembaca yang sehari hari hidup dari code review, debugging, analisis data, atau menyusun presentasi di depan layar, pertanyaannya sederhana, seberapa jauh GPT-5.3-Codex bisa menggantikan atau minimal meringankan pekerjaan, bagaimana bedanya dengan GPT-5.2-Codex, dan apa risiko yang perlu disadari sebelum buru buru memindahkan alur kerja ke agen AI baru, artikel ini membedah pertanyaan itu satu per satu, dengan contoh konkret dan data yang bersandar pada dokumen resmi, laporan benchmark, dan analisis pakar, bukan sekadar hype.

GPT-5.3-Codex Itu Apa, dan Bagaimana Posisinya di Atas GPT-5.2-Codex
Secara resmi, OpenAI menyebut GPT-5.3-Codex sebagai model agentic coding paling mampu yang pernah mereka bangun, menggabungkan frontier coding performance GPT-5.2-Codex dengan kemampuan pengetahuan profesional dan penalaran GPT-5.2.[1][2] Artinya, alih alih hanya menulis dan mengubah fungsi dalam sebuah file, model ini didesain untuk mengelola rangkaian tugas yang jauh lebih panjang, yang mencakup riset, penggunaan tool seperti web search atau terminal, sampai eksekusi perintah berulang kali tanpa perlu instruksi ulang di setiap langkah.
Di dunia AI, istilah agentic biasanya merujuk pada model yang bukan hanya menjawab instruksi satu kali, melainkan mampu memecah tujuan besar menjadi langkah kecil, menjalankan langkah itu satu per satu, memantau hasil, lalu menyesuaikan rencana ketika ada hambatan, GPT-5.3-Codex diposisikan sebagai agen semacam ini, dengan kemampuan mengoperasikan lingkungan komputer sungguhan, menjalankan perintah di terminal, mengelola file, sampai menyelesaikan tugas gaya OSWorld, misalnya membuka aplikasi spreadsheet, mengisi data, dan mengekspor hasil ke format tertentu.[1][5]
Hal menarik lain yang membuat GPT-5.3-Codex sering dibicarakan adalah cara model ini dikembangkan, dalam sistem card resminya, OpenAI menyebut GPT-5.3-Codex sebagai model pertama yang berperan langsung membantu melatih dan mendebug dirinya sendiri, tim Codex menggunakan versi awal model untuk mendiagnosis hasil evaluasi, menginvestigasi bug dalam pipeline pelatihan, dan mengelola sebagian proses deployment, sehingga pengembang secara literal bekerja berdampingan dengan agen yang suatu hari nanti akan mereka rilis.[4][1]
Sekilas tentang GPT-5.2-Codex sebagai Generasi Sebelumnya
Untuk memahami lompatan di GPT-5.3-Codex, perlu melihat sebentar posisi GPT-5.2-Codex, model ini adalah versi khusus dari GPT-5.2 yang dioptimalkan untuk tugas coding jangka panjang di lingkungan seperti Codex app, CLI, dan IDE extension.[3][2] Dengan jendela konteks sekitar empat ratus ribu token dan dukungan berbagai mode reasoning effort, GPT-5.2-Codex sudah cukup mampu mengerjakan migrasi kode besar, refactor lintas modul, atau menyusun rencana kerja multi jam melalui berkas perencanaan seperti PLANS.md.
Dalam dokumentasi resmi, GPT-5.2-Codex digambarkan sebagai model yang cocok untuk rekayasa perangkat lunak dunia nyata, fokusnya membantu developer menjalankan rangkaian tugas seperti membaca codebase besar, mengusulkan perubahan, menjalankan tes, dan menyiapkan pull request dengan kualitas yang bisa ditinjau layaknya pekerjaan anggota tim manusia.[3] Di banyak tim, GPT-5.2-Codex menjadi tulang punggung otomasi, misalnya untuk menambal bug berulang atau memperbarui dependensi secara massal.
Ketika GPT-5.3-Codex hadir, ia tidak membuang pondasi ini, justru model baru tersebut mengambil kemampuan coding GPT-5.2-Codex sebagai baseline, lalu menambahkan kemampuan reasoning dan pengetahuan profesional dari GPT-5.2 umum, OpenAI dan analis independen menggambarkannya sebagai penggabungan karakter coder rajin dengan konsultan generalis yang memahami konteks bisnis dan produk.[1][5]
Poin Perbedaan Utama antara GPT-5.3-Codex dan GPT-5.2-Codex
Di atas kertas, perbedaan antara GPT-5.3-Codex dan GPT-5.2-Codex dapat diringkas dalam beberapa dimensi, mulai dari performa, gaya kerja, sampai fokus tugas. Namun yang lebih relevan untuk tim engineering bukan sekadar angka benchmark, melainkan dampaknya pada alur kerja sehari hari, seperti seberapa sering agen butuh intervensi manual dan seberapa jauh ia bisa dipercaya mengerjakan tugas ujung ke ujung. Bagian berikut merangkum beberapa pergeseran penting berdasarkan data resmi dan analisis pihak ketiga.
- Performa benchmark, GPT-5.3-Codex mencetak skor sedikit lebih tinggi dari GPT-5.2-Codex di SWE-Bench Pro untuk tugas software engineering riil, tetapi lonjakan utamanya terlihat di Terminal-Bench 2.0 dan OSWorld-Verified, yang mengukur kemampuan agen mengoperasikan terminal dan lingkungan komputer secara keseluruhan.[1][5]
- Kecepatan dan arsitektur, beberapa laporan menyebut GPT-5.3-Codex dioptimalkan sekitar dua puluh lima persen lebih cepat dibanding GPT-5.2-Codex, termasuk melalui tuning untuk hardware seperti NVIDIA GB200 NVL72, sehingga loop agentic seperti memperbaiki build berulang kali terasa lebih responsif bagi pengguna.[5]
- Gaya kerja, GPT-5.2-Codex sudah cukup baik untuk menjalankan rencana yang ditulis manusia, sementara GPT-5.3-Codex lebih diposisikan sebagai builder yang lebih otonom, mampu menjaga loop self correcting, misalnya terus memperbaiki game web atau aplikasi sampai memenuhi serangkaian kriteria kualitas.[1][5]
- Spektrum tugas, GPT-5.3-Codex secara eksplisit dipromosikan tidak hanya untuk coding, tetapi juga untuk pekerjaan kantor umum seperti menyusun presentasi dan spreadsheet, sehingga model ini bergerak keluar dari kotak sempit sebagai asisten programmer dan masuk ke ranah agen kerja pengetahuan yang lebih luas.[6][9]

Fitur Utama GPT-5.3-Codex untuk Coding dan Kerja Kantoran
Jika di generasi awal alat coding AI fokus utamanya adalah melengkapi baris kode di editor, GPT-5.3-Codex memainkan peran yang jauh lebih besar, model ini didesain untuk mengelola keseluruhan siklus hidup sebuah perubahan, dari memahami kebutuhan, menulis kode, menjalankan tes, sampai mengirimkan hasil dalam bentuk yang siap ditinjau. Selain itu, bagian non teknis seperti dokumentasi, ringkasan keputusan, sampai penyusunan presentasi status proyek juga masuk dalam cakupan kemampuannya.[1][6]
Pendekatan seperti ini sangat selaras dengan tren di banyak organisasi, di mana developer bukan sekadar mengetik kode, tetapi juga harus membaca issue, berdiskusi dengan produk, menyiapkan bukti untuk stakeholder, dan memelihara sistem yang berjalan di produksi. GPT-5.3-Codex secara eksplisit diarahkan agar dapat mendukung seluruh spektrum ini, bukan hanya layer sempit di tengah.
Dari sekian banyak fitur, ada beberapa kemampuan yang paling sering disebut dalam dokumentasi dan liputan media, antara lain capaian benchmark yang agresif, kemampuan mengoperasikan sistem operasi secara langsung, serta integrasi ke dalam Codex app dan ekosistem tool yang mulai mapan.[1][5]
Performa di Benchmark Rekayasa Perangkat Lunak dan Agentic Workflows
Benchmark tidak pernah menceritakan seluruh cerita, tetapi tetap memberi gambaran arah kemampuan sebuah model. Dalam pengumuman resminya, OpenAI menonjolkan capaian GPT-5.3-Codex di empat benchmark, yaitu SWE-Bench Pro untuk coding, Terminal-Bench 2.0 untuk kerja di terminal, OSWorld untuk menjalankan tugas di komputer, dan GDPval untuk penalaran tugas bernilai ekonomi.[1][4] Data independen dari analis seperti DataCamp memperlihatkan pola yang mirip, di mana peningkatan yang paling dramatis muncul di tugas yang menuntut agen benar benar menjalankan langkah teknis di lingkungan sistem operasi.[5]
- Di OSWorld-Verified, GPT-5.3-Codex dilaporkan mencapai sekitar enam puluh empat koma tujuh persen keberhasilan, naik lebih dari dua puluh enam poin persentase dibanding GPT-5.2-Codex, angka ini menandakan agen semakin cakap mengoperasikan aplikasi desktop, menu, dan dialog sistem layaknya pengguna manusia.[5]
- Di SWE-Bench Pro, skor GPT-5.3-Codex berada sedikit di atas GPT-5.2-Codex, sekitar lima puluh enam koma delapan persen berbanding lima puluh enam koma empat persen, peningkatan kecil ini menunjukkan bahwa performa coding murni tetap terjaga sambil fokus bergeser ke kemampuan agentic yang lebih luas.[5]
- Di Terminal-Bench 2.0, GPT-5.3-Codex mencatat sekitar tujuh puluh lima koma satu persen, melampaui GPT-5.2-Codex yang berada di kisaran enam puluh empat persen dan unggul atas Claude Opus 4.6 yang baru saja mengklaim posisi puncak di benchmark yang sama.[5]
Mengoperasikan Komputer, Bukan Hanya Menjawab Chat
Salah satu pergeseran terbesar antara model percakapan biasa dan GPT-5.3-Codex adalah cara model ini ditempatkan untuk bekerja, bukan sekadar menjawab chat, ia menjalankan perintah nyata di mesin virtual atau lingkungan lokal, mengklik, mengetik, membuka aplikasi, dan memodifikasi file. Di benchmark OSWorld, misalnya, tugas yang diberikan jauh lebih dekat dengan pekerjaan harian, seperti membuka aplikasi spreadsheet, membuat tabel dengan struktur tertentu, lalu menyimpan hasilnya dalam format yang diminta.[5]
Perubahan ini membuat cara berpikir tentang AI coding assistant juga bergeser, alih alih membayangkannya sebagai autocomplete super cerdas, banyak tim mulai memperlakukan Codex sebagai anggota baru di tim yang mengerjakan bagian pekerjaan yang bisa diotomasi. Pengembang mengawasi, meninjau, dan mengoreksi, tetapi tidak lagi perlu mengetik semua detail teknis, terutama untuk tugas yang repetitif atau prosedural.
Di sisi produk, OpenAI memperkuat posisi ini dengan merilis Codex app untuk macOS sebagai pusat kendali agen, yang memudahkan pengguna mengatur beberapa agen sekaligus, mengisolasi worktree, dan tetap memantau perubahan melalui panel review sebelum sesuatu benar benar menyentuh repositori utama.[7][12]
Dari Kode ke Presentasi dan Spreadsheet
Meski nama Codex masih identik dengan dunia pemrograman, sejumlah eksekutif OpenAI menekankan bahwa GPT-5.3-Codex juga disiapkan untuk pekerjaan yang lebih luas, seperti menyusun presentasi, spreadsheet, dan dokumen kerja lain yang biasanya menyita waktu jam kantor.[9][6] Model ini dapat membaca konteks proyek, misalnya board tiket, issue tracker, atau catatan rapat, lalu membantu merangkum status, menghasilkan slide, atau menyusun laporan yang siap dikirim.
Dari perspektif organisasi, kemampuan ini menarik karena memindahkan AI dari ruang sempit tim engineering ke meja product manager, analis bisnis, dan bahkan tim keuangan, banyak pekerjaan rutin seperti menggabungkan data dari beberapa spreadsheet, menyusun ringkasan angka, dan memformat output ke template perusahaan bisa didorong ke agen tanpa mengorbankan standar dokumentasi.
Secara praktis, ini berarti satu agen GPT-5.3-Codex bisa menulis kode untuk menarik data dari sistem, menjalankan analisis, lalu menyiapkan presentasi ringkasan di tools seperti Keynote atau PowerPoint, tanpa harus berpindah model atau berganti alat, kondisi ini yang membuat banyak orang menyebut GPT-5.3-Codex sebagai general work agent, bukan lagi sekadar alat coding.[6][5]

Fitur Steer di GPT-5.3-Codex, Cara Kerja, dan Dampaknya ke Workflow
Salah satu keluhan klasik terhadap agen AI jangka panjang adalah perasaan menunggu dalam gelap, pengguna menulis prompt panjang, menekan enter, lalu menunggu agen berpikir selama beberapa menit tanpa tahu apa yang sedang terjadi di balik layar. GPT-5.3-Codex mencoba menjawab masalah ini melalui fitur yang sering disebut sebagai steer atau interactive collaborator, yaitu kemampuan untuk memantau progres agen dan mengubah arah kerja secara langsung ketika tugas masih berjalan.[1][5]
Daripada menunggu hasil akhir lalu menyadari bahwa agen menggunakan versi API yang salah atau mengambil asumsi desain berbeda dari yang diinginkan, pengguna dapat menyela di tengah proses dan berkata kira kira begini, hentikan integrasi dengan layanan lama, gunakan endpoint v2 saja. Agen akan menyesuaikan rencananya tanpa benar benar mengulang dari nol, sehingga loop iterasi terasa lebih dekat dengan dinamika bekerja bersama rekan manusia.
Dalam dokumentasi dan artikel praktis, steer tidak hanya dibahas sebagai fitur kualitas hidup, melainkan bagian dari filosofi baru di mana manusia dan agen berbagi kendali, agen tetap mengerjakan hal remeh dan repetitif, sementara manusia memegang keputusan strategis dan mengatur arah ketika situasi berubah.
Steer dan Follow-up Behavior di Codex App
Di Codex app untuk macOS, fitur steer diwujudkan melalui pengaturan follow up behavior yang dapat diaktifkan di menu Settings bagian General, pengaturan ini mengendalikan seberapa sering agen memberikan update selama ia bekerja dan bagaimana ia merespons instruksi susulan dari pengguna.[13][5] Secara default, pengguna akan melihat serangkaian ringkasan langkah yang sedang dijalankan, mirip log kerja yang lebih mudah dibaca, lengkap dengan kesempatan untuk bertanya atau menginterupsi.
Pendekatan ini mengurangi rasa kehilangan kendali yang sering muncul ketika agen mengambil alih tugas besar, misalnya menjalankan migrasi database atau menata ulang struktur direktori proyek. Alih alih menebak nebak apa yang terjadi, pengguna dapat melihat bahwa agen saat ini sedang membuat branch baru, menjalankan tes, atau memperbaiki error tertentu, lalu memutuskan apakah akan mengizinkan langkah berikutnya.
Di sisi pengalaman pengguna, pola seperti ini juga membuat agen terasa lebih transparan, sesuatu yang penting ketika organisasi mulai memikirkan audit trail dan jejak keputusan yang harus bisa ditinjau oleh tim lain, misalnya keamanan atau compliance.
Steer Mode di CLI dan IDE, Mengarahkan Agen dari Terminal
Bagi banyak engineer, ruang kerja utama tetap terminal dan editor, karena itu Codex CLI dan extension IDE mendapat dukungan steer dalam bentuk yang disesuaikan, misalnya lewat perintah khusus atau kombinasi tombol yang memungkinkan pengguna menyisipkan instruksi tambahan ketika agen masih memproses tugas multi file. Contoh di dokumentasi memperlihatkan bagaimana prompt code review tertentu bisa digunakan untuk mengarahkan GPT-5.2-Codex melakukan peninjauan dengan kriteria ketat, dan prinsip yang sama diterapkan ke GPT-5.3-Codex dengan konteks yang lebih luas dan loop kerja yang lebih panjang.
Beberapa penulis teknis mencatat bahwa steer mode di CLI biasanya diwujudkan dengan pembedaan antara perintah yang langsung dijalankan dan perintah yang dikantongi untuk dieksekusi setelah syarat tertentu terpenuhi, pola ini memberi fleksibilitas, misalnya developer bisa berkata kira kira begini, setelah semua tes unit lulus, lanjutkan tulis dokumentasi API dan siapkan ringkasan perubahan, tanpa harus duduk menunggu di depan terminal setiap saat.
Di level IDE, pola yang sama disajikan dalam alur kerja grafis, misalnya melalui panel yang memperlihatkan rencana kerja agen, daftar file yang sedang disentuh, status setiap langkah, dan tombol singkat untuk mengubah instruksi di tengah jalan, pengguna dapat menghentikan satu langkah, memperbarui kriteria kualitas, atau meminta agen memfokuskan ulang perhatian ke modul tertentu, sehingga pengalaman mengarahkan GPT-5.3-Codex terasa lebih mirip berdiskusi dengan rekan satu tim daripada sekadar menonton log panjang yang bergulir di terminal.

Ke Mana GPT-5.3-Codex Akan Membawa Cara Kita Bekerja
GPT-5.3-Codex pada akhirnya bukan hanya soal skor benchmark atau betapa impresifnya ia menutup tiket bug, tetapi soal bagaimana kita mau mengatur peran agen ini dalam kerja sehari hari, apakah sebagai sekadar mesin penjawab atau sebagai rekan kerja digital yang membantu menjaga ritme proyek, merapikan detail, dan mengurangi beban mental di hal hal repetitif, selama kita tetap memberi data yang layak dipercaya, batas akses yang jelas, dan review manusia yang konsisten, GPT-5.3-Codex bisa menjadi komponen penting dalam strategi kerja jangka panjang, bukan sekadar eksperimen sesaat, kalau Anda sudah mencoba GPT-5.3-Codex di tim atau proyek tertentu, silakan ceritakan pengalaman, pertanyaan, atau kekhawatiran Anda di kolom komentar agar kita bisa belajar dari praktik nyata satu sama lain.
References
- OpenAI (ID) — Memperkenalkan GPT-5.3-Codex
- OpenAI — Introducing GPT-5.3-Codex
- OpenAI (ID) — Memperkenalkan GPT-5.2-Codex
- OpenAI — Introducing GPT-5.2-Codex
- OpenAI Developers — Codex Models Overview
- DataCamp — GPT-5.3 Codex: From Coding Assistant to General Work Agent
- Eesel — Our Complete GPT-5.3 Codex Review
- Laravel News — OpenAI Releases GPT-5.3-Codex, a New Codex Model for Agent-Style Development
- Business Insider — Anthropic and OpenAI Release Dueling AI Models on the Same Day
- Omni — OpenAI Släpper GPT-5.3 Codex Minuten Efter Anthropic
- DataCamp Media — Moltbook & GPT-5.3-Codex Performance and Speed Notes
Siap menerapkan ini untuk bisnis kamu?
Mari Diskusi →