Claude Sonnet 4.5 Resmi Rilis: Fitur Unggulan, Benchmark, dan Cara Memulainya

Ringkasan cepat

Claude Sonnet 4.5 memimpin benchmark SWE-bench Verified (77,2%) dan OSWorld (61,4%), serta mampu bekerja otonom >30 jam untuk tugas kompleks.

  • Fokus utama: coding produksi, agen AI, dan penggunaan komputer dunia nyata.
  • Harga tetap: $3/MTok input, $15/MTok output; tersedia via API, aplikasi Claude, dan Amazon Bedrock.
  • Fitur baru: Claude Agent SDK, upgrade Claude Code, ekstensi VS Code, memori dan context editing.
  • Keselamatan: model paling selaras Anthropic dengan proteksi ASL-3 dan classifier CBRN.
  • Cara mulai cepat: pilih di Copilot/Bedrock, atau panggil model claude-sonnet-4-5 via API.

Margabagus.com – Claude Sonnet 4.5 melangkah dengan pijakan angka yang pasti, dengan menempati papan atas SWE-bench Verified 77,2 persen yang dapat meningkat hingga 82,0 persen pada konfigurasi komputasi tinggi, sekaligus memimpin OSWorld 61,4 persen untuk tugas penggunaan komputer dunia nyata.[1] Di luar skor, model ini menunjukkan ketahanan kerja lebih dari 30 jam pada rangkaian tugas berlapis, sinyal bahwa agen dan alur coding panjang bisa ditangani tanpa tersendat.[5][6][7] Dengan harga $3 per juta token input dan $15 per juta token output, serta ketersediaan di API Anthropic, aplikasi Claude, dan Amazon Bedrock, Sonnet 4.5 menggabungkan performa, efisiensi, dan jalur adopsi yang jelas, mari telusuri apa artinya bagi tim teknologi dan keputusan bisnis Anda hari ini.[3][9]

Apa itu Claude Sonnet 4.5 dan apa yang benar-benar baru

Claude Sonnet 4.5 tampilan Chat di website

Tampilan Claude Sonnet 4.5 di website ClaudeAI

Claude Sonnet 4.5 adalah model unggulan terbaru Anthropic yang diposisikan sebagai “model terbaik untuk coding, agen kompleks, dan penggunaan komputer”. Rilis ini datang berbarengan dengan Claude Agent SDK, pembaruan besar Claude Code termasuk checkpoints dan native VS Code extension, serta context editing dan memory tool di API. Di aplikasi Claude, eksekusi kode dan pembuatan file spreadsheet, slide, serta dokumen kini tertanam langsung dalam percakapan sehingga mengurangi lompatan alat.[1][2][14]

Secara strategis, Anthropic menegaskan ini adalah model paling selaras yang pernah mereka rilis, dengan perbaikan perilaku pada sycophancy, deception, dan dorongan power-seeking, serta mitigasi prompt injection untuk fitur penggunaan komputer. Model ini dirilis di AI Safety Level 3 dengan classifier yang menandai konten sensitif CBRN.[1]

Di sisi go-to-market, Sonnet 4.5 tersedia di API, aplikasi Claude, dan Amazon Bedrock, sehingga memudahkan tim enterprise melakukan adopsi di lingkungan produksi tanpa mengganti fondasi arsitektur.[1][9]

Ringkasan Fitur Kunci Claude Sonnet 4.5

Ikhtisar fitur utama Claude Sonnet 4.5, fokus pada Agent SDK, Claude Code, context editing, penggunaan komputer, dan keselamatan model. [1]
Fitur Apa yang ditingkatkan Dampak untuk tim
Claude Agent SDK Fondasi agen, memori jangka panjang, koordinasi sub-agen, sistem izin Agen stabil untuk tugas panjang, lebih mudah di-productize
Claude Code + VS Code extension Checkpoints, terminal baru, edit kode di aplikasi Claude Rollback cepat, debugging lebih terstruktur, kurangi context loss
Context editing & memory (API) Menjaga state pada pekerjaan multi-langkah Lebih sedikit pengulangan, throughput agen meningkat
Penggunaan komputer Navigasi web, spreadsheet, form, tugas UI Automasi tugas kantor yang nyata, bukan demo semata
Keselamatan & penyelarasan ASL-3, mitigasi prompt-injection, penurunan sycophancy & deception Risiko operasional lebih rendah pada lingkungan regulasi

Sumber: pengumuman dan halaman model resmi Anthropic

Benchmark Claude Sonnet 4.5, dari SWE-bench hingga OSWorld

Visual benchmark SWE-bench dan OSWorld untuk Claude Sonnet 4.5.

Skor benchmark utama yang relevan untuk kesiapan produksi.

Benchmark bukan sekadar angka, ini adalah indikator kesiapan produksi. Di SWE-bench Verified, Sonnet 4.5 mencatat 77,2 persen dengan metodologi standar dua alat, dan 78,2 persen pada konfigurasi 1M konteks, sementara 82,0 persen tercapai pada skenario high compute dengan pemilihan kandidat paralel. Di OSWorld, model ini memimpin di 61,4 persen, lompatan nyata dibanding Sonnet 4 yang sebelumnya ada di 42,2 persen.[1]

Independen dari klaim vendor, Vals AI melaporkan Sonnet 4.5 menempati posisi teratas di SWE-bench dan Terminal-Bench, serta memimpin Finance Agent pada rilisan 29 September 2025. Ini mengindikasikan performa lintas domain yang konsisten, tidak hanya pada ekosistem Anthropic.[12]

Narasi ketahanan kerja juga tidak main-main, 30 jam otonom yang dilaporkan bukan demonstrasi showreel singkat, namun didukung pengujian media dan kutipan pelanggan awal, termasuk kemampuan membangun aplikasi lengkap yang mencapai ribuan baris kode.[5][6][7][8]

Tabel Benchmark Claude Sonnet 4.5, SWE-bench dan OSWorld

Ringkasan skor SWE-bench Verified dan OSWorld yang relevan untuk kesiapan produksi. [1]
Benchmark Metrik Skor Sonnet 4.5 Patokan sebelumnya Catatan metodologi
SWE-bench Verified Persentase isu terpecahkan 77,2% Scaffold dua alat, tanpa test-time compute, 200K thinking budget
SWE-bench Verified (1M konteks) Persentase isu terpecahkan 78,2% Konfigurasi 1M konteks, dicatat Anthropic sebagai angka tambahan
SWE-bench Verified (high compute) Persentase isu terpecahkan 82,0% Paralel percobaan, seleksi kandidat terbaik dengan scoring internal
OSWorld Tugas penggunaan komputer dunia nyata 61,4% Sonnet 4: 42,2% OSWorld-Verified, 100 langkah maksimum, rata-rata 4 run

Keterangan: Angka dan metodologi diambil dari pengumuman resmi dan halaman model Anthropic.

Fitur unggulan untuk bisnis dan developer

Antarmuka kerja memperlihatkan agen, kode, dan checkpoints.

Pengalaman kerja ujung ke ujung yang menyatu.

Sonnet 4.5 diarahkan untuk coding produksi dan agen AI yang mengerjakan pekerjaan nyata, bukan hanya sandbox. Claude Agent SDK memberikan blok bangun yang sama yang dipakai Anthropic untuk menggerakkan Claude Code, termasuk memori jangka panjang, sistem izin, dan koordinasi sub-agen yang stabil.[1]

Bagi developer, Claude Code mendapatkan checkpoints yang menyimpan progres dan memungkinkan rollback instan, antarmuka terminal versi 2.0, serta ekstensi VS Code resmi. Bagi team non-teknis, context editing dan memory tool di API membantu agen bertahan di tugas multi-langkah yang panjang tanpa kehilangan konteks.[1][14]

Di sisi ekosistem, GitHub mengumumkan public preview Sonnet 4.5 di Copilot untuk Pro, Business, dan Enterprise, sehingga adopsi bisa dimulai langsung di tool sehari-hari yang sudah dipakai tim engineering.[11]

Harga Claude Sonnet 4.5 dan ketersediaan

Anthropic mempertahankan struktur harga yang ramah eksperimen dengan $3 per juta token input dan $15 per juta token output, sejalan dengan Sonnet 4 sebelumnya. Opsi efisiensi seperti prompt caching dan batch tetap tersedia untuk memangkas biaya workload besar.[3][4]

Untuk akses, Sonnet 4.5 tersedia di API dan aplikasi Claude hari ini, serta hadir di Amazon Bedrock sehingga memudahkan integrasi enterprise dan kontrol data di akun AWS.[1][8][9]

Tabel Harga dan Ketersediaan Claude Sonnet 4.5

Struktur harga per juta token dan opsi akses melalui API, aplikasi Claude, Amazon Bedrock, serta public preview di Copilot. [4][11]
Aspek Detail
Harga API $3 per juta token input, $15 per juta token output
Efisiensi biaya Prompt caching hingga 90% hemat, Batch hingga 50% hemat
Ketersediaan Claude API, aplikasi Claude, integrasi Amazon Bedrock, public preview di GitHub Copilot

Keamanan, penyelarasan, dan risiko operasional

Anthropic menyebut ini sebagai model frontier paling selaras yang pernah mereka rilis. Perilaku yang berisiko seperti penyanjungan berlebih, delusi, dan power-seeking ditekan, lalu kemampuan defense terhadap prompt injection ditingkatkan khusus untuk fitur penggunaan komputer. Rilis berada pada ASL-3 dengan classifier CBRN, sementara rute mitigasi false positive sudah dipangkas signifikan dibanding rilisan lampau.[1]

Bagi organisasi yang bergerak di sektor regulasi ketat, pendekatan ini relevan untuk audit, forensik keputusan, dan pengurangan eksposur reputasi, selama governance dan policy internal ikut diperbarui untuk mengakomodasi agen otonom.

Cara memulai Claude Sonnet 4.5, langkah cepat untuk tim Anda

Peta alur tiga jalur, API Anthropic, Amazon Bedrock, GitHub Copilot, setiap jalur memiliki ikon langkah onboarding.

Jalur onboarding Sonnet 4.5 melalui API, Bedrock, dan Copilot.

Mulai dari yang paling dekat dengan alur kerja saat ini. Di GitHub Copilot, aktifkan Sonnet 4.5 dari model picker dan kebijakan admin untuk organisasi agar tim dapat menggunakannya di VS Code, Copilot Chat, dan Copilot CLI.[11]

Di AWS, masuk ke Amazon Bedrock, pilih Claude Sonnet 4.5, atur izin dataset, lalu uji beberapa skenario khas perusahaan seperti ekstraksi laporan, validasi spreadsheet keuangan, atau pembuatan skrip ETL sederhana.[9]

Di API Anthropic, panggil model claude-sonnet-4-5, aktifkan memori dan context editing bila perlu, lalu ukur throughput, biaya, dan akurasi di pipeline yang sudah ada. Dokumentasi What’s New merangkum perubahan perilaku, optimasi token, dan catatan billing agar eksperimen Anda presisi sejak awal.[2][3]

Perbandingan ringkas dengan kompetitor dan tren pasar

Dalam kacamata enterprise, Reuters menyoroti strategi Anthropic yang mengejar pelanggan bisnis dan integrasi ke tool kerja produktif, sebuah pendekatan yang kontras dengan perlombaan demo konsumer jangka pendek. Pemberitaan hari rilis juga menyinggung integrasi model Anthropic ke ekosistem produktivitas arus utama.[5]

The Verge dan Axios menekankan lompatan durasi kerja otonom serta kapabilitas agen yang lebih stabil, sinyal bahwa pasar tidak lagi terpaku pada performa satu prompt, namun pada ketahanan tugas panjang dan orchestrasi alat yang rapi.[6][7]

Bagi pengambil keputusan, indikator praktis yang perlu dipantau adalah kelanjutan skor OSWorld dan SWE-bench pasca rilis, stabilitas tool use di stack Anda, serta dukungan vendor pada compliance, audit, dan kontrol data.[12][1]

Kelebihan dan kekurangan yang paling relevan untuk adopsi

Kelebihan

  • Performa coding produksi kuat, konsisten pada tugas panjang dan agen yang menggunakan banyak alat, cocok untuk refactor, migrasi, dan prototyping cepat.[1][12]

  • Harga tetap kompetitif untuk kelas Sonnet, tersedia di API, aplikasi, dan Bedrock sehingga fleksibel untuk skala tim dan infrastruktur yang berbeda.[3][9]

  • Peningkatan keselamatan dan mitigasi prompt injection menekan risiko operasional saat mengaktifkan fitur penggunaan komputer.[1]

Kekurangan

  • Skor dan performa terbaik sering bergantung pada thinking budget dan compute yang lebih tinggi, perlu perencanaan biaya dan SLO.[1]

  • Model berada di ASL-3 sehingga beberapa permintaan dapat ditandai classifier, butuh penyesuaian alur kerja agar tidak mengganggu produktivitas.[1]

  • Integrasi ekosistem non-AWS memerlukan orkestrasi tambahan bila organisasi Anda dominan di platform lain, sediakan waktu uji kompatibilitas.[9]

Rekomendasi adopsi yang bisa dieksekusi minggu ini

Papan kanban rencana pilot satu sprint.

Mulai kecil dengan target yang terukur.

Mulai dari pilot satu sprint pada tiga skenario bernilai tinggi, gunakan target yang dapat diukur. Pertama, agen coding untuk backlog bug nyata dan refactor modul prioritas, ukur fix rate dan waktu tutup tiket. Kedua, analis keuangan untuk screening portofolio atau rekonsiliasi data yang repetitif, ukur waktu siklus dan akurasi. Ketiga, penggunaan komputer untuk spreadsheet dan pelacakan vendor, ukur stabilitas tool orchestration. Jika dua dari tiga skenario menunjukkan penghematan waktu minimal 25 persen tanpa eror kritis, lanjutkan ke rollout bertahap di tim terkait.[1][12]

Saatnya Mengukur Manfaat Claude Sonnet 4.5 di Tim Anda

Ilustrasi metrik evaluasi dan ajakan aksi lanjutan untuk Claude Sonnet 4.5.

Lihat metrik, ambil tindakan, dan mari diskusikan hasilnya di kolom komentar.

Di titik ini Claude Sonnet 4.5 terlihat bukan pembaruan kecil, ini paket yang menyatukan performa, alat, dan ekosistem agar agen AI benar benar bekerja, bukan sekadar menulis demo. Jika Anda sudah mencoba generasi sebelumnya, waktunya mengukur manfaat riil di alur kerja harian, mulai dari satu sprint dan satu tim, lalu dokumentasikan hasilnya. Tulis pengalaman, pertanyaan, atau rencana uji Anda di kolom komentar agar diskusi ini semakin tajam dan bermanfaat bagi semua. [1]

References


  1. Anthropic — Introducing Claude Sonnet 4.5

  2. Anthropic — Claude Sonnet 4.5 model page

  3. Claude Docs — What’s New in Sonnet 4.5

  4. Claude Docs — Pricing

  5. Reuters — Anthropic launches Claude 4.5

  6. The Verge — Claude Sonnet 4.5 release coverage

  7. Axios — Claude Sonnet 4.5 can work 30 hours

  8. TechCrunch — Anthropic launches Claude Sonnet 4.5

  9. AWS — Sonnet 4.5 on Amazon Bedrock

  10. AWS Blog — Bedrock announcement

  11. GitHub — Copilot public preview

  12. Vals AI — Public Enterprise LLM Benchmarks

  13. Simon Willison — Notes on Sonnet 4.5

FAQ (Frequently Asked Questions)

Apa perbedaan utama Sonnet 4.5 dibanding Sonnet 4 dan Opus 4.1?

Fokus produksi meningkat pada coding, agen, dan computer use, ditambah Agent SDK, upgrade Claude Code, VS Code extension, serta context editing dan memory tool. Skor SWE-bench dan OSWorld melonjak, sementara harga tetap.

Berapa harganya dan bagaimana menekan biaya?

Harga $3/MTok input dan $15/MTok output, manfaatkan prompt caching dan batch untuk efisiensi.

Di mana saya bisa mengaktifkan Sonnet 4.5 hari ini?

Pilih di API Anthropic dengan model claude-sonnet-4-5, gunakan Amazon Bedrock untuk integrasi enterprise, atau aktifkan GitHub Copilot public preview.

Apa arti skor OSWorld dan SWE-bench untuk pekerjaan saya?

OSWorld menguji penggunaan komputer riil, SWE-bench memeriksa kemampuan coding pada repo nyata, kombinasi keduanya menandakan kesiapan produksi untuk agen dan developer.

Bagaimana dengan keamanan dan kepatuhan?

Model dirilis pada ASL-3 dengan classifier CBRN, ada mitigasi prompt injection, dan perbaikan perilaku. Tetap perlukan kontrol internal dan audit.

Apakah benar model ini bisa bekerja otonom lebih dari 30 jam?

Ya, ini didukung klaim vendor dan liputan media pada hari rilis, termasuk pembangunan aplikasi lengkap dan tugas multi-langkah yang panjang.

Tinggalkan Komentar

Alamat email Anda tidak akan dipublikasikan. Bidang yang wajib diisi ditandai dengan *

N4058R

OFFICES

Surabaya

No. 21/A Dukuh Menanggal
60234 East Java

(+62)82147979921 [email protected]

FOLLOW ME