Benchmark reasoning GPT-5, Claude 4.1, Gemini 2.5 Flash, skor SWE bench dan GPQA, panduan memilih model dan strategi…