blog2026-03-209 phút

GPT-5.4 mini & nano: Thiết Kế Coding Subagents Nhanh Hơn, Rẻ Hơn Mà Không Mất Chất Lượng

OpenAI vừa ra mắt GPT-5.4 mini và nano — hai model nhỏ được tối ưu cho coding workflows và subagents. Đây là cách thiết kế lại pipeline của bạn theo mô hình planner-worker để cắt giảm latency và chi phí.

TL;DR

OpenAI ra mắt GPT-5.4 mini và nano ngày 17/3/2026 — hai model nhỏ nhanh gấp 2x so với GPT-5 mini, được tối ưu đặc biệt cho coding workflows và subagents. Mô hình planner-worker: GPT-5.4 lập kế hoạch, mini/nano thực thi song song — là pattern giúp giảm latency và chi phí đáng kể mà không đánh đổi chất lượng.

Một trong những bài toán thực tế nhất khi xây dựng AI coding tools: bạn không cần model lớn nhất cho mọi bước.

Codebase search? Targeted diff? Unit test fix? Đây là những task lặp lại, có scope rõ, không cần full reasoning power của một model flagship.

Đó chính là lý do OpenAI ra mắt GPT-5.4 mini và nano.

Những Gì Thực Sự Mới

Theo OpenAI announcement (17/3/2026):

"GPT-5.4 mini significantly improves over GPT-5 mini across coding, reasoning, multimodal understanding, and tool use, while running more than 2x faster. It also approaches the performance of the larger GPT-5.4 model on several evaluations, including SWE-Bench Pro."

GPT-5.4 mini:

Chạy nhanh hơn 2x so với GPT-5 mini
Tiệm cận performance GPT-5.4 lớn trên SWE-Bench Pro và OSWorld-Verified
Phù hợp: targeted edits, codebase navigation, front-end generation, debugging loops
Reasoning effort cao nhất: high

GPT-5.4 nano:

Model nhỏ và rẻ nhất của GPT-5.4
OpenAI khuyến nghị cho: classification, data extraction, ranking, và coding subagents xử lý supporting tasks đơn giản
Không phải thay thế mini — là tier riêng cho tasks cụ thể

GPT-5.4 planner model điều phối mini và nano subagents chạy song song

Planner-worker pattern: GPT-5.4 lập kế hoạch, mini/nano subagents thực thi song song

Pricing Thực Tế

Model	Input	Output	Context
GPT-5.4 mini	$0.75 / 1M tokens	$4.50 / 1M tokens	400k
GPT-5.4 nano	$0.20 / 1M tokens	$1.25 / 1M tokens	—
GPT-5.4 (lớn)	$5 / 1M tokens	$25 / 1M tokens	—

Trong Codex: GPT-5.4 mini chỉ dùng 30% quota của GPT-5.4 — hiệu quả hơn ~3x về chi phí cho simpler coding tasks.

Mini vs Nano: Khi Nào Dùng Cái Nào?

Task	Mini	Nano
Targeted file edits	✅ Tốt nhất	❌ Có thể miss context
Codebase search và summarize	✅	⚠️ Chỉ với files nhỏ
Debugging loops	✅	❌
Front-end code generation	✅	❌
Classification / labeling	⚠️ Overkill	✅ Tốt nhất
Data extraction / ranking	⚠️	✅
Simple code edits (1-5 lines)	⚠️	✅
Unit test fix phức tạp	✅	❌
Screenshot interpretation	✅	❌

Rule of thumb: Dùng nano khi task có input/output rõ ràng, bounded scope. Dùng mini khi task cần reasoning nhẹ hoặc code generation.

Planner-Worker Architecture

Đây là pattern OpenAI chỉ rõ trong announcement — và nó thay đổi cách bạn thiết kế agent pipelines:

GPT-5.4 (Planner)
    │
    ├── Phân tích yêu cầu
    ├── Chia task thành subtasks
    ├── Phán đoán độ phức tạp mỗi task
    └── Điều phối mini/nano subagents
            │
            ├── mini: search codebase
            ├── mini: review large file
            ├── mini: generate targeted diff
            └── nano: classify error type

"In Codex, a larger model like GPT-5.4 can handle planning, coordination, and final judgment, while delegating to GPT-5.4 mini subagents that handle narrower subtasks in parallel." — OpenAI

Workflow Recipe Thực Tế

Bước 1: Planner phân tích và tạo task graph

Dùng GPT-5.4 đầy đủ cho planning — đây là phần cần reasoning cao nhất.

Bước 2: Phân loại subtask và chọn model

def select_model(task_type: str) -> str:
    nano_tasks = ["classify", "extract", "rank", "simple_edit"]
    mini_tasks = ["search", "diff", "debug", "generate", "review_file"]
    
    if task_type in nano_tasks:
        return "gpt-5.4-nano"
    elif task_type in mini_tasks:
        return "gpt-5.4-mini"
    return "gpt-5.4"

Bước 3: Chạy subtasks song song

import asyncio

async def run_subtasks(task_graph):
    tasks = [
        execute_with_model(subtask, select_model(subtask.type))
        for subtask in task_graph.subtasks
    ]
    return await asyncio.gather(*tasks)

Bước 4: Planner aggregate và final judgment

GPT-5.4 lớn review tất cả kết quả từ subagents và tạo output cuối.

Bước 5: Retry với fallback

async def execute_with_retry(subtask, model, fallback="gpt-5.4"):
    try:
        return await execute_with_model(subtask, model)
    except QualityCheckFailed:
        return await execute_with_model(subtask, fallback)

Checklist Cost/Performance

Trước khi migrate pipeline sang mini/nano:

Chọn model nhỏ nhất pass quality bar — test từng loại task riêng
Đo latency từng step, không chỉ tổng thể — bottleneck thường ở tool calls
Shadow evaluation — chạy mini song song với GPT-5.4 trên 5-10% traffic trước khi migrate
Track tool-call overhead riêng — latency thực = model time + code execution time
Set quality thresholds rõ ràng trước khi bật auto-fallback

Pitfalls Thường Gặp

Over-delegation vào nano: Nano mạnh cho classification nhưng yếu với multi-step reasoning. Đừng giao debugging phức tạp.

Poor prompt boundaries: Mini/nano cần prompts tập trung. Context thừa ảnh hưởng chất lượng nhiều hơn với model nhỏ.

Bỏ qua tool-call overhead: Một subagent chạy code execution có thể tốn thời gian hơn model latency. Đo cả hai.

Migrate toàn bộ cùng lúc: Bắt đầu với một pipeline cụ thể, đo kết quả, rồi mở rộng dần.

Availability

GPT-5.4 mini: API (400k context), Codex (app/CLI/IDE/web), ChatGPT (Free và Go qua "Thinking" feature)
GPT-5.4 nano: API only ($0.20/$1.25 per 1M tokens)

FAQ

GPT-5.4 mini có thay thế được GPT-5 mini không? Theo OpenAI: có — mini consistently outperforms GPT-5-mini ở similar latencies. Nên migrate.

Nano có dùng tool calling không? Có, nhưng reliability thấp hơn mini với complex tool chains. Phù hợp single-tool calls đơn giản.

Codex có tự động dùng mini subagents không? Có — trong Codex, bạn có thể configure để delegate sang mini subagents. Mini dùng 30% quota của GPT-5.4.