DEEPSEEK-OCR 2: KHI AI BẮT ĐẦU "ĐỌC" HÌNH ẢNH NHƯ CON NGƯỜI
DeepSeek vừa công bố phiên bản DeepSeek-OCR 2, đánh dấu một bước tiến đáng chú ý trong lĩnh vực nhận dạng và hiểu nội dung hình ảnh bằng AI. Điểm nổi bật của phiên bản này không nằm ở việc "nhìn rõ hơn", mà ở chỗ AI đã bắt đầu nhìn theo trật tự logic giống con người.
Cốt lõi của cải tiến đến từ phương pháp mới mang tên DeepEncoder V2. Thay vì quét hình ảnh một cách cứng nhắc từ trái sang phải, trên xuống dưới, mô hình được huấn luyện để tự động sắp xếp lại các thành phần trong ảnh dựa trên ý nghĩa và mối liên hệ giữa chúng. Cách tiếp cận này gần với cách con người đọc một trang tài liệu hay quan sát một sơ đồ: ưu tiên nội dung chính, lần theo mạch thông tin, rồi mới đến các chi tiết bổ trợ.

Nhờ đó, DeepSeek-OCR 2 cho thấy hiệu quả vượt trội so với nhiều mô hình thị giác - ngôn ngữ truyền thống, đặc biệt khi xử lý những hình ảnh có bố cục phức tạp như tài liệu nhiều cột, bảng biểu, biểu đồ hay sơ đồ kỹ thuật. AI không chỉ nhận diện chữ hoặc hình ảnh riêng lẻ, mà còn hiểu được cấu trúc và logic trình bày của toàn bộ nội dung.
Có thể nói, DeepSeek-OCR 2 là một bước tiến từ "nhận dạng" sang "hiểu" hình ảnh. Đây cũng là hướng phát triển quan trọng nếu AI muốn trở thành công cụ hỗ trợ học tập, nghiên cứu và làm việc thực sự hiệu quả trong môi trường giàu thông tin như hiện nay.