66B là một mô hình ngôn ngữ lớn được thiết kế để xử lý các tác vụ ngôn ngữ tự nhiên ở cấp độ cao. Với quy mô tham số tương đối lớn, nó có khả năng sinh văn bản, trả lời câu hỏi và tham gia vào các cuộc đối thoại một cách tự nhiên.
Trong thập kỷ qua, các mô hình ngôn ngữ đã tiến hóa từ các phiên bản nhỏ đến siêu lớn. 66B được phát triển như một bước cân bằng giữa khối lượng dữ liệu, khả năng tổng quát và chi phí huấn luyện. Nó thể hiện sự cải thiện trong khả năng hiểu ngữ cảnh và duy trì nhất quán ở các đoạn văn dài.

66B mô tả một kiến trúc transformer với khoảng 66 tỷ tham số. Nó dùng cơ chế attention đa đầu, các lớp feed-forward và các kỹ thuật tối ưu hóa như mô hình hóa vị trí, chuẩn hóa và điều chỉnh học để đạt hiệu suất cao mà vẫn giữ được tính ổn định trong quá trình huấn luyện.
Trong thực tế, 66B có thể hỗ trợ viết nội dung sáng tạo, tóm tắt văn bản, phân tích dữ liệu và hỗ trợ hậu cần trong phát triển phần mềm. Tuy nhiên, thách thức gồm chi phí tính toán, quản lý rủi ro về thiên vị và yêu cầu dữ liệu huấn luyện có chất lượng cao, cũng như nguy cơ tạo ra thông tin sai lệch.

