GPT4Tools: Đột phá trong việc truyền đạt khả năng xử lý thông tin trực quan cho các mô hình ngôn ngữ lớn
Trong vài năm gần đây, lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) đã chứng kiến những bước tiến vượt bậc nhờ sự ra đời của các mô hình ngôn ngữ lớn (LLM) có khả năng sinh văn bản tương tự con người như GPT-3. Tuy nhiên, điểm hạn chế lớn nhất của các mô hình này chính là chúng chỉ có thể xử lý dữ liệu dạng văn bản, không thể tiếp nhận hay suy luận dựa trên các đầu vào hình ảnh.
Việc cho phép các LLM có khả năng xử lý đa phương tiện tích hợp cả ngôn ngữ và hình ảnh sẽ là một bước tiến quan trọng hướng tới mục tiêu xây dựng trí tuệ nhân tạo thông minh hơn. Mới đây, các nhà nghiên cứu đến từ Đại học Thanh Hoa, Phòng thí nghiệm AI Tencent và Đại học Hồng Kông Trung Quốc đã đề xuất một phương pháp mới lạ có thể dạy cho các LLM hiện hữu cách hiểu và xử lý thông tin hình ảnh một cách hiệu quả. Phương pháp này mang tên GPT4Tools và cho thấy rằng chúng ta có thể nâng cao khả năng nhận thức trực quan cho các mô hình ngôn ngữ mà không cần phải huấn luyện lại từ đầu các kiến trúc độc quyền khó tiếp cận. Điều đó mở ra cơ hội mới để mở rộng khả năng của các LLM thông qua tận dụng tối đa nguồn lực hiện có.
Lý do nền tảng xử lý hình ảnh quan trọng với các mô hình ngôn ngữ
Hiện nay, các mô hình độc quyền tiên tiến như ChatGPT đã thể hiện được hiệu suất ấn tượng trong các nhiệm vụ xử lý ngôn ngữ nhờ khả năng tự giám sát lớn dựa trên lượng dữ liệu văn bản khổng lồ. Tuy nhiên, do không thể kết nối được các ký hiệu, từ ngữ với các khái niệm hình ảnh trong thế giới thực, nên các mô hình này bị hạn chế về khả năng suy luận.
Chẳng hạn, chúng không thể xác định đúng sai trong câu “Quả bóng bay màu xanh” nếu không nhìn thấy trực quan hình ảnh quả bóng, cũng không thể tạo ra các hình ảnh hợp lý từ các mô tả bằng văn bản. Ngôn ngữ là nền tảng của nhận thức, do đó tầm nhìn máy tính có ý nghĩa quan trọng trong việc cung cấp ngữ nghĩa và sự hiểu biết chung cần thiết cho các mô hình.
Việc kết hợp ngôn ngữ và hình ảnh cũng mở ra nhiều ứng dụng tiềm năng ở giao điểm giữa thị giác máy tính và NLP như trả lời câu hỏi bằng hình ảnh, chú thích hình ảnh, tìm kiếm đa phương tiện, hỗ trợ người khiếm thị,… Vì vậy, các kỹ thuật truyền đạt khả năng xử lý thông tin trực quan cho các LLM có ý nghĩa đột phá, trong đó GPT4Tools là một ví dụ điển hình.
Tổng quan về kỹ thuật của GPT4Tools
Ý tưởng then chốt của GPT4Tools là sử dụng một LLM tiên tiến (như ChatGPT) với vai trò “mô hình giáo viên” để tạo tập dữ liệu huấn luyện chứa cả thông tin trực quan. Sau đó dùng tập dữ liệu này để tinh chỉnh các LLM nhỏ hơn, giúp chúng có khả năng xử lý tích hợp ngôn ngữ và hình ảnh.
Cụ thể, các bước chính bao gồm:
Bước 1: Nhắc ChatGPT chú thích hình ảnh và định nghĩa các công cụ trực quan để thu thập dữ liệu gồm 41 ngàn cặp lệnh-phản hồi tương ứng với 23 công cụ xử lý hình ảnh.
Bước 2: Bổ sung thêm các cặp dữ liệu phủ định để tránh hiện tượng quá khớp (overfitting) khi sử dụng công cụ cũng như mẫu ngữ cảnh để tạo thành các đoạn hội thoại hoàn chỉnh hơn.
Bước 3: Sử dụng tập dữ liệu đã thu thập ở các bước trên để tinh chỉnh lại các LLM có sẵn như Vicuna, OPT. Cụ thể là giữ nguyên kiến trúc cơ sở và chỉ cập nhật (fine-tune) thành phần xếp hạng độ xáo trộn bằng kỹ thuật Low Rank Adaptation.
Bước 4: Đánh giá mức độ thành công thông qua các tiêu chí: xác định chính xác thời điểm nên sử dụng công cụ hình ảnh, lựa chọn đúng công cụ, đưa ra lập luận hợp lý khi gọi công cụ.
Kết quả thực nghiệm
Các kết quả thực nghiệm cho thấy GPT4Tools có thể hướng dẫn các LLM hiệu quả trong việc xử lý thông tin trực quan mà không cần tăng thêm năng lực tính toán:
- Sau khi tinh chỉnh, Vicuna 13B đạt hiệu suất tương đương với GPT-3.5 175B trên tập dữ liệu đã thấy (seen data). Độ chính xác tăng thêm 9.3%, chứng tỏ kiến thức được truyền từ mô hình giáo viên có thể bù đắp phần nào cho năng lực tính toán thấp hơn.
- Việc bổ sung thêm dữ liệu phủ định và theo ngữ cảnh là vô cùng cần thiết để nâng cao độ chính xác, tránh gọi công cụ một cách máy móc.
- Khi được đánh giá trên bộ dữ liệu chưa từng thấy (unseen data), Vicuna tinh chỉnh vẫn khái quát hóa tốt với độ chính xác 90.6% so với 91.5% của GPT-3.5. Điều này cho thấy mô hình có khả năng gọi các công cụ mới.
Như vậy, GPT4Tools mở ra hướng đi mới trong việc tận dụng lại kiến thức từ các LLM tiên tiến để trang bị năng lực xử lý đa phương tiện hiệu quả cho các mô hình khác mà không đòi hỏi nhiều tài nguyên tính toán.
Hướng phát triển tiếp theo
Mặc dù GPT4Tools đã chứng minh được hiệu quả trong việc truyền đạt khả năng xử lý thông tin trực quan cho các LLM, nhưng vẫn còn một số hạn chế cần khắc phục:
Thứ nhất, độ chính xác của các mô hình vẫn chưa đạt mức tuyệt đối. Do đó, cần tiếp tục cải thiện độ chính xác, đặc biệt là khả năng khái quát hóa cho các tình huống mới.
Thứ hai, quy trình gợi ý chi tiết về công cụ cho mô hình có thể làm giảm hiệu quả huấn luyện. Vì vậy, cần nghiên cứu cách thức để mô hình có thể tự khám phá và sử dụng công cụ một cách linh hoạt hơn.
Cuối cùng, để GPT4Tools có thể mang lại lợi ích thực tế, cần mở rộng nghiên cứu để áp dụng vào nhiều tình huống và lĩnh vực khác nhau. Bên cạnh đó, việc kết hợp giữa con người và AI trong quy trình gợi ý hướng dẫn cũng là hướng đi có triển vọng.
Kết luận
Nhìn chung, GPT4Tools là một phương pháp đột phá và hiệu quả để truyền đạt khả năng xử lý thông tin đa phương tiện cho các mô hình ngôn ngữ lớn.
Ưu điểm lớn nhất của phương pháp này là khả năng tận dụng tri thức sẵn có từ các LLM tiên tiến để chuyển giao kỹ năng cho các mô hình khác mà không đòi hỏi quá nhiều nguồn lực huấn luyện. Điều này mở ra cơ hội để mở rộng khả năng của các LLM hiện có với chi phí phần cứng, dữ liệu hợp lý.
Tuy vẫn còn một số hạn chế cần khắc phục, GPT4Tools vẫn là bước khởi đầu đầy hứa hẹn. Phương pháp này có thể truyền cảm hứng cho nhiều nghiên cứu mới nhằm tích hợp chặt chẽ ngôn ngữ và tầm nhìn máy tính để phát triển các ứng dụng trí tuệ nhân tạo thông minh hơn. Hy vọng trong tương lai, việc kết hợp năng lực con người và máy móc trong quá trình gợi ý hướng dẫn sẽ giúp GPT4Tools phát huy hiệu quả cao hơn nữa.
EHOMEAI.VN CUNG CẤP TÀI KHOẢN ỨNG DỤNG TRÍ TUỆ NHÂN TẠO
👉 MUA TÀI KHOẢN CLAUDE AI 👉https://ehomeai.vn/2023/09/30/mua-tai-khoan-claude-ai/
💥Sau khi chuyển khoản Bạn đăng nhập vào:
👉 Nhóm Hỗ trợ Kích hoạt tài khoản sau khi ĐÃ THANH TOÁN 👉 https://zalo.me/g/vttemw127
👉 Nhóm ứng dụng OPEN AI & ChatGPT trong Công việc & Kinh doanh 👉 https://zalo.me/g/tmbsma080
👉 Nhóm ứng dụng OPEN AI & ChatGPT trong Giáo dục 👉https://zalo.me/g/izsmdw110
Tag:ChatGPT ehomeai, GPT-4, GPT4Tools