
GPT-4V ra mắt: Từ việc phát hiện cảm xúc đến gọi đồ ăn – Bạn sẽ không tin nó có thể làm được những gì khác!
Một báo cáo toàn diện gần đây đã làm sáng tỏ khả năng của GPT-4V, cải tiến mới nhất của OpenAI. Thật đáng kinh ngạc, người ta đã tiết lộ rằng LLM (Mô hình học ngôn ngữ) giờ đây có thể tương tác với hình ảnh dễ dàng như bằng lời nhắc bằng văn bản, về cơ bản xóa đi sự khác biệt giữa hai mô hình này.
Trong một thời gian dài, người ta đã dự đoán rằng sự tích hợp như vậy sẽ diễn ra. Tuy nhiên, ít ai ngờ rằng sự kết hợp liền mạch giữa nhận dạng văn bản và hình ảnh này lại có thể đạt được nhanh chóng như vậy, đặc biệt là với LLM.
Dưới đây là những điểm chính
Tính linh hoạt trong đầu vào: Người ta có thể cung cấp cho hệ thống cả văn bản và hình ảnh (hoặc nhiều hình ảnh) cùng một lúc. Điều này cho phép mô hình xử lý thông tin đa phương tiện một cách tự nhiên, giống như cách con người hiểu thế giới xung quanh.
Đầu ra đa dạng: Mặc dù mô hình có thể tạo ra cả văn bản và hình ảnh làm đầu ra nhưng khả năng tạo ra nó hơi kém hơn so với khả năng nhận dạng của nó. Điều này cho thấy GPT-4V vẫn cần cải thiện khả năng tổng hợp thông tin.
Trường vectơ hợp nhất: GPT-4V chuyển đổi tất cả đầu vào thành cùng một trường vectơ được LLM sử dụng. Về cơ bản, nó kế thừa tất cả các khả năng của GPT-4 nhưng với phạm vi phương thức đầu vào được mở rộng. Đây là bước tiến quan trọng giúp mô hình hiểu được nhiều loại thông tin khác nhau.
Học từ lời nhắc: Mô hình có thể học hiệu quả từ các ví dụ được cung cấp trực tiếp trong lời nhắc. Điều này cho phép người dùng điều chỉnh mô hình theo nhu cầu cụ thể của họ.
Nhận dạng đối tượng và mối quan hệ: Nó có khả năng nhận dạng đối tượng, hiểu mối quan hệ qua lại của chúng và dự đoán các sự kiện tiếp theo trong một cảnh. Đây là nền tảng quan trọng cho nhiều ứng dụng thực tế như robot, xe tự lái, v.v.
Phân tích hình ảnh y tế: Nó tự tin nhận biết các tình huống y tế từ hình ảnh và có khả năng phát hiện khuyết tật rất tốt. Điều này mở ra tiềm năng ứng dụng trong chẩn đoán hình ảnh y tế.
Đếm và phác thảo đối tượng: Mô hình có thể đếm các đối tượng, mặc dù miễn cưỡng. Tuy nhiên, nó hoạt động tốt hơn ở chế độ đếm chậm, từng bước. Nó cũng có thể phác thảo các đối tượng và cung cấp tọa độ của chúng.
Chú thích hình ảnh: GPT-4V có thể gắn nhãn các phần của hình ảnh và đưa ra những lời giải thích xuất sắc dựa trên hình ảnh, đưa ra những hướng dẫn sâu sắc. Đây là điểm mạnh đáng kể so với các LLM trước đó.
Phân tích cảnh: Nó có khả năng phân tích ngược cảnh rất tốt, giống như công việc trinh thám. Ví dụ, nó có thể dựa vào manh mối trong hình ảnh để suy luận ra các sự kiện trước đó.
Phân tích tài liệu: Mô hình nhận dạng văn bản, công thức và bảng; dịch trên 20 ngôn ngữ và hiểu cấu trúc tài liệu. Đây là khả năng hữu ích cho nhiều ngành công nghiệp như pháp lý, y tế, tài chính,…
Hiểu biết về con trỏ: Nó hiểu các con trỏ và các chỉ báo khác mà người dùng có thể sử dụng để tham chiếu các mục. Điều này cho phép tương tác tự nhiên hơn giữa người và máy.
Trình tự sự kiện và video: Nó nắm bắt các chuỗi sự kiện, phân tích video và có thể thiết lập các liên kết tạm thời giữa các hình ảnh, đưa ra dự báo. Đây là nền tảng then chốt cho nhiều ứng dụng AI như robot, xe tự hành, giám sát, v.v.
Giải câu đố: GPT-4V có thể giải nhiều câu đố khác nhau, bao gồm các câu đố ghép hình và các thử thách hình dạng theo trình tự. Khả năng giải quyết vấn đề phức tạp này cho thấy sự linh hoạt về mặt nhận thức của mô hình.
Phát hiện cảm xúc: Đặc biệt hấp dẫn (và có phần liên quan) là khả năng phân biệt cảm xúc, đặc biệt là khi kết hợp với phân tích video. Đây có thể là nền tảng cho các ứng dụng AI xã hội như robot hỗ trợ, tư vấn tâm lý, v.v.
Dự đoán tác động đến khán giả: Điều đáng báo động là nó có thể dự đoán mức độ tác động của một hình ảnh đến khán giả, một khả năng tiềm ẩn nhiều rủi ro nếu sử dụng sai mục đích. Các nhà quản lý nên lưu tâm điều này.
Nhiệm vụ trong thế giới thực: Mô hình có thể thực hiện nhiều nhiệm vụ trong thế giới thực như xác định các nút trên máy gia dụng, liên hệ máy móc với các hướng dẫn cơ sở dữ liệu và điều hướng với dữ liệu không đầy đủ. Đây là tiền đề quan trọng để ứng dụng AI trong thế giới thực.
Duyệt và mua hàng trực tuyến: Với dữ liệu hạn chế, nó có thể duyệt internet một cách hiệu quả và thậm chí thay mặt người dùng mua các mặt hàng hoặc đặt đồ ăn. Điều này mở ra tiềm năng cho thương mại điện tử, dịch vụ giao hàng tự động, v.v.
Như vậy, GPT-4V là bước tiến lớn trong lĩnh vực AI, mở ra nhiều cơ hội ứng dụng có tiềm năng thay đổi cuộc sống. Tuy nhiên, các nhà hoạch định chính sách cũng cần cân nhắc cẩn thận các vấn đề về đạo đức, minh bạch và kiểm soát khi triển khai công nghệ mới mẻ này.