OpenAI tích hợp chức năng Images in ChatGPT, cho phép người dùng tạo ảnh trực tiếp trong chatbot thông qua sức mạnh của mô hình GPT-4o.
Ngày 26/3, OpenAI cho biết bản phát hành ban đầu của Images in ChatGPT chỉ yếu tập trung vào tạo hình ảnh và người dùng gói đăng ký Plus, Pro, Team hay bản miễn phí đều có thể sử dụng. Trước đó, ChatGPT cho tạo ảnh nhưng thông qua mô hình Dall-E bị giới hạn tính năng và chỉ cho phép tạo ba ảnh miễn phí mỗi ngày.
Trên mạng xã hội, nhiều người đã dùng thử và bày tỏ ngạc nhiên về công cụ mới. "Hình ảnh như thật khiến tôi bất ngờ. Nếu không có ghi chú đây là ảnh AI, có thể tôi sẽ không nhận ra. Chất lượng vượt trội so với những công cụ tạo ảnh tôi trải nghiệm trước đây", tài khoản Facebook Hoàng Vy nói. "Sắp tới, hình ảnh bạn thấy trên mạng không chắc là thật", tài khoản Công Tâm cho hay, trong khi tài khoản Thế Hà bình luận: "Có thể nhà thiết kế đồ họa, chỉnh sửa ảnh sẽ phải tự nâng cấp để sử dụng AI, hoặc mất việc".
Ảnh "Nhà khoa học Isaac Newton cầm lăng kính ở Công viên Quảng trường Washington" do ChatGPT tạo. Ảnh: OpenAI
The Vergedẫn lời người phát ngôn OpenAI Taya Christianson rằng bản miễn phí sẽ giới hạn tính năng, nhưng vẫn vượt trội Dall-E.
"Tính năng mới có bước tiến vượt bậc so với mô hình trước đó", trưởng nhóm nghiên cứu Gabriel Goh cho hay, thêm rằng đội ngũ của ông đã sử dụng nền tảng đa phương thức GPT-4o, một trong những mô hình ngôn ngữ lớn mạnh nhất của OpenAI, cho khả năng tạo ảnh của ChatGPT.
Theo Goh, một cải tiến đáng chú ý về khả năng tạo ảnh của ChatGPT dùng GPT-4o gọi là "Binding" - thuật ngữ chỉ mức độ mà trình tạo hình ảnh AI duy trì mối liên kết chính xác giữa thuộc tính và đối tượng. Chẳng hạn, với lời nhắc về một ngôi sao màu xanh cộng với một hình tam giác màu đỏ, một mô hình có liên kết kém chỉ tạo ngôi sao màu đỏ mà không có hình tam giác. Goh cho biết hầu hết mô hình hình ảnh đều gặp khó khăn về điều này, khi thường trộn lẫn màu sắc và hình dạng nếu nhận nhiều yêu cầu cùng lúc.
"Công cụ tạo hình ảnh mới với Binding có thể liên kết chính xác các thuộc tính cho 15-20 đối tượng mà không gây nhầm lẫn, qua đó thể hiện sự cải thiện đáng kể về độ chính xác và độ tin cậy", Goh nói.
Trình tạo ảnh trên ChatGPT cũng được cải thiện về hiển thị văn bản trong hình ảnh, giúp tạo văn bản mạch lạc hơn và không bị "bóp méo". Theo Goh, đây cũng là thách thức đáng kể, vì nếu các tiêu đề hoặc thành phần văn bản có lỗi, toàn bộ hình ảnh không sử dụng được.
Ngoài ra, công cụ mới sử dụng phương pháp hồi quy tự động, tức tạo ảnh tuần tự từ trái sang phải và từ trên xuống dưới tương tự cách viết văn bản, thay vì kỹ thuật mô hình khuếch tán được hầu hết trình tạo ảnh sử dụng. Khác biệt về mặt kỹ thuật này là yếu tố giúp Images in ChatGPT có khả năng kết xuất và liên kết văn bản trong ảnh tốt hơn.
"Đây là quá trình lặp đi lặp lại, mất nhiều tháng để hoàn thiện", Goh nhấn mạnh. Ông thêm rằng dù chưa hoàn hảo, khả năng tạo ảnh trên ChatGPT "đạt đến điểm mà chất lượng sản phẩm tạo ra có thể sử dụng luôn được".
Trong demo tính năng mới, OpenAI trình bày một số ví dụ cho thấy khả năng tạo ảnh của ChatGPT liền mạch, như sơ đồ khoa học thí nghiệm lăng kính Newton với các thành phần màu được dán nhãn chính xác; truyện tranh nhiều khung với các nhân vật và bong bóng lời thoại nhất quán; hay hình nền trong suốt cho nhãn dán, logo và thực đơn nhà hàng.
Ảnh sơ đồ thí nghiệm lăng kính Newton do ChatGPT tạo. Ảnh: OpenAI
Tuy nhiên, so với các mô hình khác, Images in ChatGPT mất nhiều thời gian tạo ảnh hơn. Theo Jackie Shannon, người phụ trách mảng sản phẩm đa phương thức của ChatGPT, đây là "sự đánh đổi xứng đáng".
"Chúng tôi chắc chắn sẽ cải thiện độ trễ, nhưng khả năng hiện có về tạo ảnh, chất lượng ảnh nó tạo ra thực sự có thể bù đắp cho những giây phút chờ đợi thêm", Shannon viết trên blog.
Về nguy cơ tạo ảnh giả mạo, khỏa thân..., Shannon cho biết Images in ChatGPT có tính năng bảo vệ mạnh, ngăn chặn nội dung deepfake khiêu dâm và từ chối các yêu cầu "mang tính lừa đảo", nhưng không đề cập chi tiết. Hình ảnh được tạo cũng tích hợp siêu dữ liệu chuẩn C2PA để đánh dấu là do AI tạo ra, có thể tra cứu bằng công cụ để phát hiện.
"Tất nhiên, không có hệ thống nào hoàn hảo, nhưng chúng tôi liên tục cải thiện biện pháp bảo vệ của mình", Shannon nói thêm.
Ý kiến (0)