Thứ Năm, 27/03/2025 11:48 (GMT +7)

Vì sao CAPTCHA ngày càng khó

Thứ 3, 05/12/2023 | 11:22:58 [GMT +7] A A

Thay vì nhập ký tự đơn giản, người dùng phải trải qua nhiều câu hỏi phức tạp như xoay hướng, chọn ảnh, đếm số xúc xắc... chỉ để xác nhận "Tôi không phải robot".

Nhận diện chuỗi ký tự lộn xộn là một trong những dạng câu hỏi cơ bản của CAPTCHA. Ảnh: Washington Post.

Người dùng Internet không còn xa lạ với CAPTCHA - hệ thống nhằm xác minh các thao tác như đăng nhập website, mua vé xem concert được thực hiện bởi con người. Giải pháp này giúp ngăn chặn kẻ xấu dùng bot máy tính để phá hoại hay đánh cắp thông tin.

Các câu hỏi CAPTCHA ban đầu khá đơn giản như nhấp chuột vào ô vuông hay nhập chuỗi ký tự biến dạng. Tuy nhiên, một số website đang áp dụng những cách xác thực CAPTCHA phức tạp hơn, chẳng hạn như như xoay hướng động vật, chọn ảnh chứa vật thể, đếm số xúc xắc...

Sau nhiều năm cải tiến, CAPTCHA bị nhận xét quá phức tạp với con người. Trên thực tế, sự phát triển của trí tuệ nhân tạo (AI) là lý do khiến hệ thống ngày càng khó.

Lý do CAPTCHA phức tạp

Theo Washington Post, AI đã giải thành công nhiều loại câu hỏi CAPTCHA khác nhau. Kể cả ChatGPT cũng có thể viết lại ký tự CAPTCHA bị bóp méo, thậm chí "thuê" con người giải giúp các câu hỏi.

Là hệ thống giúp phân biệt hành động của con người với bot, tuy nhiên CAPTCHA lại bị chính phần mềm máy tính vượt mặt. Đó là lúc những công ty cần tăng độ khó cho câu hỏi.

Một số dạng câu hỏi CAPTCHA bị nhận xét quá khó. Ảnh: Reddit.

Jeff Yan, giáo sư về khoa học máy tính tại Đại học Strathclyde (Scotland), cho rằng mọi câu hỏi CAPTCHA được thiết kế nhằm cân bằng 3 yếu tố: bảo mật, khả năng sử dụng và độ chính xác. Đa số người dùng quan tâm đến khả năng sử dụng, nghĩa là độ khó không cao, có thể giải trong thời gian ngắn.

Tuy nhiên, câu hỏi dễ với con người thì cũng dễ với bot. Đó là lúc 2 yếu tố còn lại được cân nhắc (độ bảo mật và chính xác). Để xây dựng hệ thống bảo mật cao, câu hỏi CAPTCHA cần tăng độ khó, khiến bot không thể trả lời nhanh.

"3 yếu tố trên đều có những khó khăn nhất định. AI khiến chúng trở nên phức tạp hơn", Yan cho biết.

AI giải CAPTCHA giỏi hơn con người

Lựa chọn yếu tố bảo mật đồng nghĩa câu hỏi CAPTCHA phải giảm khả năng sử dụng tiện lợi. Từ khi ra đời tại Đại học Carnegie Mellon vào đầu thập niên 2000, hệ thống này liên tục phát triển để bắt kịp sự tiến bộ của thuật toán máy tính.

Hình thức ban đầu của CAPTCHA là nhập chuỗi văn bản lộn xộn do máy tính thời điểm ấy không thể nhận diện ký tự. Năm 2009, Google mua lại reCAPTCHA - công ty do những nhà nghiên cứu ban đầu của CAPTCHA sáng lập - nhằm hỗ trợ "số hóa" kho sách Google Books thông qua nhập CAPTCHA.

Khi thuật toán nhận diện văn bản trên máy tính phát triển, các nhà phát triển tìm cách cải tiến CAPTCHA với những câu hỏi nhận diện hình ảnh. Đến lúc máy tính nhận diện hình ảnh giỏi hơn, CAPTCHA lại bổ sung cách sang nhận diện âm thanh, xoay hướng động vật...

Trong bài nghiên cứu được công bố hồi tháng 8 bởi các nhà khoa học từ UC Irvine và Microsoft, hầu hết người tham gia khảo sát (trong số hơn 1.400 người) mất 15-26 giây để giải câu hỏi CAPTCHA dạng lưới ảnh, với độ chính xác 81%.

Trong khi đó, một thuật toán được thử nghiệm vào tháng 3/2020 có thể giải các bài toán tương tự với thời gian trung bình 19,9 giây, độ chính xác 83%. Điều đó cho thấy máy móc đã giải một số câu hỏi CAPTCHA giỏi hơn con người.

Mô hình ngôn ngữ GPT trên Microsoft Bing có thể nhận diện ký tự trong chuỗi CAPTCHA. Ảnh: Sayash Kapoor/X.

Trong giai đoạn thử nghiệm mô hình ngôn ngữ GPT-4 của OpenAI, công cụ này có thể giải CAPTCHA bằng cách liên hệ và thuê người thật trên website lao động TaskRabbit. Nhưng bây giờ, OpenAI cho biết GPT-4 có thể giải các câu hỏi tương tự mà không cần sự trợ giúp của con người.

Điều đó khiến CAPTCHA cần phát triển đủ nhanh. Bên cạnh các câu hỏi cơ bản, hệ thống CAPTCHA phổ biến nhất hiện nay là reCAPTCHA v3 của Google còn theo dõi hoạt động của người dùng trên những trang web, sau đó so sánh với "sự tương tác hữu cơ của con người" để xác nhận đối tượng không phải bot.

"Một người dùng thực thường truy cập trang chủ, nhấn nút đăng nhập, gõ thông tin xác thực, sau đó thanh toán đơn hàng. Trong khi đó, kẻ tấn công, thông qua thuê người hoặc viết bot, sẽ nhập nhiều email và mật khẩu khác nhau", Jess Leroy, Giám đốc cấp cao về Quản lý Sản phẩm của Google Cloud (bao gồm reCAPTCHA), cho biết.

Nếu dữ liệu giám sát được thu thập đầy đủ, người dùng chỉ cần nhấn vào ô "Tôi không phải máy tính" là xong. Ngược lại, họ sẽ phải giải những câu hỏi thông thường.

Công nghệ xác thực con người mà không cần nhập CAPTCHA. Ảnh: Cloudflare.

Chưa có giải pháp hiệu quả

Theo khảo sát của UC Irvine, người lớn tuổi và người không nói tiếng Anh bản xứ thường mất nhiều thời gian giải CAPTCHA. Nếu không thể trả lời chúng, họ có thể bỏ cuộc và rời trang web.

Trước những thách thức về xây dựng câu hỏi, Leroy cho rằng giải pháp giám sát hoạt động sẽ ngày càng phổ biến. Tuy nhiên, việc thiết kế bài toán CAPTCHA vẫn là điều khó khăn trong tương lai gần.

Dù các câu hỏi CAPTCHA ngày càng phức tạp, nguyên lý hoạt động của chúng không thay đổi nhiều từ năm 2003.

"Hầu hết câu hỏi CAPTCHA vẫn sử dụng mô hình cũ. Sau 20 năm, những nguyên tắc hầu như vẫn giữ nguyên. Chúng được xây dựng xuay quanh việc xác định thứ gì đó - văn bản, hình ảnh, hướng của động vật", Yan cho biết.

Theo chuyên gia của Đại học Strathclyde, nếu việc giám sát hoạt động không hoàn toàn hiệu quả, đã đến lúc phát triển giải pháp mới. Dù vẫn có nhiều cách phân biệt con người với máy tính, sự phát triển của AI sẽ khiến chúng ngày càng phức tạp.

Theo znews.vn

Đọc bài gốc tại đây

Ý kiến ()

0 / 500 ký tự

Hãy đăng nhập hoặc tạo tài khoản để bình luận

Guest