Pindrop Security, công ty chuyên phát hiện lừa đảo qua giọng nói, đã phân tích bản ghi âm Tổng thống Mỹ Joe Biden kêu gọi người dân "không tham gia bầu cử sơ bộ của đảng Dân chủ ở New Hampshire" và kết luận đây thực chất là deepfake sử dụng công nghệ của ElevenLabs.
Nguồn tin giấu tên am hiểu tình hình hôm 27/1 tiết lộ ElevenLabs đã tiến hành điều tra và khóa tài khoản người tạo ra deepfake này.
ElevenLabs, startup phát triển phần mềm AI tạo lập giọng nói bằng hơn 20 ngôn ngữ, không bình luận về sự việc nhưng cho biết: "Chúng tôi luôn nỗ lực ngăn chặn việc sử dụng công cụ AI âm thanh sai mục đích, cũng như xử lý nghiêm khắc với mọi trường hợp lạm dụng".
Thông tin được đưa ra chỉ vài ngày sau khi CEO Mati Staniszewski thông báo ElevenLabs đạt trị giá 1,1 tỷ USD.
Bản ghi âm giả giọng ông Biden xuất hiện trước cuộc bầu cử sơ bộ ở New Hampshire tháng trước. Video: NBC News
Trên website công ty, ElevenLabs cho phép người dùng giả giọng của những người nổi tiếng, trong đó có lãnh đạo quốc gia, nếu "thể hiện sự hài hước hoặc châm biếm khiến người nghe hiểu rõ sản phẩm chỉ là bản nhại mang tính giải trí".
Bản ghi âm giả giọng ông Biden đã xuất hiện từ tháng trước, khiến nhiều chuyên gia và quan chức phụ trách bầu cử Mỹ lo ngại. Nó không chỉ cho thấy việc phát tán deepfake âm thanh rất dễ dàng, mà còn thể hiện nguy cơ kẻ xấu dùng công nghệ này để ngăn cử tri đi bỏ phiếu và tác động đến kết quả bầu cử.
Phát ngôn viên Văn phòng Chưởng lý New Hampshire nói thông điệp "dường như là nỗ lực trái phép nhằm làm gián đoạn cuộc bầu cử sơ bộ và gây khó cho cử tri", và cho biết họ đang mở cuộc điều tra.
Người dùng dịch vụ của ElevenLabs phải dùng thẻ tín dụng để trả tiền, nhưng chưa rõ công ty đã chuyển thông tin về người tạo deepfake ông Biden cho giới chức New Hampshire hay chưa.
Các công cụ deepfake trên thị trường xác định được đây là bản ghi âm giả, nhưng không thể phát hiện công nghệ phía sau nó. Công cụ phân tích giọng nói của chính ElevenLabs từng đánh giá bản ghi có 2% khả năng được tạo bởi AI.
Vijay Balasubramaniyan, người sáng lập Pindrop, cho biết các nhà nghiên cứu của họ đã loại bỏ tạp âm nền và chia bản ghi thành 155 đoạn với độ dài 250 mili giây để phân tích sâu hơn. Họ so sánh âm thanh với cơ sở dữ liệu từ hơn 100 hệ thống chuyển văn bản thành giọng nói thường được dùng cho deepfake.
"Nhóm nghiên cứu kết luận bản ghi gần như chắc chắn bắt nguồn từ công nghệ của ElevenLabs", Balasubramaniyan nói.
Trên kênh Discord của ElevenLabs, một người điều hành thừa nhận công cụ phân tích của họ không thể phát hiện sản phẩm của chính mình, trừ khi có bản ghi âm gốc.
Balasubramaniyan cũng đồng tình với quan điểm này. Với deepfake của ông Biden, file ghi âm duy nhất có thể phân tích là bản ghi âm qua điện thoại, trong đó nhiều khối metadata đã bị loại bỏ và rất khó ghi nhận sóng âm cụ thể.
Ý kiến ()