AI mới của Google có thể tạo video ngắn từ một bức ảnh duy nhất

Thứ 3, 23/08/2022 | 14:08:13 [GMT +7] A A

Các nhà nghiên cứu vẫn không ngừng tìm kiếm những phương thức mới nhằm tận dụng triệt để sức mạnh của trí tuệ nhân tạo (AI) và học máy (ML) trong bối cảnh công nghệ ngày một phát triển hơn. Hồi đầu tuần này, các nhà khoa học tại Google đã công bố Transframer, một framework mới với khả năng tạo ra các video ngắn dựa trên một bức ảnh duy nhất được đưa vào hệ thống. Họ kỳ vọng một ngày nào đó, công nghệ mới này có thể hỗ trợ cho các giải pháp dựng phim truyền thống, cho phép các nhà phát triển tạo nên những môi trường ảo dựa trên ML.

Tên gọi của framework mới lấy ý tưởng từ một mô hình AI khác gọi là Transfromer. Được giới thiệu lần đầu vào năm 2017, Transformer là một kiến trúc mạng thần kinh hoàn toàn mới với khả năng tạo ra văn bản bằng cách lập mô hình và so sánh các từ khác nhau trong cùng một câu. Mô hình này về sau được tích hợp vào các framework học sâu như TensorFlow và PyTorch.

Giống như Transformer sử dụng ngôn ngữ để dự đoán nội dung xuất ra, Transframer sử dụng những hình ảnh ngữ cảnh với các đặc tính tương tự nhau, kết hợp với chú thích, để tạo nên các video ngắn. Những video này di chuyển xung quanh hình ảnh đưa vào và tuân thủ chính xác quy luật phối cảnh mặc cho ảnh gốc không đi kèm bất kỳ dữ liệu hình học nào.

Công nghệ mới, được trình diễn bằng nền tảng AI DeepMind của Google, hoạt động dựa trên hành vi phân tích một hình ảnh ngữ cảnh đơn nhất, nhằm thu thập những yếu tố quan trọng của dữ liệu hình ảnh và tạo ra các hình ảnh phụ thêm. Trong quá trình phân tích, hệ thống sẽ xác định khung hình, từ đó giúp nó dự đoán được không gian xung quanh của bức ảnh.

Các hình ảnh ngữ cảnh sau đó sẽ được dùng để dự đoán hình dáng các vật thể trong ảnh dưới các góc nhìn khác nhau. Quá trình dự đoán này được dựa trên dữ liệu, chú thích, và bất kỳ thông tin nào khác có được từ các khung hình ngữ cảnh.

Framework mới đánh dấu một bước tiến lớn trong công nghệ video, khi mang lại khả năng tạo ra những video tương đối chính xác mà chỉ cần một lượng dữ liệu rất hạn chế. Transframer cũng cho kết quả cực kỳ hứa hẹn khi thực hiện các tác vụ khác liên quan đến video và benchmarks, như phân vùng ảnh, phân loại ảnh, và dự đoán luồng quang học.

Tiềm năng của AI này đối với các ngành công nghiệp về video, như phát triển game, là rất lớn. Các môi trường phát triển game hiện tại đều dựa vào các kỹ thuật dựng lõi như shading, texture mapping, depth of field, và ray tracing. Những công nghệ như Transframer có thể mang lại cho các nhà phát triển một hướng phát triển hoàn toàn mới bằng cách sử dụng AI và ML để xây dựng môi trường, đồng thời giúp giảm thời gian, tài nguyên, và nỗ lực cần thiết để tạo ra chúng.

Theo Vnreview