ByteDance, hãng công nghệ đứng sau mạng xã hội TikTok, vừa giới thiệu một mô hình trí tuệ nhân tạo (AI) mới mang tên gọi OmniHuman-1, với khả năng tạo ra những đoạn video sinh động giống như thật.
ByteDance cho biết OmniHuman-1 dựa trên công nghệ deepfake, cho phép tạo ra những video với các chuyển động hết sức mượt mà và rất khó để nhận ra đó là sản phẩm của AI. ByteDance tự tin tuyên bố công cụ AI của mình có thể tạo ra sản phẩm với chất lượng vượt trội so với các công cụ AI tạo video khác hiện có.
Theo các nhà nghiên cứu của ByteDance, OmniHuman-1 chỉ cần một hình ảnh và âm thanh duy nhất để làm mẫu, như giọng nói hoặc giọng hát của một người bất kỳ. Dựa vào những dữ liệu này, công cụ AI có thể tạo ra những đoạn video với độ dài tùy ý, với giọng nói hoặc giọng hát giống hệt âm thanh mẫu.
OmniHuman-1 cũng có thể biên tập và chỉnh sửa các đoạn video có sẵn để thay đổi nội dung của video gốc.
Ngoài ra, OmniHuman-1 còn cho phép người dùng tạo ra các video mới với nhiều phong cách hình ảnh và âm thanh, chẳng hạn video hoạt hình hoặc phong cách điện ảnh hoặc video giống người thật.
Người dùng chỉ việc đưa ra các yêu cầu về tỷ lệ khung hình, tỷ lệ cơ thể (chân dung, nửa người, toàn thân hoặc tất cả trong một), công cụ AI này có thể tạo ra video với tính chân thực cao nhất, bao gồm các chuyển động, ánh sáng, chi tiết xung quanh…
ByteDance vẫn chưa chính thức phát hành OmniHuman-1 ra công chúng, nhưng công ty đã chia sẻ những đoạn video mẫu được tạo ra bởi công cụ này.
Một đoạn video dài 23 giây được tạo ra từ hình ảnh của Albert Einstein, trong đó nhà khoa học nổi tiếng này đã có một buổi nói chuyện, với các chuyển động trên gương mặt và môi mấp máy giống hệt như thật.
Nhiều đoạn video ngắn khác do OmniHuman-1 tạo ra cho thấy những người đứng thuyết trình với các cử chỉ và biểu cảm gương mặt giống như người thật.
Những video mẫu minh họa về khả năng của OmniHuman-1 đã khiến cộng đồng mạng và giới công nghệ kinh ngạc. Nhiều người thừa nhận đây là video giả mạo giống thật nhất mà họ từng biết đến.
Các nhà nghiên cứu của ByteDance cho biết đã xây dựng mô hình AI với khả năng trộn dữ liệu từ hình ảnh, video và âm thanh để tạo ra những video chân thực, với tỷ lệ gương mặt, cơ thể đến các biểu cảm trên khuôn mặt, hành động… giống người nhất có thể.
Nhóm nghiên cứu cho biết các đoạn video được AI tạo ra có gương mặt, chuyển động đầu, cử chỉ tự nhiên… phù hợp với âm thanh và khung cảnh xung quanh, giúp tăng tính “thật” trong các đoạn video.
ByteDance vẫn chưa tiết lộ thời điểm cung cấp OmniHuman-1 đến người dùng.