ByteDance ra mắt OmniHuman-1: Tạo video chân thực từ một bức ảnh duy nhất

OmniHuman-1: Tạo video chân thực từ ảnh tĩnh

ByteDance, công ty mẹ của TikTok, vừa công bố OmniHuman-1 – một mô hình AI có khả năng biến một bức ảnh thành video hoạt hình chân thực. Công ty đã giới thiệu nghiên cứu về công nghệ này thông qua một bài báo khoa học và một loạt video demo.

Mặc dù đã có nhiều công cụ AI tạo video, nhưng hầu hết các deepfake hiện nay vẫn có những điểm thiếu tự nhiên dễ bị phát hiện. Tuy nhiên, OmniHuman-1 được đánh giá là vượt trội hơn nhờ vào khả năng tái tạo cử động và biểu cảm sát thực tế hơn.

OmniHuman-1 có gì đặc biệt?

  • Công nghệ này có thể tạo chuyển động và lời nói từ một ảnh tĩnh và một đoạn âm thanh.
  • Hỗ trợ mọi tỷ lệ ảnh, bao gồm ảnh chân dung, nửa thân hoặc toàn thân.
  • Được huấn luyện với 19.000 giờ video, giúp cải thiện đáng kể chất lượng so với các mô hình trước đây.
  • OmniHuman-1 tích hợp nhiều nguồn dữ liệu đầu vào, bao gồm: Hình ảnh, âm thanh, tư thế cơ thể, mô tả văn bản

Nhờ đó, AI có thể tạo ra video với cử động miệng, biểu cảm khuôn mặt và cử chỉ cơ thể chính xác hơn so với các công cụ trước đây.

Demo và ứng dụng của OmniHuman-1

Nhóm nghiên cứu của ByteDance đã chia sẻ nhiều video mẫu được tạo bằng OmniHuman-1, bao gồm:

  • Nhân vật hoạt hình
  • Các diễn giả tại TED Talks
  • Albert Einstein giảng bài trên bảng đen trong một video trắng đen

Các đoạn video này có chất lượng ấn tượng, với chuyển động miệng và cơ thể tự nhiên hơn đáng kể so với những mô hình AI trước đây.

Tương lai của OmniHuman-1

Hiện tại, OmniHuman-1 vẫn đang trong giai đoạn nghiên cứu và chưa có mốc thời gian phát hành chính thức. Nếu được ra mắt, công cụ này sẽ cạnh tranh với Sora của OpenAI, Runway, Pika và các nền tảng tạo video AI khác.

Sự xuất hiện của OmniHuman-1 cũng đánh dấu sự vươn lên của Trung Quốc trong cuộc đua AI toàn cầu, khi các công nghệ như Deepseek cũng đang thu hút sự chú ý. Tuy nhiên, vấn đề đạo đức và tính minh bạch của video AI vẫn là một thách thức lớn, vì chúng có thể bị lợi dụng để tạo nội dung giả mạo và lan truyền thông tin sai lệch.