Không có sản phẩm nào trong giỏ hàng của bạn
OpenAI Sora là gì? Giờ đây việc làm phim đã dễ dàng hơn bao giờ hết
11/03/2024
shoptaikhoanvn.com
Nhắc đến AI, không một ai lại có thể quên được cái tên "làm mưa làm gió" suốt quãng thời gian vừa qua chính là ChatGPT, một sản phẩm đến từ OpenAI. Tuy nhiên, thay vì sử dụng câu lệnh để tạo ra hình ảnh thì giờ đây OpenAI đã đem đến Sora có thể làm nên những thước phim đỉnh cao. Vậy OpenAI Sora là gì? Hãy cùng tìm hiểu ở bài viết bên dưới nhé!
OpenAI Sora là gì?
Sora là mô hình AI tạo văn bản thành video của OpenAI. Điều đó có nghĩa là bạn có thể sáng tạo video bằng văn bản và Sora sẽ tạo ra một video khớp với những gì bạn đã viết.
Theo OpenAI, các video do Sora tạo ra có "cảnh quay với độ chi tiết cao, chuyển động máy ảnh phức tạp và nhiều nhân vật với cảm xúc sống động". OpenAI đã đăng tải một loạt video do Sora tạo ra trên Twitter, bao gồm một người phụ nữ sành điệu đi bộ trên đường phố Tokyo và đoạn giới thiệu phim được làm từ AI.
OpenAI Sora hoạt động ra sao?
Giống như các mô hình AI tạo văn bản thành hình ảnh như DALL·E 3, StableDiffusion và Midjourney, Sora là một mô hình khuếch đại. Điều đó có nghĩa là Sora bắt đầu với mỗi khung hình của video bao gồm nhiễu tĩnh và sử dụng công nghệ học máy để chuyển đổi dần dần hình ảnh thành nội dung giống với mô tả trong văn bản. Video Sora có thể dài tới 60 giây.
Một lĩnh vực đổi mới của Sora là có thể xem xét nhiều khung hình video cùng một lúc, giải quyết vấn đề giữ các đối tượng nhất quán khi chúng di chuyển vào và ra khỏi tầm nhìn.
Khi kết hợp hai loại mô hình này, Jack Qiao lưu ý rằng "các mô hình khuếch đại rất tốt trong việc tạo ra kết cấu ở mức độ thấp nhưng lại kém ở thành phần tổng thể, trong khi sự biến lại có vấn đề ngược lại." Nghĩa là, bạn muốn một mô hình biến đổi giống GPT xác định bố cục cấp cao của các khung hình video và mô hình khuếch đại để tạo ra các chi tiết.
Trong một bài viết kỹ thuật về việc triển khai Sora, OpenAI cung cấp mô tả cấp cao về cách hoạt động của sự kết hợp này. Trong các mô hình khuếch đại, hình ảnh được chia thành các “mảng” hình chữ nhật nhỏ hơn. Đối với video, các bản vá này có dạng ba chiều vì chúng tồn tại theo thời gian.
Các bản vá có thể được coi là tương đương với "mã kí tự" trong các mô hình ngôn ngữ lớn: thay vì là một thành phần của câu, chúng là thành phần của một tập hợp hình ảnh. Phần biến áp của mô hình tổ chức các bản vá và phần khuếch tán của mô hình tạo ra nội dung cho từng bản vá.
Một điểm khác biệt của kiến trúc kết hợp này là để làm cho việc tạo video trở nên khả thi về mặt tính toán, quá trình tạo các bản vá sử dụng bước giảm kích thước để việc tính toán không cần phải diễn ra trên từng pixel cho mỗi khung hình.
Để nắm bắt một cách trung thực nội dung văn bản của người dùng, Sora sử dụng kỹ thuật ghi chú lại cũng có sẵn trong DALL·E 3. Điều này có nghĩa là trước khi tạo bất kỳ video nào, GPT được sử dụng để viết lại văn bản của người dùng để lấy được nhiều chi tiết hơn. Đó là một hình thức kỹ thuật tự động và nhanh chóng.
Sora cũng có thể gặp vấn đề với những chi tiết không gian từ một số câu lệnh nhất định. Họ đưa ra ví dụ về việc mô hình nhầm lẫn giữa trái và phải hoặc gặp khó khăn với quỹ đạo camera chính xác.
OpenAI, công ty đang vướng phải nhiều vụ kiện bản quyền từ các nhà văn và tờ New York Times, cho biết họ sẽ phối hợp với các nhà hoạch định chính sách, nhà giáo dục và nghệ sĩ để nắm bắt những mối quan tâm chung.