Kembali ke Blog

Di Balik Layar: Laboratorium ML kami

Maria Zhukova

Kepala bagian fotokopi di Brask

30 April 2024

,

16

min baca

,

#Berita

Apa yang ada di dalamnya

Dalam artikel terbaru kami, kami menyelami dunia yang menarik dari teknologi sinkronisasi bibirRask AI, dengan panduan dari Kepala Pembelajaran Mesin perusahaan, Dima Vypirailenko. Kami membawa Anda ke balik layar di Brask ML Lab, pusat keunggulan teknologi, di mana kami melihat secara langsung bagaimana alat AI yang inovatif ini membuat gebrakan dalam pembuatan dan distribusi konten. Tim kami terdiri dari para insinyur ML kelas dunia dan Seniman Sintetis VFX yang tidak hanya beradaptasi dengan masa depan; kami menciptakannya.

Bergabunglah bersama kami untuk mengetahui bagaimana teknologi ini mengubah industri kreatif, mengurangi biaya, dan membantu para kreator menjangkau pemirsa di seluruh dunia.

Apa yang dimaksud dengan Teknologi Lip-Sync?

Salah satu tantangan utama dalam pelokalan video adalah gerakan bibir yang tidak wajar. Teknologi sinkronisasi bibir dirancang untuk membantu menyinkronkan gerakan bibir dengan trek audio multibahasa secara efektif.

Seperti yang telah kita pelajari dari artikel terbaru kami, teknik penyelarasan bibir jauh lebih kompleks jika dibandingkan dengan hanya mendapatkan waktu yang tepat - Anda harus mendapatkan gerakan mulut yang tepat. Semua kata yang diucapkan akan berpengaruh pada wajah pembicara, seperti "O" jelas akan menciptakan bentuk mulut yang oval sehingga tidak akan menjadi "M", menambahkan lebih banyak kerumitan pada proses sulih suara.

Memperkenalkan model Lip-sync baru dengan kualitas yang lebih baik!

Tim ML kami telah memutuskan untuk menyempurnakan model lip-sync yang sudah ada. Apa alasan di balik keputusan ini, dan apa yang baru dalam versi ini dibandingkan dengan versi beta?

Dima Vypirailenko

Kepala Pembelajaran Mesin di Rask AI

Meskipun hasil lip-sync kami luar biasa dan telah menarik perhatian media yang cukup besar, termasuk penayangan di TV dan wawancara tentang teknologi kami, ketika kami merilis model lip-sync versi beta, kami menyadari bahwa model ini tidak memenuhi ekspektasi kualitas untuk semua segmen pengguna. Tujuan utama kami adalah menjembatani kesenjangan ini, memastikan bahwa pengguna kami dapat secara efektif melokalkan tidak hanya komponen audio dari konten mereka, tetapi juga komponen video.

Upaya-upaya signifikan telah dilakukan untuk menyempurnakan model ini, termasuk:

Akurasi yang Lebih Baik: Kami menyempurnakan algoritme AI untuk menganalisis dan mencocokkan detail fonetik bahasa lisan dengan lebih baik, sehingga menghasilkan gerakan bibir yang lebih akurat yang disinkronkan secara dekat dengan audio dalam berbagai bahasa.
Kealamian yang Ditingkatkan: Dengan mengintegrasikan data penangkapan gerakan yang lebih canggih dan menyempurnakan teknik pembelajaran mesin, kami telah secara signifikan meningkatkan kealamian gerakan bibir, membuat ucapan karakter tampak lebih lancar dan hidup.
‍PeningkatanKecepatan dan Efisiensi: Kami mengoptimalkan model untuk memproses video lebih cepat tanpa mengorbankan kualitas, memfasilitasi waktu penyelesaian yang lebih cepat untuk proyek yang memerlukan pelokalan skala besar.
Penggabungan Umpan Balik Pengguna: Kami secara aktif mengumpulkan umpan balik dari pengguna versi beta dan menggabungkan wawasan mereka ke dalam proses pengembangan untuk mengatasi masalah tertentu dan meningkatkan kepuasan pengguna secara keseluruhan.

Bagaimana tepatnya model AI kami menyinkronkan gerakan bibir dengan audio yang diterjemahkan?

Dima: "Model AI kami bekerja dengan cara menggabungkan informasi dari audio yang diterjemahkan dengan informasi tentang wajah seseorang dalam bingkai, dan kemudian menggabungkannya ke dalam hasil akhir. Integrasi ini memastikan bahwa gerakan bibir disinkronkan secara akurat dengan ucapan yang diterjemahkan, sehingga memberikan pengalaman menonton yang mulus".

Fitur unik apa yang membuat Premium Lip-Sync ideal untuk konten berkualitas tinggi?

Dima: "Premium Lip-sync secara khusus didesain untuk menangani konten berkualitas tinggi melalui fitur-fiturnya yang unik, seperti kemampuan multispeaker dan dukungan resolusi tinggi. Alat ini dapat memproses video hingga resolusi 2K, memastikan bahwa kualitas visual dipertahankan tanpa kompromi. Selain itu, fitur multispeaker memungkinkan sinkronisasi bibir yang akurat di seluruh speaker yang berbeda dalam video yang sama, sehingga sangat efektif untuk produksi yang kompleks yang melibatkan banyak karakter atau pembicara. Fitur-fitur ini membuat Premium Lipsync menjadi pilihan utama bagi para kreator yang menginginkan konten kelas profesional".

Dan apa yang dimaksud dengan Fitur Multi-Speaker Sinkronisasi Bibir?

Fitur Multi-Speaker Lip-Sync dirancang untuk secara akurat menyinkronkan gerakan bibir dengan audio yang diucapkan dalam video yang menampilkan banyak orang. Teknologi canggih ini mengidentifikasi dan membedakan antara beberapa wajah dalam satu bingkai, memastikan bahwa gerakan bibir setiap individu dianimasikan dengan benar sesuai dengan kata-kata yang diucapkan.

Cara Kerja Sinkronisasi Bibir Multi-Speaker:

Pengenalan Wajah dalam Bingkai: Fitur ini pada awalnya mengenali semua wajah yang ada dalam bingkai video, berapa pun jumlahnya. Fitur ini mampu mengidentifikasi setiap individu, yang sangat penting untuk sinkronisasi bibir yang akurat.
‍Pencocokan Audio: Selama pemutaran video, teknologi ini menyelaraskan trek audio secara khusus dengan orang yang sedang berbicara. Proses pencocokan yang tepat ini memastikan bahwa suara dan gerakan bibir selaras.
Sinkronisasi Gerakan Bibir: Setelah individu yang berbicara diidentifikasi, fitur sinkronisasi bibir akan menggambar ulang gerakan bibir hanya untuk orang yang berbicara. Individu yang tidak berbicara dalam bingkai tidak akan diubah gerakan bibirnya, sehingga mempertahankan kondisi alami mereka sepanjang video. Sinkronisasi ini berlaku secara eksklusif untuk pembicara yang aktif, sehingga membuatnya efektif bahkan jika ada suara di luar layar atau beberapa wajah dalam adegan.
‍MenanganiGambar Statis Bibir: Yang menarik, teknologi ini juga cukup canggih untuk menggambar ulang gerakan bibir pada gambar statis bibir jika muncul dalam bingkai video, yang menunjukkan kemampuannya yang serbaguna.

Fitur Multi-Speaker Lip-Sync ini meningkatkan realisme dan keterlibatan pemirsa dalam adegan dengan banyak pembicara atau pengaturan video yang rumit dengan memastikan bahwa hanya bibir orang yang berbicara yang bergerak sesuai dengan audio. Pendekatan yang ditargetkan ini membantu mempertahankan fokus pada pembicara aktif dan mempertahankan dinamika alami interaksi kelompok dalam video.

Hanya dari satu video, dalam bahasa apa pun, Anda dapat membuat ratusan video yang dipersonalisasi yang menampilkan berbagai penawaran dalam berbagai bahasa. Fleksibilitas ini merevolusi cara pemasar untuk berinteraksi dengan audiens yang beragam dan global, sehingga meningkatkan dampak dan jangkauan konten promosi.

Bagaimana Anda menyeimbangkan antara kualitas dan kecepatan pemrosesan dalam Premium Lip-sync yang baru?

Dima: "Menyeimbangkan kualitas tinggi dengan kecepatan pemrosesan yang cepat dalam Premium Lipsync memang menantang, namun kami telah membuat langkah yang signifikan dalam mengoptimalkan inferensi model kami. Pengoptimalan ini memungkinkan kami untuk menghasilkan kualitas terbaik dengan kecepatan yang layak".

Dima Vypirailenko

Kepala Pembelajaran Mesin di Rask AI

Kami fokus pada pemrosesan hanya informasi yang diperlukan dari video pengguna, yang secara signifikan mempercepat waktu pemrosesan model. Dengan merampingkan data yang perlu dianalisis oleh model kami, kami memastikan efisiensi dan pemeliharaan output berkualitas tinggi, memenuhi permintaan pembuat konten profesional.

Apakah ada ketidaksempurnaan atau kejutan menarik yang Anda temui sewaktu melatih sang model?

Dima Vypirailenko

Kepala Pembelajaran Mesin di Rask AI

Ya, ada beberapa tantangan menarik yang kami hadapi, terutama untuk memastikan tidak hanya bibir, tetapi juga rambut wajah dan gigi terlihat benar. Seolah-olah kita semua mendapatkan gelar sarjana kedokteran gigi pada suatu saat!

Selain itu, bekerja dengan oklusi di sekitar area mulut terbukti cukup sulit. Elemen-elemen ini membutuhkan perhatian yang cermat terhadap detail dan pemodelan yang canggih untuk mencapai representasi yang realistis dan akurat dalam teknologi sinkronisasi bibir kami.

Bagaimana tim ML memastikan privasi dan perlindungan data pengguna saat memproses materi video?

Dima: Tim ML kami menangani privasi dan perlindungan data pengguna dengan sangat serius. Untuk model Lipsync, kami tidak menggunakan data pelanggan untuk pelatihan, sehingga menghilangkan risiko pencurian identitas. Kami hanya mengandalkan data sumber terbuka yang dilengkapi dengan lisensi yang sesuai untuk melatih model kami. Selain itu, model ini beroperasi sebagai contoh terpisah untuk setiap pengguna, memastikan bahwa video akhir dikirimkan hanya kepada pengguna tertentu dan mencegah keterikatan data apa pun.

Pada intinya, kami berkomitmen untuk memberdayakan para kreator, memastikan penggunaan AI yang bertanggung jawab dalam pembuatan konten, dengan fokus pada hak-hak hukum dan transparansi etika. Kami menjamin bahwa video, foto, suara, dan kemiripan Anda tidak akan pernah digunakan tanpa izin yang jelas, memastikan perlindungan data pribadi dan aset kreatif Anda.

Kami bangga menjadi anggota Koalisi untuk Pembuktian dan Keaslian Konten (C2PA) dan Inisiatif Keaslian Konten, yang mencerminkan dedikasi kami terhadap integritas dan keaslian konten di era digital. Selain itu, pendiri dan CEO kami, Maria Chmir, diakui dalam direktori Women in AI Ethics™, yang menyoroti kepemimpinan kami dalam praktik AI yang beretika.

Bagaimana prospek masa depan untuk pengembangan teknologi lip-sync? Apakah ada bidang tertentu yang secara khusus menarik minat Anda?

Dima: Kami percaya bahwa teknologi lip-sync kami dapat berfungsi sebagai fondasi untuk pengembangan lebih lanjut menuju avatar digital. Kami membayangkan masa depan di mana setiap orang dapat membuat dan melokalkan konten tanpa harus mengeluarkan biaya produksi video.

Dalam jangka pendek, dalam dua bulan ke depan, kami berkomitmen untuk meningkatkan performa dan kualitas model kami. Tujuan kami adalah memastikan pengoperasian yang mulus pada video 4K dan meningkatkan fungsionalitas dengan video yang diterjemahkan ke dalam bahasa Asia. Kemajuan ini sangat penting karena kami bertujuan untuk memperluas aksesibilitas dan kegunaan teknologi kami, membuka jalan bagi aplikasi inovatif dalam pembuatan konten digital. Cobalah fungsionalitas lip-sync kami yang telah disempurnakan dan kirimkan umpan balik Anda tentang fitur ini.

PERTANYAAN YANG SERING DIAJUKAN

Harus Dibaca