Gelombang Foto & Audiovisual Sintetik

PADA awal tahun 2023 ini, di Pertunjukan Elektronik Pengguna di Las Vegas, firma Korea Selatan yang bernama DeepBrain telah mempamerkan sistem janaan kecerdasan buatan (generative artificial intelligence atau AI) yang membolehkan seseorang itu bercakap-cakap dengan orang yang sudah mati. Perkhidmatan yang dipanggil “re;memory” ini akan memproses dan mensintesis data-data gambar, foto, rakaman suara, video dan footage filem waktu hidup seseorang, dan setelah kematiannya akan mampu menjana video sintetik realiti-maya (virtual-reality) orang tersebut.

DeepBrain menawarkan perkhidmatan untuk orang yang hidup bercakap-cakap dengan orang yang sudah mati, seolah-olah panggilan video antara dua orang yang masih hidup. Realiti-maya tersebut boleh menjawab soalan dan berkongsi kenangan-kenangan semasa hidup. Suara, air muka dan ekspresi wajah yang dijana dalam panggilan video itu memang mirip dengan si mati.

Kos untuk firma tersebut menjana satu avatar adalah sekitar RM 50,000 hingga RM 100,000; sementara proses pembuatannya memakan masa tiga minggu. Yuran sekitar RM 5,000 dikenakan untuk satu sesi perbualan dengan realiti-maya yang dilangsungkan di studio syarikat tersebut. Perkhidmatannya telah dilancarkan di Asia, Amerika Syarikat dan Britain.

Teknologi AI yang lain oleh firma Storyfile pula memungkinkan versi digital seorang nenek yang mati pada umur 87 tahun di Nottingham, England, untuk menjawab pertanyaan dari orang yang berkabung pada waktu pengebumiannya sendiri. Projek ini dimulakan dengan mendiang Marina Smith, ibu kepada Ketua Pegawai Eksekutif syarikat StoryFile, Dr Stephen Smith.

Teknologi ini mencipta klon digital pelanggan dengan menggunakan hampir 20 kamera yang diselaraskan untuk merekodkan bagaimana pelanggan tersebut menjawab beberapa soalan sewaktu masih hidup. Yuran untuk memuatnaik data-data video seseorang menjawab soalan-soalan tersebut adalah kurang daripada RM 220.

Sementara ramai yang sedang membicarakan tentang ChatGPT, terdapat para pengkaji yang mengingatkan tentang cabaran sistem AI yang baharu yang menjana visual sintetik berasaskan fotografi dan karya seni.

Menurut Fred Ritchin, Dekan Emeritus di International Center of Photography New York, sekiranya teknologi canggih ini tidak diberikan perhatian, dunia mungkin akan tenggelam dalam gelombang gambar, audio-visual dan video sintetik yang menyatupadukan jutaan dataset. Ancaman foto sintetik semakin menakutkan para penyelidik dan penulis, bahkan seperti contoh di atas mungkin melanggar batas kewajaran.

Sama seperti buku dikategorikan sebagai “fiksyen” atau “bukan-fiksyen,” mungkin gambar-gambar yang nampak betul dan realistik perlu diberi label, sama ada “gambar sintetik” (synthograph) ataupun “gambar bukan sintetik” (photograph). Ini kerana kalau tidak ada label dan kriteria seperti itu, amat sukar untuk membezakan antara keduanya.

Asalnya gambar ialah satu rakaman atau rekod visual yang diambil pada masa tertentu. Tetapi kemudian perisian yang mampu mengubahsuai gambar seperti Photoshop (mulai 1987) telah mengubah peranan gambar menjadi medium yang boleh diubahsuai pada bila-bila masa, selaras dengan kehendak pengguna komputer.

AI juga telah memperhebat imej janaan komputer (computer generated imagery – CGI). Para pelakon filem boleh dijadikan berpuluh-puluh tahun lebih muda daripada usia sebenar. Contohnya ialah Harrison Ford dalam filem Indiana Jones and the Dial of Destiny (2023); dan Samuel Jackson dalam Captain Marvel (2019). Meskipun filemnya beresolusi tinggi, kulit wajah, pipi dan cara mereka bergerak adalah mirip waktu mereka berumur 20-25 tahun lebih muda.

Dahulu gambar fotograf adalah untuk merakamkan kenangan-kenangan yang indah macam kejadian sebenar; tetapi sekarang, sudah ada penapis “face unblur” di mana muka yang kusam, boleh dijadikan jelas seolah-olah dengan solekan. Suasana dalam gambar yang kelam pun dapat dihasilkan semula supaya menjadi lebih terang.

Dalam beberapa minggu kebelakangan, banyak perbincangan antarabangsa tentang aplikasi TikTok menggunakan penapis kecantikan baru yang dipanggil Bold Glamour yang berupaya merobah penampilan seseorang menjadi supermodel dengan menggunakan teknologi yang amat mudah.

Para pengkaji menyatakan, sebelum ini untuk mengubahsuai foto dan audio-visual perlu kepada kemahiran yang tinggi, dan perlukan masa selama beberapa bulan; tetapi sekarang melalui perisian janaan AI, orang awam pun sudah mampu menghasilkannya sambil berehat di bilik tidur.

Sekiranya teknologi ini jatuh ke tangan orang yang berniat jahat, maka tersebarlah disinformasi iaitu gambar foto dan video palsu yang dibuat sengaja untuk menipu orang lain.

Kita sedang mengalami revolusi teknologi visual. Sistem seperti OpenAI, Stable Diffusion, dan Midjourney membolehkan pengguna untuk secara percuma menggunakan prompt atau arahan teks untuk menghasilkan gambar dalam masa beberapa saat sahaja yang menyerupai fotografi orang yang tidak pernah wujud, tempat yang tidak pernah ada, atau acara (events) yang tidak pernah berlangsung.

Kalau sebelum ini kita mencari gambar “yang sebenar” dalam talian, kini kita sudah boleh menjana sendiri gambar yang serupa mengikut spesifikasi dan perincian kita. Kini, tanpa menggunakan kamera, sesiapa pun boleh menjana (mengarahkan) imej-imej yang hampir sama dengan mutu karya-karya jurugambar terkenal.

Inovasi ini membolehkan penerokaan bidang-bidang yang sebelumnya tidak dapat dicapai melalui gambar kamera foto. Pertamanya, AI dapat menghasilkan gambar-gambar seperti fotograf orang atau tempat yang macam-betul ada (photorealistic) yang berguna untuk memberikan bayangan masa depan. Ia mampu menggambarkan dampak yang akan terjadi akibat perubahan iklim dan pemanasan sejagat terhadap manusia, alam sekitar dan ekosistem, berdasarkan ramalan para saintis.

Gambar-gambar seperti itu memperlihatkan kemungkinan akibat daripada kejadian masa depan dan bukan gambar peristiwa selepas berlaku kerosakan. Ia dapat mendorong tindak balas yang lebih proaktif daripada orang ramai.

Namun, seperti video deepfake (pemalsuan wajah) yang menunjukkan peristiwa palsu, menurut para pengkaji, audio-visual sintetik memiliki potensi untuk menggoncang dan merosakkan masyarakat.

Bayangkan apabila jutaan gambar sintetik dan foto buatan seperti itu tersebar luas, ia akan merosakkan kepercayaan. Kalau asalnya foto adalah saksi realiti yang sebenar, sekarang tidak lagi. Kejadian sebenar yang berlaku mungkin tak akan dipedulikan sebab orang ingat ia gambar sintetik; album keluarga mungkin dilihat dengan rasa curiga; dan sejarah mungkin menjadi lebih samar. Dalam menghadapi gelombang audio-visual AI yang akan melanda, kita perlu berusaha segera untuk membatasi keburukannya. Ia memerlukan usaha bersama swasta dan kerajaan, serta penyelidik, pendidik, dan pakar teknologi untuk memahami kesan besar perubahan akibat sintograf dan video sintetik ini. Jika tidak, 10 tahun dari sekarang, mungkin tiada lagi gambar foto yang boleh dipercayai!

Author: Dr. Mohd Sani bin Badron

ISO

PENAFIAN

INFORMASI

KOD QR

Gelombang Foto & Audiovisual Sintetik

Author: Dr. Mohd Sani bin Badron

Artikel Lain