Jakarta, Beritainspiratif.com - Ketika anda mendapatkan telepon dari orang yang tidak Anda kenal atau tidak pernah anda lihat sebelumnya, dapatkah anda membayangkan wajah seseorang tersebut berdasarkan suaranya yang kita dengar ?
Sekilas mungkin anda dapat membayangkan wajahnya dan mengira-ngira bagaimana orang yang diajak bicara tersebut. Namun, bagaimana jika yang melakukan hal ini adalah perangkat komputer? Sebuah Kecerdasan buatan atau artificial intelligence (AI) sekarang dapat melakukan itu. Benda yang diberi nama Speech2Face ini dapat menghasilkan gambar digital dari wajah seseorang hanya menggunakan klip audio singkat untuk referensi.
AI tersebut merupakan jaringan saraf atau lebih tepatnya komputer yang "berpikir" dengan cara yang mirip dengan otak manusia. Kecerdasan buatan ini dilatih oleh para ilmuwan pada jutaan video pendidikan dari internet yang menunjukkan lebih dari 100.000 orang berbicara.
Dari dataset ini, Speech2Face belajar hubungan antara isyarat vokal dan fitur fisik tertentu dalam wajah manusia, tulis para peneliti dalam sebuah studi baru.
AI kemudian menggunakan klip audio untuk memodelkan wajah fotorealistik yang cocok dengan suara. Hasilnya, wajah yang digambar hanya dari suara itu cukup mendekati yang sebenarnya. Temuan ini kemudian dipublikasikan secara online melalui jurnal arXiv tapi belum mendapatkan tinjauan oleh rekan sejawat atau peer review.
AI tersebut mengenali tanda-tanda tertentu dalam pidato yang menunjuk pada jenis kelamin, usia dan etnis, fitur yang dimiliki oleh banyak orang, penulis penelitian melaporkan.
"Dengan demikian, model tersebut hanya akan menghasilkan wajah yang tampak rata-rata," tulis para ilmuwan dikutip dari Live Science, Selasa (11/06/1019) dan dilansir Kompas.com.
"Itu tidak akan menghasilkan gambar individu tertentu," sambung mereka. AI telah menunjukkan bahwa ia dapat menghasilkan wajah manusia yang sangat akurat. Wajah-wajah yang dihasilkan oleh Speech2Face semuanya menghadap ke depan dan dengan ekspresi netral. Meski tidak persis cocok dengan orang-orang yang memiliki suara tersebut, tetapi gambar itu biasanya menangkap rentang usia yang benar, etnis dan jenis kelamin individu, menurut penelitian.
Namun, interpretasi algoritma itu jauh dari sempurna. Bergerak dan Membuka Mulut Speech2Face menunjukkan "kinerja campuran" ketika dihadapkan dengan variasi bahasa. Misalnya, ketika AI mendengarkan klip audio seorang pria Asia yang berbicara bahasa Cina, program tersebut menghasilkan gambar wajah orang Asia. Namun, ketika pria yang sama berbicara dalam bahasa Inggris dalam klip audio yang berbeda, AI menghasilkan wajah seorang pria kulit putih, para ilmuwan melaporkan.
Algoritma juga menunjukkan bias gender, mengaitkan suara bernada rendah dengan wajah laki-laki dan suara bernada tinggi dengan wajah perempuan. (Yanis)