Duygu ve davranışlarımızı kestirebilen bilgisayarlar ‘insan sarrafı’ olma yolunda

Boğaziçi Üniversitesi Bilgisayar Mühendisliği Bölümü öğretim üyesi Doç. Dr. Ali Albert Salah ile bilgisayarların insanların sosyal ve duygusal sinyallerini daha iyi analiz etmeleri yönünde yürüttüğü çalışmalar üzerine konuştuk.

Boğaziçi Üniversitesi Bilgisayar Mühendisliği Bölümü öğretim üyesi Doç. Dr. Ali Albert Salah, insan davranışlarının analizleri konusunda teknoloji bazlı çalışmalarıyla tanınan bir bilim insanı.

Bilgisayarların insanların sosyal ve duygusal sinyallerini daha iyi anlayabilmesi yönünde projeler geliştiren Salah’ın çalışmaları çocukların ses tonlarından ve kullandıkları sözcüklerden duygu durumlarının tahmini, yaşlılara egzersiz yaptıran robot uygulaması, yapay öğrenme ile insan sesinin ve yüz ifadelerinin analizi, insan gülüşlerinin gerçek mi sahte mi olduğunun otomatik analiz edilmesi gibi çok çeşitli alanlara uzanıyor.

ChaLearn yarışmasından birincilik geldi

Bu yıl Temmuz ayında Hawaii’de gerçekleştirilen ‘’ChaLearn Workshop on Explainable Computer Vision Multimedia and Job Candidate Screening Coopetition‘’  başlıklı uluslararası çalıştay ve yarışmaya Türkiye’den tek temsilci olarak katılan Boğaziçi-Namık Kemal Üniversitesi ekibi yarışmadan ödülle döndü. Bu proje bir dakikalık kısa videolardan bir kişinin iş görüşmesine çağrılıp çağrılmayacağını kestiren, sonra da nasıl karar verdiğini kullanıcıya açıklayan bir çalışma olarak dikkat çekti. Salah ve çalışma arkadaşları, geçtiğimiz yıl düzenlenen ChaLearn yarışmasında da bir dakikalık videolardan kişinin verdiği kişilik izlenimlerini tahmin eden bir sistem geliştirerek yarışmayı kazanmıştı.

Bilgisayarları daha akıllı hale getirmek için yapay zekâ alanında uzun zamandır çalışmalar yapıldığını ve bu kapsamda yapay zekâ sistemlerinin ve özellikle robotların insanlarla sosyal bir ortamda birlikte çalışabilmesinin amaçlandığını belirten Albert Ali Salah, sosyal robotlar ve benzer sistemlerin insanın duygu durumunu detaylı okuyabilmesinin önemli olduğuna dikkat çekiyor.

Salah şu örneği veriyor:

‘’Robot diyelim ki evin içinde bize yardımcı oluyor. Robotun o anki duygu durumumuzu, sosyal sinyallerimizi, söylediğimiz şeyleri ve bunları hangi tonla söylediğimizi anlıyor olması lazım ki bunlara göre davranışını şekillendirebilsin. Bu kapsamda bizim çalışmalarımızdan biri yaşlılara egzersiz yaptıran bir robot idi. Böyle bir robotun, karşısındaki kişinin yüzündeki acı ifadesini okuyabilmesi, egzersizi gerektiği anda durdurmasını sağlayabilir.

Boğaziçi Üniversitesi’nde Prof. Levent Akın ve doktora öğrencimiz Binnur Görer ile yürüttüğümüz bu çalışmada şimdi yüz ifadesi analizi üzerine çalışıyoruz. Robotun karşısındaki insanın egzersizleri doğru yapıp yapmadığını anlaması için eklemlerin açılarını ve hızlarını kestirmesi yeterli olabilir. Ama sosyal sinyalleri anlayabilmesi, mesela yorgunluk veya bıkkınlık gösteren ifadelere duyarlı olması çok daha zor. Bu ifadeler insandan insana çok büyük farklılıklar gösterebiliyor.

Bu işin birinci ayağı mühendislik; insanlara daha iyi hizmet verecek sistemler yapmak istiyoruz. İkinci ayağı ise bilişsel bilim ve psikoloji gibi düşünebiliriz. Bu alanlarda amacımız insanların davranışını daha iyi anlamak. Geliştirdiğimiz sistemler psikologların uzun davranış kayıtlarını otomatik ve hızlı olarak analiz edebilmesine yarıyor. Ayrıca modelleme belli bir olgunluğa ulaşırsa, beyinde bazı süreçlerin nasıl gerçekleşiyor olabileceğine dair ipuçları ve öngörüler sunabiliyor."

7’den 76 yaşına insanların gülüşleri yapay zekâ ile analiz edildi

Bu çerçevede kimi zaman bilgisayarların yaptıkları analizlerin insanlar tarafından yapılan analizlerden daha detaylı olduğuna dikkat çeken Salah’ın bu çerçevede yürüttüğü çalışmalardan biri de Amsterdam NEMO Bilim Müzesi'nde de sergilenen ve insan gülüşü üzerine yürütülen kapsamlı bir proje oldu.

7 yaşından 76 yaşına kadar farklı insanların verilerinin toplandığı bu çalışmada insanların gülme hareketleri incelendi ve gülüş dinamiklerinin yaşla birlikte nasıl değiştiğinin bilgisayarlar tarafından analizi sağlandı. Ortaya çıkan otomatik sistem kamera görüntüsünden insan yaşını kestirmede insanlardan daha başarılı. Salah bu projeyi şöyle anlatıyor:

‘’Sosyal gülüş, durum gerektirdiği için gülümsemektir. Arkasında bir mutluluk ya da ona benzer bir duygulanım yoktur. Bir de gerçekten içinizden geldiği için güldüğünüz anlar vardır. Bunu ayırt edebilmek için 500’e yakın kişiden veri topladık. Daha sonra bilgisayarla bu verinin analizini yaptık. Bilgisayarın yapabildiği analiz insanlardan daha detaylı olabiliyor. Örneğin dudak kenarlarının hareketine bakıyoruz. Ne kadar yükseliyor, kaç cm yükseliyor? Nasıl bir süre içerisinde yükseliyor? Hangi hızla yükseliyor? Hangi ivmeyle yükseliyor? Bu kadar detaylı bir analizi sıradan bir insan yapamaz. Ancak bunun özel eğitimini alırsanız, yüz ifadelerinin ne kadar gerçekçi olduğunu birbirinden ayırmayı öğrenebilirsiniz. Bu çalışmayı bölümümüz mezunlarından Dr. Hamdi Dibeklioğlu ile yürüttük, kendisi bu öğretim yılında Bilkent Üniversitesi'nde Yard. Doç. olarak çalışmaya başlıyor.’’.

Bilgisayar artık çocukları yüz ve sesten tanımaya başlayacak

Çocuklar için multimedya üzerine devam etmekte olan bir BAP projesi de olan Salah, bu projeye dair şu bilgileri veriyor:

‘’Günümüzde çocuklar interneti, bilgisayar sistemlerini çok kullanıyorlar. Ama bu sistemlerin çoğu, karşısındakinin bir çocuk olduğunu anlayacak ve ona göre davranışını değiştirecek şekilde geliştirilmiş değil. Mesela, belli bir platformun karşısında bir çocuk düşünün, gösterilen bir reklam büyükler için olabilir, şiddet içerebilir, çocuklar için sakıncalı olacak görüntüler içeriyor olabilir. Pek çok sistemin çocuklara göre uyarlanması gerekiyor. Bu çok kolay bir problem değil. Yapmamız gereken bazı temel modüller var. Bunlardan biri, yüz görüntüsünden yaş anlama. Bilgisayarın veya robotun kamerasından baktığı zaman karşısındakinin büyük mü küçük mü olduğunu anlayabiliyor olması lazım. Ya da sesten aynı şeyi anlayabiliyor olması lazım. Bunun dışında duygu tanımı modülü de önemli. Çocukların kullandığı sözcüklerden duygu analizi üzerine bir çalışmayı Bilgi Üniversitesi Psikoloji Bölümü'nden Yrd. Doç. Sibel Halfon'la yürütüyoruz.

Çocukların yüzleri, büyüklerin yüzlerinden biraz daha farklı. Daha tam gelişmemiş olduğu için çocuk yüzünün morfolojisi farklı, bu yüzden yüz ifadeleri de daha farklı oluşuyor. Aynı şekilde sesleri de farklı özelliklere sahip. Bu kapsamda çalışmalarımızdan birini St. Petersburg’dan bir araştırma grubuyla, Rus çocuklar üzerinde gerçekleştirdik. Çocukların seslerinden yaşlarını, cinsiyetlerini ve duygu durumlarını tahmin etme üzerine bir veri tabanı topladık ve yapay öğrenme yaklaşımları geliştirdik. Bu projelerde doktora mezunumuz, şimdi Namık Kemal Üniversitesi'nde görev yapan Yrd. Doç. Heysem Kaya ile çalışmalarımızı sürdürüyoruz.’’

Kullanıcıların girdiği her yeni veri hazine değerinde

Yapay öğrenme sistemlerinin verimli çalışabilmesi için verinin çok önemli olduğunu belirten Salah, günümüzde büyük veriyi ellerinde bulunduran şirketlerin artık kullanıcılarla birlikte hareket ettiğine dikkat çekiyor ve kullanıcıların yapay öğrenme sistemlerini kullandıkça aslında verilerini de bağışladıklarını sözlerine ekliyor:

‘’Büyük verilere sahip şirketler de bu veriyi kullanarak sistemlerini eğitiyorlar. İyi bir yüz tanıma sistemi geliştirebilmek için örneğin Internet film sitelerinden tüm aktör ve aktrislerin yüzlerini bilgisayara kaydediyoruz. Böylece elimizde milyonlarca imge oluyor. Bugün derin yapay sinir ağları sayesinde çok kuvvetli yapay öğrenme sistemlerimiz var, ama asıl sorun bunları besleyecek veriyi sağlamak. Büyük veriye sahip şirketlerin kullanıcılarına sundukları sistemler gittikçe iyileşiyor, bu da daha fazla kullanıcının bu sistemleri tercih ederek şirketlere daha da çok veri sağlamasına sebep oluyor.

Kapitalist sistemin eleştirisini amaçlayan Monopoli oyunundaki gibi, veri zenginleri daha zengin oluyor, veri fakirleri yaşam şansını yitiriyor. Bu şirketler kendi yapay zekâ araştırmalarını paylaşıyorlar. Çünkü ellerindeki veri sayesinde paylaşımcı bir ortamda oluşacak yöntemsel gelişmeler onlara, diğer şirketlere olduğundan çok fayda sağlıyor.

Aslında ‘’Citizen Science’’ denilen kavram, yani bilimsel araştırmalara kamuoyunun veya toplumun daha fazla dahil edilmesi de, biraz böyle döngülere hizmet ediyor. Mesela çevrimiçi bir çeviri servisini kullanıyorsunuz, size yapılan öneriyi beğenmezseniz düzenleyebiliyorsunuz veya değiştirebiliyorsunuz. O düzeltme, çeviri servisini sağlayan şirket için çok kıymetli. Milyonlarca insan her gün bir şeyleri düzeltiyor. Az sayıda yazılımcının yapmasının mümkün olmadığı kadar kıymetli bir veri oluşuyor böylece. Dolayısıyla o sistem çok hızlı bir şekilde gelişiyor. Fark ettiyseniz, yakın zamanda derin öğrenme sayesinde Internet üzerinden dil çevirisinde bariz bir iyileşme oldu. Fakat şimdiye kadar sosyal sistemlerde böyle bir atılım yapılamadı; döngüyü kurabilmek için önce akşam yemeğinde masamıza oturabilecek ve bizimle iki çift laf edebilecek robotların yapılması gerekiyor’’ yorumunu yapıyor.

 

 

Söyleşi: Özgür Duygu Durgun, Fotoğraf: Talat Karataş / Kurumsal İletişim Ofisi

Tarih: 21 Ağustos 2017