Anasayfa / Bilişim / Görüntü Tanıma Teknolojileri İş Hayatını Değiştirmek Üzere
Görüntü Tanıma Teknolojileri İş Hayatını Değiştirmek Üzere

Görüntü Tanıma Teknolojileri İş Hayatını Değiştirmek Üzere

Marc Zuckerberg, Facebook’un her yıl düzenlediği geliştirici konferanslarının en sonuncusunda, sosyal iletişim ağının “algılama konusunda insanlardan daha başarılı olacak sistemler inşa etmek” yönündeki yapay zeka planlarını ana hatlarıyla açıkladı. Daha sonra ise görme engelliler için geliştirilen ve bir fotoğrafta neler olduğunu “görüp” sesli olarak açıklayabilen etkileyici bir görüntü tanıma teknolojisinin sunumunu yaptı.

Görme bozukluğu olan kişilere yardım eden programlar ve yoldaki büyük hayvanları algılayan araç güvenlik sistemlerinden, etiketlenmemiş fotoğraf koleksiyonlarının otomatik olarak düzenlenmesine ve sosyal ortamlarda paylaşılan fotoğraflardan ticari çıkarımlar yapmaya kadar uzanan çeşitli faydalar sağlayan görüntü tanıma (image recognition), başka bir deyişle yapay görme (computer vision), gündelik yaşamımıza yeni giriş yapmaktadır.

Bu süreç öyle hızlı bir biçimde ilerlemektedir ki, sanal gerçeklik (virtual reality) ve kameralardan tutun da tıbbi görüntüleme ve içerik analizine kadar görsel teknolojiler üzerine ne varsa odaklanmış LDV Vision Zirve’si üçüncü senesine girdi bile. Zirveyi organize eden LDV Yatırım firmasından Evan Nisselson’un söylediğine göre: “Günümüzde yapay görme alanında yaşanan gelişmeler, görüntü inceleme konusunda inanılmaz yeni imkanlar sağlamaktadır ve bu imkanlar otomotivden reklama ve arttırılmış gerçekliğe kadar dikey olarak bütün sektörlere katlanarak artan bir şekilde etki etmektedir.”

Doğal dil işleme, biyoinformatik, oyun gibi yapay zekanın kullanıldığı diğer alanlarda da olduğu gibi, yapay görme sektörü de açık kaynak programlamanın, derin öğrenme teknolojilerinin, kullanıcı dostu programlama araçlarının ve daha hızlı, düşük maliyetli bilgi işlemenin ilerlemesinden ciddi şekilde faydalanmıştır.

Birçok haber başlığında, derin öğrenmeden ve yapay zekadan bir sonraki büyük yenilik olarak bahsedilmektedir, fakat dev firmalar görüntü teknolojilerini dünyaya hangi şekillerde sunacaklardır? Google’ın TensorFlow’u ile Facebook’un DeepFace’i veya Microsoft’un Oxford Projesi aynı şeyler midir? Tam olarak değil. Bazı ayrıntıları açıklığa kavuşturmak adına, mevcut görüntü teknolojisi araçlarını ve işletmelerin bunları nasıl kullandıklarını hızlıca inceleyelim.

Görüntü tanıma yazılımının eğitimi için kullanılan herkese açık veri kümeleri

Genel hatlarıyla insan beyni temel alınarak modellenen ve makinelerin öğrenim metodu olan derin öğrenme (deep learning) yöntemleri sayesinde bilgisayarlara, her zamankinden daha hızlı ve doğru şekilde resimlerde ne olduğunu tanımlamaları öğretilebilir – fakat bunu yapabilmek için bilgisayarların muazzam miktarda veriye ihtiyaçları vardır.

Burada devreye ImageNet ve Pascal VOC giriyor. Yapımı yıllar süren bu muazzam boyuttaki ücretsiz veri kaynakları, içerisinde ne olduğu anahtar sözcüklerle etiketlenmiş olan milyonlarca fotoğraf barındırıyorlar. Bu fotoğraflar arasında kedilerden dağlara, pizzadan spor aktivitelerine kadar çeşitli konular bulunabiliyor. Bu açık veri kümeleri, makinelerin görselleri tanıma konusundaki öğrenimlerinin temelini oluşturuyor (bilgisayarların, fotoğraflarda kedileri doğru olarak tanımlayabiliyor olmalarının tek yolu, “kedi” sözcüğü ile etiketlenmiş milyonlarca fotoğrafı analiz ederek kedilerin neye benzediklerini zaten öğrenmiş olmalarıdır).

En çok, her yıl düzenlediği görsel tanıma yarışmasıyla bilinen ImageNet, 2009 yılında bilgisayar uzmanları tarafından Stanford ve Princeton’da 80.000 etiketlenmiş fotoğraf ile kuruldu. O günden itibaren büyüyerek 14 milyon adetten fazla etiketlenmiş fotoğrafı içerir hale geldi ve bu fotoğrafların tamamı, makinelerin eğitimi amaçlı olarak ücretsiz kullanılabilmektedir.

İngiltere’deki çeşitli üniversiteler tarafından desteklenen Pascal VOC ise daha az sayıda görsele sahiptir fakat her bir görselde daha ayrıntılı ek açıklamalar mevcuttur. Bu sayede, makine öğrenimi daha hatasız biçimde olmaktadır.

Günümüzde Google’dan Facebook’a, yeni girişimci firmalardan üniversitelere kadar herkes, makine öğrenimi yapan sistemlerini beslemek için bu açık kaynaklı görsel setlerini kullanmaktadır, fakat büyük teknoloji firmalarının aynı zamanda Google Photos veya Facebook gibi uygulamalar üzerinden gelen ve kullanıcılar tarafından etiketlenmiş milyonlarca fotoğrafa ulaşabilmek gibi bir avantajları da mevcuttur. Daha önce Google veya Facebook’un neden size ücretsiz olarak fotoğraflarınızı yükleme imkanı verdiğini düşündünüz mü? Çünkü yüklediğiniz fotoğraflar, bu firmaların derin öğrenme ağlarının daha doğru çalışması adına eğitilmelerinde kullanılıyor.

Temel yapı taşları: Açık kaynak yazılım kütüphaneleri ve çatıları

Elinizde veri olduktan sonra, sıra bu veriden öğrenebilecek bir makine yapmaya geliyor. Burada devreye açık kaynak yazılım kütüphaneleri giriyor. Ücretsiz olarak sunulan bu çatılar (framework), yüz ve duygu tanımadan tıbbi görüntülemeye ve arabalardaki yol üzerindeki büyük engelleri tespit etme sistemlerine kadar farklı yapay görme işlevlerine hizmet vermek için geliştirilecek yapay görme sistemlerinin kurulmasında başlangıç noktası görevi görüyor. Daha sonra bu makine öğrenimi sistemlerine ImageNet ve türevi yerlerden, tescilli fotoğraflardan (diğer adıyla Google Photos) veya farklı başka kaynaklardan (anonim olarak dizinlenmiş klinik kayıtlar gibi) görseller aktarılıyor.

Google TensorFlow diğerlerine göre daha çok bilinen kütüphanelerden bir tanesi çünkü geçen senelerde belirli bazı bölümleri açık kaynaklıyken yaygın olarak incelenmişti. Bir kısmı hala Google adına tescilli olan TensorFlow, kendi kendine giden arabalardan Google Now ve Google Photos uygulamalarına kadar firmanın birçok yapay zeka girişiminin geliştirilmesinde kullanılmıştır.

Tabii ki TensorFlow tek açık kaynaklı çatı değildir. UC Berkeley’in sahibi olduğu Caffe, 2009 yılından beri aktiftir; Pinterest ve Yahoo!/Flickr sitelerinde yoğun olarak kullanılıyor olmanın yanısıra kolay kişiselleştirilebilirlik ve yenilik yaratan üyelerden oluşan büyük bir kullanıcı topluluğu sayesinde hala popülerliğini koruyor. Google bile DeepDream gibi belirli projeler için Caffe hizmetine başvuruyor.

2002 yılında hayata geçirilen Torch da oldukça popüler ve bunu 2015 yılının başlarında bazı modüllerini Torch için açık kaynaklı hale getiren Facebook Yapay Zeka Araştırması (FAIR) tarafından kullanılıyor olmasına borçludur. Bu araçlardan bazıları birden fazla grafik işlemcisinde veya bilgisayarda çalışacak ve bu sayede kapasiteyi arttırıp derin öğrenme işlemini hızlandıracak şekilde optimize edilmiştir. Benzer bir şekilde NVIDIA’nın cuDNN hizmeti de, makine öğreniminin daha hızlı olması adına bilgisayarın grafik işlemcisinin performansını optimize eden açık kaynaklı bir yazılım kütüphanesidir.

Bu araçlar her ne kadar esnek ve dayanıklı olsalar da, yapay görme mühendislerinden ve gerekli donanımlardan oluşan takımların varlığına ihtiyaç duymaktadırlar; bu yüzden sadece yapay görmeyi ürün stratejilerinin büyük bir parçası yapmak isteyip kendi ihtiyaçlarına özgün bir yazılıma sahip olmayı arzulayan firmalar bunlara başvurmalıdır.

Hazır servislerin sunduğu uygulama programlama arayüzleri

Her firmanın bir yapay görme mühendisliği ekibi kuracak kaynağı ya da bu kaynaklara yatırım yapma isteği yoktur. Doğru ekibi bulmayı başarsanız bile, işi doğru yapabilmek için oldukça çaba harcamanız gerekebilir. Işte burada Uygulama Programlama Arayüzü (API, Application Programming Interface) sunucusu hizmetleri devreye giriyor. Bulut üzerinden hizmet veren bu çözüm yöntemleri görüntü tanıma servisleri sunuyor ve bu servisler kolaylıkla mevcut bir uygulamaya dahil edilebiliyor. Uygulamanıza belirli bir özellik eklenmesinde veya komple bir işletme kurulmasında kullanılabiliyor.

Diyelim ki eHarmony sitesi, kullanıcıları tarafından yüklenen ve “güvenli olmayan, porno içerikli” profil fotoğraflarını filtrelemek istiyor. Bu firma derin öğrenme görüntü tanıma sistemleri geliştirme işine girmeye ihtiyaç duymuyor veya istemiyor olsa dahi, bu sistemin yeteneklerinden yararlanabiliyor.

Örneğin Google Cloud Vision hizmeti, yüz ve metin tanımadan, simge yapıları ve sansürsüz içeriği tespit etmeye kadar giden bir dizi görüntü tanıma servisi sunuyor ve fotoğraf başına ücretlendirme yapıyor. Microsoft Cognitive Services (ilk adıyla Project Oxford) içerisinde duygu, ünlü kişi ve yüz tespiti hizmetleri olan bir görsel görüntü tanıma API koleksiyonu sunuyor. Diğer bir yandan Clarifai gibi yeni girişimci şirketler; firmaların içeriklerini düzenlemelerine, kullanıcılar tarafından oluşturulmuş güvenli olmayan resim ve videoları filtrelemelerine ve görüntülenen veya çekilen fotoğraflar üzerinden satın alma tavsiyeleri yapmalarına yardımcı olan yapay görme API’leri sunuyor.

İsteğe göre uyarlanmış yapay görme teknolojisi

Yapay görme mühendisliği takımlarının, Google firmasının boyutlarında olması gerekmiyor. Kendi yapay zeka sistemlerini geliştirmek istemeyen firmalar, yine de kendilerine özel olarak oluşturulmuş, sağlam görüntü tanıma çözümleri isteyebilirler. Diyelim ki bir güzellik veya kozmetik firması kabarıklık azaltıcı şampuanının reklamlarında kullanmak üzere yüksek hacimli saçları olan insanların fotoğraflarını bulmak istiyor. Bunun için yüksek hacimli saç araması yapılmasını sağlayacak özel bir algoritma oluşturacak birine ihtiyaç duyacaklardır çünkü ürün haline getirilmiş, bilinen çözümler, standart halleriyle bu konuda bir şey sunamayacaklardır.

Aynı durum, fotoğraflarda logolar veya araba marka ve modelleri bulma gibi açık kaynak alanında mevcut olmayan ticari uygulamalar için de geçerlidir. Ve eğer hazırda bir veri kümesi mevcut değilse bile, günümüzde sosyal medya üzerinde paylaşılan görsellerin büyük bir oranı umumi kullanıma açıktır ve makine öğrenimi yapan cihazlara veri beslemesi yapılmasını sağlayacak zenginlikte bir kaynak oluşturabilmektedirler.

Bazı firmalar, bir mühendislik ekipleri olduğu sürece, açık veri ve açık kaynaklı sistem çatılarının bir kombinasyonunu kullanmaktadırlar; veya yapay görme konusu firmanın bütün odağını vereceği bir şey değilse, sadece dışarıdan API sunucu hizmeti almakla yetinmektedirler.

Çok çeşitli ve özel ihtiyaçları olan firmalar içinse özel hazırlanmış çözümler mevcuttur. Fakat hangi açıdan yaklaşılırsa yaklaşılsın, açıkça görülmektedir ki görüntü tanıma teknolojileri tek başlarına hayatta kalamazlar; daha da çok sayıda fotoğrafa, gerçek zamanlı fazlaca veriye, özgün uygulamalara erişimleri sağlandıkça daha da güçlü hale geleceklerdir. Bu yeni teknolojiden en yüksek oranda fayda sağlayacak firmalar, başarıya ulaşmaya en hazır ve yakın firmalar olacaklardır.

Kaynak: techcrunch.com

Editörün notu: Keywordsready.com projesini başlatmadan önce ben de aynı vizyonla yola çıkmış idim. Sonradan karşılaştığım bu makalenin projemizi hayata geçirmeden önceki düşünce süreçlerini çok iyi özetlediği kanısında olduğum için çevirmeye karar verdim. Hem makalenin hem de örnek bir uygulama olarak Keywordsready’nin bu konuda çalışma yapmak isteyenlere katkıda bulunmasını umuyorum.

Hakkında Serdar Yağcı

Başlamanın en iyi yolu, konuşmayı kesip, yapmaya koyulmaktır.

Cevapla

E-posta adresiniz yayınlanmayacak. Required fields are marked *

*

Scroll To Top