Kulak görüntülerinden soft biyometrik özelliklerin makine öğrenmesi yöntemleri ile sınıflandırılması
Özet
Yapılan çalışmanın amacı, kulak görüntülerinden cinsiyet, yaş, boy, doğal saç rengi, saç tipi, göz rengi ve ten rengi gibi soft biyometrik özelliklerin makine öğrenmesi yöntemleri ile sınıflandırılmasıdır. Çalışma kapsamında etik kurul belgesi alınarak 105 kişiden kulak görüntüsü toplanmış ve bu kişilere birer anket uygulanmıştır. Buna ek olarak internet üzerinden elde edilen kulak görüntüleri ve soft biyometrik veriler yardımı ile 250 kişiye ait 300 kulak görüntüsü ile ikinci bir veri tabanı da sınıflandırma testleri için oluşturulmuştur. Çalışmanın kulak görüntüleri ön işleme bölümünde, kulak görüntülerinin kesilmesi ve yeniden boyutlandırılması için Python programlama dili kullanılmıştır. Daha sonra alınan görüntüler üzerinde yapılan ön işlemede Matlab uygulaması tercih edilmiştir. Görüntüler öncelikle Matlab uygulamasında grayscale formata dönüştürülmüştür. Daha sonra, ortam ışık koşullarından oluşabilecek farkların minimum seviyeye indirilmesi amacıyla histogram eşitlemesi yapılmıştır. Yapılan histogram eşitlemesinden sonra, görüntüler siyah beyaz formata dönüştürülmüştür. Son olarak elde edilen siyah-beyaz formattaki görüntülerin piksel değerleri Excel dosyasına aktarılarak, her bir piksel değeri bir sütuna aktarılmıştır. Her bir soft biyometrik özellik için ayrı Excel dosyaları oluşturulmuş, tüm görüntülerin piksel değerleri Excel dosyalarına aktarıldıktan sonra sınıf değerleri son sütuna kaydedilmiştir. Çalışma kapsamında hedeflenen soft biyometrik özelliklerin tahmini için RapidMiner ve Weka veri işleme uygulamaları tercih edilmiştir. Bu uygulamalardaki sınıflandırma algoritmalarından Derin Öğrenme, Destek Vektör Makineleri, LibSVM, Lojistik Regresyon, Doğrusal Regresyon, Rastgele Orman ve Naive Bayes algoritmaları kullanılmıştır. 10 katlamalı çapraz doğrulama yöntemi kullanılarak yapılan testler sonucunda uygulamalar arasında doğruluğu en yüksek olan iki algoritma detaylı olarak karşılaştırılmıştır. 105 kişiden oluşan ilk veri tabanı için cinsiyet sınıflandırma sonuçları incelendiğinde, en başarılı algoritmanın %84,76 ile Weka uygulamasındaki LibSVM algoritması olduğu bulunmuştur. Yaş tahmini için bakıldığında, en başarılı algoritmanın %40,00 ile Rapidminer uygulamasındaki LibSVM algoritması olduğu tespit edilmiştir. Boy tahmini konusunda en başarılı algoritmanın%44,82 sınıflandırma başarısı ile RapidMiner uygulamasındaki LibSVM algoritması olduğu görülmüştür. Göz rengi ve doğal saç rengi tahmini için yapılan sonuçlara bakıldığında, en başarılı algoritmanın sırasıyla %68,47 ve %45,91 doğruluğa sahip RapidMiner uygulamasındaki Derin Öğrenme algoritması olduğu görülmüştür. Ten rengi tahmini için yapılan testler ile en başarılı sınıflandırma algoritmasının %50 doğruluk ile Weka uygulamasındaki LibSVM algoritması olduğu görülmüştür. Son olarak saç tipi tahmini için yapılan testlerde, RapidMiner uygulamasındaki LibSVM algoritmasının %68,89 doğruluk oranı ile en başarılı algoritma olduğu sonucuna ulaşılmıştır. 300 kişiden oluşan ikinci veri tabanı için cinsiyet sınıflandırma sonuçları incelendiğinde, en başarılı algoritmanın %86,33 ile Weka uygulamasındaki LibSVM algoritması olduğu bulunmuştur. Yaş tahmini için bakıldığında, en başarılı algoritmanın %68,40 ile Rapidminer uygulamasındaki LibSVM algoritması olduğu tespit edilmiştir. Boy tahmini konusunda en başarılı algoritmanın %60,74 sınıflandırma başarısı ile Weka uygulamasındaki LibSVM algoritması olduğu görülmüştür. Göz rengi tahmini için yapılan sonuçlara bakıldığında, en başarılı algoritmanın %80,59 ile Weka uygulamasındaki LibSVM algoritması olduğu görülmüştür. Buna ek olarak doğal saç rengi için yapılan testler sonucunda, en başarılı algoritmanın %57,62 ile RapidMiner uygulamasındaki Derin Öğrenme algoritması olduğu görülmüştür. Ten rengi tahmini için yapılan testler ile en başarılı sınıflandırma algoritmasının %60,68 doğruluk ile Weka uygulamasındaki LibSVM algoritması olduğu görülmüştür. Son olarak saç tipi tahmini için yapılan testlerde, RapidMiner uygulamasındaki LibSVM algoritmasının %69,06 doğruluk oranı ile en başarılı algoritma olduğu sonucuna ulaşılmıştır. Kulak görüntüsünden cinsiyet ve yaş tahmin eden çalışmalar az da olsa olmakla birlikte, saç tipi, doğal saç rengi, boy ve göz rengi tahmini ile ilgili herhangi bir çalışmaya rastlanmamıştır. Bu bakımdan tez çalışmamız literatürde ilk kez kulak görüntüsünden saç tipi, doğal saç rengi, boy ve göz rengi tahmin sonuçlarını içermektedir. The aim of the study is to classify soft biometric features such as gender, age, height, natural hair color, hair type, eye color and skin color from ear images by machine learning methods. Within the scope of the study, the ear images were collected from 105 people by obtaining the ethics committee certificate and a questionnaire was applied to each of these people. In addition, with the help of ear images and soft biometric data obtained over the internet, a second database was created with 300 ear images of 250 people for classification tests. In the ear images preprocessing part of the study, Python programming language was used for cutting and resizing the ear images. Matlab application was preferred for preprocessing on the images taken afterwards. The images were first converted to grayscale format in Matlab application. Then, histogram equalization was performed in order to minimize the differences that may occur from ambient light conditions. After the histogram equalization, the images were converted to black and white format. Finally, the pixel values of the black-and-white images were transferred to the Excel file, and each pixel value was transferred to a column. Separate Excel files were created for each soft biometric feature, and the class values were recorded in the last column after the pixel values of all images were transferred to Excel files. RapidMiner and Weka data processing applications were preferred for the estimation of the soft biometric features targeted within the scope of the study. Among the classification algorithms in these applications, Deep Learning, Support Vector Machines, LibSVM, Logistic Regression, Linear Regression, Random Forest and Naive Bayes algorithms were used. As a result of the tests using the 10-fold cross validation method, the two algorithms with the highest accuracy among the applications were compared in detail. When the gender classification results for the first database consisting of 105 people were examined, it was found that the most successful algorithm was the LibSVM algorithm in the Weka application with 84.76%. For age estimation, it was determined that the most successful algorithm was the LibSVM algorithm in Rapidminer application with 40.00%. It has been seen that the most successful algorithms for height estimation is the LibSVM algorithm in the RapidMiner application, with a classification success of 44.82%. Looking at the results for eye color and natural hair color prediction, it was seen that the most successful algorithm was the Deep Learning algorithm in the RapidMiner application, which had an accuracy of 68.47% and 45.91%, respectively. With the tests made for skin color prediction, it was seen that the most successful classification algorithm was the LibSVM algorithm in the Weka application with 50% accuracy. Finally, in the tests for hair type prediction, it was concluded that the LibSVM algorithm in RapidMiner application was the most successful algorithm with an accuracy rate of 68.89%. When the gender classification results for the second database consisting of 300 people were examined, it was found that the most successful algorithm was the LibSVM algorithm in the Weka application with 86.33%. For age estimation, it was determined that the most successful algorithm was the LibSVM algorithm in Rapidminer application with 68.40%. It has been seen that the most successful algorithm for height estimation is the LibSVM algorithm in the Weka application with a classification success of 60.74%. Looking at the results for eye color estimation, it was seen that the most successful algorithm was the LibSVM algorithm in the Weka application with 80.59%. In addition, as a result of the tests for natural hair color, it was seen that the most successful algorithm was the Deep Learning algorithm in RapidMiner application with 57.62%. With the tests made for skin color prediction, it was seen that the most successful classification algorithm was the LibSVM algorithm in the Weka application with an accuracy of 60.68%. Finally, in the tests for hair type prediction, it was concluded that the LibSVM algorithm in RapidMiner application was the most successful algorithm with an accuracy rate of 69.06%. Although there are few studies estimating gender and age from ear image, no studies related to hair type, natural hair color, height and eye color estimation were found. In this respect, our thesis study includes hair type, natural hair color, height and eye color prediction results from ear image for the first time in the literature.