Image inpainting is the process of repairing an area in an image, from which a part of the semantic information is missing and consequently there is a lack of semantic continuity. Image inpainting was initially designed to effectively repair damaged areas in images. Ηowever, it was quickly used for the purpose of forgery and deception. In recent years, methods of applying image inpainting through artificial intelligence techniques came up and achieved high quality results, producing images where the presence of inpainting is almost impossible to detect with the human eye. Therefore, it is of critical importance to develop a method that will detect the affected areas in inpainted image. For this reason, the present thesis focuses on the study of image inpainting detection methods and the implementation of an artificial neural network capable of detecting areas where an image has been tampered by inpainting. A total of eight convolutional neural networks, based on two state of the art architectures, were trained and tested. The training process was based on two configurations sets (10 and 50 epochs respectively) adopting the binary cross entropy (BCE) as a loss function. Furthermore, it was also studied to what extent the use of a training dataset consisting of images that have been inpainted in semantic areas helps more than one whose images have been inpainted in random-form areas helps more in the image inpainting detection. For this reason, two training sets were created. The first one, is consisting of images with random-form inpainting masks, while the second one is consisting of images with semantic masks (objects). To evaluate the trained models, a test set consisting of both forms of masks were created in order to give an objective interpretation of the results. The aim is to train a model, capable of producing a predicted mask Mo as output, given an image I as input. Finally, the two commonly used pixel-wise metrics, IoU and AUC, were adopted to evaluate the performance. The metrics were calculated by using the ground truth Mg and the predicted mask Mo and by making a 1-1 comparison of their corresponding pixels. Τhe study proved that, models trained with a set of images that have been tampered in random areas (random masks) achieve better results comparing to models that were trained with a train set of images that have been tampered in semantic areas (semantic masks).
Design and implementation of an automation mechanism to automatically develop...
Image Inpainting Detection through Artificial Intelligence Techniques
1. Εντοπισμός της διαδικασίας inpainting
σε εικόνες με μεθόδους τεχνητής
νοημοσύνης
Aριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης
Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Παπαδόπουλος Σταύρος 8697
Επιβλέπων: Αν. Καθηγητής Ανδρέας Λ. Συμεωνίδης
Συνεπιβλέποντες: Δρ. Συμεών Παπαδόπουλος, Δρ. Γεώργιος Κορδοπάτης-Ζήλος
Ημερομηνία: 12/11/2021
9. Διαχωρισμός των συνόλων δεδομένων σε
εκπαίδευσης, επικύρωσης και ελέγχου.
• Πηγές δεδομένων: DEFACTO Object Removal Dataset (25k εικόνες), Diverse Inpainting Dataset (DID) (10Κ εικόνες)
• Περίπτωση Α: Σύνολο εκπαίδευσης και επικύρωσης από DEFACTO
• 90% από το DEFACTO (συν. 24Κ εικόνες)
• Το 90% (21.600 εικόνες) χρησιμοποιήθηκε ως σύνολο εκπαίδευσης
• Το 10% (2.400 εικόνες) χρησιμοποιήθηκε ως σύνολο επικύρωσης
• Περίπτωση Β: Σύνολο εκπαίδευσης και επικύρωσης από το DID
• 90% από το DID (συν. 9Κ εικόνες)
• Το 90% (8.100 εικόνες) χρησιμοποιήθηκε ως σύνολο εκπαίδευσης
• Το 10% (900 εικόνες) χρησιμοποιήθηκε ως σύνολο επικύρωσης
• Σύνολο ελέγχου: 2000 εικόνες από DEFACTO και DID
• 1000 από DEFACTO
• 1000 από DID
10. Προτεινόμενες Αρχιτεκτονικές
• ΗP-FCN
• Τμήμα προ-επεξεργασίας με ΗP φίλτρα
• Τμήμα εξαγωγής χαρακτηριστικών
• Τμήμα πρόβλεψης κλάσης σε επίπεδο εικονοστοιχείων
• ΗRNet
• Tμήμα προ-επεξεργασίας
• Τμήμα παράλληλων συνελίξεων πολλαπλών αναλύσεων
• Τμήμα επαναλαμβανόμενων συγχωνεύσεων πολλαπλών αναλύσεων
• Τμήμα τελικής αναπαράστασης
11. Εκπαίδευση Μοντέλων
• Υλοποίηση και εκπαίδευση 8 δικτύων βασισμένα σε 2 state-of-the-art αρχιτεκτονικές.
• 2 σύνολα ρυθμίσεων εκπαίδευσης
• Περίπτωση Α
• 10 εποχές (Epochs)
• Ρυθμός εκπαίδευσης (learning rate) μειώνεται στο μίσο μετά από κάθε εποχή
• Adam optimizer
• Binary Cross Entropy (BCE) ως συνάρτηση απώλειας (loss function)
• Περίπτωση B
• 50 εποχές (Epochs)
• Ρυθμός εκπαίδευσης (learning rate) μειώνεται στο μίσο μετά από κάθε εποχή (για εποχή >30)
• Adam optimizer
• Binary Cross Entropy (BCE) ως συνάρτηση απώλειας (loss function)
12. Πειράματα & Αποτελέσματα
• Έλεγχος 8 δικτύων βασισμένα σε 2 state-of-the-art αρχιτεκτονικές
• Σύνολο ελέγχου: Mεικτό σύνολο (2000 εικόνες από DID & DEFACTO)
• Μετρικές απόδοσης: ΑUC και ΙoU
• Εντοπισμός Ιnpainting
• Eίσοδος: Έγχρωμη εικόνα I από σύνολο ελέγχου (mxnx3)
• Έξοδος: Μάσκα πρόβλεψης (mxnx1) Mo.
• Τιμή κατωφλιού: Χρησιμοποιήθηκαν τρεις διαφορετικές τιμές κατωφλιού (0.5, 0.65, 0.7).
15. Ποσοτική μέτρηση της απόδοσης των
μοντέλων κατά τη διαδικασία του ελέγχου
Aρχιτεκτονική Train Set Epochs AUC IoU 50 IoU 65 IoU 70
HP-FCN DID 10 72.30% 8.79% 61.59% 70.29%
HP-FCN DEFACTO 10 67.72% 8.79% 70.24% 70.22%
HRNET DID 10 66.46% 47.34% 58.44% 61.97%
HRNET DEFACTO 10 62.80% 69.88% 69.88% 69.89%
HP-FCN DID 50 77.5% 9.89% 54.18% 61.59%
HP-FCN DEFACTO 50 70.83% 8.80% 70.99% 70.87%
HRNET DID 50 66.41% 43.50% 50.54% 53.32%
HRNET DEFACTO 50 65.45% 70.40% 70.39% 70.38%
16. Συμπεράσματα
• Εκπαίδευση με τυχαίες ή σημασιολογικές μασκες; Τυχαιες
• Σύγκριση με βάση τη μετρική AUC
• Εξήγηση: Τυχαίες μάσκες μπορούν να αποτελέσουν βασικά δομικά τμήματα των σημασιολογικών
μασκών
•
Aρχιτεκτονική Train Set Epochs AUC
HP-FCN DID 10 72.30%
HP-FCN DEFACTO 10 67.72%
Aρχιτεκτονική Train Set Epochs AUC
HP-FCN DID 50 77.5%
HP-FCN DEFACTO 50 70.83%
Aρχιτεκτονική Train Set Epochs AUC
HRNET DID 10 66.46%
HRNET DEFACTO 10 62.80%
Aρχιτεκτονική Train Set Epochs AUC
HRNET DID 50 66.41%
HRNET DEFACTO 50 65.45%
17. Συμπεράσματα
• Το ΗP-FCN έχει καλύτερη επίδοση απο το HRNet όταν προσαρμόζεται καταλλήλως το threshold
• Εξήγηση: Οφείλεται στο pre-processing που κάνει στην εικόνα
Aρχιτεκτονικ Train Set Epochs AUC IoU 65 IoU 70
HP-FCN DID 10 72.30% 61.59% 70.29%
HRNET DID 10 66.46% 58.44% 61.97%
Aρχιτεκτονικ Train Set Epochs AUC IoU 65 IoU 70
HP-FCN DEFACTO 10 67.72% 70.24% 70.22%
HRNET DEFACTO 10 62.80% 69.88% 69.89
18. Συμπεράσματα
• Το ΗP-FCN έχει καλύτερη επίδοση απο το HRNet όταν προσαρμόζεται καταλλήλως το threshold
• Εξήγηση: Οφείλεται στο pre-processing που κάνει στην εικόνα
Aρχιτεκτονικ Train Set Epochs AUC IoU 65 IoU 70
HP-FCN DID 50 77.5% 54.18% 61.59%
HRNET DID 50 66.41% 50.54% 53.32%
Aρχιτεκτονικ Train Set Epochs AUC IoU 65 IoU 70
HP-FCN DEFACTO 50 70.83% 70.99% 70.87%
HRNET DEFACTO 50 65.45% 70.39% 70.38%
19. Συμπεράσματα
• Το 2ο σύνολο ρυθμίσεων βελτίωσε τα αποτελέσματα
• Εξήγηση: Περισσότερες εποχές -> ποιοτικότερη εκμάθηση των χαρακτηριστικών των μασκών.
Aρχιτεκτονικ Train Set Epochs AUC
HP-FCN DID 10 72.30%
HP-FCN DID 50 77.5%
Aρχιτεκτονικ Train Set Epochs AUC
HP-FCN DEFACTO 10 67.72%
HP-FCN DEFACTO 50 70.83%
Aρχιτεκτονικ Train Set Epochs AUC
HRNET DID 10 66.46%
HRNET DID 50 66.41%
Aρχιτεκτονικ Train Set Epochs AUC
HRNET DEFACTO 10 62.80%
HRNET DEFACTO 50 65.45%
20. Μελλοντική Εργασία
• Η δημιουργία ενός ποιοτικότερου συνόλου δεδομένων
• Ικανού Μεγέθους
• Διάφορες τεχνικές inpainting
• Ποικιλία μασκών
• Χρήση ισχυρότερου υπολογιστικού συστήματος
• Μεγαλύτερο batch size
• Αποφυγή rescaling
• Μείωση χρόνου εκπαίδευσης
• Ρύθμιση υπερπαραμέτρων δικτύου