Gezichtsherkenning met lage resolutiebeelden

  • 2017-07-24
  • Raymond Veldhuis, Professor Biometric Pattern Recognition
  • Blog
Raymond Veldhuis, Professor Biometric Pattern Recognition, Universiteit Twente

Automatische gezichtsherkenning heeft zich in de afgelopen tien jaar doorontwikkeld tot een betrouwbare en geaccepteerde technologie voor het identificeren van mensen. Bij de e-gates van Amsterdam Airport Schiphol wordt deze techniek bijvoorbeeld toegepast voor grensbewaking en dan met name om te controleren of de persoon die het paspoort aanbiedt, ook de rechtmatige eigenaar is. Dit wordt automatisch gecontroleerd door een gezichtsopname die is opgeslagen op de chip van het paspoort, te vergelijken met een life scan van het gezicht van de drager van het paspoort. Als deze beelden voldoende overeenkomen, wordt besloten dat ze beide dezelfde persoon weergeven en dat de drager van het paspoort ook degene is aan wie het identiteitsdocument is afgegeven. Als dat niet het geval is, volgt nader onderzoek door een ambtenaar belast met grensbewaking.

Onder gecontroleerde omstandigheden, d.w.z. frontale beelden van goede kwaliteit met een gelijkmatige verlichting en neutrale (gezichts)uitdrukking, worden geavanceerde gezichtsherkenningssystemen over het algemeen betrouwbaar geacht en soms zelfs nauwkeuriger in het vergelijken van gezichten dan wanneer dit door mensen gebeurt. We zien dat de herkenningsperformance van dergelijke systemen stap voor stap ook verbetert bij minder gunstige omstandigheden. Veel systemen zijn tegenwoordig in staat om bepaalde variaties qua stand van het gezicht (pose) en verlichting goed te hanteren. Met name de gezichtsherkenningssystemen die zijn gebaseerd op diepe neurale netwerken zoals die worden gebruikt door Google en Facebook voor face recognition applicaties op social media, leveren indrukwekkende resultaten op.

Voor bewakingsdoeleinden is dit nog niet het geval; er zijn nog een aantal problemen die moeten worden opgelost, zeker wanneer het gaat om gezichtsopnamen met een zeer lage resolutie. Het verbeteren van gezichtsherkenningsresultaten is relevant voor dit beveiligingsterrein omdat overtreders zo beter kunnen worden geïdentificeerd op basis van videobewakingsbeelden. Resolutie wordt vaak uitgedrukt in pixels tussen het middelpunt van beide ogen. Voor paspoortfoto's is de minimaal vereiste afstand tussen beide ogen 60 pixels, maar ten minste 90 pixels wordt aanbevolen (ISO/IEC 19794-5 ISO norm voor biometrische gegevensformats). In bewakingsvideo's zien we gezichtsopnames met een afstand tussen beide ogen van minder dan 10 pixels. Afbeelding 1 toont een voorbeeld van bewakingsopnamen.



Afbeelding 1 Bewakingsbeelden op diverse afstanden. Fotogalerij van een hogeresolutieopname gemaakt op een afstand van 1 meter die dient als referentiepunt.

Daarbij blijkt dat de herkenningsresultaten van topsegment gezichtsherkenningssystemen die vooral zijn gebaseerd op details met een hoge resolutie, ineens snel slechter worden als de beeldresolutie afneemt. We zien ook dat eenvoudigere gezichtsherkenningssystemen minder gevoelig zijn voor een lagere beeldresolutie en dat dergelijke systemen beter presteren dan het topsegment. Toch is er een grote kloof tussen gezichtsherkenningsresultaten op basis van bewakingsbeelden en de performance bij het herkennen van beelden met een hoge resolutie. Op basis van hogeresolutiebeelden van hoge kwaliteit bereiken geavanceerde systemen een true-matchpercentage (de waarschijnlijkheid dat twee beelden van dezelfde persoon als zodanig worden geclassificeerd) van 99% met een false-matchpercentage (de kans dat twee gezichtsopnames van verschillende individuen worden geclassificeerd als dezelfde persoon) van 0,1%. Voor bewakingsbeelden met een afstand tussen beide ogen van 10 pixels, kent een topsysteem een true-matchpercentage van 70% en een false-matchpercentage (de kans dat twee gezichtsopnames van verschillende individuen worden geclassificeerd als dezelfde persoon) van 10%. En dat is aanzienlijk minder nauwkeurig.

De tot nu toe onbeantwoorde vraag is: 'Hoe en in hoeverre kunnen we de gezichtsherkenningsperformance bij bewakingsbeelden met een zeer lage resolutie verbeteren om deze opnamen geschikter te maken voor rechtshandhavingtoepassingen?' Zoals gezegd, deze vraag staat nog open. Toch willen we een aantal opties bespreken die mogelijk een oplossing kunnen bieden.


Mixed-resolutionvergelijking

De gebruikelijke gezichtsherkenningssystemen vergelijken beelden met ongeveer dezelfde afmetingen. Bij het verwerken van bewakingsgegevens moet een vergelijking worden gemaakt tussen een opname met hoge resolutie, bijvoorbeeld een politiefoto van een verdachte, en een lageresolutie-opname van een bewakingscamera. Dit vraagt om een systeem dat beelden met verschillende resoluties kan vergelijken en misschien met verschillende eigenschappen.


Juist ontwerp en training

Gezichtsherkenningssystemen zijn classificatiesystemen die moeten zijn ontworpen op relevante gegevens en daarin moeten worden getraind. De onderstaande afbeelding laat zien dat een bewakingsopname met lage resolutie niet alleen qua resolutie afwijkt van verkleinde hogeresolutiebeelden. Veel gezichtsherkenningssystemen met een lage resolutie die in de vakliteratuur worden voorgesteld, zijn getraind in verkleinde hoge resolutiebeelden. Toch presteren ze slecht bij testen met echte bewakingsbeelden. Dit betekent dat er moet worden ingezet op het verzamelen van de juiste trainingsgegevens.



Afbeelding 2 Links (LR): Echte bewakingsbeelden met lage resolutie Midden (HR): Hogeresolutiebeelden Rechts (Ds HR): Verkleinde hoge resolutiebeelden.

Alle weergegeven afbeeldingen hebben dezelfde afmetingen. Het is duidelijk dat echte beelden met een lage resolutie op veel punten afwijken van de verkleinde opnamen.


Juiste uitlijning en posecorrectie

Voordat een gezichtsherkenningssysteem start met vergelijken, worden de beelden uitgelijnd en kleine afwijkingen van het frontale vooraanzicht worden gecorrigeerd. Dit gebeurt gewoonlijk op basis van herkenningspunten. Dit zijn specifieke kenmerkende punten in het gezicht zoals de ogen, de neus en mondhoeken die eenvoudig kunnen worden bepaald in beelden met een hoge resolutie. Deze herkenningspunten worden gebruikt voor beeldbewerking om zo tot een juiste uitlijning en posecorrectie te komen. Bij lageresolutiebeelden kunnen deze herkenningspunten vaak niet worden vastgesteld of ze zijn zeer onnauwkeurig. Hierdoor geeft het uitlijnen en de posecorrectie slechte resultaten. Dit houdt in dat er methoden nodig zijn voor uitlijning en posecorrectie die niet zijn gebaseerd op herkenningspunten in het gezicht.


Diepe neurale netwerken

Diepe neurale netwerken vormen een nieuwe categorie classificatoren die met groot succes zijn toegepast in veel applicaties, waaronder gezichtsherkenning. Mogelijk kunnen deze goed worden toegepast in lageresolutiegezichtsherkenning waarbij ze wel over uitgebreide traininggegevens moeten beschikken (in de orde van grootte van miljoenen trainingsamples). Zoals eerder aangegeven, zijn deze gegevens niet beschikbaar in de juiste hoeveelheden. De trainingdata genereren door hogeresolutiebeelden te verkleinen is geen oplossing vanwege de genoemde verschillen tussen echte bewakingsgegevens met een lage resolutie en verkleinde beelden. Als dit gegevensprobleem is opgelost, kunnen mixed-resolution diepe neurale netwerken worden ontworpen en getraind om dit probleem aan te pakken.

Deze stappen zullen de kloof tussen de herkenningsperformance van hogeresolutie- en lageresolutiegezichtsherkenning niet volledig dichten maar de eerste experimenten tonen aan dat de afstand tussen de twee wel aanzienlijk kan worden verkleind.

The Delft Safety & Security Institute (DSyS) is partner van Amsterdam Security, 31 October – 2 November in RAI Amsterdam.

Latest Video

All videos