Wenn digitale Bildbestände in jahrelanger Arbeit mit unterschiedlichen Personen aufgebaut wurden, dann bleibt es nicht aus, dass sich auch Dubletten ergeben. Diese redundanten Datensätze sind natürlich jedem/r Datenkurator/in ein Dorn im Auge und er oder sie wird bei jedem Befund versuchen, die entsprechenden Datensätze zu verschmelzen oder zu löschen. Sobald eine gewisse Masse an Abbildungen erreicht wurde, bleibt das Auffinden dieser Dubletten häufig dem Zufall überlassen oder ergibt sich aus Hinweisen von Nutzer*innen. Dank der großen Entwicklungen im Bereich der Bildähnlichkeitssuche kann dem Thema nun aber auch systematischer begegnet werden. So z.B. mit dem similARiTy-Tool, welches auf Grundlage von percepual hashing und BK-tree zwei Konvolute von digitalen Bildern miteinander vergleicht. Dazu wird zunächst je zu vergleichendem Verzeichnis ein json-File erzeugt, die dann miteinander verglichen werden. Voraussetzungen der Nutzung dieses command-line-Werkzeugs sind python und imagemagick.
Home » Posts tagged "Ähnlichkeitssuche"