Yad Vashem exploite les progrès technologiques pour localiser, croiser et confirmer des centaines de milliers de noms de personnes assassinées pendant l’Holocauste qui n’ont pas encore été identifiées.
Le projet sur lequel ils ont commencé à travailler au cours des deux dernières années utilise à cet effet un modèle de langage étendu (LLM) et, grâce à un projet pilote récemment achevé, 400 noms ont été ajoutés au Hall des noms, qui contient aujourd’hui 4,9 millions de noms. Yad Vashem estime que dans chacun des 20 000 éléments de preuve en possession de l’institut, il sera possible d’extraire environ sept noms de personnes décédées, inconnus jusqu’à présent.
Ainsi, par exemple, Yad Vashem affirme que dans le témoignage donné par la survivante de l’Holocauste Olga Katz-Goldstein en 2017, qui comprenait des fiches de témoins pour ses parents et ses sœurs, sur lesquelles elle a donné des détails, il n’y avait aucune fiche de témoignage sur sa famille élargie. Avec l’aide d’un vaste modèle linguistique développé à l’institut et avec l’aide de divers experts, Yad Waid Vashem a réussi à extraire les noms d’autres membres de la famille de Katz-Goldstein qui ont été assassinés à Auschwitz, notamment sa grand-mère, ses oncles et ses neveux. . Sans cette technologie, il faudrait probablement beaucoup de temps, voire pas du tout, pour découvrir leurs noms. Dans ce cas, la technologie a localisé des noms dont même le membre de la famille ne se souvenait pas ou ne pouvait pas parler.
La base de données des noms des victimes de l’holocauste, initiée et dirigée par Yad Vashem, s’efforce de collecter les noms des victimes de l’holocauste et de reconstituer leur histoire. Pendant des décennies, ce projet a collecté et validé les noms uniquement manuellement et lentement, notamment des fiches de témoins, des listes de dépêches et des documents d’archives, qui ont été examinés par des experts dans différentes langues qui ont lu et analysé les différents textes pour extraire des détails sur ceux qui ont péri et ceux qui ont péri. Survécu.
Yad Vashem possède environ 10 millions de documents provenant de diverses sources. Beaucoup de ces dossiers n’ont jamais été examinés par le personnel de l’institut en raison d’un manque de personnel. L’objectif est désormais d’alimenter un système qui a développé des millions de documents pour tenter d’extraire de nouveaux noms et lieux, ainsi que les liens entre ceux-ci dans les différents documents. “L’utilisation de l’intelligence artificielle facilite l’étude de l’Holocauste de différentes manières. La technologie aide Lid Vashem à examiner en peu de temps des centaines d’heures de témoignages donnés par des survivants de l’Holocauste au fil des ans, pour en extraire de nouveaux noms des personnes assassinées. et des détails qui n’ont jamais été révélés”, déclare le Dr Alexander Avraham, directeur du Temple des noms à Yad Vashem.
Avec les développements dans le domaine de l’intelligence artificielle, Yad Vashem s’est rendu compte que la technologie pouvait aider à scanner, extraire et résumer de nombreuses informations en sa possession. Bien que les données dont dispose l’institut créent des défis uniques que les solutions et produits existants sur le marché commercial ne sont pas conçus pour relever. Ceux-ci incluent les types de données, leur qualité, les nombreuses langues et le style obsolète des données et leur manque d’uniformité, pour ne citer que quelques-uns des défis. “Tout d’abord, nous avons dû prendre chaque témoignage – vidéo ou audio – et transformer le discours en texte. Nous avons étiqueté 30 témoignages dans chaque langue. C’est une tâche qui n’est pas facile à accomplir à un niveau syntaxique élevé, notamment en hébreu.” Esti Foxbromer, directrice du département de développement logiciel, raconte à “Calcalist” au département d’innovation de Yad Vashem. “Ensuite, il faut extraire les ‘entités’ des textes, ce qui n’est pas non plus une tâche facile car la langue du témoignage est différente, ce n’est pas la langue parlée d’aujourd’hui.” Le but de l’étiquetage manuel des preuves est de préparer les informations pour la formation du modèle. Une fois que le modèle a appris à partir des exemples comment étiqueter, il peut continuer à étiqueter des preuves supplémentaires.
Non seulement de nombreux témoignages et pages de témoins sont manuscrits – et le modèle doit être capable de déchiffrer de nombreux styles et qualités différentes – mais il s’agit d’un domaine fondamentalement explosif : l’intelligence artificielle est connue pour une série de problèmes que la recherche sur l’Holocauste ne peut pas résoudre. . Premièrement, les modèles sont souvent une « boîte noire », c’est-à-dire incapables d’expliquer les résultats qu’ils produisent, et deuxièmement, ils sont capables d’inventer des « faits », qu’il est aujourd’hui courant dans l’industrie de qualifier d’« hallucinations ».
“L’exactitude historique est très importante pour nous, en raison de la question du négationnisme”, note Foxbromer, “c’est pourquoi nous avons construit le modèle de telle sorte que même s’il y a moins de données à saisir, il sera plus précis et de meilleure qualité”. Après que les noms ont été reçus du modèle, les experts de Yad Vashem ont passé en revue tous les noms, et ceux qui n’avaient pas été confirmés sans équivoque n’ont pas été inclus dans la salle des noms. “De nombreux noms sont cachés dans les preuves, il est donc impossible pour un être humain de ne rien manquer.” Un nom n’entre dans la Salle des Noms que si six éléments d’identification lui sont associés, dont le prénom, le nom, le nom du père ou de la mère, la profession ou l’année de naissance, et ont été validés par des experts.
“L’objectif est d’analyser les témoignages des survivants à l’aide d’outils informatiques pour trouver des liens significatifs entre différentes entités – une personne, une organisation ou un lieu”, explique le Dr Kafir Bar, informaticien de l’Université Reichman qui a servi comme consultant pour le projet. . Automatiquement, il était ainsi possible de retrouver, par exemple, toutes les personnes qui avaient grandi et étaient nées au même endroit et ne se connaissaient pas.”
Certains des noms produits par le modèle étaient déjà connus dans la salle, mais grâce à l’automatisation, ils ont pu relier au même Nesfa des détails supplémentaires tirés d’histoires bien connues. Ainsi, par exemple, racontent Yad Vashem, un cas de témoignage d’une jumelle survivante du docteur Mangala de Grèce, dans lequel une jeune fille de Pologne a déclaré dans son témoignage qu’elle et sa sœur jumelle étaient dans le groupe avec lui. Grâce à son témoignage, ils ont non seulement appris l’existence des jumeaux polonais, mais aussi qu’il existait un sous-groupe de bébés dans le projet de Mengele. “Il y a une difficulté particulière avec les noms des enfants. Même dans les témoignages, ils sont appelés un garçon ou ‘la fille de…'”, explique Foxbromer. “Ici, nous avons pour la première fois l’occasion de retrouver les noms d’enfants jusqu’alors inconnus.”
Dans le témoignage du survivant de l’Holocauste Menachem Lichtenstein, il raconte les histoires de sa vie à Miroslavas et Alytos. Avant l’utilisation de l’intelligence artificielle, une certaine personne n’était connue que sous son nom de famille – Svalach. Il était vétérinaire de Iorbreks, en Lituanie, marié à Leta Gardzenski, et aurait été assassiné en 1941 à Iorbreks. Désormais, sur la base du témoignage de Lichtenstein, ils ont réussi à trouver une référence au prénom de Svalach – Peter – et il existe désormais un prénom qui peut être ajouté à la base de données.
Selon Foxbromer, le projet, qui a débuté dans le département de l’innovation, a été accueilli avec scepticisme par les administrateurs du Hall of Names. “Ils ne croyaient pas qu’il y avait autant de noms cachés là, et que s’il y en avait, il y aurait suffisamment de détails pour les vérifier.” Maintenant, comme mentionné, le projet devrait s’étendre – pour numériser non seulement 20 000 témoignages supplémentaires au format vidéo et audio, mais également des témoignages écrits.
Ensuite, expliquent-ils, ils envisagent d’utiliser les modèles pour numériser des documents arrivés, donnés ou collectés par Yad Vashem au cours des dernières décennies mais qui n’ont jamais été examinés. “Les outils résumeront et abrégeront les cas et les étiqueteront à un niveau de base afin que nous sachions de quoi parlent ces documents.”