Raphaël LEFEVRE, le 2 février 2025
Les archives départementales de Haute-Garonne (AD31) souhaitent obtenir la transcription de 49 inventaires de l'ordre de Malte actuellement dans leurs fonds.
Une transcription par Intelligence Artificielle (LLM) des premières pages de l'inventaire de la commanderie d'Arcins a été réalisée et présentée aux AD31 le 29 janvier 2025. Les résultats ont été jugés très satisfaisants et une étude plus poussée a été demandée pour (i) vérifier la reproductibilité des premiers résultats sur des échantillons plus importants et (ii) tester la possibilité de réutiliser la même chaîne de transcription que celle utilisée pour la commanderie d'Arcins afin de maîtriser les coûts finaux.
Constatant une importante diversité des inventaires, tant par leur structure que par leurs écritures, il est proposé de commencer par les inventaires "proches" de celui de la commanderie d'Arcins
17 inventaires de type Arcins ont été identifiés, comprenant au total plus de 9.000 pages soit plus de 50% de la totalité de 49 inventaires.
Ils se caractérisent par une écriture assez régulière, plusieurs sections comprenant un titre suivi de plusieurs descriptions de liasses, chaque description est suivie par son N° de liasse. Ces inventaires ont tous été scannés en simple page.
L'étude a porté sur :
En complément au Type Arcins, nous avons également réalisé la transcription de six (6) inventaires scannés en pages simples mais dont le type semble assez différent de celui d'Arcins, ainsi que quatre (4) inventaires scannés en pages doubles.
La chaîne de transcription utilisée pour la commanderie d'Arcins a été réutilisée sans chercher à l'optimiser pour tenir compte de quelques variations entre les inventaires sélectionnés.
Les transcriptions sont globalement restées de qualité satisfaisante, semblable à ce qui avait été obtenu pour les premières pages de la commanderie d'Arcins. On notera nénamoins quelques points majeurs à corriger en amont ou, à défut, prévoir une relecture attentive pour une correction manuelle qui peut être chronophage. Liste non exhaustive, à compléter.
| Erreur observée | Cause probable | Correction envisagée |
| Le début des descriptions de liasse, commençant par "Reconnaisance...", "Vente...", etc. peut partfois être remplacé par "L'an..." | Dans les instructions de transcription, on avait indiqué que TOUTES les descriptions commencent par "L'an...". Le LLM corrige donc ce qu'il lit pour l'adapter aux instrictions de priorié forte. | Reprendre la formulation de l'instruction. Comment traiter l'absence de date pour le format CSV final ? |
| Les premières lignes de haut de page (de 1 à 5 lignes) parfois ne sont pas transcrites. | En instruction, on a précisé que seule la première page comportait un titre. Il est probable que le LLM consière que ce sont des lignes de titre qui "ne devraient pas être là" et les escamotttent. | Reprendre la formulation de cette instruction. |
| Il arrive, très rarement que la dernière ligne ne soit pas traitée | à explorer | |
| Des pages entières n'ont pas été traitées cf. bloc 31/35 de ARCINS 163_265. | Le nombre de token limite dépassé (très peu probable) ? Raté d'un chargement de pages de puis le serveur iiif ? | Refaire la transcription. |
| Les chiffres, et donc les dates, comportent pas mal d'erreur, en particulier il semblerait que le LLM ait beaucoup de mal à distinguer entre les 3, 5 et 8. | Le LLM utilisé n'a pas été entraîné avec les graphies utilisées dans les inventaires. | A moins de changer de modèle (celui utilisé ne peut être réentraîné) il faudra envisager des corrections manuelles. => Trouver un moyen de mettre en évidence ces dates pour en faciliter la correction. |
| Les libelllés de Liasses sont écrits dans le corps du paragraphe de la description, le LLM ne les a pas identifiés et isolés. | Dans l'inventaire le "cotté" n'est pas détaché de la transcription | Essayer une instruction du type : si les mots "cotté" "liasse" se trouvent en fin de paragraphe,
les isoler dans une balise <h3>. Envisager un correction manuelle (action RL). A noter que parfois seul le N° apparaît sans le mot "Liasse". Pour un même inventaire il peut y avoir des n° de liasse similaires. Comment les distinguer pour le fichier CSV ? |
| Transcriptions médiocres de 2/4 des inventaires en page double : EPINAS et PEZENAS | Beaucoup de transparence, des écritures très serrées, des images de qualité moindre proportionellement (même nombre de pixels pour 2 pages au lien d'une). A noter que certains inventaires ont des pages très abîmées. | Tester sur quelques pages et valider en amont la qualité de la transcription. Si la qualité est indiffisante, envisager d'autres approches : transcriptions après entraînements spécifiques (peut être coûteux) ou transcriptions manuelles avec assistance IA par ex. |
Les fichiers de transcriptions sont livrés sous format HTML, directement affichables dans un navigateur. Le nommage suit la règle suivante :
AD31_H_MALTEINV_{N° d'inventaire}_{Libellé de la commanderie}_{N° première page transcrite}_{N° dernière page transcrite}.html
Les numéros de pages correspondent au numéro de la page diffusée sur le serveur iiif des AD31.
Le mode édition permet de comparer les transcriptions avec les pages correspondantes. Il est possible de faire des modifications en ligne pour tester le mode édition mais les modifications ne seront pas sauvées.
En mode édition le document s'affiche en format Mardown, qui simplifie l'édition du format HTML utilisé. La prise en main du format Markdown est très rapide et nécessitera une petite formation de moins d'une heure.
Les transcriptions sont faites par groupe de 3 pages, soit une section. Le numéro de la section est indiqué en haut à gauche entre les boutons <PRECEDENTE> et <SUIVANTE>.
A droite s'affichent les pages dans un visualisateur OpenSeaDragon. Les 3 pages correspondant à la transcription affichée dans l'encadré à gauche sont automatiquement chargées depuis le serveur iiif Ligeo. Il faut utiliser les flèches du visualisateur pour passer de page en page.
| Fichier de transcriptions | Pages | Actions |
| AD31_H_MALTEINV_128D_TOULOUSE_T2_0025_0085.html | 61 pages | |
| AD31_H_MALTEINV_128D_TOULOUSE_T2_0025_0085.html | 61 pages | |
| AD31_H_MALTEINV_128D_TOULOUSE_T2_0025_0085.html | 61 pages |
| Fichier de transcriptions | Pages | Actions |
| AD31_H_MALTEINV_128D_TOULOUSE_T2_0025_0085.html | 61 pages | |
| AD31_H_MALTEINV_128D_TOULOUSE_T2_0025_0085.html | 61 pages | |
| AD31_H_MALTEINV_128D_TOULOUSE_T2_0025_0085.html | 61 pages |
| Fichier de transcriptions | Pages | Actions |
| AD31_H_MALTEINV_128D_TOULOUSE_T2_0025_0085.html | 61 pages | |
| AD31_H_MALTEINV_128D_TOULOUSE_T2_0025_0085.html | 61 pages | |
| AD31_H_MALTEINV_128D_TOULOUSE_T2_0025_0085.html | 61 pages |