Un moteur de recherche de documents d’entreprise
Devoxx France 2023
Paris
🇫🇷France
Apr. 2023
Slides
Abstract
Lors de cet atelier, nous allons expliquer comment mettre en place un moteur de recherche pour les données de notre entreprise.
Afin d’éviter le côté trop “magique” parfois des solutions sur étagère, nous verrons d’abord :
- les bases du moteur de recherche Elasticsearch
- l’indexation de contenu JSON
- la transformation à la volée du contenu JSON via les pipelines ingest
- l’extraction de texte et de meta-données depuis un document binaire avec le processor
attachment - l’utilisation du tout nouveau processeur d’inférence pour déterminer des entités nommées de nos documents ainsi qu’une analyse de sentiments
- l’utilisation du projet FSCrawler open-source pour réaliser plus simplement ces étapes
Nous verrons ensuite comment chercher dans les données ainsi indexées.
Enfin, nous mettrons en place une interface de recherche sur étagère, portée par la solution gratuite Workplace Search qui nous permettra de chercher dans différentes sources documentaires avec assez peu d’efforts.
Resources
The following resources were mentioned during the presentation or are useful additional information.
Workshop instructions
Documentation: Ingest Attachment Processor
This is the official Ingest Attachment Processor documentation.
Documentation: FSCrawler
This is the official FSCrawler documentation.
