Indexer ses documents bureautique avec la suite Elastic et FSCrawler

David Pilato

Slides

Abstract

Ce webinar dédié à Elasticsearch va vous permettre d’aller plus loin avec ce populaire moteur de recherche. Il se déroule en deux temps:

Améliorer la pertinence de vos résultats

La pertinence est un sujet central des moteurs de recherche : obtenir les meilleurs résultats en premier est capital. Mais sur quoi se base Elasticsearch pour définir la pertinence d’un document ? Quels sont les « outils » fournis par Elasticsearch pour travailler sur la pertinence ?

Dans cette première partie Thomas Cucchietti, expert certifié Elastic @Sedona, vous présente quelques techniques simples (et moins simples) pour améliorer la qualité de ses résultats de recherche.

Indexer ses documents bureautiques avec la suite Elastic et FSCrawler

Vous avez sous la main des tonnes de documents Open Office, Microsoft Office, PDF voire des images?… et vous aimeriez être capable de chercher dans leurs métadonnées et dans le contenu lui-même. Comment faire ?

Dans cette seconde partie David Pilato, Développeur Evangéliste @Elastic explique comment Apache Tika peut fournir ce service et comment combiner cette fantastique librairie avec Elasticsearch. Il vous présente également son projet perso sur FSCrawler.

Video

Resources

The following resources were mentioned during the presentation or are useful additional information.

Buzz et feedback

Here's what was said about this presentation on social media.

© 2010 - 2026 David Pilato

🔍 Search is powered by QueryBox. Just hit CTRL+K or CMD+K to start searching.

⚙️ Generated from 🇫🇷 with ❤️ on Wed Jan 28, 2026 at 08:39:24 UTC

🌱 Powered by Hugo with theme Dream and some custom templates.

Details

I discovered Elasticsearch project in 2011. After contributed to the project and created open source plugins for it, David joined elastic the company in 2013 where he is Developer and Evangelist. He also created and still actively managing the French spoken language User Group. At elastic, he mainly worked on Elasticsearch source code, specifically on open-source plugins. In his free time, he likes talking about elasticsearch in conferences or in companies (Brown Bag Lunches AKA BBLs ). He is also author of FSCrawler project which helps to index your pdf, open office, whatever documents in elasticsearch using Apache Tika behind the scene.

Who am I?

Developer | Evangelist at elastic and creator of the Elastic French User Group . Frequent speaker about all things Elastic, in conferences, for User Groups and in companies with BBL talks . In my free time, I enjoy coding and deejaying as DJ Elky , just for fun. Living with my children in Cergy, France.

Social Links