Capitole du Libre 2022

Indexer ses documents bureautique avec la suite Elastic et FSCrawler
19/11/2022 , A202

Vous avez sous la main des tonnes de documents Open Office, Microsoft Office, PDF voire des images... et vous aimeriez être capable de chercher dans leurs meta-données et dans le contenu lui-même. Comment faire ? Surtout depuis l'annonce de la fin de Google Search Appliance.


Dans cette session, David expliquera comment Apache Tika peut fournir ce service et comment combiner cette fantastique librairie avec elasticsearch :

Depuis 2013, David Pilato est développeur et évangéliste chez elastic.co, après avoir passé les deux années précédentes à promouvoir le projet open-source Elasticsearch. Il en anime la communauté française et organise des BBLs au sein des entreprises. Egalement auteur du projet FSCrawler qui permet d'indexer des documents pdf, open office, etc. dans elasticsearch en utilisant Apache Tika.