DocFectcher : indexer et trouver vos documents en quelque seconde

documents index

DocFetcher est un outil Open Source permettant de faire des recherches dans le contenu des fichiers sur votre ordinateur. Il joue le rôle de Google pour vos fichiers locaux. L'outil multiplate-forme fonctionne sous Windows, Linux et Max OS X.

 

Fonctions principales

  • Une version portable: il y a une version portable de DocFetcher qui fonctionne sous Windows, Linux et Mac OS X. Son utilité est décrite avec plus de détails plus bas sur cette page.
  • support 64-bit: les versions 32-bit et 64-bit des systèmes d'exploitations sont toutes deux supportées.
  • support Unicode support: DocFetcher vient avec un support Unicode robuste pour tous les formats principaux, incluant Microsoft Office, OpenOffice.org, PDF, HTML, RTF et les fichiers texte bruts. La seule exception est CHM, pour lequel il n'y a pas encore de support Unicode.
  • Support des archives: DocFetcher supporte les formats d'archive suivants: zip, 7z, rar, et la famille complète des tar.*. Les extensions de fichiers peuvent être configurées afin de vous permettre d'ajouter plus de formats d'archives basés sur le format zip si nécessaire. De plus, DocFetcher gère un nombre illimité d'archives imbriquées (ex: une archive zip qui contient une archive 7z qui contient une archive rar... etc).
  • Recherche dans les fichiers de code source: Les extensions que DocFetcher reconnait comme fichiers texte peuvent être configurées, de manière à ce que vous puissiez utiliser DocFetcher pour chercher n'importe quel type de fichier code source et de fichier basés sur du texte. (Ceci marche assez bien en combinaison avec la configuration des extensions zip par exemple pour chercher dans des fichiers code source à l'intérieur de fichiers Jar)
  • Fichiers Outlook PST: DocFetcher permet de chercher les messages Outlook, que Microsoft Outlook stocke typiquement dans des fichiers PST.
  • Détection de paires HTML : Par défaut, DocFetcher détecte les paires de fichiers HTML (ex: un fichier est nommé "toto.html" et un dossier "toto_files"), et les traite comme un document unique. Cette fonction peut paraître inutile de prime abord, mais cela augmente considérablement la qualité des résultats de recherche pour les fichiers HTML, dans la mesure ou tout le "bazar" dans le dossier HTML disparaît des résultats.
  • exclusion de fichier à indexer basée des expressions régulières (Regex): vous pouvez utiliser des expression régulières pour exclure des fichiers de l'indexation. Par exemple, pour exclure des fichiers Microsoft Excel, vous pouvez utiliser une expression régulière comme ceci: .*\.xls
  • Détection des types Mime: Vous pouvez utiliser des expressions régulières pour activer la détection du type mime pour certains fichiers, ce qui veut dire que DocFetcher essaiera de détecter le vrai type de fichier en pas seulement en se basant sur le nom mais aussi en regardant à l'intérieur. Ceci est utile pour les fichiers qui ont une mauvaise extension.
  • Une syntaxe puissante pour les requêtes: en plus de constructions basiques comme et, ou et pas (OR, AND et NOT), DocFetcher supporte aussi entre autres: les caractères de remplacement, les recherches de phrase, les recherches floues ("trouver des mots similaires à..."), la recherche de proximité ("ces deux mots devraient être au plus à 10 mots d'intervalle l'un de l'autre"), "boosting" ("augmenter le score des documents qui contiennent...")

Formats de documents supportés

  • Microsoft Office (doc, xls, ppt)
  • Microsoft Office 2007 et versions plus récentes (docx, xlsx, pptx, docm, xlsm, pptm)
  • Microsoft Outlook (pst)
  • OpenOffice.org (odt, ods, odg, odp, ott, ots, otg, otp)
  • Portable Document Format (pdf)
  • HTML (html, xhtml, ...)
  • Texte brut (configurable)
  • Rich Text Format (rtf)
  • AbiWord (abw, abw.gz, zabw)
  • Microsoft Compiled HTML Help (chm)
  • Microsoft Visio (vsd)
  • Scalable Vector Graphics (svg)

Pages en rapports

- Site officiel

- Page de téléchargement