image2data

Der Tech-Blog

...weitermachen, wo OCR aufhört

Plugin "Textextraktion" (i2dxTextExt)

Apr 152015

Dieses Plugin wird verwendet, um Volltext aus nahezu allen Dateiformaten zu extrahieren, z.B. aus Microsoft-Office-Dateien (*.doc, *.docx, *.ppt, *.pptx, *.xls, *.xlsx), Open-Office-Dateien (*.odf), Rich-Text-Dateien (*.rtf) oder MBox-Dateien (*.mbox), um hier nur einige zu nennen. Weiterhin können Metadaten aus Bildern, Scans, Filmen und vielen weiteren Dateiformaten extrahiert werden.

Für die Extraktion von Text aus PDF-Dateien ist das Plugin hingegen nicht notwendig; dies ist in image2data bereits integriert.

Das folgende Skript extrahiert den enthaltenen Text aus einer beliebigen anzugebenden Datei und zeigt ihn im integrierten Textbetrachter an. Anschließend wird der Text aus einer Website extrahiert und angezeigt.

// **************************************************************
// * sample_i2dxtextex.i2dspt                                   *
// *                                                            *
// * Sample script for the i2dxTextEx (text extraction) plugin  *
// * REQUIRES THE INSTALLED PLUGIN TO COMPILE AND RUN!          *
// *                                                            *
// * Press F9 to execute the code or F7/F8 to debug it          *
// *                                                            *
// * Contact www.norpa.eu if the plugin is required but missing *
// **************************************************************
 
{$I i2dxTextEx}
 
// Ti2dxTextExTextExtractionMode = (emXHTML, emHTML, emText, emMetaData);
 
var
  sFileName: String;
  sURL: String;
 
  sExtractedText: String;
 
begin
  // Extract text from a file
  sFileName := i2dInputBox('Filename', 'Please enter filename to extract data from:', '');
  if sFileName = '' then
    i2dCancelProcess('No filename entered');
 
  i2dxTextExExtractTextFromFile(sFileName, '', emText, sExtractedText);
  i2dShowInTextViewer(sExtractedText);
 
 // Extract html from an url/uri
  sURL := i2dInputBox('URL', 'Please enter URL to extract data from:', 'http://www.norpa.eu');
  if sURL = '' then
    i2dCancelProcess('No URL entered');
 
  i2dxTextExExtractTextFromURL(sURL, emHTML, sExtractedText);
  i2dShowInTextViewer(sExtractedText);
end.

 

Atom

powered by Nibbleblog