Движок оптического распознавания символов (OCR) с открытым исходным кодом, включающий в себя программу командной строки - tesseract. Tesseract поддерживает юникод (UTF-8) и может распознавать более 100 языков «из коробки». Tesseract поддерживает различные форматы вывода: простой текст, hOCR (HTML), PDF, TSV.