RSS
Новости
Реклама

ЗДЕСЬ МОГЛА БЫТЬ ВАША РЕКЛАМА!

Балаболка Утилита для извлечения текста из файлов

Программа предназначена для извлечения текста из файлов различных форматов. Извлеченный текст может быть объединен в один файл и/или разбит на несколько файлов. К тексту могут быть применены правила из словарей коррекции произношения программы "Балаболка".

Поддерживаются форматы файлов: AZW, AZW3, CHM, DjVu, DOC, DOCX, EPUB, FB2, HTML, LIT, MHT, MOBI, ODT, PDB, PDF, PRC, RTF, TCR, TXT, WPD. Интерфейс IFilter будет использован для неизвестных программе форматов файлов.

Утилита не имеет графического интерфейса и выполняется в текстовом режиме. Режим работы программы может быть задан при помощи параметров командной строки или файла конфигурации.

Программа выполняет операции в следующем порядке:

  1. Извлечь текст из файла или нескольких файлов.
  2. Форматировать текст: удалить лишние пробелы, разрывы строк и т.д. (если заданы соответствующие параметры).
  3. Объединить текст в один файл (если задан соответствующий параметр).
  4. Разбить текст на части (если заданы соответствующие параметры).
  5. Применить правила коррекции произношения (если заданы соответствующие параметры).
  6. Сохранить файл или файлы на диске.

Загрузить утилиту


Размер файла: КБ
 
Версия:
 
Тип лицензии: Freeware
 
Операционная система:
Командная строка

Программа может быть настроена с помощью параметров командной строки. Они отделяются друг от друга пробелом и начинаются с символа "-" (дефис). Полный список параметров командной строки можно получить, введя команду blb2txt.exe с параметрами -? или -h.


-f имя_файла
Имя файла или маска для имен файлов, из которых требуется извлечь текст. Командная строка может содержать несколько параметров -f.
-v имя_папки
Имя папки для сохранения файла с извлеченным текстом.
-p имя_файла
Шаблон для имени файла с извлеченным текстом (например, "Текстовый документ"). Если параметр не задан, используется имя исходного файла. Используйте переменную %FirstLine% в шаблоне для имени файла, чтобы вставить первую строку текста из документа. Используйте переменную %Number% в шаблоне, чтобы поменять позицию порядкового номера внутри имени файла.
-i
Читать данные из стандартного потока ввода (STDIN). Формат файла будет автоматически определен по содержимому потока данных. Если параметр задан, параметр -f игнорируется.
-o
Записать текст в стандартный поток вывода (STDOUT). Если параметр задан, параметры -v и -p игнорируются.
-u
Объединить текст из нескольких файлов в один файл.
-b
Добавить порядковый номер перед именем файла.
-a
Добавить порядковый номер после имени файла.
-n число
Установить стартовый порядковый номер файла. По умолчанию значение равно 1.
-e кодировка
Кодировка файла с извлеченным текстом ("ansi", "utf8" или "unicode"). По умолчанию значение равно "ansi".
-t число
Задать способ разбиения текста: использование заданного размера файла. Число обозначает количество килобайт.
-k ключевое_слово
Задать способ разбиения текста: поиск ключевого слова в исходном файле. Параметр является регистрозависимым. Командная строка может содержать несколько параметров -k.
-r ключевое_слово
Поделить текст на ключевом слове и удалить его из текста. Параметр является регистрозависимым. Командная строка может содержать несколько параметров -r.
-w
Задать способ разбиения текста: поиск двух пустых строк подряд.
-l
Задать способ разбиения текста: поиск строки, где все буквы заглавные.
-d имя_файла
Использовать словарь для коррекции произношения (файл с расширением *.REX или *.DIC). Командная строка может содержать несколько параметров -d.
-if
Использовать интерфейс IFilter для извлечения текста. Если фильтр для формата файла отсутствует в системе, программа использует свой метод извлечения текста.
-pwd текст
Задать пароль для извлечения текста из файла формата PDF.
-? или -h
Показать описание параметров командной строки.
--remove-spaces
Удалить лишние пробелы (два и более пробела подряд, неразрывные пробелы).
--remove-hyphens
Удалить знаки переноса на концах строк в тексте.
--remove-linebreaks
Удалить разрывы строк внутри абзацев.
--remove-empty-lines
Удалить все пустые строки.
--replace-empty-lines
Заменить несколько пустых строк одной пустой строкой.
--remove-square-brackets
Удалить текст внутри [квадратных скобок].
--remove-curly-brackets
Удалить текст внутри {фигурных скобок}.
--remove-angle-brackets
Удалить текст внутри <угловых скобок>.
--fix-ocr-errors
Исправить ошибки, возникшие при оптическом распознавании текста (только для языков с кириллическими алфавитами).



Примеры команд

Извлечь текст из документа DOOK.DOC и сохранить как текстовый файл "Новая книга.txt":

blb2txt -f "d:\Docs\book.doc" -v "d:\Text\" -p "Новая книга"



Извлечь текст из файлов форматов DOC и RTF, удалить пустые строки и сохранить как текстовые файлы в кодировке UTF-8:

blb2txt -f "d:\Docs\*.doc" -f "d:\Docs\*.rtf" -v "d:\Text\" -e "utf8" --replace-empty-lines



Извлечь текст из всех файлов, объединить и сохранить как текстовый файл "Документ.txt":

blb2txt -f "d:\Docs\*.*" -v "d:\Text\" -p "Документ" -u



Извлечь текст из документа 1.DOC, разбить на части размером 100 Кб и сохранить как файлы с именами "Документ 20.txt", "Документ 21.txt":

blb2txt -f "d:\Docs\1.doc" -v "d:\Text\" -p "Документ" -a -n 20 -t 100



Извлечь текст из книги BOOK.FB2, найти слова "ГЛАВА" и "ОГЛАВЛЕНИЕ" для того, чтобы разбить текст на части и сохранить как файлы с именами "Книга 1.txt", "Книга 2.txt":

blb2txt -f "d:\Book\book.fb2" -v "d:\Text\" -p "Книга" -k "ГЛАВА" -k "ОГЛАВЛЕНИЕ"



Извлечь текст из книги BOOK.EPUB, найти символы "###" для того, чтобы разбить его на части, и удалить символы из текста:

blb2txt -f "d:\Book\book.epub" -v "d:\Text\" -p "Книга" -r "###"



Прочесть текст из стандартного потока ввода, удалить лишние пробелы, разрывы строк внутри абзацев и пустые строки, записать текст в стандартный поток вывода:

blb2txt -i -o --remove-spaces --remove-linebreaks --replace-empty-lines



Файл конфигурации

Параметры можно сохранить как файл конфигурации blb2txt.cfg в той же папке, что и консольное приложение.

Пример содержимого файла:

-f d:\Docs\*.rtf
-f d:\Books\*.epub
-f d:\Books\*.fb2
-v d:\Text
-b
-n 1
-t 25
-e utf8
-d d:\rex\rules.rex
-d d:\dic\rules.dic
--remove-spaces
--remove-linebreaks
--replace-empty-lines

Программа может комбинировать параметры из файла конфигурации и командной строки.




Лицензия

Право на некоммерческое использование программы:

  • для физических лиц - без ограничений;
  • для юридических лиц - с учетом ограничений, перечисленных в "Лицензионном соглашении" программного продукта "Балаболка".

Коммерческое использование программы допускается только с разрешения правообладателя.