Автоматизированные архивные технологии
Главная страница Автоматизация архивной деятельности
Новости
Статьи
Программы
   АвтоАФ 10
   АвтоФонд 6
   АвтоОпись
Скачать
Купить
FAQ (ЧаВО)
Отзывы
Автор
Обзор софта
Разное
Книги
Ссылки
Карта сайта
 

Сканирование и распознавание архивных описей в FineReader, сканирование таблиц

Статьи | Работа с архивными описями дел

Купить ABBYY FineReader 9.0 Corporate Edition
Купить дешевле ABBYY FineReader Home Edition

Отсканировать и распознать архивную опись в FineReader намного быстрее, чем набирать её вручную в Word’е или тем более набирать её вручную в Архивном Фонде.

1. Сканируйте не каждую страницу по отдельности, а несколько страниц в автоматическом режиме. Поставьте задержку 4 сек. – этого хватит для переворачивания страницы.

2. Выберите режим сканирования – серая шкала. Сканирование в чёрно-белом режиме очень сильно усложнит распознавание. Выбирайте этот режим только для современных описей с очень хорошим качеством, напечатанных на лазерном или хорошем матричном принтере. Сканирование в цветном режиме замедляет работу сканера, увеличивает объём файлов на диске, на качество распознавания не влияет.

2.1. Растяните окно «Изображение» пошире, чтобы сразу видеть результаты сканирования. Окно «Текст» пока не требуется, уменьшите его размер.

2.2. Начните сканирование. Сканируйте все листы архивной описи, включая титульный и заверительные листы. В процессе сканирования в автоматическом режиме от вас требуется только переворачивать листы – всё остальное программа может сделать сама.

3. Если границы ячеек чётко выражены (современные качественные архивные описи), попробуйте запустить фоновое распознавание во время сканирования.

4. Чаще границ нет (старые описи, напечатанные на печатной машинке, из Лексикона). Чтобы не размечать блоки вручную на каждой странице, можете их сохранять и загружать. Выделите блок «Таблица» на второй странице (где есть таблица, не нет шапки описи), установите вручную столбцы, сохраните выделение и загрузите для всех страниц.

4.1. Выберите инструмент «Выделить блок Таблица», выделите блок.

4.2. Выберите инструмент «Добавить вертикальную линию», выделите столбцы.

4.3. Сохраните шаблон – выберите меню Изображение | Сохранить шаблон блоков….

4.4. Выделите страницы без размеченных блоков (все, если нет предисловия, титульного листа) в окне «Пакет» – щёлкните на третьей странице, нажмите Shift и держите, щёлкните по последней странице. Как вариант – выделите все страницы. Загрузите блоки – выберите меню Изображение | Загрузить шаблон блоков…. Выберите ранее сохранённый файл. Теперь на всех страницах пакета блоки выделены.

4.5. Подправьте на всех страницах блоки. Удерживая Alt, сдвиньте мышкой блок, чтобы совместить с таблицей описи. Добавьте горизонтальные границы – выберите инструмент «Добавить горизонтальную линию», щёлкайте мышью в тех местах, где должны отделять строки друг от друга линиями. Для быстрого перехода к следующей/предыдущей странице используйте клавиши Alt+Вниз, Alt+Вверх.

5. Если архивная опись напечатана на печатной машинке или на матричном принтере из Лексикона, установите в настройках тип печати «Пишущая машинка».

5.1. Выберите меню Сервис | Опции… На вкладке «Общие» нажмите кнопку «Дополнительные опции…». Выберите Тип печати «Пишущая машинка».

Дополнительные опции
Тип печати Пиш.машинка

6. Запустите фоновое распознавание – выберите меню Процесс | Запустить фоновое распознавание.

7. По мере сканирования/распознавания можете выделять блоки (если ещё не выделены), поправлять, и исправлять ошибки распознавания.

7.1. Растяните окно «Текст» пошире, уменьшите размер окна «Изображение».

8. Пройдитесь по всем страницам, исправьте ошибки распознавания. Для быстрого перехода к следующей/предыдущей странице используйте клавиши Alt+Вниз, Alt+Вверх. При редактировании сверяйтесь с увеличенным изображением ниже текста – в Word’e придётся сверять с бумажным оригиналом, что совсем неудобно.

8.1. Проверьте неверно распознанные переносы – часто FineReader вместо мягких переносов вставляет дефис (де-фис). Выберите меню Правка | Найти…. В строке «Текст для поиска» наберите «-^l» (или наберите дефис, щёлкните кнопку >> и выберите меню Мягкий перенос). Таких ошибок не очень много, поэтому обязательно проверьте весь текст.

8.2. Распознавать столбец «Номер дела» необязательно, т.к. вы можете номера дел в Word’е расставить автоматически через списки. АвтоАФ поддерживает подобную нумерацию. Дела можете пронумеровать также через АвтоОпись.

9. Передайте результаты в Word. В опциях отмените мягкие переносы и графику.

9.1. Выберите меню Сервис | Опции… На вкладке «4. Сохранить» нажмите кнопку «Форматы…». На вкладке «RTF/DOC/Word XML» выберите оформление «Таблицы, абзацы, шрифты».

9.2. Снимите галочки  Сохранять деление на строки,  Сохранять деление на страницы,  Сохранять цвет текста. В Word’е не придётся удалять лишние разрывы страниц, опись будет состоять из одной таблицы, а не из нескольких отдельных.

9.3. Поставьте галочку  Удалять мягкий перенос. Мягкие переносы обычно никогда не нужны и только мешают.

9.4. Можете поставить галочку  Выделять неуверенно распознанные символы (в FineReader подкрашены голубым), тогда они будут подкрашены и в Word’е. После проверки описи снимите выделение.

9.5. Снимите галочку  Сохранять картинки, чтобы в Word’е не оказалось лишних чёрных линий.

Опции сохранения

9.6. Выберите меню Процесс | Сохранить результаты | Передать все страницы в | Microsoft Word.

Передать все страницы в | Microsoft Word

10. В Word’е выделите всё, установите один формат шрифта, формат абзаца, уберите лишнее оформление.

11. Удалите лишние абзацы, разрывы строк, страниц, разделов между таблицами, чтобы таблицы слились в одну.

12. Чтобы выровнять все столбцы, преобразуйте таблицу в текст и обратно в таблицу.

12.1. Удалите все знаки абзаца из ячеек таблицы.

Выберите меню Правка | Заменить…. В поле «Найти» введите текст ^p (знак абзаца). В поле «Заменить на» введите пробел (нажмите один раз пробел). Нажмите кнопку «Заменить все». На вопрос о продолжении поиска нажмите «Нет».

Если заголовки состоят из нескольких абзацев, например заголовок и аннотация, то сохраните знаки абзацев. Замените знаки абзаца на какой-либо другой текст, например @@@.

12.2. Таблицу преобразуйте в текст. Выберите меню Таблица | Выделить | Таблица. Выберите меню Таблица | Преобразовать | Таблицу в текст…

12.3. Текст преобразуйте в таблицу – выберите меню Таблица | Преобразовать | Текст в таблицу…. Выберите автоподбор ширины столбцов «По содержимому», чтобы ширина каждого столбца настроилась автоматически – номер, количество поуже, заголовок пошире. Выберите разделителем «Знак табуляции».

При необходимости после преобразования таблиц замените обратно текст @@@ на знак абзаца ^p.

13. Отмените перенос строк в таблице, чтобы каждый заголовок целиком помещался на странице. Выберите меню Таблица | Выделить | Таблица. Выберите меню Таблица | Свойства таблицы…. На вкладке «Строка» снимите галочку  Разрешить перенос строк на следующую страницу.

Через АвтоОпись отменить перенос строк проще и быстрее.

14. Оформите заголовки Рубрикатора описи, чтобы не отрывались от текста и не оставались в конце страницы. Выделите строку таблицы с заголовком рубрикатора – выберите меню Таблица | Выделить | Строка. Установите жирный шрифт. Выберите меню Формат | Абзац…. На вкладке «Положение на странице» поставьте галочку  Разбивка на страницы | не отрывать от следующего.

Через АвтоОпись оформить заголовки Рубрикатора проще и быстрее.

15. Удалите лишние пробелы, поставьте нужные, сверстайте. Одновременно на всех этапах выявляйте ошибки распознавания.

16. Готовую опись проверьте через программу АвтоОпись.

17. Готовую опись сохраните как текст, перенесите в Архивный Фонд через АвтоАФ.

АвтоАФ может перенести описи и с заголовками «то же».

18. Распознанный пакет сохраните в виде картинок в формате JPEG для фонда пользования – выберите меню Файл | Сохранить результаты | Сохранить изображения…. Поставьте галочку  Сохранить страницы | Все. Выберите Тип файла «JPEG, серый (*.jpg)»..

Попробуйте сохранить изображения в формате без искажений и обработать программой IBCB для очистки фона.

19. Сохраните всю опись в формате PDF или DJVU – выберите меню Файл | Сохранить результаты | Сохранить страницы…. Поставьте галочку  Сохранить | Все страницы. Выберите Тип файла «Документ PDF (*.pdf)». Чтобы выбрать нужное качество сохранения, нажмите кнопку «Формат…»..

Сохранять текст под графикой???

Вы можете свободно использовать данный текст при условии распространения его в неизменном виде. Перепечатка и изменение допускается только после согласования с автором, Плотниковым Сергеем Александровичем – zoth@bk.ru.

© 2006–2007 Плотников Сергей Александрович

Дата последнего изменения: 23.10.2007

P.S. В новой версии FineReader 9.0 интерфейс существенно изменён. Программа на описях не тестировалась.

При создании памятки помогли статьи «Руководство пользователя для пользователя» и «Текст в интерфейсе»

Памятка Работа с таблицами при подготовке описей

Памятка Как добоавить закладки в pdf файл

Памятка 10 заповедей Word

Макрос Сохранение файла в обычном текстовом формате

Программы АвтоОпись и АвтоАФ

Для просмотра PDF файлов используйте Foxit PDF Reader

 

Понравилась статья? Расскажите о ней друзьям!

© 2004–2022 Сергей Плотников, сайт Автоматизированные архивные технологии
Rambler's Top100