Зачем нужна индексация документов?
Главный смысл индексации документов – в структуризации данных и возможности дальнейшего быстрого поиска документа или данных по нужным параметрам.
Современные компании работают с разными носителями информации – от классических бумажных документов, до документов с электронной цифровой подписью. Часто не важно какой формат документа использовался, а важно иметь данные, расположенные на этом документе. Индексирование документов позволяет создать базу данных, нужную для работы, загрузить её в одну систему, и работать с данными, не прибегая к поиску бумажных документов.
Независимо от того, где вы находитесь, все документные данные, нужные для работы, могут быть у вас под рукой – например, в вашем смартфоне. При индексировании документов мы сначала сканируем документы, присваивая ID каждой скан-копии и затем проводим индексирование документов, связывая полученные данные со скан-копиями документов так, что по ключевым параметрам вы можете найти и скан-образ документа.
Что нужно знать перед тем, как заказать индексирование документов?
Так как индексирование документов направлено на создание базы полезных данных, перед заказом услуги по индексированию документов нужно определить какие данные вы хотите распознать. Мы можем подсказать вам как определить набор этих данных.
Как выбрать поля для индексации документов
Наиболее частые поля документов для индексации это:
- Дата документа
- Номер документа
- Наименование контрагента
- Реквизиты контрагента
- Сумма документа
Кроме стандартных вышеперечисленных полей следует добавить те, которыми вы оперируете внутри компании для работы с документами, например:
- Номер филиала, где был подписан документ
- ID/наименование продукта
- Номер сделки
- И т.д.
Как мы осуществляем индексирование документов
Индексирование документов в ОСГ осуществляется через сканирование документов и распознавание данных со скан-образов документов.
Перед сканированием мы определяем маски типовых документов и настраиваем нейросети для выделения нужных данных. Во время сканирования нейросети определяют место нахождения данных на документе, а система OCR и другие системы автоматического распознавания данных считывают и распознают нужные символы.
Сервера ОСГ, на которых располагается информация во время индексирования, находятся в закрытой DMZ зоне, которая закрыта по периметру при помощи аппаратных средств Cisco и модуля системы обнаружения вторжений. Визуально данные также защищены – во время ручной индексации операторы видят только фрагмент документа, а не полностью скан-образ.
При необходимости человеческого контроля, например, при работе с рукописными документами, мы используем ручной ввод данных. В случае ручного ввода обученные специалисты ОСГ центра обработки данных индексируют документы, работая через специальные приложения ОСГ.
Все извлечённые данные проходят процедуру верификации через перекрёстную сверку параметров документа, а также через двойной ввод данных в случаях, когда применялась ручная индексация.
Пример индексирования стандартных учётных документов
Клиент определил нужные поля для последующего занесения в 1С:
Результат индексирования документов
тип документа | счет-фактура |
номер документа | 6754-12 |
дата документа | 20.08.2019 |
контрагент | Про Презентация, ООО |
ИНН | 8612886004 |
сумма | 233 400,00 |
НДС | 42 012,00 |