«Биорг» нормализует по ГАР оцифрованные адреса: клиенты получают актуальные машиночитаемые данные и экономят

Компания. «Биорг» — российский разработчик технологий и сервиса для оцифровки документов, распознавания изображений, идентификации личности (KYC) на базе искусственного интеллекта. Гарантируют качество распознанных данных не ниже 99%. 

Среди заказчиков — банки УБРиР и MC Bank Rus, страховые «Ренессанс» и «Уралсиб», ОЦО «Лотос» и «АПК», МФО «МигКредит».

Проблема. Заказчикам «Биорга» нужны оцифрованные адреса в формате ГАР. Иначе их внутренние системы не смогут автоматически обмениваться данными. Но в паспортах адреса записывают не по ГАР, поэтому заказчикам приходится нанимать верификаторов — людей, которые будут вручную приводить оцифрованные адреса к ГАР. Это долго, дорого и чревато ошибками.

Объем. 5 млн строк с данными в месяц.

Решение. «Биорг» отправляет оцифрованные адреса в наш сервис «Стандартизация». Он автоматически нормализует по ГАР адреса, записанные как угодно. После этого отправляют адреса во внутренние системы заказчиков. 

Результат. Заказчики «Биорга» экономят на верификации данных. И получают конкурентное преимущество в виде данных, обработанных «под ключ».

«Биорг» распознает паспорта клиентов для банков, страховых, ритейла

Банкам, МФО, страховым и ритейлерам нужны паспортные данные клиентов: ФИО, дата рождения, серия и номер паспорта, дата выдачи и адрес регистрации. Информацию используют, например, чтобы:

  • идентифицировать клиентов по 115-ФЗ;
  • находить людей в клиентской базе и схлопывать дубли;
  • анализировать и сегментировать клиентскую базу;
  • составлять договоры на обслуживание.

Компании получают паспортные данные двумя способами:

  1. Клиент вводит сведения в веб-форме на сайте или в приложении. Либо приносит документ в отделение, а там сотрудник вручную перепечатывает реквизиты.
  2. Клиент загружает скан или фотографию паспорта, либо сотрудник делает скан в процессе обслуживания. Так быстрее и нет ошибок: люди не вводят данные вручную, а значит, не пропустят букву и не перепутают цифру.

В этом кейсе речь пойдет как раз о втором способе — работе со сканами и фотографиями паспортов. 

Условному банку и страховой компании мало получить скан клиентского паспорта. Дальше картинку нужно оцифровать — извлечь паспортные данные.

Человек посмотрит на скан и поймет, когда выдали паспорт. А вот, скажем, кредитный конвейер так не умеет. Ему нужны данные в машиночитаемом формате: например, в XML или JSON.

«Биорг» распознаёт и переводит в электронный вид данные со сканов и фотографий паспортов. Все работает по API: скан отправляют в сервис «Распознавание паспортов». Тот оцифровывает реквизиты паспорта и отправляет во внутренние системы компаний: например, в 1С, Siebel, MS Dynamics, SAP. 

«Биорг» оцифровал паспорт. Теперь можно использовать данные в бизнес-задачах банка и страховой

Проблема. Оцифрованные адреса отличаются от тех, которые используют заказчики. Это затрудняет обмен данными в их внутренних системах

Клиентам «Биорга» важно получить паспортные данные в стандартизированном виде. Если данные унифицированы, внутренние системы банки или страховой обмениваются информацией автоматически, без препятствий. 

Как правило, после оцифровки часть паспортных данных всегда стандартна. Их можно сразу использовать в работе.

Скажем, номер паспорта — шесть цифр. Дата выдачи — дата вида ДД.ММ.ГГГГ. Во внутренних системах данные записаны ровно так, как в паспорте. 

Проблема возникает с адресами регистрации — со страницы «Место жительства»:

В паспортном столе улицу могут записать как угодно. Например, «пр-д Ферганский» или «Ферганский проезд»

Внутренние системы банков и страховых, как правило, работают с адресами в формате ГАР — Государственного Адресного Реестра. Это справочник налоговой, самая полная база адресов в РФ.

Противоречие в том, что в реальных паспортах адреса могут быть записаны как угодно: не по ГАР, с разными вариантами одних и тех же наименований, с сокращениями, пропущенными элементами и компонентами в разном порядке. Так происходит, потому что наименования формулируют в паспортном столе, часто не подглядывая в справочники.

Например, вот варианты одной и той же улицы из реальных паспортов: ул. Жукова, ул. имени Жукова, ул. М.Жукова, ул. Марш.Жукова, ул. Жукова Маршала, ул. Имени Четырежды Героя Советского Союза Жукова Георгия Константиновича.

Другой пример. В одном паспорте адрес записали в административно-территориальном делении: «Дагестан район Агульский село Амух». А в другом — в муниципальном: «Дагестан муниципальный район Агульский сельское поселение сельсовет Амухский село Амух».

Оцифрованные адреса отличаются от ГАР, поэтому внутренние системы банков и страховых не могут нормально работать.

Например, возникает риск: кредитный конвейер банка не поймет, что два человека живут по одному и тому же адресу. Следовательно, что это одно домохозяйство, например, муж с женой. А значит, что одному из них нельзя давать кредит, ведь другой уже просрочил два займа.

Или, наоборот, добропорядочный заемщик получит отказ, потому что его адрес система прочитает иначе.

Для таких случаев банки и страховые нанимают верификаторов. Это специальные люди, которые вручную обрабатывают оцифрованные адреса: ищут в справочнике ГАР и исправляют. Это лоскутная автоматизация, к тому же из-за большого объема ручной однотипной работы в данных появляются ошибки. Польза от работы со сканами пропадает.

Решение. Автоматически нормализуют адреса по ГАР с помощью «Дадаты»

Задача «Биорга» — автоматически приводить оцифрованные адреса, записанные кое-как, к формату ГАР. Это гарантия, что адреса считает каждая внутренняя система банка и страховой. 

Задачу решили с помощью сервиса «Стандартизация» «Дадаты». Он автоматически приводит адреса к ГАР и заодно делает две полезные вещи: 

  1. Раскладывает адрес на компоненты: район, населенный пункт, улица, дом, квартира. Можно записать компоненты в соответствующие поля базы данных и, например, анализировать клиентов в разрезе города или улицы.
  2. Достает коды ГАР — уникальные идентификаторы адресов в адресной системе налоговой. Часть банков и страховых оперируют не текстовыми адресами, а такими идентификаторами. Это особенно полезно для интеграции с 1С.  
«Стандартизация» привела адрес к ГАР, разложила на компоненты, определила код ГАР (ФИАС ID)

Сервис интегрировали в схему оцифровки, по API:

  1. «Биорг» на своей стороне распознает паспорт заказчика.
  2. Адрес из паспорта отправляется по API в «Дадату» — в виде запроса.
  3. «Дадата» присылает «Биоргу» ответ — нормализованный адрес.
  4. «Биорг» собирает нормализованные данные в единый файл и выгружает в систему заказчика. Для заказчика процесс нормализации данных проходит бесшовно.

Теперь «Биорг» гарантирует заказчикам проект распознавания «под ключ»: может выгружать в системы банков и страховых сразу нормализованные адреса. Заказчикам не нужно самостоятельно верифицировать данные и приводить их к нормализованному формату. Это экономит время, деньги и снижает риск ошибок. 

По словам ребят, за год работы «Стандартизация» всего дважды ошибочно нормализовала адрес. Это случилось при обработке документов из географически удаленных от федерального центра регионов РФ и сельской местности. Об ошибках оповестили нашу поддержку, поведение «Стандартизации» исправили, проблема больше не повторяется.

Как подключить «Стандартизацию»

«Стандартизация» обрабатывает данные:

  1. По API. Можно отправлять запросы с «грязными» адресами и получать ответы с «чистыми». Так делает «Биорг». Документация.
  2. В файлах Excel и CSV. Инструкция.

Сервис не входит в подписку на «Дадату». Оплачивается каждый обработанный запрос по API или строка в загруженном файле. Первые 100 — бесплатно. Зарегистрируйтесь, чтобы протестировать сервис.

Как подключить сервис распознавания документов «Биорга»

«Биорг» автоматически распознает документы для крупного бизнеса и госведомств. Чтобы подключить сервис, запишитесь на бесплатную демонстрацию. Ребята покажут инструмент в действии и проконсультируют по вашим задачам.

А еще можно сразу протестировать сервис распознавания документов — на примере паспортов РФ, селфи и каких-угодно документов. Это бесплатно, но нужно зарегистрироваться в личном кабинете на сайте. После регистрации вам автоматически начислят 100 бонусных рублей, это эквивалент 25 распознаваний. На тестирование дадут две недели.

Похожий кейс. ics-it определяют коды ГАР, чтобы автоматически сопоставлять торговые точки с эталонной клиентской базой

Задача. Получать базы торговых точек от дистрибьюторов и торговых сетей, и затем автоматически сопоставлять эти базы с эталонным справочником торговых точек. Это нужно, чтобы обогатить исходный перечень географической иерархией и недостающими атрибутами, удалить записи-дубликаты.

Решение. Сопоставлять торговые точки по кодам ГАР. Определять коды, отправляя адреса точек сервису «Стандартизация» «Дадаты».

Результат. «Стандартизация» автоматически определяет коды ГАР для 70-80% исходных адресов. Оставшиеся 20% адресов операторы обрабатывают вручную. На основе кода ГАР исходный адрес дополняют географической иерархией.

В статье — подробности: откуда и в каком виде приходят адреса, зачем нужно определять их коды ГАР, как базы торговых точек сопоставляли без «Дадаты» и как все работает теперь.

Не пропускайте важные материалы

Подпишитесь в соцсетях

Публикуем ссылку на статью, как только она выходит. А еще даём знать о новых фичах и срочных новостях. Например, напишем, если налоговая потеряет данные по организациям в свежей выгрузке или API «Дадаты» перестанет отвечать.

Подпишитесь на рассылку

Раз в месяц присылаем на почту новые статьи из блога и обновления сервисов «Дадаты». Не тревожим без повода и не шлем спам.