«Дадата» экономит сотрудникам аналитического сервиса для застройщиков по 20 часов в месяц

Ребята две недели учили Excel исправлять ошибки в адресах новостроек и вторичек. А наш сервис «Стандартизация» справился с задачей за минуты — лучше самописных формул. Рассказываем, как теперь все работает.

Сервис аналитики для застройщиков собирает информацию о рынке жилья

Компания-герой статьи — аналитический сервис для застройщиков в Новосибирске и Иркутске. Такой сервис собирает и показывает информацию о новостройках и вторичном жилье: дома на карте, площадь квартир, число нераспроданных квартир и этап строительства. Заодно анализирует сведения и предлагает застройщикам отчеты.

В районе всего одна новостройка, в которой не распродали две квартиры

Благодаря информации от сервиса строительные компании правильно выбирают место стройки и тип жилья. В результате люди охотно покупают квартиры в новом доме, и застройщик зарабатывает.

Например, компания построила дом в районе с еще 20 новостройками. В каждой из них раскупили только 10% квартир. Предложение выше спроса, поэтому жилье в очередном здании покупать не будут. А если в новостройках раскупили все квартиры, то и в новом доме разберут.

Или компания построила дом с квартирами-студиями. А в других домах в районе — дорогие квартиры с большой площадью. Тогда есть риск, что новые квартиры не купят: целевая аудитория района не живет в студиях. 

В исходных адресах вторичек полно ошибок

Раз в месяц сотрудники отдела аналитики сервиса актуализируют информацию: находят новые дома и вторичное жилье в продаже, агрегируют, проверяют, выкладывают на сайт. 

Информацию о новостройках — первостепенную для сервиса — собирают операторы. Сведения берут на сайтах застройщиков, проверяют и вносят в базу в едином формате. Если на сайте недостаточно информации, оператор ищет ее где-то еще. Например, звонит в офис продаж застройщика.

А вот информацию о вторичном жилье собирают автоматически из открытых источников в интернете — для скорости. Результат — excel-файл, в котором адреса не разделены по полям и записаны с ошибками. Так происходит, потому что их заполняют собственники квартир как попало:

Если из строчек базы не выделить город, улицу и номер дома, аналитики не смогут работать и делать выводы. А если не убрать из данных ошибки, застройщики перестанут доверять сервису.

Ошибки исправляли прямо в Excel. На это уходило по 20 часов каждый месяц

Когда ребята автоматически собирали данные о вторичках в новом городе, получали массив на 10 000 строк. Из него доставали правильные город, улицу и номер дома в отдельных полях. Это делали в четыре этапа.

1. Выделяли города. Адреса из одного населенного пункта записывают более или менее в одном формате, поэтому проще работать с каждым городом по отдельности.

Сначала работали отдельно с адресами Иркутска, затем — с адресами Ангарска

2. С помощью замен удаляли лишние данные. Например, у адресов в конце повторяется «Иркутск, Иркутская область». Это лишняя информация, поэтому ее заменяли на пустоту. И так до тех пор, пока не оставались город и улица с номером дома: 

3. Делили один столбец на несколько, чтобы улица и номер дома были в отдельных полях. Без этого не исправить ошибки в названиях улиц — на следующем шаге.

4. Убирали ошибки в названиях улиц. Для этого с помощью формул сопоставляли исходный список с ФИАС (ГАР) — справочником адресов налоговой службы.

Скажем, улицу записали с ошибкой — «Депутттская». В идеале формула сопоставит ее с похожей в базе ФИАС — Депутатской. На деле же формула часто ошибалась и сопоставляла Дупутатскую, например, с Дворцовой.

Ребята пытались автоматизировать процесс, но проблемы остались: 

  • формулы не давали идеального результата: пропускали ошибки, и аналитики исправляли их руками;
  • базу ФИАС (ГАР), с которой сопоставляли улицы, обновляют дважды в неделю. Приходилось каждый раз скачивать актуальную версию;
  • в будущем аналитикам требовались географические координаты домов, чтобы строить отчеты в Power BI. В массиве данных с информацией о вторичках координат не было. Поэтому в дополнение к Excel пришлось бы использовать сервис, который ищет широту и долготу домов. Это неудобно — проще работать с адресами в рамках одного инструмента.

«Дадата» исправляет ошибки за пару минут

Чтобы сэкономить время, аналитики сервиса загружают исходный excel-файл с адресами вторичек в инструмент «Стандартизация» «Дадаты». Он автоматически разделяет 10 000 адресов на отдельные поля, проверяет улицы и дома по актуальной базе ФИАС (ГАР), исправляет ошибки и выдает координаты дома. Обработка такого файла стоит 1500 ₽.

На выходе получают excel-файл, с которым аналитикам удобно работать:

«Дадата» разделила данные по полям. Теперь легко объединить адреса по городам и улицам

«Стандартизация» тоже ошибается, но таких случаев единицы. Точность сервиса — 99,99%: одна ошибка на 10 000 проверенных контактов. А если не уверен в разборе, сигнализирует аналитикам: мол, проверьте-ка адрес вручную. Для этого показывает специальные маркеры — коды качества.

«Стандартизация» готовит адреса, ФИО, телефоны и емейлы к бизнес-задачам

«Стандартизация» за раз очистит клиентскую базу, которую собирали годами. Или excel- и CSV-файлы, которые достались от подрядчиков. Базу в 10 000 строк сервис обработает за минуты: так быстрее, чем проверять данные вручную.

После очистки контакты сразу готовы к доставке заказов, рассылкам, обзвонам, аналитике и отчетам.

Не пропускайте важные материалы

Подпишитесь в соцсетях

Публикуем ссылку на статью, как только она выходит. А еще даём знать о новых фичах и срочных новостях. Например, напишем, если налоговая потеряет данные по организациям в свежей выгрузке или API «Дадаты» перестанет отвечать.

Подпишитесь на рассылку

Раз в месяц присылаем на почту новые статьи из блога и обновления сервисов «Дадаты». Не тревожим без повода и не шлем спам.