Разработка универсального AI решения для парсинга прайс-листов
Требования к решению:
- Язык: Python
- Сервис: Document AI, AWS Textract, Azure AI Document Intelligence- Автоматический анализ структуры документа для определения таблиц и извлекаемых данных.
Вход:
Ссылка на файл (Google Drive) или прямой доступ к документу.
Пример ссылки на Excel: https://drive.google.com/file/d/1hXe2nw_NdrHuVIEZ6WFbH-GgR9NLdO1TDWqD9Ot7Yzk/view
Особенности:
Возможность настройки параметров парсинга для конкретной структуры таблицы.
Извлечение данных о апартаментах в формате JSON.
Обработка специфических условий (например, продано/доступно).
Прайс-листы будут различаться по структуре и формату. Решение должно предусматривать гибкость настройки для адаптации к разным типам таблиц и документов.
Итоговый формат данных должен быть одинаковый для всех источников данных.
Пример данных:[ { "suite": "101", "type": "Condo", "model": "A", "total size (sq ft)": 1000, "interior (sq ft)": 800, "exterior (sq ft)": 200, "view": "South", "baths": 2, "suite pricing": 1000000, "floorplan": "https://example.com/floorplan-101", "sold": false, "bedrooms": 2 }]
Срок: 1 неделя
Оплата: крипто, перевод на карту РФ