Вам потрібно швидко і автоматично витягти інформацію з безлічі документів? А вони, до того ж, зберігаються у вигляді сканів або фотографій? Вам пощастило, якщо ви є клієнтом Amazon Web Services (AWS). Amazon оголосила про відкриття доступу до Textract, хмарного і повністю керованого сервісу, який використовує машинне навчання для аналізу таблиць, текстових форм і цілих сторінок тексту в популярних електронних форматах. Поки що він буде доступний лише в деяких регіонах AWS, зокрема у східній частині США (Огайо і Північна Вірджинія), на заході США в штаті Орегон) і ЄС (Ірландія), а в наступному році Textract стане доступний для всіх бажаючих.
Textract — новий сервіс від AWS, який дозволить клієнтам Amazon ефективно розпізнавати і систематизувати колекції документів.
Як стверджує Amazon, Textract значно ефективніший, ніж звичайні оптичні системи розпізнавання символів. З файлів, що зберігаються в кошику Amazon S3, він може витягти вміст полів та таблиць з урахуванням контексту, в якому представлена ця інформація, наприклад, система автоматично виділяє імена та номери соціального страхування у податкових формах або підсумкові суми по сфотографованим квитанціям. Як зазначає Amazon в прес-релізі, Textract підтримує такі формати зображень, як скани, PDF-файли і фотографії, а також ефективно працює з контекстом у документах специфічних для фінансових послуг, страхування та охорони здоров’я.
Textract зберігає результати в форматі JSON, забезпеченого анотаціями з номерами сторінок, розділів, мітками форм і типів даних, і при бажанні інтегрується з сервісами баз даних і аналітики, такими як Amazon Elasticsearch Service, Amazon DynamoDB, Amazon Athena, та продуктами для машинного навчання, такими як Amazon Comprehend, Amazon Comprehend Medical, Amazon Translate і Amazon SageMaker, для постобробки. В якості альтернативи отримані дані можуть бути передані безпосередньо в сторонні хмарні сервіси для цілей забезпечення відповідності в бухгалтерському обліку та аудиті або для підтримки інтелектуального пошуку в архівах документів. Як стверджує Amazon, Textract може “точно” обробити мільйони сторінок різних документів за «всього кілька годин».
Безліч клієнтів AWS вже використовують Textract, включаючи Globe and Mail, національну метеорологічну службу Великобританії, PricewaterhouseCoopers, некомерційну організацію керованої медичної допомоги Healthfirst і компанії по автоматизації роботизованих процесів UiPath, Ripcord і Blue Prism. Candor, стартап, метою якого є привнести прозорість в іпотечну галузь, використовує Textract, щоб витягувати дані з таких документів, як банківські виписки, платіжні квитанції і різні податкові документи, щоб прискорити процес схвалення кредиту для своїх клієнтів.
«Міць Amazon Textract полягає в тому, що він точно отримує текстові і структуровані дані практично з будь-якого документа без необхідності попереднього машинного навчання», — розповідає віце-президент Amazon Machine Learning Свамі Сивасубраманян (Swami Sivasubramanian). «На додаток до інтеграції з іншими сервісами AWS, велика спільнота, що розвивається навколо Amazon Textract, дозволяє нашим клієнтам отримувати реальну користь від своїх колекцій файлів, працювати більш ефективно, покращувати відповідність вимогам безпеки, автоматизувати введення даних і прискорювати прийняття бізнес-рішень».