Технологія розпізнавання мови – важлива частина багатьох пристроїв і сервісів. Компанії часто публікують вихідні своїх розробок для сторонніх розробників. Наприклад, в січні 2018 року Facebook відкрила вихідний код системи wav2letter.
Китайський стартап AISense запустив безкоштовний сервіс Otter для конвертації голосових повідомлень в текст. Він призначений для розшифровки інтерв’ю, лекцій та особистих заміток.
На основі застосування лежить технологія Ambient Voice Intelligence. Вона розпізнає усне мовлення і в режимі реального часу конвертує її в текстовий формат. В ході перетворення система генерує ключові слова, за якими можна знайти потрібні фрагменти запису.
Визначальною перевагою Otter над конкурентами є висока точність розпізнавання та безкоштовності сервісу. Інші програми для розшифровки аудіо або допускають багато помилок, або коштують досить дорого. Наприклад, представлений в грудні 2017 року сервіс Amazon Transcribe розшифровує 200-хвилинний запис за 4,80 $.
Додаток Otter є в App Store і Google Play. Поки що він безкоштовний, але в майбутньому автори хочуть запровадити платну підписку.
Під час першому запуску Otter потрібно прочитати вголос показаний на екрані текст. Вивчивши запис, система створює «голосовий відбиток» користувача і в наступних записах відокремлює його мова від реплік іншої людини. Посилання на аудіозапис з розшифрованих текстом можна відправити колегам і працювати над матеріалом всією командою.
Звичайно, в роботі програми все ще виникають помилки. Наприклад, штучний інтелект погано розставляє розділові знаки і ще гірше розпізнає слова в галасливих місцях.
Розробкою Otter займаються вихідці з Google і компанії Nuance, що спеціалізується на технологіях розпізнавання мови. Вони представили додаток на виставці Mobile World Congress 2018, оголосивши, що вони вибрали найкращий час для запуску. З огляду на загальнодоступність програми та якість конвертації вони мають рацію.