Прогресс

Ученые рассказали об ошибках и галлюцинациях искусственного интеллекта в «Тотальном диктанте»

Новосибирские ученые рассказали, что не ожидали подобного результата проверки грамотности от системы «Писец». Разработчики открытой системы «Писец» поделились, что результат, достигнутый на «Тотальном диктанте» 20 апреля, превзошел ожидания. «Писец» был разработан научным сотрудником Лаборатории прикладных цифровых технологий Международного научно-образовательного математического центра НГУ и сооснователем стартапа «Сибирские нейросети» Иваном Бондаренко.

Новости СМИ2

Предполагалось, что в первом состязании в грамотности с человеком искусственный интеллект допустит минимум орфографических ошибок, но проиграет в пунктуации. Целью ученых было узнать о совершаемых «Писцом» ошибках и неточностях для дальнейшего совершенствования. Неожиданно программа смогла удовлетворительно расставить запятые и выделить абзацы с помощью выученных «кодовых фраз» вроде «пишем с красной строки» или «переходим на новый абзац». Проверила написание диктанта искусственным интеллектом старший преподаватель кафедры источниковедения литературы и древних языков Гуманитарного Института НГУ Людмила Буднева. – «Писцу» вполне можно было бы поставить твердую «тройку», если бы не несколько обстоятельств. Из 276 слов диктанта он пропустил 6, пять из которых стояли в конце предложения, причем в этих случаях он не ставил точку, но следующее предложение начинал с заглавной буквы. В одном месте пропустил предлог «в», шедший предпоследним в предложении. Еще 7 слов им было услышано неверно. Например, вместо «наивысшего» искусственный интеллект написал «наявившего». Другой пример словотворчества – «кальиончатых» вместо «клеенчатых, – разобрала ошибки Людмила Буднева. Таким образом, в верно услышанных моментах «Писец» справился с задачей хорошо – между «тройкой» и «четверкой». По словам разработчиков, результат оказался выше прогнозируемого. «Писец» создавался для автоматического стенографирования звукозаписей интервью или защит диссертаций. И 20-30 % ошибок в расшифрованных текстах позволяют значительно экономить время по сравнению с записью текста с нуля. Но для диктанта такой процент – это «двойка». – Поэтому в последнюю неделю перед «Тотальным диктантом» мы занимались адаптацией «Писца» к специфике диктанта, а также вносили в него принципиальные улучшения, основанные на результатах наших исследований за последний год. Одно из таких улучшений — применение метода минимизации байесовского инвариантного риска вместо обычного в таких случаях метода минимизации эмпирического риска, – объяснил Иван Бондаренко. Разработчики наметили направление изменений, в частности, повышение устойчивости Whisper-Podlodka к шумам различного рода, которые искусственно добавляются в сигнал с помощью системы аугментатора аудиофайлов, а также дальнейшее погружение в исследование метода минимизации байесовского инвариантного риска, исследование ограничений и слабых мест этого подхода, создание более эффективной модели среды с точки зрения акустики и лингвистики.

Ссылка на первоисточник

Понравилась статья? Подпишитесь на канал, чтобы быть в курсе самых интересных материалов

Общество

Sibkray.ru

Популярные статьи

Свежие комментарии

Прогресс

Ученые рассказали об ошибках и галлюцинациях искусственного интеллекта в «Тотальном диктанте»

Картина дня