Истории 19 января 2024

Интернет состоит из плохих машинных переводов — исследование

Истории 19 января 2024

Елена Лиханова

Старший редактор RB.RU

Елена Лиханова

Исследователи из Amazon Web Services AI lab обнаружили, что более половины текстов в интернете были переведены на 2 языка или больше, причем часто качество текста падало из-за плохого машинного перевода.

Это вызывает серьезные опасения по поводу развития больших языковых моделей: современный ИИ требует огромных объемов обучающих данных, собрать которые можно только в сети.

Подписаться на RB.RU в Telegram

«На самом деле мы заинтересовались этой темой, потому что несколько коллег, которые работают с машинными переводами и являются носителями редких языков, отметили, что большая часть веб-ресурсов на их родном языке, похоже, сгенерирована машинами», — объясняет Мехак Даливал, бывший стажер по прикладным наукам в AWS и нынешний аспирант Калифорнийского университета, Санта-Барбара.

«Идея пришла от носителей редких языков, и мы провели исследование, чтобы лучше понять проблему и увидеть, насколько она распространена. С учетом сказанного, каждый должен осознавать, что контент, который он просматривает в интернете, возможно, был сгенерирован машиной», — добавляет Даливал.

В рамках исследования был сформирован корпус из 6,38 млрд предложений, собранных в интернете.

57,1% предложений в корпусе имели параллельные соответствия как минимум на 3 языках.

Как и все продукты машинного обучения, машинный перевод подвержен влиянию человеческих предубеждений и ориентирован на языки, на которых говорят в западном мире и развитых странах. Из-за этого качество переводов сильно разнится, а редкие языки, например те, на которых говорят в Африке, предоставляют недостаточно обучающих данных, чтобы получать качественные тексты.

«В целом, мы заметили, что у большинства языков, как правило, есть параллельные соответствия на самых распространенных языках. Предложения с большей вероятностью будут переведены на французский, чем на какой-либо редкий язык, просто потому, что на французском гораздо больше данных, чем на языке с низким уровнем ресурсов», — комментирует Даливал.

В рамках исследования распространенные языки, такие как английский или французский, как правило, имели средний уровень параллелизма, равный 4, то есть у предложения были эквиваленты на трех других языках. У редких языков, например африканских волоф или коса, средний уровень параллелизма составлял 8,6. Кроме того, переводы на них были гораздо хуже.

«Чем больше переводов на разные языки есть у предложения, тем ниже качество переводов, что свидетельствует о высокой распространенности машинного перевода» — говорится в статье.

Также исследование выявило, что для языков с множеством параллельных соответствий существовала склонность к отбору более коротких, «более предсказуемых» предложений из 5-10 слов. Из-за того, насколько короткими были предложения, исследователям было трудно охарактеризовать их качество.

Впрочем, по мнению ученых, исследование было довольно поучительным: «Подавляющее большинство поступало из статей, которые мы охарактеризовали как некачественные, не требующие значительного опыта или усилий для создания, на темы вроде того, как добиться серьезного отношения на работе, осторожнее принимать решения, как решить быть счастливым или шесть советов для новых владельцев лодок и так далее».

Читайте по теме:

Новая версия Midjourney 6.0: как составлять запросы с пользой для бизнеса

OpenAI хочет получить лицензии от CNN, Time и Fox на использование их материалов ChatGPT

Как компании решают проблему галлюцинаций ИИ

Исследователи утверждали, что предвзятость в выборе коротких предложений из некачественных статей была вызвана тем, что «низкокачественный контент (вероятно, созданный для получения дохода от рекламы) массово переводился с помощью машинного перевода на более редкие языки (опять же, вероятно, с целью получения дохода от рекламы). Это также предполагает, что такие данные изначально появляются на английском и переводятся на другие языки».

По словам исследователей, это означает, что значительная часть текстов на редких языках в интернете — плохие машинные переводы, что ставит под вопрос разработку больших языковых моделей на этих языках.

Исследование приводит такие выводы: «Современный искусственный интеллект требует огромных объемов обучающих данных, обычно от нескольких сотен миллиардов до нескольких триллионов токенов. Обучение в таком масштабе возможно только с использованием данных, собранных в интернете.

Наши результаты вызывают многочисленные опасения у разработчиков многоязычных моделей: уровень владения языком (особенно в предложениях) и точность машинного перевода ниже, что может привести к созданию моделей с низким уровнем языка и большим количеством галлюцинаций, а предвзятость отбора указывает на то, что данные могут быть более низкого качества, даже если не учитывать ошибки машинного перевода».

Источник.

Обложка снегерирована нейросетью Midjourney

Подписывайтесь на наш Telegram-канал, чтобы быть в курсе последних новостей и событий!