Проект по анализу использования языка людьми в интернете закрылся из-за загрязнения данных нейросетями

Создательница проекта Wordfreq, который отслеживал публикации в интернете для определения популярности слов, объявила о закрытии проекта. Причина — «загрязнение данных» генеративным искусственным интеллектом.

Система отслеживала более 40 языков, анализируя статьи в Википедии, субтитры к фильмам, новости, книги, а также Twitter и Reddit. Она использовалась учёными для анализа языковых паттернов и меняющейся культуры.

Разработчик Робин Спир отметила, что сегодня интернет заполнен «мусором», который создают нейросети. Этот «мусор» искажает частоту использования слов. Большие языковые модели генерируют текст, маскирующийся под настоящий язык.

Например, ChatGPT злоупотребляет словом «вникать». Это резко повысило частоту использования этого слова, но люди его используют не так часто.

Спир также отметила, что почти все инструменты для анализа текста используются для обучения нейросетей. Google, OpenAI и другие компании щедро финансируют эти инструменты.

Получение данных стало сложнее, так как Twitter и Reddit начали взимать плату за доступ к своим API из-за их использования для обучения нейросетей.

Спир считает, что после 2021 года у нас нет надёжной информации об использовании языка людьми.