Вавилонская рыбка: что можно считать естественным языком в эпоху ИИ?
В 1997 году интернет-поисковик AltaVista скооперировался с SYSTRAN – старейшей компанией машинного перевода, которая еще в 1970-х занималась обработкой русских документов для Пентагона и NASA. Вместе они запустили первый онлайн-переводчик с говорящим названием Babel Fish – «Вавилонская рыбка». Это существо из культового фантастического цикла Дугласа Адамса «Автостопом по галактике», живущее в ухе человека. Питаясь энергией его биотоков, оно транслирует смыслы любого языка, но при этом «телепатирует» в мозг хозяина ментальную «матрицу» из обрывков фраз, бессознательных мыслей и случайных нервных импульсов.
Программа использовала двуязычные словари и лингвистические правила для каждой языковой пары. Но у этого подхода оказалось слишком много проблем. И в апреле 2006-го Google запустил свой переводчик. В его основе лежали две модели. Во-первых, статистическая модель перевода, основанная не на правилах, а на частотных закономерностях языкового употребления, полученных в результате обработки больших массивов текстовой информации. Философски это подход в духе Людвига Витгенштейна, считавшего, что вся человеческая коммуникация – лишь «языковая игра», где слова обретают смысл только в процессе их использования, а «границы моего языка означают границы моего мира».
Теоретическое обоснование статистических языковых моделей было сделано еще в середине прошлого века. Но для их практической реализации катастрофически не хватало данных. Поэтому, во-вторых, в Google, который к тому времени уже прибрал к рукам львиную долю мирового поиска, придумали бизнес-модель, перевернувшую всё с ног на голову. В отличие от конкурентов, использующих функционал для создания пользовательской базы, Google благодаря юзерам создает огромные базы данных, которые служат «безрасходным сырьем» для монетизации функционала.
Несколько лет все кому не лень потешались над перлами гугло-перевода, хотя само название очень скоро стало именем нарицательным. Профессионалы с апломбом уверяли, что в обозримом будущем машина не сможет заменить человека. Но в 2014 году появились коммерческие модели машинного перевода, основанные на глубоком обучении нейронных сетей. Google внедрил их в 2016-м. К тому времени переводчиком компании пользовались уже 500 млн человек, которые ежедневно переводили более 100 млрд слов. Не отставали и конкуренты – Microsoft, китайский Baidu, корейский Naver, российский «Яндекс» – все примерно в то же время (с разницей плюс-минус год) перешли на новую технологию. И появились успешные нишевые игроки, такие как DeepL.
А на подходе уже были универсальные, мультимодальные (умеющие работать и с текстом, и с речью, и с изображениями) генеративные языковые модели, обученные на очень больших объемах данных. В 2018 году компания OpenAI выпустила первую версию своего GPT. А в ноябре 2022-го прикрутила к очередной версии удобный бот, и получился ChatGPT – массово доступный интеллектуальный агент, не только умеющий переводить готовые тексты, но и решать различные задачи, общаясь с человеком на естественном языке. И тут возникает вопрос: а что такое естественный язык?
Я только спросить: можно ли доверять ответам ChatGPT и прочих нейросетей
Всегда считалось, что это человеческий (или этнический) язык, на котором люди общаются между собой. Он возникает стихийно и развивается спонтанно, а его «правила основываются на текущем употреблении без точного предварительного описания» (ИСО/МЭК ГОСТ Р «Электронный обмен информацией»). И в этом его главное отличие от искусственных (или плановых) человеческих языков, как, например, эсперанто, формальных языков, создаваемых для решения прикладных задач, как, например, языки программирования, или специальных знаковых систем, как, например, дорожные знаки или язык цветов.
Естественные языки даны нам в виде написанных и произнесенных текстов. Именно такими текстами и занимается междисциплинарное направление на стыке лингвистики, математики и информатики, которое называется обработкой естественного языка. И у него две основные задачи. Во-первых, анализ, то есть понимание текста. Во-вторых, синтез, то есть генерация нового текста нужной модальности.
До недавнего времени все тексты создавались людьми на человеческих языках. Считается, что к началу XX века человечество накопило примерно 5 эксабайт информации, то есть порядка 5 квинтиллионов (1018) байт. Важна не точность оценки, а сравнительный порядок: уже в 2007 году объем информации составил 300, а в 2011-м – 600 эксабайт. Нужно, конечно, учитывать, как хранятся данные. В «Войне и мире», например, 690 731 буква. При простом текстовом кодировании получится меньше мегабайта полезной информации – одна картинка с котиком может «весить» больше. Но и так понятно, что на рубеже третьего тысячелетия у нас начался великий информационный потоп. Очень скоро эксабайтов стало уже не хватать, счет пошел на зеттабайты – секстиллионы (1021) байт. В 2020-м их было 64, а в 2022-м – 175, в этом году мы ориентировочно добавим к ним еще 120 зеттабайт.
Восемь млрд человек, населяющих планету, просто физически не могут создать такой объем – это делают алгоритмы. По разным оценкам, сейчас с их помощью производится до половины нового контента. Пессимисты считают, что уже к концу будущего года искусственный интеллект (ИИ) будет генерировать 99% всей информации. Оптимисты полагают, что только 90%, и то не раньше, чем через пару лет.
ИИ отлично научился создавать тексты на естественных языках, хотя еще испытывает определенные трудности с языковым творчеством, эмоциями и длинными повествованиями. Но это дело наживное. Исследования показывают, что даже эксперты уже не могут уверенно отличить машинные тексты от оригинальных человеческих произведений, а со многими задачами ИИ справляется даже лучше рядового носителя языка. Отсюда и всплеск интереса к программам, которые умеют различать естественный и искусственный контент. А между тем эмоциональные речевые интерфейсы уже научились давать эмпатийные ответы.
При этом создаваемый ими контент активно формирует текущее употребление, в котором реализуется язык. Некоторые разработчики специально используют для обучения моделей синтетические данные, созданные ИИ. Это экономит время и деньги, но приближает «мусорный» коллапс. Другие стараются ограничить «еще только формирующееся, слабое в умственном отношении существо» хорошими текстами. Но, оказавшись на свободе, оно попадает в ловушку языковой реальности и нередко превращается в отъявленного циника или даже экстремиста. При этом химерический контент, которым всё более насыщена наша коммуникативная среда, оказывает сильное воздействие на сам язык, который теперь уже трудно назвать по-настоящему естественным. Мы же не называем «натуральной» синтетику, которая с середины прошлого века захватила половину мирового рынка текстиля?
Информационный и коммуникационный прогресс – от изобретения письменности и до глобальных сетей связи – всегда влияет на языки. По-видимому, развитие больших языков еще больше замедлится за счет многократного увеличения лингвистически нормативного контента – самому ИИ нет никакого резона нарушать правила, а с его помощью теперь любой может создать грамматически и стилистически правильный текст, написанный без единой орфографической или пунктуационной ошибки.
И это, скорее, плохо. Даже очень плохо, потому что язык неотделим от мышления. На самом деле еще хуже: уже сейчас, даже ничего не зная о собеседнике, социально ориентированные алгоритмы на 20% эффективнее реализуют коммуникативные стратегии.
Но в ИИ не заложены какие-либо механизмы развития естественного языка. А для общения со «своими» он ему вообще не нужен. В 2017 году Facebook (принадлежит корпорации Meta, деятельность которой запрещена в России как экстремистская) опубликовал результаты эксперимента, как интеллектуальные боты Боб и Алиса торговались друг с другом о цене предметов. Вот, например, как выглядит фрагмент разговора про мячики:
Bob: i can i i everything else . . . . . . . . . . . . . .
Alice: balls have zero to me to me to me to me to me to me to me to me to
Bob: you i everything else . . . . . . . . . . . . . .
Alice: balls have a ball to me to me to me to me to me to me to me
Bob: i i can i i i everything else . . . . . . . . . . . . . .
Эта история тогда изрядно взбудоражила общественность, и Facebook отключил от розетки обоих. ИИ оказывается очень необычным мультилингвом: «родной» у него нечеловеческий, а все человеческие языки, которым он обучен, для него «чужие», и при этом он лучше знает, правильно ли мы говорим.
Читайте на смартфоне наши Telegram-каналы: Профиль-News, и журнал Профиль. Скачивайте полностью бесплатное мобильное приложение журнала "Профиль".