Колонки 29 мая 2023

Кто публикует самые важные научные исследования в AI?

Колонки 29 мая 2023

Стас Важенин

Head of Strategy & Research, NtechLab

Алина Алещенко

Все, что мы видим в новостях сегодня про AI, — это лишь часть айсберга, в то время как под водой скрывается огромный объем фундаментальных научных исследований с десятками тысяч научных публикаций в рецензируемых журналах и на конференциях.

Изучать всю эту «академию» сложно, и это могут позволить себе только те, у кого достаточно свободного времени, ну или те, кто, собственно, пишут эти исследования. Но можно сделать ход конем — посмотреть на топ-100 наиболее резонансных работ в AI и в целом сделать неплохие выводы, кто и куда движет нас в области искусственного интеллекта.

Стас Важенин, Head of Strategy & Research в NtechLab, автор Telegram-канала Full Ratchet, сделал краткий обзор топ-100 наиболее цитируемых статей за последние годы в ИИ. Кто их публикует? Кто спонсирует? О чем говорят больше всего? Как выглядит топ-5 чемпионов и топ-100 научных статей в области ИИ? Он вдохновился данными с платформы Zeta Alpha, а цитируемость взял с Semantic Scholar, Scopus, WoS.

Подписаться на RB.RU в Telegram

Содержание:

Дисклеймер
Так что было интересного за последние 3 года?
TL;DR
А где Россия?
Сам список топ-100 статей
Топ-5 наиболее цитируемых академических статей за 2022

Для людей, не близко знакомых с научным процессом, уточню, важность научных публикаций — это не только распространение информации, но и верификация результатов исследований, а еще — главная мера эффективности научной работы. Это и отличает исследовательскую статью от, например, этого материала.

Дисклеймер

Согласен, индекс цитирования, который я беру за основу, не самая верная метрика для оценки влиятельности публикации, если считать по разным источникам, как Scopus, Semantic Scholar или Google. Сегодня, например, мы видим резонанс вокруг глубокого обучения. В результате там больше всего статей, там работает больше всего людей, больше конференций. И, следовательно, больше цитирований в общем. Ну, вы поняли.

Для тех, у кого совсем нет времени, TL;DR в последнем абзаце.

Так что было интересного за последние 3 года?

Давайте сначала разберемся, кто вообще драйвит всю эту «ИИ-академию». Если посмотреть на количество самых цитируемых работ в области ИИ за последние 3 года, мы увидим, что США доминирует. Более половины статей из топ-100 вышли из США, по 10% из Китая, Великобритании, Германии. А еще раньше США публиковали вообще две трети всех статей из топ-100.

Доля США, конечно, снижается в последнее время, но хочу обратить внимание на другой факт — данные в графике приводятся только по англоязычным исследованиям, то есть пишутся на английском языке.

Несмотря на это, Китай удерживает второе место.

На английском языке. Очень убедительно. А что творится в самой Китайской академии, так это и вовсе космос, там работ сотни тысяч. Но про это я напишу как-нибудь в следующей статье.

Любопытно также, что Европа представлена лишь несколькими странами. Можно особенно выделить Великобританию, основные работы в области AI в стране публикует DeepMind, на них пришлось почти 70% всех академических статей. Deepmind — это такой исследовательский локомотив в области AI, которую Google приобрела за $500 млн в 2014 году.

Читайте по теме: Китайские ученые стали мировыми лидерами по количеству научных статей

Давайте теперь посмотрим на авторов нашего списка топ-100 наиболее цитируемых работ. Исследовательские подразделения Google уже достаточно долго чувствуют себя очень уверенно в лидерах. За ним следуют академические научные подразделения из Meta, Microsoft, UC Berkeley и Стенфордского университета.

Может показаться очень неочевидным: а зачем корпорациям вообще лезть в академическую область? Даже целый ряд IT-гигантов из Fortune 500 содержат подразделения, занимающиеся чисто фундаментальными исследованиями в разных областях, от экологии до AI, среди которых — IBM, Huawei, Tencent, Amazon, и многие другие.

Обычно компании содержат такие команды в конкурентных гонках за инновациями, талантами, патентами, репутацией.

Короче, это я к чему — академические институции, от которых, кажется, должен быть сильнейший выхлоп исследований по качеству и количеству, часто оказываются не главными движущими силами всей этой истории. Наоборот — оказывается, корпорации мощнее и звонче выкатывают больше самых резонансных работ.

Если посмотреть по общему количеству научных публикаций, то Google также лидирует. При этом второе и третье места в рейтинге (университет Цинхуа и University и «Майкрософт») отстают с незначительной разницей (график ниже). На графике можно заметить, что нет OpenAI и Deepmind — эти организации публикуют меньше работ, но если публикуют — делают это красиво.

Много — не значит качественнее. Чтобы было понятно — Google публикует под 9 тыс. статей, из которых только 20 попадают в топ-100 самых цитируемых, а OpenAI и Deepmind публикуют чуть меньше 100 статей, из которых в топ-100 попадают сразу около 10.

Другим любопытным наблюдением для меня стало появление китайского университета Цинхуа в топ-3 организаций по общему количеству научных публикаций. А также в топе Пекинский университет, Китайский университет Гонконга и университет Наньянг.

Еще раз обращу внимание, что это рейтинг англоязычного академического мира.

Ну и последний график — о том, какая доля выпущенных работ конвертируется в топ-100 самых резонансных. То есть насколько хорошо организации выкатывают публикации, которые реально стреляют и расходятся аки пирожки. И мы увидим безоговорочное лидерство OpenAI с их блокбастерами. Далее следуют R&D группа EleutherAI, китайский ИИ вендор Megvii, Deepmind и другие. Спасибо маркетингу и, безусловно, качеству работ.

TL;DR

Ключевые темы последнего года, вокруг которых сосредоточена сотня лучших научных работ в области AI, следующие:

разработка алгоритмов обработки естественного языка,
моделей компьютерного зрения,
исследование алгоритмов в робототехнике,
сетки и алгоритмы для работы с визуальным контентом,
инфраструктура для развертывания нейросетей.

Наиболее цитируемые работы сегодня — это чисто биоинжинерные темы про сворачивание белков и предсказание 3D-структуры белков с AlphaFold и Colabfold, нейросетка DALL-E 2, архитектуры сеток ConvNet и языковая сетка PaLM от Google.

Больше всего статей генерят корпорации, университеты и Китай — Google AI, университет Цинхуа, «Майкрософт», Карнеги — Меллон, MIT. А наиболее влиятельные выкатывают в большинстве корпорации: Google AI, Meta, «Майкрософт» и Беркли.

А где Россия?

Большая, отдельная тема. Но если кратко — за 2020 год в России было около 1120 научных публикаций в области AI в рецензируемых журналах. В 2021 году было уже около 1700 научных публикаций, но это только на русском языке. Общее количество публикаций от российских исследователей хоть и стабильно растет, но все еще небольшое — остается на уровне 1% от мировых.

В рейтинге стран, исследователи которых опубликовали наибольшее число статей в рецензируемых журналах по AI, мы находимся на 18-м месте. Это неплохо. В 2021 году мы поднялись на 3 места, с 22-го на 18-е. Нас обгоняют Индонезия, Бразилия, Нидерланды, Иран, Индия, Корея и другие страны.

Самые активные организации по публикациям на конференциям в России стабильно являются Сколтех, НИУ ВШЭ, МФТИ, ИТМО. Три ведущих университета — Сколтех, НИУ ВШЭ, МФТИ можно особенно похвалить — они ответственны за 82% всех публикаций на конференциях. Среди коммерческих организаций самые активные у нас — «Яндекс», «Сбер», российские подразделения Samsung AI, Huawei.

Сам список топ-100 статей

Ссылка на данные в Notion

Топ-5 наиболее цитируемых академических статей за 2022

1. AlphaFold Protein Structure Database. Нейросеть AlphaFold 2 для расширения покрытия баз протеиновых структур

Саммари: «Гугловое» подразделение DeepMind выкатило работу про вторую версию своей революционной системы предсказания 3D-структуры белков. Фактически им удалось решить задачу фолдинга белка, которая оставалась неразрешенной более 50 лет.

Автор: DeepMind
1520 цитирований
Ссылка на исследование

2. Colabfold: making protein folding accessible to all. Эффективная опенсорсная модель фолдинга белков

Саммари: Новый подход для предсказания 3D-структуры белков инструментом ColabFold на платформе Google Colab. Очень важная работа, поскольку задача фолдинга белков требует больших вычислительных мощностей, а с Colabfold становится доступной и демократизированной для всех.

Авторы из нескольких организаций
1300 цитирований
Ссылка на исследование

3. Hierarchical Text-Conditional Image Generation with CLIP Latents. Универсальный классификатор изображений

Саммари: Статья о методе генерации изображений, использующем совместное пространство векторных представлений текста и изображений, полученных из модели CLIP.

Авторы из OpenAI
890 цитирований
Ссылка на исследование

4. A ConvNet for the 2020s. ConvNet — сверточная нейронная сеть

Саммари: Статья про подход к созданию сверточных нейронных сетей для анализа и классификации изображений. Авторы предлагают легкую архитектуру для таких сеток. Речь идет про два компонента — блоки построения признаков и адаптивное объединение.

Автор: Meta & UC Berkeley
740 цитирований
Ссылка на исследование

5. PaLM: Scaling Language Modeling with Pathways. Массивная языковая сетка от Google, новая инфраструктура MLOps и ее производительность

Саммари: Статья о методе обучения языковых моделей, который позволяет существенно снизить количество параметров и мощности, не уменьшая при этом точности. Речь в статье идет как раз про новую архитектуру языковой модели PAM (Pathaway Aggregated Language Model).

Автор: Google
560 цитирований
Ссылка на исследование

Фото на обложке: Shutterstock / Gorodenkoff

Иллюстрации предоставлены автором.

Подписывайтесь на наш Telegram-канал, чтобы быть в курсе последних новостей и событий!

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Материалы по теме

ВОЗМОЖНОСТИ

29 апреля 2024

Neiry

30 апреля 2024

Поддержка малого и среднего бизнеса от Минэкономразвития и VK

30 апреля 2024

Твой старт в туризме

30 апреля 2024

Гранты стартапам от CloudMTS

30 апреля 2024

Sk Global Camp

Все ВОЗМОЖНОСТИ

Новости

Кто публикует самые важные научные исследования в AI?

Дисклеймер

Так что было интересного за последние 3 года?

TL;DR

А где Россия?

Сам список топ-100 статей

Топ-5 наиболее цитируемых академических статей за 2022

Материалы по теме

ВОЗМОЖНОСТИ

Популярное

«Жутко агрессивное сочетание цветов»: в соцсетях обсудили ребрендинг «Яндекс Маркета»

Автоматизация или Excel: почему компании продолжают вести учет в таблицах

Product Hunt: что это такое?

ИИ-стартап студентов Университета Иннополис привлек 10 млн рублей

Топ лучших смартфонов 2024 года