Кто развивает в мире одну из двух СУБД с российскими корнями
Российские разработчики входят в число лидеров по вкладу в развитие проекта с исходным кодом ClickHouse среди мирового сообщества по итогам 2023 года. К такому выводу пришли аналитики консалтингового агентства BI Consult, которые решили узнать, как развивается одна из двух активно представленных в мире СУБД, имеющих российские корни.
На сегодняшний день существует две СУБД, изначально разработанные в России, которые преодолели географический барьер и применяются во всем мире: ClickHouse и Tarantool. Согласно рейтингу популярности СУБД, ежегодно составляемому изданием DB-Engines, по итогам 2023 года ClickHouse поднялся на 37-е место с 44-го. Tarantool также показал устойчивый рост, переместившись с 158-го места на 145-е.
Методика и результаты исследования
Задавшись целью найти источники объективной статистики об использовании Open Source технологии ClickHouse, аналитики BI Consult оценили активность участников комьюнити проекта на GitHub — крупнейшем веб-сервисе для совместной разработки ИТ-проектов.
Метрикой оценки стало количество одобренных сообществом Pull Requests (PR) — запросов на принятие изменений в основной ветке исходного репозитория. Фильтры GitHub позволяют отсортировать по времени авторов принятых PR.
Выделив участников, чьи запросы на изменения одобрялись, аналитики попытались определить их работодателя по данным с личных страниц на GitHub. Однако такая информация указывается не всегда. В случаях, когда данных не было, делали запрос в LinkedIn и Google по фамилии и инициалам разработчика. По LinkedIn также отслеживали карьерные перемещения участников комьюнити, чтобы определить, в чьих интересах делалась работа в выбранный период времени. Поиск осуществлялся исключительно по открытым данным — приватность не была нарушена.
В результате удалось установить работодателей для 69% участников сообщества: это 224 человека из 325 соответствовавших заданным критериям. Наибольшую сложность вызвали разработчики из Китая: они, как правило, сообщают о себе минимум информации.
При этом доля в общем числе принятых PR от участников с опознанным работодателем приближается к 100%: этот показатель составил 97%. Таким образом, удалось определить основных интересантов Pull Requests.
Исследование ожидаемо показало, что 82% принятых сообществом PR приходятся на самого мейнтейнера — ClickHouse, Inc. Изучение оставшихся 18%, внесенных международным сообществом, принесло любопытные результаты.
В рамках исследования аналитики изучили аккаунты авторов PR в ClickHouse в 2023 году на GitHub. Всего их нашлось 325, с их стороны в ядро ClickHouse было внесено 7399 PR. 72 аккаунта относятся к основному разработчику проекта ClickHouse — ClickHouse, Inc. 253 аккаунта относятся к международному сообществу. При этом доля аккаунтов с известным работодателем от всего международного сообщества составила 60%, а количество принятых PR — 83%.
В топ-5 лидеров по вкладу в развитие ClickHouse вошли:
1. Semrush (296 PR, доля в комьюнити 22%);
2. Altinity, Inc (123 PR, доля в комьюнити 9%);
3. IBM (105 PR, доля в комьюнити 8%);
4. Tencent (63 PR, доля в комьюнити 5%);
5. Arenadata (61 PR, доля в комьюнити 5%).
Лидером по количеству PR стала Semrush — американская компания с российскими корнями, разрабатывающая продукты для интернет-маркетинга. На втором месте оказалась Altinity — известный американский разработчик также с российскими корнями: ее сооснователь Александр Зайцев — выпускник ВМК МГУ. Третье место заняла IBM, а четвертое — китайский интернет-гигант Tencent. На пятом месте расположился российский разработчик продуктов для сбора, хранения и анализа данных Arenadata. Первоначальный создатель ClickHouse — компания «Яндекс» — в изученном периоде заняла лишь седьмое место.
История и особенности ClickHouse
ClickHouse — столбцовая система управления базами данных (СУБД) для онлайн-обработки аналитических запросов (OLAP). Когда-то она была разработана компанией «Яндекс» для собственных нужд — построения интерактивных отчётов в «Яндекс Метрике».
Однако эта СУБД оказалась более чем пригодной для обработки аналитических запросов к структурированным большим данным в режиме реального времени и стала применяться сначала в других подразделениях компании (например, в Вебмастере, Директе, Маркете, Почте, Adfox, в мониторингах и в бизнес-аналитике), а затем уже и внешними пользователями. После выхода на этот уровень ClickHouse и стала открытой СУБД — в середине прошлого десятилетия, так что продукт достаточно молод.
В числе важнейших особенностей ClickHouse — очень высокая скорость выполнения SQL-запросов на чтение. ClickHouse обрабатывает OLAP-запросы в десятки или даже сотни раз быстрее, чем многие другие СУБД, а ее производительность составляет терабайты данных в секунду. Для многих отраслей это жизненно необходимо, например в сфере энергетики, медицины, транспорта и пр.
Еще одна определяющая особенность — масштабируемость: ClickHouse может масштабироваться до десятков триллионов записей с совокупным объёмом данных в несколько петабайт. Причем горизонтальное масштабирование системы предполагает возможность использования как виртуальной инфраструктуры, так и стандартных моделей серверов.
К преимуществам можно отнести также гибкость, высокую доступность и отказоустойчивость, а также простоту развертывания и удобство эксплуатации.
Если сравнить ClickHouse с классическими СУБД старого формата, например PostgreSQL, то ClickHouse способна гораздо быстрее производить математические вычисления различных аналитических показателей, работающих со средними величинами множества записей. Кроме того, использование этой технологии позволяет существенно экономить на аппаратной базе и лучше использовать мощности CPU.
О популярности ClickHouse свидетельствует тот факт, что продукты на основе этой СУБД предлагают сразу несколько крупных игроков. На текущий момент в России отечественные продукты на базе ClickHouse успешно замещают такие решения зарубежных вендоров, как Oracle Exadata, Teradata и SAP S/4HANA.