KAFKA: Администрирование кластера Kafka

Все курсы

Практический курс Администрирование кластера Kafka

Код курса Даты начала курса Стоимость обучения Длительность обучения Формат обучения
KAFKA
09 декабря 2024
12 февраля 2025
72 000 руб. 24 ак.часов Дистанционный
Регистрация

3-хдневный практический курс по установке, настройке и администрированию кластера Apache Kafka/Confluent, распределенной потоковой  обработке событий (Event Stream Processing), конфигурации безопасности Kerberos, интеграции с Apache NiFi и Greenplum.

Что такое Apache Kafka и где это используется

Apache Kafka — это брокер сообщений (Enterprise bus) в виде распределённой, горизонтально масштабируемой системы обработки сообщений. Kafka используется для централизованного сбора, передачи и непрерывной потоковой обработки большого количества сообщений из различных источников: микросервисы, распределенные приложения, устройства интернета вещей, веб-сайты, соцсети, корпоративные информационные системы и т.д.

Основными достоинствами Кафка считаются следующие:

  • горизонтальная масштабируемость,
  • распределенность,
  • долговечность,
  • надежность,
  • интегрируемость с другими Big Data технологиями (NiFi, Spark, Flume, Hadoop),
  • высокая производительность (чтение и запись более 1 миллиона событий в секунду),
  • отказоустойчивость;
  • безопасность.

Программа курса Администрирование кластера Kafka

1. Введение в Kafka

2. Основные концепции Kafka

  • Как работает Kafka: Топики (Topics) и партиций (Partitions). Репликация данных.
  • Брокеры (Brokers): Развертывание. Конфигурация Multibroker
  • Поставщики данных (Producers): Типы партиций. Синхронные и асинхронные Producers.
  • Потребители данных (Consumers): Очереди Consumers.

3. Установка кластера Apache Kafka

  • Требования по установке кластера Kafka
  • Установка и настройка кластера Zookeeper: Настройка кворума. Конфигурация сервисов и файловой системы. Оптимизация и отказоустойчивость Zookeeper.
  • Установка кластера Kafka без использования Zookeeper KIP-500
  • Установка и настройка кластера Kafka: Планирование установки и sizing кластера Kafka.
  • Типовые проблемы при установке. Запуск и первоначальное конфигурирование Kafka.
  • Конфигурация Listeners. Отказоустойчивость кластера Kafka.
  • Установка кластера Kafka на Yandex Cloud

4. Базовые операции в Apache Kafka

  • Операции с Топиками (Topic)
  • Публикация данных с консольного Producer
  • Получение данных с консольного Consumer
  • Пользовательские интерфейсы для работы с Kafka

5. Оптимизация кластера Apache Kafka

  • Оптимизация производительности компонент кластера
  • Масштабирование кластера
  • Балансировка разделов(partition) и использование Partition Reassignment Tools
  • Best Practices Kafka/Confluent
  • Мониторинг кластера Kafka
  • Настройка мониторинга кластера Kafka с использованием Prometheus/Zabbix + Grafana

6. Интеграция с Apache Kafka (обзорно)

  • Использование Apache NiFi
  • Интеграция Apache  Hadoop с Kafka
  • Сценарии интеграции с Apache Kafka

7. Расширенная конфигурация кластера Kafka

  • Расширенная конфигурация топиков (Topic): Изменение конфигурации топиков.
  • Sizing (количество партиций и фактор репликации). Сегменты и индексы. Политика очистки
    логов (Log Cleanup Policy). Сжатие и консолидация данных в логах.
  • Confluent REST Proxy. Confluent Schema Registry (обзорно)
  • Репликация кластера с использованием Mirror Maker 2

8. Безопасность в Kafka

  • Шифрование SSL: Установка центра сертификатов (CA), настройка SSL/TLS для Kafka кластера и
    клиентов
  • Аутентификация SSL/SASL
  • Аутентификация Kerberos: Настройка Kerberos. Keytabs и principals. Настройка кластера Kafka и клиентов для поддержки Kerberos
  • Авторизация в Kafka
  • Управление списками управления доступом (ACL)

Как устроена Apache Kafka

Сообщения записываются в разделы топика Кафка и хранятся в течении заданного периода. Приложения-подписчики сами опрашивают Kafka на предмет наличия новых сообщений, и указывают, какие записи им нужно прочесть, увеличивая или уменьшая смещение к нужной записи. Записанные события могут переигрываться или обрабатываться повторно. Кафка обеспечивает различные стратегии доставки сообщений: строго однократная, как максимум однократная, периодическая, поочередная. 

Сохранность сообщений обеспечивается архитектурой master-slave (ведущий-ведомый), механизмом реплицирования и синхронизацией реплик. Потеря сообщений возможна только в случае сбоя ведущего узла и отсутствия участвующих в синхронизации реплик. Но  даже в этом случае есть возможность восстановить смещение необработанного сообщения. Kafka использует ZooKeeper для хранения метаданных о разделах своих топиков и брокерах, а также для выбора брокера в качестве контроллера Кафка. Так обеспечивается надежная согласованность состояния кластера, его конфигурации и обнаружения одноранговых узлов.

Где используется Apache Kafka

На практике Apache Кафка широко применяется в следующих задачах:

  • интерактивный обмен данными между распределенными приложениями и микросервисами;
  • считывание информации из распределенных файловых систем (HDFS, Amazon S3);
  • организация конвейеров обработки данных (data pipeline);
  • прием технологической информации из интеллектуальных устройств Internet of Things (IoT), в т.ч. промышленного интернета вещей (Industrial IoT, IIoT);
  • обработка событий из журналов корпоративных информационных систем;
  • анализ логов пользовательского поведения на сайтах и в соцсетях.

Apache Kafka активно используется во множестве отечественных и зарубежных Big Data проектов, от высоконагруженных веб-платформ обработки больших данных до корпоративных систем управления промышленным производством. Специалисты по Kafka (инженеры данных, администраторы кластера, разработчики Data Flow) востребованы в различных отраслях деятельности: банковский сектор, медицина, промышленные предприятия, страхование, автомобильное производство и т.д.

Для кого предназначены курсы администрирования кластера Кафка

Наши курсы обучения по Kafka ориентированы на системных администраторов, разработчиков Big Data систем и DevOps-инженеров, которые хотят получить следующие знания и навыки:

  • понять, что такое Apache Kafka;
  • научиться устанавливать, настраивать и поддерживать кластера Кафка и Zookeeper;
  • освоить методы администрирования кластера Kafka (Confluent);
  • изучить настройки безопасности для Apache Kafka с использованием SSL, SASL, Kerberos;
  • настраивать мониторинг и оптимизацию очереди сообщений Kafka с использованием практических примеров реализации;
  • интегрировать Apache Кафка с другими Big Data фреймворками (Hadoop, Spark, NiFi, Flume) и внешними системами.

Предварительный уровень подготовки:

  • Уверенное знание базовых команд Linux (опыт работы с командной строкой, файловой системой , POSIX, текстовыми редакторами vi, nano)
  • Базовые знания настройки компонент безопасности (Kerberos, PKI, LDAP)

Как устроены практические курсы по Kafka: структура и содержание

О курсе

Продолжительность: 3 дня, 24 академических часа.

Соотношение теории к практике 50/50

3-хдневный практический курс по установке и настройке кластера Apache Kafka, распределенной потоковой  обработке событий (Event Stream Processing), конфигурации безопасности Kerberos, интеграции с Apache NiFi, Spark, Hadoop.

Вы изучите необходимый теоретический минимум, чтобы понять основные концепции этого брокера сообщений и узнаете некоторые особенности управления кластером Кафка. Преподаватель курса администрирования Apache Kafka подробно объяснит все тонкости установки, конфигурирования, мониторинга и прикладного использования этой Big Data системы, чтобы вы могли самостоятельно работать с ней в реальности.

На практике вы развернете собственный кластер Apache Kafka, настроив его конфигурацию, средства обеспечения информационной безопасности (cybersecurity) и инструменты мониторинга.

Аудитория

Курс предназначен для специалистов, которые хотят изучить:

  • методы администрирования и настройки кластера Apache Kafka;
  • настройку безопасности Kafka с SSL и Kerberos;
  • примеры интеграции;
  • мониторинг и оптимизацию кластера Apache Kafka с использованием практических примеров;
  • практику развертывания кластера Kafka в облаке Yandex;
  • особенности использования Yandex Manager Service для Apache Kafka

Предварительная подготовка

  • Уверенное знание базовых команд Linux (опыт работы с командной строкой, файловой системой, POSIX, текстовыми редакторами vi, nano)

По необходимости программа может быть адаптирована к потребностям Заказчика. 

Кто проводит курс

prepod-n-kommisarenko.jpg
Преподаватель Школы Больших Данных

Комиссаренко Николай

Томский Политехнический Институт (Томск, 1994)
Профессиональные компетенции:
  • Сертифицированный тренер Arenadata (2019)
  • Построение Data Lake и аналитика больших данных на решениях Arenadata, Cloudera, HortonWorks, EMC (Hadoop, Isilon), Pivotal, облачные решения, cистемы хранения данных уровня enterprise, информационная безопасность
  • EMC Certified Instructor (2007)
  • Dell EMC Specialist – Cloud Architect (2006)
  • Dell EMC XtremeIO, Isilon – Storage Aministrator, Data Science Specialist (2006)
  • IT Service Manager (2006)
  • Certified Information System Security Professional (CISSP) (2006 -2010)
  • Certified Information Security Manager (CISM)

География наших клиентов

  • Москва
  • Санкт-Петербург
  • Нижний Новгород
  • Екатеринбург
  • Казань
  • Краснодар
  • Красноярск
  • Перьм
  • Челябинск
  • Новосибирск
  • Томск
  • Тверь
  • Саратов
  • Самара
  • Ростов-на-Дону
  • Хабаровск
  • Волгоград
  • Калуга
  • Якутск
  • Севастополь
  • Тольяти
  • Владивоссток
  • Тюмень
  • Южно-Сахалинск
  • Уфа
  • Ставрополь
  • Минск
  • Алматы
  • Астана
  • Ташкент
  • Душанбе
  • Бешкек
Если у Вас остались вопросы Вы можете позвонить к нам по телефону +7 (495) 414-11-21  или заполнить форму обратной связи на сайте.
Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.

Поиск по сайту