Администрирование кластера Kafka

Администрирование кластера Kafka

Ближайшая дата курса
23 ноября 2022
11 января 2023
29 марта 2023
Стоимость обучения 60 000 руб. Регистрация
Длительность обучения 24 ак.часов
Код курса KAFKA

Что такое Apache Kafka и где это используется

Apache Kafka — это брокер сообщений (Enterprise bus) в виде распределённой, горизонтально масштабируемой системы обработки сообщений. Kafka используется для централизованного сбора, передачи и непрерывной потоковой обработки большого количества сообщений из различных источников: микросервисы, распределенные приложения, устройства интернета вещей, веб-сайты, соцсети, корпоративные информационные системы и т.д. Основными достоинствами Кафка считаются следующие:
  • горизонтальная масштабируемость,
  • распределенность,
  • долговечность,
  • надежность,
  • интегрируемость с другими Big Data технологиями (NiFi, Spark, Flume, Hadoop),
  • высокая производительность (чтение и запись более 1 миллиона событий в секунду),
  • отказоустойчивость;
  • безопасность.

Как устроена Apache Kafka

Сообщения записываются в разделы топика Кафка и хранятся в течении заданного периода. Приложения-подписчики сами опрашивают Kafka на предмет наличия новых сообщений, и указывают, какие записи им нужно прочесть, увеличивая или уменьшая смещение к нужной записи. Записанные события могут переигрываться или обрабатываться повторно. Кафка обеспечивает различные стратегии доставки сообщений: строго однократная, как максимум однократная, периодическая, поочередная. Сохранность сообщений обеспечивается архитектурой master-slave (ведущий-ведомый), механизмом реплицирования и синхронизацией реплик. Потеря сообщений возможна только в случае сбоя ведущего узла и отсутствия участвующих в синхронизации реплик. Но даже в этом случае есть возможность восстановить смещение необработанного сообщения. Kafka использует ZooKeeper для хранения метаданных о разделах своих топиков и брокерах, а также для выбора брокера в качестве контроллера Кафка. Так обеспечивается надежная согласованность состояния кластера, его конфигурации и обнаружения одноранговых узлов.

Где используется Apache Kafka

На практике Apache Кафка широко применяется в следующих задачах:
  • интерактивный обмен данными между распределенными приложениями и микросервисами;
  • считывание информации из распределенных файловых систем (HDFS, Amazon S3);
  • организация конвейеров обработки данных (data pipeline);
  • прием технологической информации из интеллектуальных устройств Internet of Things (IoT), в т.ч. промышленного интернета вещей (Industrial IoT, IIoT);
  • обработка событий из журналов корпоративных информационных систем;
  • анализ логов пользовательского поведения на сайтах и в соцсетях.
Apache Kafka активно используется во множестве отечественных и зарубежных Big Data проектов, от высоконагруженных веб-платформ обработки больших данных до корпоративных систем управления промышленным производством. Специалисты по Kafka (инженеры данных, администраторы кластера, разработчики Data Flow) востребованы в различных отраслях деятельности: банковский сектор, медицина, промышленные предприятия, страхование, автомобильное производство и т.д.

Для кого предназначены курсы администрирования кластера Кафка

Наши курсы обучения по Kafka ориентированы на системных администраторов, разработчиков Big Data систем и DevOps-инженеров, которые хотят получить следующие знания и навыки:
  • понять, что такое Apache Kafka;
  • научиться устанавливать, настраивать и поддерживать кластера Кафка и Zookeeper;
  • освоить методы администрирования кластера Kafka (Confluent);
  • изучить настройки безопасности для Apache Kafka с использованием SSL, SASL, Kerberos;
  • настраивать мониторинг и оптимизацию очереди сообщений Kafka с использованием практических примеров реализации;
  • интегрировать Apache Кафка с другими Big Data фреймворками (Hadoop, Spark, NiFi, Flume) и внешними системами.
Предварительный уровень подготовки: Знание базовых команд Linux (опыт работы с командной строкой, файловой системой , POSIX, текстовыми редакторами vi, nano)

Как устроены практические курсы по Kafka: структура и содержание

Продолжительность: 3 дня, 24 академических часа.

О курсе: 3-хдневный практический курс по установке и настройке кластера Apache Kafka, распределенной потоковой обработке событий (Event Stream Processing), конфигурации безопасности Kerberos, интеграции с Apache NiFi, Spark, Flume, Zookeeper.

Аудитория: Специалисты желающие изучить методы администрирования и настройки кластера Apache Kafka; настройку безопасности Kafka с SSL и Kerberos; примеры интеграции; мониторинг и оптимизацию кластера Apache Kafka с использованием практических примеров.

Соотношение теории к практике: 40/60

Предварительная подготовка: Знание базовых команд Linux (опыт работы с командной строкой, файловой системой , POSIX, текстовыми редакторами vi, nano)

Программа курса Администрирование кластера Kafka

  1. Введение в Kafka 2
    • Что такое Apache Kafka?
    • Сценарии использования Kafka
    • Компоненты Kafka и Kafka экосистемы
    • Архитектура Kafka
    • Кластер Zookeeper
  2. Основные концепции Kafka 2
    • Как работает Kafka: Топики (Topics) и партиций (Partitions). Репликация данных.
    • Брокеры (Brokers): Развертывание. Конфигурация Multibroker
    • Поставщики данных (Producers): Типы партиций. Синхронные и асинхронные Producers.
    • Потребители данных (Consumers): Очереди Consumers.
  3. Установка кластера Apache Kafka 4
    • Требования по установке кластера Kafka
    • Установка и настройка кластера Zookeeper: Настройка кворума. Конфигурация сервисов и файловой системы. Оптимизация и отказоустойчивость Zookeeper.
    • Установка и настройка кластера Kafka: Планирование установки и sizing кластера Kafka.
    • Типовые проблемы при установке. Запуск и первоначальное конфигурирование Kafka.
    • Конфигурация Listeners. Отказоустойчивость кластера Kafka. Kafka менеджер.
    • Установка кластера Kafka на AWS
  4. Базовые операции в Apache Kafka 2
    • Операции с Топиками (Topic)
    • Публикация данных с консольного Producer
    • Получение данных с консольного Consumer
    • Пользовательские интерфейсы для работы с Kafka
  5. Оптимизация кластера Apache Kafka
    • Оптимизация производительности компонент кластера
    • Масштабирование кластера
    • Балансировка разделов(partition) и использование Partition Reassignment Tools
    • Best Practices Kafka/Confluent
    • Мониторинг кластера Kafka
    • Настройка мониторинга кластера Kafka с использованием Prometheus + Grafana
  6. Интеграция с Apache Kafka 2
    • Использование Apache NiFi
    • Интеграция Apache Flume с Kafka
    • Сценарии интеграции с Apache Kafka
  7. Расширенная конфигурация кластера Kafka 3
    • Расширенная конфигурация топиков (Topic): Изменение конфигурации топиков.
    • Sizing (количество партиций и фактор репликации). Сегменты и индексы. Политика очистки логов (Log Cleanup Policy). Сжатие и консолидация данных в логах.
    • Confluent REST Proxy. Confluent Schema Registry
    • Репликация кластера с использованием Mirror Maker
  8. Безопасность в Kafka 5
    • Шифрование SSL: Установка центра сертификатов (CA), настройка SSL для Kafka кластера и клиентов
    • Аутентификация SSL/SASL
    • Аутентификация Kerberos: Настройка Kerberos. Keytabs и principals. Настройка кластера Kafka и клиентов для поддержки Kerberos
    • Авторизация в Kafka
    • Управление списками управления доступом (ACL)
По необходимости программа может быть адаптирована к потребностям Заказчика.

Программа курса «Администрирование кластера Kafka»

Скачать программу курса «Администрирование кластера Kafka» в формате pdf

Укажите e-mail, на который будет оправлена ссылка для скачивания файла:

Поиск по сайту