Что такое пользовательское секционирование в Apache Kafka

В прошлый раз мы говорили про управление разделами в брокере Kafka. Сегодня поговорим про пользовательское секционирование в распределенной среде Kafka. Читайте далее про механизм пользовательского секционирования, который позволяет более эффективно распределять Big Data по разделам Kafka-топиков.

Пользовательское секционирование в распределенной среде Kafka

Секционирование в Kafka — это распределение данных по разделам Kafka-топика. Раздел — это последовательность Big Data сообщений топика, которые упорядочены в порядке поступления. По умолчанию, Kafka самостоятельно распределяет данные по разделам. Однако бывают случаи, когда под записи с определенным ключом требуется специальный раздел, который будет содержать записи только необходимого заданного ключа. С этой целью выполняется пользовательское секционирование, которое предполагает выделение раздела под указанный ключ. Таким образом, записи указанного ключа будут содержаться только в специальном (пользовательском) разделе [1].

Создание пользовательского разделителя: несколько практических примеров

Для того, чтобы создать пользовательский разделитель, необходимо использовать JAVA-интерфейс Partitioner, который включает методы configure(), partition() и close() [1]:

import org.apache.kafka.clients.producer.Partitioner;
import org.apache.kafka.common.Cluster;
import org.apache.kafka.common.PartitionInfo;
import org.apache.kafka.common.record.InvalidRecordException;
import org.apache.kafka.common.utils.Utils;

public class CustomPartitioner implements Partitioner {
}

Для того, чтобы поместить необходимую запись в специальный раздел, необходимо переопределить метод partition() нашего класса CustomPartition [1]:

public class CustomPartitioner implements Partitioner {
public void configure(Map<String, ?> configs) {}
@Override
public int partition(String topic, Object key, byte[] key, byte[] keyBytes, Object value, byte[] valueBytes, Cluster cluster){
//информация о разделе из необходимого топика
List<PartitionInfo> partitions = cluster.partitionsForTopic(topic);
//общее количество разделов
int numPartitions = partitions.size();
if(key == null){
//исключение при указании нестроковых ключей
throw new InvalidRecordException("We expect all messages to have customer name as key...");
}else{
if(((String)key).equals("custom")){
//запись с заданным ключом попадает в последний раздел, который является специальным
return numPartitions - 1;
}else{
//остальные записи распределяются по другим разделам
return (Math.abs(Utils.murmur2(keyBytes)) % (numPartitions - 1));
}
}
}
@Override
public void close(){
}
}
}

Таким образом, благодаря пользовательскому секционированию, Kafka обеспечивает разработчика возможностью более эффективно распределять данные с целью избегания замедления их обработки. Это делает Apache Kafka универсальным и надежным средством для хранения и обмена большими потоками данных, что позволяет активно использовать этот брокер сообщений в задачах Data Science и разработке распределенных приложений.

Администрирование кластера Kafka

Код курса

KAFKA

Ближайшая дата курса

29 июля, 2024

Продолжительность

24 ак.часов

Стоимость обучения

72 000 руб.

Освоить Apache Kafka на профессиональном уровне в качестве администратора Big Data кластеров, разработчика распределенных приложений и прочих прикладных областях Data Science вы сможете на практических курсах по Kafka в нашем лицензированном учебном центре обучения и повышения квалификации ИТ-специалистов в Москве:

Записаться на курс

Смотреть раcписание

Источники

Н.Нархид, Г.Шапира, Т.Палино. Apache Kafka. Потоковая обработка и анализ данных

Пн	Вт	Ср	Чт	Пт	Сб	Вс
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Что такое пользовательское секционирование в брокере Kafka

Пользовательское секционирование в распределенной среде Kafka

Создание пользовательского разделителя: несколько практических примеров

Администрирование кластера Kafka

Код курса

KAFKA

Ближайшая дата курса

29 июля, 2024

Продолжительность

24 ак.часов

Стоимость обучения

72 000 руб.

Добавить комментарий Отменить ответ

Пользовательское секционирование в распределенной среде Kafka

Создание пользовательского разделителя: несколько практических примеров

Администрирование кластера Kafka

Код курса

KAFKA

Ближайшая дата курса

29 июля, 2024

Продолжительность

24 ак.часов

Стоимость обучения

72 000 руб.

Еще по этой теме

Добавить комментарий Отменить ответ