其他

数据读取带键的Kafka记录：高效处理真实数据

悠悠楠杉

2025-12-21

0 评论

37 阅读

正在检测是否收录...

12/21

读取带键的Kafka记录是Apache Flink的一个重要功能。Flink提供了高效的读取器和同步读写机制，能够轻松处理异步消息源。以下是实现高效读取带键Kafka记录的具体步骤：

1. 读取Kafka记录

在Flink中，我们可以使用NewTableRead或NewMapReduceRead来读取Kafka记录。以下使用NewTableRead来实现：

flink
import org.apache.flink.data.table.TableRead;
import org.apache.flink.data.table.Column;

public class KafkaRead {
private final String keyColumn;
private final String titleColumn;
private final String descriptionColumn;
private final String filePath;

public KafkaRead(String keyColumn, String titleColumn, String descriptionColumn, String filePath) {
    this.keyColumn = keyColumn;
    this.titleColumn = titleColumn;
    this.descriptionColumn = descriptionColumn;
    this.filePath = filePath;
}

@Override
public Table read() {
    return Table.read(
        input = new TableRead(
            keyColumn = keyColumn,
            titleColumn = titleColumn,
            descriptionColumn = descriptionColumn,
            filePath = filePath,
            lastLine = null
        ),
        map = true
    );
}

}

2. 处理键值对

在读取Kafka记录后，我们可以将键值对结构进行处理。假设我们希望将标题、关键词和描述提取出来，我们可以将键读取为标题，值读取为关键词和描述。

flink
import org.apache.flink.data.table.Column;

public KafkaRead(String keyColumn, String titleColumn, String descriptionColumn, String filePath) {
private final String keys = keyColumn;
private final String titleColumn = titleColumn;
private final String descriptionColumn = descriptionColumn;
private final String filePath;

public KafkaRead(String keyColumn, String titleColumn, String descriptionColumn, String filePath) {
    this.keys = keyColumn;
    this.titleColumn = titleColumn;
    this.descriptionColumn = descriptionColumn;
    this.filePath = filePath;
}

@Override
public Table read() {
    return Table.read(
        input = new TableRead(
            keyColumn = keys,
            titleColumn = titleColumn,
            descriptionColumn = descriptionColumn,
            filePath = filePath,
            lastLine = null
        ),
        map = true
    );
}

}

3. 转换数据

接下来，我们可以将处理好的键值对结构转换为字典或向量。例如，将标题、关键词和描述转换为字典：

flink
import org.apache.flink.data.table.Column;

public KafkaRead(String keyColumn, String titleColumn, String descriptionColumn, String filePath) {
    this.keys = keyColumn;
    this.titleColumn = titleColumn;
    this.descriptionColumn = descriptionColumn;
    this.filePath = filePath;
}

@Override
public Table read() {
    return Table.read(
        input = new TableRead(
            keyColumn = keys,
            titleColumn = titleColumn,
            descriptionColumn = descriptionColumn,
            filePath = filePath,
            lastLine = null
        ),
        map = true
    );
}

@Override
public Collection convert() {
    Collection<Dictionary<String, String>> dictCollection = new Collection<Dictionary<String, String>>();
    return dictCollection.from(reading.read().map((Row row) -> {
        return new Dictionary<String, String>() {
            private key = row.get(keyColumn);
            private value = row.get(titleColumn);
            private description = row.get(descriptionColumn);

            return new Value(value, description);
        });
    }).collect();
}

}

4. 分片数据

为了提高读取效率，我们可以将数据分片处理。Flink提供了分片功能，可以将数据按时间或键进行分片。

flink
import org.apache.flink.data.table.Row;
import org.apache.flink.data.table.DataFrame;
import org.apache.flink.data.table.GroupBy;
import org.apache.flink.data.table.Phi;

public KafkaRead(String keyColumn, String titleColumn, String descriptionColumn, String filePath) {
    this.keys = keyColumn;
    this.titleColumn = titleColumn;
    this.descriptionColumn = descriptionColumn;
    this.filePath = filePath;
}

@Override
public Table read() {
    return Table.read(
        input = new TableRead(
            keyColumn = keys,
            titleColumn = titleColumn,
            descriptionColumn = descriptionColumn,
            filePath = filePath,
            lastLine = null
        ),
        map = true
    );
}

@Override
public Collection convert() {
    Collection<Phi<Dictionary<String, String>>> phiCollection = new Collection<Phi<Dictionary<String, String>>>();
    return phiCollection.from(reading.read().map((Row row) -> {
        Phi<Dictionary<String, String>> phi = new Phi<Dictionary<String, String>>();
        phi.set("title", row.get(titleColumn));
        phi.set("description", row.get(descriptionColumn));
        phiCollection.add(phi);
    }).collect();
}

}

5. 输出数据

最后，我们可以将处理好的数据以指定的格式输出。假设我们希望将数据以字典格式输出，我们可以将读取器设置为NewPhi。

flink
import org.apache.flink.data.table.Phi;

public KafkaRead(String keyColumn, String titleColumn, String descriptionColumn, String filePath) {
    this.keys = keyColumn;
    this.titleColumn = titleColumn;
    this.descriptionColumn = descriptionColumn;
    this.filePath = filePath;
}

@Override
public Table read() {
    return Table.read(
        input = new TableRead(
            keyColumn = keys,
            titleColumn = titleColumn,
            descriptionColumn = descriptionColumn,
            filePath = filePath,
            lastLine = null
        ),
        map = true
    );
}

@Override
public Collection convert() {
    Collection<Phi<Dictionary<String, String>>> phiCollection = new Collection<Phi<Dictionary<String, String>>>();
    return phiCollection.from(reading.read().map((Row row) -> {
        Phi<Dictionary<String, String>> phi = new Phi<Dictionary<String, String>>();
        phi.set("title", row.get(titleColumn));
        phi.set("description", row.get(descriptionColumn));
        phiCollection.add(phi);
    }).collect();
}

}