RocketMQ

“关于顺序消费，核心思想是将全局有序降级为局部有序。具体来说，可以分为两步来实现：

第一步是在发送端： 比如我们要处理同一个订单的‘创建、支付、发货’这三个步骤。在发送消息时，我们会提取订单 ID 作为业务 Key，通过 Hash 取模的方式，强制把这三个强关联的消息路由到 Broker 上的同一个分区Partition中。

第二步是在消费端： 因为消息中间件底层的机制通常保证同一个分区在同一时刻只能被单个实例拉取，所以我们在 Java 或 Go 的后端服务中拉取到消息后，只要保证用单线程（或单 Goroutine）去串行处理这个队列的数据，就能严格保证这三个步骤的执行顺序了。”

数据和索引分离

CommitLog:预申请内存空间确保消息连续存储高效读写
ConsumeQueue：这是一个消息的逻辑索引文件。它不存消息全量数据，只存固定长度的条目，包含消息在 CommitLog 中的物理偏移量、大小等信息。消费者消费时，会先读取 ConsumeQueue 这个轻量级的索引，然后再根据偏移量去 CommitLog 中读取完整的消息。〔图片缺失:本地路径不可用〕

零拷贝技术

同步刷盘
- 当消息被写入内存的页缓存后，必须等待数据成功刷入磁盘后，才会向生产者返回成功的 ACK。
- 优点：可靠性最高。即使 Broker 所在机器宕机，只要生产者收到了成功响应，这条消息就一定不会丢失。
- 缺点：性能最低，因为每次写入都需要等待一次磁盘 I/O。
- 适用场景：对数据可靠性要求极高的场景，如金融交易、核心订单系统。
异步刷盘 (Asynchronous Flush)：
- 流程：消息只要成功写入内存的页缓存，就立刻向生产者返回成功的 ACK。之后由一个后台线程异步地、批量地将页缓存中的数据刷入磁盘。
- 优点：性能最高，吞吐量最大。
- 缺点：可靠性稍低。如果 Broker 机器在刷盘前断电或宕机，页缓存中尚未刷盘的消息将会丢失。
- 适用场景：绝大多数互联网应用，如日志收集、短信通知等，能容忍在极端故障下丢失少量数据。这是 RocketMQ 默认的刷盘方式。

当一条消息在初次消费失败后，RocketMQ 会自动进行重试。如果经过了预设的重试次数（默认16次）后，消息依然消费失败，那么这条消息就不会再被投递，而是会被发送到一个特殊的队列（归属于某一个组）——死信队列。

生产者端不许确认消息落地
- ACK确认机制
- 重试机制
Broker端
- 多副本架构每个partition有多个副本
消费者端
- 消息还没处理完，程序就自动提交了位移（Offset），紧接着程序挂了。 重启后，Kafka 以为你已经处理过了，直接从下一个位移开始，导致消息“漏处理”。
- 手动确认消费

紧急止血恢复业务 - 排查原因 - 优化架构预防

紧急救火
1. 临时扩容消费者
2. 紧急中转写一个及其简单的分发消费者作用是拉去消息队列投递到一个新建的Topic中
3. 服务降级与丢弃策略扔掉一些非核心数据
排查原因
优化架构长期预防
1. 死信队列
2. 优化消费逻辑
3. 完善监控与告警体系