You are viewing a plain text version of this content. The canonical link for it is here.
Posted to commits@doris.apache.org by GitBox <gi...@apache.org> on 2022/04/08 09:48:44 UTC

[GitHub] [incubator-doris] hf200012 commented on a diff in pull request #8916: [Refactor][doc] add data model and index doc

hf200012 commented on code in PR #8916:
URL: https://github.com/apache/incubator-doris/pull/8916#discussion_r845942791


##########
new-docs/zh-CN/data-table/data-model.md:
##########
@@ -24,4 +24,430 @@ specific language governing permissions and limitations
 under the License.
 -->
 
-# 数据模型、ROLLUP 及前缀索引
\ No newline at end of file
+# 数据模型
+
+本文档主要从逻辑层面,描述 Doris 的数据模型,以帮助用户更好的使用 Doris 应对不同的业务场景。
+
+## 基本概念
+
+在 Doris 中,数据以表(Table)的形式进行逻辑上的描述。
+一张表包括行(Row)和列(Column)。Row 即用户的一行数据。Column 用于描述一行数据中不同的字段。
+
+Column 可以分为两大类:Key 和 Value。从业务角度看,Key 和 Value 可以分别对应维度列和指标列。
+
+Doris 的数据模型主要分为3类:
+
+- Aggregate
+- Unique
+- Duplicate
+
+下面我们分别介绍。
+
+## Aggregate 模型
+
+我们以实际的例子来说明什么是聚合模型,以及如何正确的使用聚合模型。
+
+### 示例1:导入数据聚合
+
+假设业务有如下数据表模式:
+
+| ColumnName      | Type        | AggregationType | Comment              |
+| --------------- | ----------- | --------------- | -------------------- |
+| user_id         | LARGEINT    |                 | 用户id               |
+| date            | DATE        |                 | 数据灌入日期         |
+| city            | VARCHAR(20) |                 | 用户所在城市         |
+| age             | SMALLINT    |                 | 用户年龄             |
+| sex             | TINYINT     |                 | 用户性别             |
+| last_visit_date | DATETIME    | REPLACE         | 用户最后一次访问时间 |
+| cost            | BIGINT      | SUM             | 用户总消费           |
+| max_dwell_time  | INT         | MAX             | 用户最大停留时间     |
+| min_dwell_time  | INT         | MIN             | 用户最小停留时间     |
+
+如果转换成建表语句则如下(省略建表语句中的 Partition 和 Distribution 信息)
+
+```sql
+CREATE TABLE IF NOT EXISTS example_db.expamle_tbl
+(
+    `user_id` LARGEINT NOT NULL COMMENT "用户id",
+    `date` DATE NOT NULL COMMENT "数据灌入日期时间",
+    `city` VARCHAR(20) COMMENT "用户所在城市",
+    `age` SMALLINT COMMENT "用户年龄",
+    `sex` TINYINT COMMENT "用户性别",
+    `last_visit_date` DATETIME REPLACE DEFAULT "1970-01-01 00:00:00" COMMENT "用户最后一次访问时间",
+    `cost` BIGINT SUM DEFAULT "0" COMMENT "用户总消费",
+    `max_dwell_time` INT MAX DEFAULT "0" COMMENT "用户最大停留时间",
+    `min_dwell_time` INT MIN DEFAULT "99999" COMMENT "用户最小停留时间"
+)
+AGGREGATE KEY(`user_id`, `date`, `city`, `age`, `sex`)

Review Comment:
   give the full SQL



##########
new-docs/zh-CN/data-table/data-model.md:
##########
@@ -24,4 +24,430 @@ specific language governing permissions and limitations
 under the License.
 -->
 
-# 数据模型、ROLLUP 及前缀索引
\ No newline at end of file
+# 数据模型
+
+本文档主要从逻辑层面,描述 Doris 的数据模型,以帮助用户更好的使用 Doris 应对不同的业务场景。
+
+## 基本概念
+
+在 Doris 中,数据以表(Table)的形式进行逻辑上的描述。
+一张表包括行(Row)和列(Column)。Row 即用户的一行数据。Column 用于描述一行数据中不同的字段。
+
+Column 可以分为两大类:Key 和 Value。从业务角度看,Key 和 Value 可以分别对应维度列和指标列。
+
+Doris 的数据模型主要分为3类:
+
+- Aggregate
+- Unique
+- Duplicate
+
+下面我们分别介绍。
+
+## Aggregate 模型
+
+我们以实际的例子来说明什么是聚合模型,以及如何正确的使用聚合模型。
+
+### 示例1:导入数据聚合
+
+假设业务有如下数据表模式:
+
+| ColumnName      | Type        | AggregationType | Comment              |
+| --------------- | ----------- | --------------- | -------------------- |
+| user_id         | LARGEINT    |                 | 用户id               |
+| date            | DATE        |                 | 数据灌入日期         |
+| city            | VARCHAR(20) |                 | 用户所在城市         |
+| age             | SMALLINT    |                 | 用户年龄             |
+| sex             | TINYINT     |                 | 用户性别             |
+| last_visit_date | DATETIME    | REPLACE         | 用户最后一次访问时间 |
+| cost            | BIGINT      | SUM             | 用户总消费           |
+| max_dwell_time  | INT         | MAX             | 用户最大停留时间     |
+| min_dwell_time  | INT         | MIN             | 用户最小停留时间     |
+
+如果转换成建表语句则如下(省略建表语句中的 Partition 和 Distribution 信息)
+
+```sql
+CREATE TABLE IF NOT EXISTS example_db.expamle_tbl
+(
+    `user_id` LARGEINT NOT NULL COMMENT "用户id",
+    `date` DATE NOT NULL COMMENT "数据灌入日期时间",
+    `city` VARCHAR(20) COMMENT "用户所在城市",
+    `age` SMALLINT COMMENT "用户年龄",
+    `sex` TINYINT COMMENT "用户性别",
+    `last_visit_date` DATETIME REPLACE DEFAULT "1970-01-01 00:00:00" COMMENT "用户最后一次访问时间",
+    `cost` BIGINT SUM DEFAULT "0" COMMENT "用户总消费",
+    `max_dwell_time` INT MAX DEFAULT "0" COMMENT "用户最大停留时间",
+    `min_dwell_time` INT MIN DEFAULT "99999" COMMENT "用户最小停留时间"
+)
+AGGREGATE KEY(`user_id`, `date`, `city`, `age`, `sex`)
+... /* 省略 Partition 和 Distribution 信息 */
+;
+```
+
+可以看到,这是一个典型的用户信息和访问行为的事实表。
+在一般星型模型中,用户信息和访问行为一般分别存放在维度表和事实表中。这里我们为了更加方便的解释 Doris 的数据模型,将两部分信息统一存放在一张表中。
+
+表中的列按照是否设置了 `AggregationType`,分为 Key (维度列) 和 Value(指标列)。没有设置 `AggregationType` 的,如 `user_id`、`date`、`age` ... 等称为 **Key**,而设置了 `AggregationType` 的称为 **Value**。
+
+当我们导入数据时,对于 Key 列相同的行会聚合成一行,而 Value 列会按照设置的 `AggregationType` 进行聚合。 `AggregationType` 目前有以下四种聚合方式:
+
+1. SUM:求和,多行的 Value 进行累加。
+2. REPLACE:替代,下一批数据中的 Value 会替换之前导入过的行中的 Value。
+3. MAX:保留最大值。
+4. MIN:保留最小值。
+
+假设我们有以下导入数据(原始数据):
+
+| user_id | date       | city | age  | sex  | last_visit_date     | cost | max_dwell_time | min_dwell_time |
+| ------- | ---------- | ---- | ---- | ---- | ------------------- | ---- | -------------- | -------------- |
+| 10000   | 2017-10-01 | 北京 | 20   | 0    | 2017-10-01 06:00:00 | 20   | 10             | 10             |
+| 10000   | 2017-10-01 | 北京 | 20   | 0    | 2017-10-01 07:00:00 | 15   | 2              | 2              |
+| 10001   | 2017-10-01 | 北京 | 30   | 1    | 2017-10-01 17:05:45 | 2    | 22             | 22             |
+| 10002   | 2017-10-02 | 上海 | 20   | 1    | 2017-10-02 12:59:12 | 200  | 5              | 5              |
+| 10003   | 2017-10-02 | 广州 | 32   | 0    | 2017-10-02 11:20:00 | 30   | 11             | 11             |
+| 10004   | 2017-10-01 | 深圳 | 35   | 0    | 2017-10-01 10:00:15 | 100  | 3              | 3              |
+| 10004   | 2017-10-03 | 深圳 | 35   | 0    | 2017-10-03 10:20:22 | 11   | 6              | 6              |
+
+我们假设这是一张记录用户访问某商品页面行为的表。我们以第一行数据为例,解释如下:
+
+| 数据                | 说明                                   |
+| ------------------- | -------------------------------------- |
+| 10000               | 用户id,每个用户唯一识别id             |
+| 2017-10-01          | 数据入库时间,精确到日期               |
+| 北京                | 用户所在城市                           |
+| 20                  | 用户年龄                               |
+| 0                   | 性别男(1 代表女性)                   |
+| 2017-10-01 06:00:00 | 用户本次访问该页面的时间,精确到秒     |
+| 20                  | 用户本次访问产生的消费                 |
+| 10                  | 用户本次访问,驻留该页面的时间         |
+| 10                  | 用户本次访问,驻留该页面的时间(冗余) |
+
+那么当这批数据正确导入到 Doris 中后,Doris 中最终存储如下:
+
+| user_id | date       | city | age  | sex  | last_visit_date     | cost | max_dwell_time | min_dwell_time |
+| ------- | ---------- | ---- | ---- | ---- | ------------------- | ---- | -------------- | -------------- |
+| 10000   | 2017-10-01 | 北京 | 20   | 0    | 2017-10-01 07:00:00 | 35   | 10             | 2              |
+| 10001   | 2017-10-01 | 北京 | 30   | 1    | 2017-10-01 17:05:45 | 2    | 22             | 22             |
+| 10002   | 2017-10-02 | 上海 | 20   | 1    | 2017-10-02 12:59:12 | 200  | 5              | 5              |
+| 10003   | 2017-10-02 | 广州 | 32   | 0    | 2017-10-02 11:20:00 | 30   | 11             | 11             |
+| 10004   | 2017-10-01 | 深圳 | 35   | 0    | 2017-10-01 10:00:15 | 100  | 3              | 3              |
+| 10004   | 2017-10-03 | 深圳 | 35   | 0    | 2017-10-03 10:20:22 | 11   | 6              | 6              |
+
+可以看到,用户 10000 只剩下了一行**聚合后**的数据。而其余用户的数据和原始数据保持一致。这里先解释下用户 10000 聚合后的数据:
+
+前5列没有变化,从第6列 `last_visit_date` 开始:
+
+- `2017-10-01 07:00:00`:因为 `last_visit_date` 列的聚合方式为 REPLACE,所以 `2017-10-01 07:00:00` 替换了 `2017-10-01 06:00:00` 保存了下来。
+
+  > 注:在同一个导入批次中的数据,对于 REPLACE 这种聚合方式,替换顺序不做保证。如在这个例子中,最终保存下来的,也有可能是 `2017-10-01 06:00:00`。而对于不同导入批次中的数据,可以保证,后一批次的数据会替换前一批次。
+
+- `35`:因为 `cost` 列的聚合类型为 SUM,所以由 20 + 15 累加获得 35。
+
+- `10`:因为 `max_dwell_time` 列的聚合类型为 MAX,所以 10 和 2 取最大值,获得 10。
+
+- `2`:因为 `min_dwell_time` 列的聚合类型为 MIN,所以 10 和 2 取最小值,获得 2。
+
+经过聚合,Doris 中最终只会存储聚合后的数据。换句话说,即明细数据会丢失,用户不能够再查询到聚合前的明细数据了。
+
+### 示例2:保留明细数据
+
+接示例1,我们将表结构修改如下:
+
+| ColumnName      | Type        | AggregationType | Comment                |
+| --------------- | ----------- | --------------- | ---------------------- |
+| user_id         | LARGEINT    |                 | 用户id                 |
+| date            | DATE        |                 | 数据灌入日期           |
+| timestamp       | DATETIME    |                 | 数据灌入时间,精确到秒 |
+| city            | VARCHAR(20) |                 | 用户所在城市           |
+| age             | SMALLINT    |                 | 用户年龄               |
+| sex             | TINYINT     |                 | 用户性别               |
+| last_visit_date | DATETIME    | REPLACE         | 用户最后一次访问时间   |
+| cost            | BIGINT      | SUM             | 用户总消费             |
+| max_dwell_time  | INT         | MAX             | 用户最大停留时间       |
+| min_dwell_time  | INT         | MIN             | 用户最小停留时间       |
+
+即增加了一列 `timestamp`,记录精确到秒的数据灌入时间。
+
+导入数据如下:
+
+| user_id | date       | timestamp           | city | age  | sex  | last_visit_date     | cost | max_dwell_time | min_dwell_time |
+| ------- | ---------- | ------------------- | ---- | ---- | ---- | ------------------- | ---- | -------------- | -------------- |
+| 10000   | 2017-10-01 | 2017-10-01 08:00:05 | 北京 | 20   | 0    | 2017-10-01 06:00:00 | 20   | 10             | 10             |
+| 10000   | 2017-10-01 | 2017-10-01 09:00:05 | 北京 | 20   | 0    | 2017-10-01 07:00:00 | 15   | 2              | 2              |
+| 10001   | 2017-10-01 | 2017-10-01 18:12:10 | 北京 | 30   | 1    | 2017-10-01 17:05:45 | 2    | 22             | 22             |
+| 10002   | 2017-10-02 | 2017-10-02 13:10:00 | 上海 | 20   | 1    | 2017-10-02 12:59:12 | 200  | 5              | 5              |
+| 10003   | 2017-10-02 | 2017-10-02 13:15:00 | 广州 | 32   | 0    | 2017-10-02 11:20:00 | 30   | 11             | 11             |
+| 10004   | 2017-10-01 | 2017-10-01 12:12:48 | 深圳 | 35   | 0    | 2017-10-01 10:00:15 | 100  | 3              | 3              |
+| 10004   | 2017-10-03 | 2017-10-03 12:38:20 | 深圳 | 35   | 0    | 2017-10-03 10:20:22 | 11   | 6              | 6              |
+
+那么当这批数据正确导入到 Doris 中后,Doris 中最终存储如下:
+
+| user_id | date       | timestamp           | city | age  | sex  | last_visit_date     | cost | max_dwell_time | min_dwell_time |
+| ------- | ---------- | ------------------- | ---- | ---- | ---- | ------------------- | ---- | -------------- | -------------- |
+| 10000   | 2017-10-01 | 2017-10-01 08:00:05 | 北京 | 20   | 0    | 2017-10-01 06:00:00 | 20   | 10             | 10             |
+| 10000   | 2017-10-01 | 2017-10-01 09:00:05 | 北京 | 20   | 0    | 2017-10-01 07:00:00 | 15   | 2              | 2              |
+| 10001   | 2017-10-01 | 2017-10-01 18:12:10 | 北京 | 30   | 1    | 2017-10-01 17:05:45 | 2    | 22             | 22             |
+| 10002   | 2017-10-02 | 2017-10-02 13:10:00 | 上海 | 20   | 1    | 2017-10-02 12:59:12 | 200  | 5              | 5              |
+| 10003   | 2017-10-02 | 2017-10-02 13:15:00 | 广州 | 32   | 0    | 2017-10-02 11:20:00 | 30   | 11             | 11             |
+| 10004   | 2017-10-01 | 2017-10-01 12:12:48 | 深圳 | 35   | 0    | 2017-10-01 10:00:15 | 100  | 3              | 3              |
+| 10004   | 2017-10-03 | 2017-10-03 12:38:20 | 深圳 | 35   | 0    | 2017-10-03 10:20:22 | 11   | 6              | 6              |
+
+我们可以看到,存储的数据,和导入数据完全一样,没有发生任何聚合。这是因为,这批数据中,因为加入了 `timestamp` 列,所有行的 Key 都**不完全相同**。也就是说,只要保证导入的数据中,每一行的 Key 都不完全相同,那么即使在聚合模型下,Doris 也可以保存完整的明细数据。
+
+### 示例3:导入数据与已有数据聚合
+
+接示例1。假设现在表中已有数据如下:
+
+| user_id | date       | city | age  | sex  | last_visit_date     | cost | max_dwell_time | min_dwell_time |
+| ------- | ---------- | ---- | ---- | ---- | ------------------- | ---- | -------------- | -------------- |
+| 10000   | 2017-10-01 | 北京 | 20   | 0    | 2017-10-01 07:00:00 | 35   | 10             | 2              |
+| 10001   | 2017-10-01 | 北京 | 30   | 1    | 2017-10-01 17:05:45 | 2    | 22             | 22             |
+| 10002   | 2017-10-02 | 上海 | 20   | 1    | 2017-10-02 12:59:12 | 200  | 5              | 5              |
+| 10003   | 2017-10-02 | 广州 | 32   | 0    | 2017-10-02 11:20:00 | 30   | 11             | 11             |
+| 10004   | 2017-10-01 | 深圳 | 35   | 0    | 2017-10-01 10:00:15 | 100  | 3              | 3              |
+| 10004   | 2017-10-03 | 深圳 | 35   | 0    | 2017-10-03 10:20:22 | 11   | 6              | 6              |
+
+我们再导入一批新的数据:
+
+| user_id | date       | city | age  | sex  | last_visit_date     | cost | max_dwell_time | min_dwell_time |
+| ------- | ---------- | ---- | ---- | ---- | ------------------- | ---- | -------------- | -------------- |
+| 10004   | 2017-10-03 | 深圳 | 35   | 0    | 2017-10-03 11:22:00 | 44   | 19             | 19             |
+| 10005   | 2017-10-03 | 长沙 | 29   | 1    | 2017-10-03 18:11:02 | 3    | 1              | 1              |
+
+那么当这批数据正确导入到 Doris 中后,Doris 中最终存储如下:
+
+| user_id | date       | city | age  | sex  | last_visit_date     | cost | max_dwell_time | min_dwell_time |
+| ------- | ---------- | ---- | ---- | ---- | ------------------- | ---- | -------------- | -------------- |
+| 10000   | 2017-10-01 | 北京 | 20   | 0    | 2017-10-01 07:00:00 | 35   | 10             | 2              |
+| 10001   | 2017-10-01 | 北京 | 30   | 1    | 2017-10-01 17:05:45 | 2    | 22             | 22             |
+| 10002   | 2017-10-02 | 上海 | 20   | 1    | 2017-10-02 12:59:12 | 200  | 5              | 5              |
+| 10003   | 2017-10-02 | 广州 | 32   | 0    | 2017-10-02 11:20:00 | 30   | 11             | 11             |
+| 10004   | 2017-10-01 | 深圳 | 35   | 0    | 2017-10-01 10:00:15 | 100  | 3              | 3              |
+| 10004   | 2017-10-03 | 深圳 | 35   | 0    | 2017-10-03 11:22:00 | 55   | 19             | 6              |
+| 10005   | 2017-10-03 | 长沙 | 29   | 1    | 2017-10-03 18:11:02 | 3    | 1              | 1              |
+
+可以看到,用户 10004 的已有数据和新导入的数据发生了聚合。同时新增了 10005 用户的数据。
+
+数据的聚合,在 Doris 中有如下三个阶段发生:
+
+1. 每一批次数据导入的 ETL 阶段。该阶段会在每一批次导入的数据内部进行聚合。
+2. 底层 BE 进行数据 Compaction 的阶段。该阶段,BE 会对已导入的不同批次的数据进行进一步的聚合。
+3. 数据查询阶段。在数据查询时,对于查询涉及到的数据,会进行对应的聚合。
+
+数据在不同时间,可能聚合的程度不一致。比如一批数据刚导入时,可能还未与之前已存在的数据进行聚合。但是对于用户而言,用户**只能查询到**聚合后的数据。即不同的聚合程度对于用户查询而言是透明的。用户需始终认为数据以**最终的完成的聚合程度**存在,而**不应假设某些聚合还未发生**。(可参阅**聚合模型的局限性**一节获得更多详情。)
+
+## Unique 模型
+
+在某些多维分析场景下,用户更关注的是如何保证 Key 的唯一性,即如何获得 Primary Key 唯一性约束。因此,我们引入了 Unique 的数据模型。该模型本质上是聚合模型的一个特例,也是一种简化的表结构表示方式。我们举例说明。
+
+| ColumnName    | Type         | IsKey | Comment      |
+| ------------- | ------------ | ----- | ------------ |
+| user_id       | BIGINT       | Yes   | 用户id       |
+| username      | VARCHAR(50)  | Yes   | 用户昵称     |
+| city          | VARCHAR(20)  | No    | 用户所在城市 |
+| age           | SMALLINT     | No    | 用户年龄     |
+| sex           | TINYINT      | No    | 用户性别     |
+| phone         | LARGEINT     | No    | 用户电话     |
+| address       | VARCHAR(500) | No    | 用户住址     |
+| register_time | DATETIME     | No    | 用户注册时间 |
+
+这是一个典型的用户基础信息表。这类数据没有聚合需求,只需保证主键唯一性。(这里的主键为 user_id + username)。那么我们的建表语句如下:
+
+```sql
+CREATE TABLE IF NOT EXISTS example_db.expamle_tbl
+(
+    `user_id` LARGEINT NOT NULL COMMENT "用户id",
+    `username` VARCHAR(50) NOT NULL COMMENT "用户昵称",
+    `city` VARCHAR(20) COMMENT "用户所在城市",
+    `age` SMALLINT COMMENT "用户年龄",
+    `sex` TINYINT COMMENT "用户性别",
+    `phone` LARGEINT COMMENT "用户电话",
+    `address` VARCHAR(500) COMMENT "用户地址",
+    `register_time` DATETIME COMMENT "用户注册时间"
+)
+UNIQUE KEY(`user_id`, `username`)
+... /* 省略 Partition 和 Distribution 信息 */
+;
+```
+
+而这个表结构,完全同等于以下使用聚合模型描述的表结构:
+
+| ColumnName    | Type         | AggregationType | Comment      |
+| ------------- | ------------ | --------------- | ------------ |
+| user_id       | BIGINT       |                 | 用户id       |
+| username      | VARCHAR(50)  |                 | 用户昵称     |
+| city          | VARCHAR(20)  | REPLACE         | 用户所在城市 |
+| age           | SMALLINT     | REPLACE         | 用户年龄     |
+| sex           | TINYINT      | REPLACE         | 用户性别     |
+| phone         | LARGEINT     | REPLACE         | 用户电话     |
+| address       | VARCHAR(500) | REPLACE         | 用户住址     |
+| register_time | DATETIME     | REPLACE         | 用户注册时间 |
+
+及建表语句:
+
+```sql
+CREATE TABLE IF NOT EXISTS example_db.expamle_tbl
+(
+    `user_id` LARGEINT NOT NULL COMMENT "用户id",
+    `username` VARCHAR(50) NOT NULL COMMENT "用户昵称",
+    `city` VARCHAR(20) REPLACE COMMENT "用户所在城市",
+    `age` SMALLINT REPLACE COMMENT "用户年龄",
+    `sex` TINYINT REPLACE COMMENT "用户性别",
+    `phone` LARGEINT REPLACE COMMENT "用户电话",
+    `address` VARCHAR(500) REPLACE COMMENT "用户地址",
+    `register_time` DATETIME REPLACE COMMENT "用户注册时间"
+)
+AGGREGATE KEY(`user_id`, `username`)
+... /* 省略 Partition 和 Distribution 信息 */
+;
+```
+
+即 Unique 模型完全可以用聚合模型中的 REPLACE 方式替代。其内部的实现方式和数据存储方式也完全一样。这里不再继续举例说明。
+
+## Duplicate 模型
+
+在某些多维分析场景下,数据既没有主键,也没有聚合需求。因此,我们引入 Duplicate 数据模型来满足这类需求。举例说明。
+
+| ColumnName | Type          | SortKey | Comment      |
+| ---------- | ------------- | ------- | ------------ |
+| timestamp  | DATETIME      | Yes     | 日志时间     |
+| type       | INT           | Yes     | 日志类型     |
+| error_code | INT           | Yes     | 错误码       |
+| error_msg  | VARCHAR(1024) | No      | 错误详细信息 |
+| op_id      | BIGINT        | No      | 负责人id     |
+| op_time    | DATETIME      | No      | 处理时间     |
+
+建表语句如下:
+
+```sql
+CREATE TABLE IF NOT EXISTS example_db.expamle_tbl
+(
+    `timestamp` DATETIME NOT NULL COMMENT "日志时间",
+    `type` INT NOT NULL COMMENT "日志类型",
+    `error_code` INT COMMENT "错误码",
+    `error_msg` VARCHAR(1024) COMMENT "错误详细信息",
+    `op_id` BIGINT COMMENT "负责人id",
+    `op_time` DATETIME COMMENT "处理时间"
+)
+DUPLICATE KEY(`timestamp`, `type`)

Review Comment:
   give the full SQL



##########
new-docs/zh-CN/data-table/data-model.md:
##########
@@ -24,4 +24,430 @@ specific language governing permissions and limitations
 under the License.
 -->
 
-# 数据模型、ROLLUP 及前缀索引
\ No newline at end of file
+# 数据模型
+
+本文档主要从逻辑层面,描述 Doris 的数据模型,以帮助用户更好的使用 Doris 应对不同的业务场景。
+
+## 基本概念
+
+在 Doris 中,数据以表(Table)的形式进行逻辑上的描述。
+一张表包括行(Row)和列(Column)。Row 即用户的一行数据。Column 用于描述一行数据中不同的字段。
+
+Column 可以分为两大类:Key 和 Value。从业务角度看,Key 和 Value 可以分别对应维度列和指标列。
+
+Doris 的数据模型主要分为3类:
+
+- Aggregate
+- Unique
+- Duplicate
+
+下面我们分别介绍。
+
+## Aggregate 模型
+
+我们以实际的例子来说明什么是聚合模型,以及如何正确的使用聚合模型。
+
+### 示例1:导入数据聚合
+
+假设业务有如下数据表模式:
+
+| ColumnName      | Type        | AggregationType | Comment              |
+| --------------- | ----------- | --------------- | -------------------- |
+| user_id         | LARGEINT    |                 | 用户id               |
+| date            | DATE        |                 | 数据灌入日期         |
+| city            | VARCHAR(20) |                 | 用户所在城市         |
+| age             | SMALLINT    |                 | 用户年龄             |
+| sex             | TINYINT     |                 | 用户性别             |
+| last_visit_date | DATETIME    | REPLACE         | 用户最后一次访问时间 |
+| cost            | BIGINT      | SUM             | 用户总消费           |
+| max_dwell_time  | INT         | MAX             | 用户最大停留时间     |
+| min_dwell_time  | INT         | MIN             | 用户最小停留时间     |
+
+如果转换成建表语句则如下(省略建表语句中的 Partition 和 Distribution 信息)
+
+```sql
+CREATE TABLE IF NOT EXISTS example_db.expamle_tbl
+(
+    `user_id` LARGEINT NOT NULL COMMENT "用户id",
+    `date` DATE NOT NULL COMMENT "数据灌入日期时间",
+    `city` VARCHAR(20) COMMENT "用户所在城市",
+    `age` SMALLINT COMMENT "用户年龄",
+    `sex` TINYINT COMMENT "用户性别",
+    `last_visit_date` DATETIME REPLACE DEFAULT "1970-01-01 00:00:00" COMMENT "用户最后一次访问时间",
+    `cost` BIGINT SUM DEFAULT "0" COMMENT "用户总消费",
+    `max_dwell_time` INT MAX DEFAULT "0" COMMENT "用户最大停留时间",
+    `min_dwell_time` INT MIN DEFAULT "99999" COMMENT "用户最小停留时间"
+)
+AGGREGATE KEY(`user_id`, `date`, `city`, `age`, `sex`)
+... /* 省略 Partition 和 Distribution 信息 */
+;
+```
+
+可以看到,这是一个典型的用户信息和访问行为的事实表。
+在一般星型模型中,用户信息和访问行为一般分别存放在维度表和事实表中。这里我们为了更加方便的解释 Doris 的数据模型,将两部分信息统一存放在一张表中。
+
+表中的列按照是否设置了 `AggregationType`,分为 Key (维度列) 和 Value(指标列)。没有设置 `AggregationType` 的,如 `user_id`、`date`、`age` ... 等称为 **Key**,而设置了 `AggregationType` 的称为 **Value**。
+
+当我们导入数据时,对于 Key 列相同的行会聚合成一行,而 Value 列会按照设置的 `AggregationType` 进行聚合。 `AggregationType` 目前有以下四种聚合方式:
+
+1. SUM:求和,多行的 Value 进行累加。
+2. REPLACE:替代,下一批数据中的 Value 会替换之前导入过的行中的 Value。
+3. MAX:保留最大值。
+4. MIN:保留最小值。
+
+假设我们有以下导入数据(原始数据):
+
+| user_id | date       | city | age  | sex  | last_visit_date     | cost | max_dwell_time | min_dwell_time |
+| ------- | ---------- | ---- | ---- | ---- | ------------------- | ---- | -------------- | -------------- |
+| 10000   | 2017-10-01 | 北京 | 20   | 0    | 2017-10-01 06:00:00 | 20   | 10             | 10             |
+| 10000   | 2017-10-01 | 北京 | 20   | 0    | 2017-10-01 07:00:00 | 15   | 2              | 2              |
+| 10001   | 2017-10-01 | 北京 | 30   | 1    | 2017-10-01 17:05:45 | 2    | 22             | 22             |
+| 10002   | 2017-10-02 | 上海 | 20   | 1    | 2017-10-02 12:59:12 | 200  | 5              | 5              |
+| 10003   | 2017-10-02 | 广州 | 32   | 0    | 2017-10-02 11:20:00 | 30   | 11             | 11             |
+| 10004   | 2017-10-01 | 深圳 | 35   | 0    | 2017-10-01 10:00:15 | 100  | 3              | 3              |
+| 10004   | 2017-10-03 | 深圳 | 35   | 0    | 2017-10-03 10:20:22 | 11   | 6              | 6              |
+
+我们假设这是一张记录用户访问某商品页面行为的表。我们以第一行数据为例,解释如下:
+
+| 数据                | 说明                                   |
+| ------------------- | -------------------------------------- |
+| 10000               | 用户id,每个用户唯一识别id             |
+| 2017-10-01          | 数据入库时间,精确到日期               |
+| 北京                | 用户所在城市                           |
+| 20                  | 用户年龄                               |
+| 0                   | 性别男(1 代表女性)                   |
+| 2017-10-01 06:00:00 | 用户本次访问该页面的时间,精确到秒     |
+| 20                  | 用户本次访问产生的消费                 |
+| 10                  | 用户本次访问,驻留该页面的时间         |
+| 10                  | 用户本次访问,驻留该页面的时间(冗余) |
+
+那么当这批数据正确导入到 Doris 中后,Doris 中最终存储如下:
+
+| user_id | date       | city | age  | sex  | last_visit_date     | cost | max_dwell_time | min_dwell_time |
+| ------- | ---------- | ---- | ---- | ---- | ------------------- | ---- | -------------- | -------------- |
+| 10000   | 2017-10-01 | 北京 | 20   | 0    | 2017-10-01 07:00:00 | 35   | 10             | 2              |
+| 10001   | 2017-10-01 | 北京 | 30   | 1    | 2017-10-01 17:05:45 | 2    | 22             | 22             |
+| 10002   | 2017-10-02 | 上海 | 20   | 1    | 2017-10-02 12:59:12 | 200  | 5              | 5              |
+| 10003   | 2017-10-02 | 广州 | 32   | 0    | 2017-10-02 11:20:00 | 30   | 11             | 11             |
+| 10004   | 2017-10-01 | 深圳 | 35   | 0    | 2017-10-01 10:00:15 | 100  | 3              | 3              |
+| 10004   | 2017-10-03 | 深圳 | 35   | 0    | 2017-10-03 10:20:22 | 11   | 6              | 6              |
+
+可以看到,用户 10000 只剩下了一行**聚合后**的数据。而其余用户的数据和原始数据保持一致。这里先解释下用户 10000 聚合后的数据:
+
+前5列没有变化,从第6列 `last_visit_date` 开始:
+
+- `2017-10-01 07:00:00`:因为 `last_visit_date` 列的聚合方式为 REPLACE,所以 `2017-10-01 07:00:00` 替换了 `2017-10-01 06:00:00` 保存了下来。
+
+  > 注:在同一个导入批次中的数据,对于 REPLACE 这种聚合方式,替换顺序不做保证。如在这个例子中,最终保存下来的,也有可能是 `2017-10-01 06:00:00`。而对于不同导入批次中的数据,可以保证,后一批次的数据会替换前一批次。
+
+- `35`:因为 `cost` 列的聚合类型为 SUM,所以由 20 + 15 累加获得 35。
+
+- `10`:因为 `max_dwell_time` 列的聚合类型为 MAX,所以 10 和 2 取最大值,获得 10。
+
+- `2`:因为 `min_dwell_time` 列的聚合类型为 MIN,所以 10 和 2 取最小值,获得 2。
+
+经过聚合,Doris 中最终只会存储聚合后的数据。换句话说,即明细数据会丢失,用户不能够再查询到聚合前的明细数据了。
+
+### 示例2:保留明细数据
+
+接示例1,我们将表结构修改如下:
+
+| ColumnName      | Type        | AggregationType | Comment                |
+| --------------- | ----------- | --------------- | ---------------------- |
+| user_id         | LARGEINT    |                 | 用户id                 |
+| date            | DATE        |                 | 数据灌入日期           |
+| timestamp       | DATETIME    |                 | 数据灌入时间,精确到秒 |
+| city            | VARCHAR(20) |                 | 用户所在城市           |
+| age             | SMALLINT    |                 | 用户年龄               |
+| sex             | TINYINT     |                 | 用户性别               |
+| last_visit_date | DATETIME    | REPLACE         | 用户最后一次访问时间   |
+| cost            | BIGINT      | SUM             | 用户总消费             |
+| max_dwell_time  | INT         | MAX             | 用户最大停留时间       |
+| min_dwell_time  | INT         | MIN             | 用户最小停留时间       |
+
+即增加了一列 `timestamp`,记录精确到秒的数据灌入时间。
+
+导入数据如下:
+
+| user_id | date       | timestamp           | city | age  | sex  | last_visit_date     | cost | max_dwell_time | min_dwell_time |
+| ------- | ---------- | ------------------- | ---- | ---- | ---- | ------------------- | ---- | -------------- | -------------- |
+| 10000   | 2017-10-01 | 2017-10-01 08:00:05 | 北京 | 20   | 0    | 2017-10-01 06:00:00 | 20   | 10             | 10             |
+| 10000   | 2017-10-01 | 2017-10-01 09:00:05 | 北京 | 20   | 0    | 2017-10-01 07:00:00 | 15   | 2              | 2              |
+| 10001   | 2017-10-01 | 2017-10-01 18:12:10 | 北京 | 30   | 1    | 2017-10-01 17:05:45 | 2    | 22             | 22             |
+| 10002   | 2017-10-02 | 2017-10-02 13:10:00 | 上海 | 20   | 1    | 2017-10-02 12:59:12 | 200  | 5              | 5              |
+| 10003   | 2017-10-02 | 2017-10-02 13:15:00 | 广州 | 32   | 0    | 2017-10-02 11:20:00 | 30   | 11             | 11             |
+| 10004   | 2017-10-01 | 2017-10-01 12:12:48 | 深圳 | 35   | 0    | 2017-10-01 10:00:15 | 100  | 3              | 3              |
+| 10004   | 2017-10-03 | 2017-10-03 12:38:20 | 深圳 | 35   | 0    | 2017-10-03 10:20:22 | 11   | 6              | 6              |
+
+那么当这批数据正确导入到 Doris 中后,Doris 中最终存储如下:
+
+| user_id | date       | timestamp           | city | age  | sex  | last_visit_date     | cost | max_dwell_time | min_dwell_time |
+| ------- | ---------- | ------------------- | ---- | ---- | ---- | ------------------- | ---- | -------------- | -------------- |
+| 10000   | 2017-10-01 | 2017-10-01 08:00:05 | 北京 | 20   | 0    | 2017-10-01 06:00:00 | 20   | 10             | 10             |
+| 10000   | 2017-10-01 | 2017-10-01 09:00:05 | 北京 | 20   | 0    | 2017-10-01 07:00:00 | 15   | 2              | 2              |
+| 10001   | 2017-10-01 | 2017-10-01 18:12:10 | 北京 | 30   | 1    | 2017-10-01 17:05:45 | 2    | 22             | 22             |
+| 10002   | 2017-10-02 | 2017-10-02 13:10:00 | 上海 | 20   | 1    | 2017-10-02 12:59:12 | 200  | 5              | 5              |
+| 10003   | 2017-10-02 | 2017-10-02 13:15:00 | 广州 | 32   | 0    | 2017-10-02 11:20:00 | 30   | 11             | 11             |
+| 10004   | 2017-10-01 | 2017-10-01 12:12:48 | 深圳 | 35   | 0    | 2017-10-01 10:00:15 | 100  | 3              | 3              |
+| 10004   | 2017-10-03 | 2017-10-03 12:38:20 | 深圳 | 35   | 0    | 2017-10-03 10:20:22 | 11   | 6              | 6              |
+
+我们可以看到,存储的数据,和导入数据完全一样,没有发生任何聚合。这是因为,这批数据中,因为加入了 `timestamp` 列,所有行的 Key 都**不完全相同**。也就是说,只要保证导入的数据中,每一行的 Key 都不完全相同,那么即使在聚合模型下,Doris 也可以保存完整的明细数据。
+
+### 示例3:导入数据与已有数据聚合
+
+接示例1。假设现在表中已有数据如下:
+
+| user_id | date       | city | age  | sex  | last_visit_date     | cost | max_dwell_time | min_dwell_time |
+| ------- | ---------- | ---- | ---- | ---- | ------------------- | ---- | -------------- | -------------- |
+| 10000   | 2017-10-01 | 北京 | 20   | 0    | 2017-10-01 07:00:00 | 35   | 10             | 2              |
+| 10001   | 2017-10-01 | 北京 | 30   | 1    | 2017-10-01 17:05:45 | 2    | 22             | 22             |
+| 10002   | 2017-10-02 | 上海 | 20   | 1    | 2017-10-02 12:59:12 | 200  | 5              | 5              |
+| 10003   | 2017-10-02 | 广州 | 32   | 0    | 2017-10-02 11:20:00 | 30   | 11             | 11             |
+| 10004   | 2017-10-01 | 深圳 | 35   | 0    | 2017-10-01 10:00:15 | 100  | 3              | 3              |
+| 10004   | 2017-10-03 | 深圳 | 35   | 0    | 2017-10-03 10:20:22 | 11   | 6              | 6              |
+
+我们再导入一批新的数据:
+
+| user_id | date       | city | age  | sex  | last_visit_date     | cost | max_dwell_time | min_dwell_time |
+| ------- | ---------- | ---- | ---- | ---- | ------------------- | ---- | -------------- | -------------- |
+| 10004   | 2017-10-03 | 深圳 | 35   | 0    | 2017-10-03 11:22:00 | 44   | 19             | 19             |
+| 10005   | 2017-10-03 | 长沙 | 29   | 1    | 2017-10-03 18:11:02 | 3    | 1              | 1              |
+
+那么当这批数据正确导入到 Doris 中后,Doris 中最终存储如下:
+
+| user_id | date       | city | age  | sex  | last_visit_date     | cost | max_dwell_time | min_dwell_time |
+| ------- | ---------- | ---- | ---- | ---- | ------------------- | ---- | -------------- | -------------- |
+| 10000   | 2017-10-01 | 北京 | 20   | 0    | 2017-10-01 07:00:00 | 35   | 10             | 2              |
+| 10001   | 2017-10-01 | 北京 | 30   | 1    | 2017-10-01 17:05:45 | 2    | 22             | 22             |
+| 10002   | 2017-10-02 | 上海 | 20   | 1    | 2017-10-02 12:59:12 | 200  | 5              | 5              |
+| 10003   | 2017-10-02 | 广州 | 32   | 0    | 2017-10-02 11:20:00 | 30   | 11             | 11             |
+| 10004   | 2017-10-01 | 深圳 | 35   | 0    | 2017-10-01 10:00:15 | 100  | 3              | 3              |
+| 10004   | 2017-10-03 | 深圳 | 35   | 0    | 2017-10-03 11:22:00 | 55   | 19             | 6              |
+| 10005   | 2017-10-03 | 长沙 | 29   | 1    | 2017-10-03 18:11:02 | 3    | 1              | 1              |
+
+可以看到,用户 10004 的已有数据和新导入的数据发生了聚合。同时新增了 10005 用户的数据。
+
+数据的聚合,在 Doris 中有如下三个阶段发生:
+
+1. 每一批次数据导入的 ETL 阶段。该阶段会在每一批次导入的数据内部进行聚合。
+2. 底层 BE 进行数据 Compaction 的阶段。该阶段,BE 会对已导入的不同批次的数据进行进一步的聚合。
+3. 数据查询阶段。在数据查询时,对于查询涉及到的数据,会进行对应的聚合。
+
+数据在不同时间,可能聚合的程度不一致。比如一批数据刚导入时,可能还未与之前已存在的数据进行聚合。但是对于用户而言,用户**只能查询到**聚合后的数据。即不同的聚合程度对于用户查询而言是透明的。用户需始终认为数据以**最终的完成的聚合程度**存在,而**不应假设某些聚合还未发生**。(可参阅**聚合模型的局限性**一节获得更多详情。)
+
+## Unique 模型
+
+在某些多维分析场景下,用户更关注的是如何保证 Key 的唯一性,即如何获得 Primary Key 唯一性约束。因此,我们引入了 Unique 的数据模型。该模型本质上是聚合模型的一个特例,也是一种简化的表结构表示方式。我们举例说明。
+
+| ColumnName    | Type         | IsKey | Comment      |
+| ------------- | ------------ | ----- | ------------ |
+| user_id       | BIGINT       | Yes   | 用户id       |
+| username      | VARCHAR(50)  | Yes   | 用户昵称     |
+| city          | VARCHAR(20)  | No    | 用户所在城市 |
+| age           | SMALLINT     | No    | 用户年龄     |
+| sex           | TINYINT      | No    | 用户性别     |
+| phone         | LARGEINT     | No    | 用户电话     |
+| address       | VARCHAR(500) | No    | 用户住址     |
+| register_time | DATETIME     | No    | 用户注册时间 |
+
+这是一个典型的用户基础信息表。这类数据没有聚合需求,只需保证主键唯一性。(这里的主键为 user_id + username)。那么我们的建表语句如下:
+
+```sql
+CREATE TABLE IF NOT EXISTS example_db.expamle_tbl
+(
+    `user_id` LARGEINT NOT NULL COMMENT "用户id",
+    `username` VARCHAR(50) NOT NULL COMMENT "用户昵称",
+    `city` VARCHAR(20) COMMENT "用户所在城市",
+    `age` SMALLINT COMMENT "用户年龄",
+    `sex` TINYINT COMMENT "用户性别",
+    `phone` LARGEINT COMMENT "用户电话",
+    `address` VARCHAR(500) COMMENT "用户地址",
+    `register_time` DATETIME COMMENT "用户注册时间"
+)
+UNIQUE KEY(`user_id`, `username`)

Review Comment:
   give the full SQL



-- 
This is an automated message from the Apache Git Service.
To respond to the message, please log on to GitHub and use the
URL above to go to the specific comment.

To unsubscribe, e-mail: commits-unsubscribe@doris.apache.org

For queries about this service, please contact Infrastructure at:
users@infra.apache.org


---------------------------------------------------------------------
To unsubscribe, e-mail: commits-unsubscribe@doris.apache.org
For additional commands, e-mail: commits-help@doris.apache.org