You are viewing a plain text version of this content. The canonical link for it is here.
Posted to commits@kylin.apache.org by li...@apache.org on 2020/05/14 14:14:16 UTC

svn commit: r1877742 - in /kylin/site: ./ cn/docs/tutorial/ cn/docs30/tutorial/ cn/docs31/tutorial/

Author: lidong
Date: Thu May 14 14:14:16 2020
New Revision: 1877742

URL: http://svn.apache.org/viewvc?rev=1877742&view=rev
Log:
Remove unnecessary extra characters

Modified:
    kylin/site/cn/docs/tutorial/cube_spark.html
    kylin/site/cn/docs/tutorial/sql_reference.html
    kylin/site/cn/docs30/tutorial/cube_spark.html
    kylin/site/cn/docs30/tutorial/sql_reference.html
    kylin/site/cn/docs31/tutorial/cube_spark.html
    kylin/site/cn/docs31/tutorial/sql_reference.html
    kylin/site/feed.xml

Modified: kylin/site/cn/docs/tutorial/cube_spark.html
URL: http://svn.apache.org/viewvc/kylin/site/cn/docs/tutorial/cube_spark.html?rev=1877742&r1=1877741&r2=1877742&view=diff
==============================================================================
--- kylin/site/cn/docs/tutorial/cube_spark.html (original)
+++ kylin/site/cn/docs/tutorial/cube_spark.html Thu May 14 14:14:16 2020
@@ -284,7 +284,24 @@ $KYLIN_HOME/bin/kylin.sh start</code></p
 
 <p>所有步骤成功执行后,Cube 的状态变为 “Ready” 且您可以像往常那样进行查询。</p>
 
-<h2 id="section-1">疑难解答</h2>
+<h2 id="apache-livyspark">通过Apache Livy使用Spark</h2>
+<p>开启使用Livy需要修改如下配置:</p>
+
+<div class="highlight"><pre><code class="language-groff" data-lang="groff">kylin.engine.livy-conf.livy-enabled=true
+kylin.engine.livy-conf.livy-url=http://ip:8998
+kylin.engine.livy-conf.livy-key.file=hdfs:///path/kylin-job-3.0.0-SNAPSHOT.jar
+kylin.engine.livy-conf.livy-arr.jars=hdfs:///path/hbase-client-1.2.0-{$env.version}.jar,hdfs:///path/hbase-common-1.2.0-{$env.version}.jar,hdfs:///path/hbase-hadoop-compat-1.2.0-{$env.version}.jar,hdfs:///path/hbase-hadoop2-compat-1.2.0-{$env.version}.jar,hdfs:///path/hbase-server-1.2.0-{$env.version}.jar,hdfs:///path/htrace-core-3.2.0-incubating.jar,hdfs:///path/metrics-core-2.2.0.jar</code></pre></div>
+
+<p>需要注意的是jar包路径之间不能存在空格。</p>
+
+<h2 id="section-1">可选功能</h2>
+
+<p>现在构建步骤中的’extract fact table distinct value’ 和 ‘build dimension dictionary’ 两个步骤也可以使用Spark进行构建了。相关的配置如下:</p>
+
+<div class="highlight"><pre><code class="language-groff" data-lang="groff">kylin.engine.spark-fact-distinct=true
+kylin.engine.spark-dimension-dictionary=true</code></pre></div>
+
+<h2 id="section-2">疑难解答</h2>
 
 <p>当出现 error,您可以首先查看 “logs/kylin.log”. 其中包含 Kylin 执行的所有 Spark 命令,例如:</p>
 
@@ -320,7 +337,7 @@ Caused by: java.util.NoSuchElementExcept
 
 <p>解决办法是: 将 <code class="highlighter-rouge">hbase-hadoop2-compat-*.jar</code> 和 <code class="highlighter-rouge">hbase-hadoop-compat-*.jar</code> 拷贝到 <code class="highlighter-rouge">$KYLIN_HOME/spark/jars</code> 目录下 (这两个 jar 文件可以从 HBase 的 lib 目录找到); 如果你已经生成了 Spark assembly jar 并上传到了 HDFS, 那么你需要重新打包上传。在这之后,重试失败的 cube 任务,应该就可以成功了。相关的 JIRA issue 是 KYLIN-3607,会在未来版本修复.</p>
 
-<h2 id="section-2">进一步</h2>
+<h2 id="section-3">进一步</h2>
 
 <p>如果您是 Kylin 的管理员但是对于 Spark 是新手,建议您浏览 <a href="https://spark.apache.org/docs/2.1.2/">Spark 文档</a>,别忘记相应地去更新配置。您可以开启 Spark 的 <a href="https://spark.apache.org/docs/2.1.2/job-scheduling.html#dynamic-resource-allocation">Dynamic Resource Allocation</a> ,以便其对于不同的工作负载能自动伸缩。Spark 性能依赖于集群的内存和 CPU 资源,当有复杂数据模型和巨大的数据集一次构建时 Kylin 的 Cube 构建将会是一项繁重的任务。如果您的集群资源不能够执行,Spark executors å°±ä¼
 šæŠ›å‡ºå¦‚ “OutOfMemorry” 这样的错误,因此请合理的使用。对于有 UHC dimension,过多组合 (例如,一个 cube 超过 12 dimensions),或耗尽内存的度量 (Count Distinct,Top-N) 的 Cube,建议您使用 MapReduce engine。如果您的 Cube 模型较为简单,所有度量都是 SUM/MIN/MAX/COUNT,源数据规模小至中等,Spark engine 将会是个好的选择。</p>
 

Modified: kylin/site/cn/docs/tutorial/sql_reference.html
URL: http://svn.apache.org/viewvc/kylin/site/cn/docs/tutorial/sql_reference.html?rev=1877742&r1=1877741&r2=1877742&view=diff
==============================================================================
--- kylin/site/cn/docs/tutorial/sql_reference.html (original)
+++ kylin/site/cn/docs/tutorial/sql_reference.html Thu May 14 14:14:16 2020
@@ -354,7 +354,7 @@ SELECT lstg_format_name, SUM(price) AS g
 <p>在表中存在至少一个匹配时,<code class="highlighter-rouge">INNER JOIN</code> 关键字返回行。<br />
 例子:</p>
 
-<div class="highlight"><pre><code class="language-groff" data-lang="groff">SELECT kylin_cal_dt.cal_dt, kylin_sales.price FROM kylin_sales INNER JOIN kylin_cal_dt AS kylin_cal_dt ON kylin_sales.part_dt**** = kylin_cal_dt.cal_dt;</code></pre></div>
+<div class="highlight"><pre><code class="language-groff" data-lang="groff">SELECT kylin_cal_dt.cal_dt, kylin_sales.price FROM kylin_sales INNER JOIN kylin_cal_dt AS kylin_cal_dt ON kylin_sales.part_dt = kylin_cal_dt.cal_dt;</code></pre></div>
 
 <h3 id="LEFTJOIN">LEFT JOIN</h3>
 <p>使用 <code class="highlighter-rouge">LEFT JOIN</code> 关键字会从左表 (kylin_sales) 那里返回所有的行,即使在右表 (kylin_category_groupings) 中没有匹配的行。<br />

Modified: kylin/site/cn/docs30/tutorial/cube_spark.html
URL: http://svn.apache.org/viewvc/kylin/site/cn/docs30/tutorial/cube_spark.html?rev=1877742&r1=1877741&r2=1877742&view=diff
==============================================================================
--- kylin/site/cn/docs30/tutorial/cube_spark.html (original)
+++ kylin/site/cn/docs30/tutorial/cube_spark.html Thu May 14 14:14:16 2020
@@ -284,7 +284,24 @@ $KYLIN_HOME/bin/kylin.sh start</code></p
 
 <p>所有步骤成功执行后,Cube 的状态变为 “Ready” 且您可以像往常那样进行查询。</p>
 
-<h2 id="section-1">疑难解答</h2>
+<h2 id="apache-livyspark">通过Apache Livy使用Spark</h2>
+<p>开启使用Livy需要修改如下配置:</p>
+
+<div class="highlight"><pre><code class="language-groff" data-lang="groff">kylin.engine.livy-conf.livy-enabled=true
+kylin.engine.livy-conf.livy-url=http://ip:8998
+kylin.engine.livy-conf.livy-key.file=hdfs:///path/kylin-job-3.0.0-SNAPSHOT.jar
+kylin.engine.livy-conf.livy-arr.jars=hdfs:///path/hbase-client-1.2.0-{$env.version}.jar,hdfs:///path/hbase-common-1.2.0-{$env.version}.jar,hdfs:///path/hbase-hadoop-compat-1.2.0-{$env.version}.jar,hdfs:///path/hbase-hadoop2-compat-1.2.0-{$env.version}.jar,hdfs:///path/hbase-server-1.2.0-{$env.version}.jar,hdfs:///path/htrace-core-3.2.0-incubating.jar,hdfs:///path/metrics-core-2.2.0.jar</code></pre></div>
+
+<p>需要注意的是jar包路径之间不能存在空格。</p>
+
+<h2 id="section-1">可选功能</h2>
+
+<p>现在构建步骤中的’extract fact table distinct value’ 和 ‘build dimension dictionary’ 两个步骤也可以使用Spark进行构建了。相关的配置如下:</p>
+
+<div class="highlight"><pre><code class="language-groff" data-lang="groff">kylin.engine.spark-fact-distinct=true
+kylin.engine.spark-dimension-dictionary=true</code></pre></div>
+
+<h2 id="section-2">疑难解答</h2>
 
 <p>当出现 error,您可以首先查看 “logs/kylin.log”. 其中包含 Kylin 执行的所有 Spark 命令,例如:</p>
 
@@ -320,7 +337,7 @@ Caused by: java.util.NoSuchElementExcept
 
 <p>解决办法是: 将 <code class="highlighter-rouge">hbase-hadoop2-compat-*.jar</code> 和 <code class="highlighter-rouge">hbase-hadoop-compat-*.jar</code> 拷贝到 <code class="highlighter-rouge">$KYLIN_HOME/spark/jars</code> 目录下 (这两个 jar 文件可以从 HBase 的 lib 目录找到); 如果你已经生成了 Spark assembly jar 并上传到了 HDFS, 那么你需要重新打包上传。在这之后,重试失败的 cube 任务,应该就可以成功了。相关的 JIRA issue 是 KYLIN-3607,会在未来版本修复.</p>
 
-<h2 id="section-2">进一步</h2>
+<h2 id="section-3">进一步</h2>
 
 <p>如果您是 Kylin 的管理员但是对于 Spark 是新手,建议您浏览 <a href="https://spark.apache.org/docs/2.1.2/">Spark 文档</a>,别忘记相应地去更新配置。您可以开启 Spark 的 <a href="https://spark.apache.org/docs/2.1.2/job-scheduling.html#dynamic-resource-allocation">Dynamic Resource Allocation</a> ,以便其对于不同的工作负载能自动伸缩。Spark 性能依赖于集群的内存和 CPU 资源,当有复杂数据模型和巨大的数据集一次构建时 Kylin 的 Cube 构建将会是一项繁重的任务。如果您的集群资源不能够执行,Spark executors å°±ä¼
 šæŠ›å‡ºå¦‚ “OutOfMemorry” 这样的错误,因此请合理的使用。对于有 UHC dimension,过多组合 (例如,一个 cube 超过 12 dimensions),或耗尽内存的度量 (Count Distinct,Top-N) 的 Cube,建议您使用 MapReduce engine。如果您的 Cube 模型较为简单,所有度量都是 SUM/MIN/MAX/COUNT,源数据规模小至中等,Spark engine 将会是个好的选择。</p>
 

Modified: kylin/site/cn/docs30/tutorial/sql_reference.html
URL: http://svn.apache.org/viewvc/kylin/site/cn/docs30/tutorial/sql_reference.html?rev=1877742&r1=1877741&r2=1877742&view=diff
==============================================================================
--- kylin/site/cn/docs30/tutorial/sql_reference.html (original)
+++ kylin/site/cn/docs30/tutorial/sql_reference.html Thu May 14 14:14:16 2020
@@ -354,7 +354,7 @@ SELECT lstg_format_name, SUM(price) AS g
 <p>在表中存在至少一个匹配时,<code class="highlighter-rouge">INNER JOIN</code> 关键字返回行。<br />
 例子:</p>
 
-<div class="highlight"><pre><code class="language-groff" data-lang="groff">SELECT kylin_cal_dt.cal_dt, kylin_sales.price FROM kylin_sales INNER JOIN kylin_cal_dt AS kylin_cal_dt ON kylin_sales.part_dt**** = kylin_cal_dt.cal_dt;</code></pre></div>
+<div class="highlight"><pre><code class="language-groff" data-lang="groff">SELECT kylin_cal_dt.cal_dt, kylin_sales.price FROM kylin_sales INNER JOIN kylin_cal_dt AS kylin_cal_dt ON kylin_sales.part_dt = kylin_cal_dt.cal_dt;</code></pre></div>
 
 <h3 id="LEFTJOIN">LEFT JOIN</h3>
 <p>使用 <code class="highlighter-rouge">LEFT JOIN</code> 关键字会从左表 (kylin_sales) 那里返回所有的行,即使在右表 (kylin_category_groupings) 中没有匹配的行。<br />

Modified: kylin/site/cn/docs31/tutorial/cube_spark.html
URL: http://svn.apache.org/viewvc/kylin/site/cn/docs31/tutorial/cube_spark.html?rev=1877742&r1=1877741&r2=1877742&view=diff
==============================================================================
--- kylin/site/cn/docs31/tutorial/cube_spark.html (original)
+++ kylin/site/cn/docs31/tutorial/cube_spark.html Thu May 14 14:14:16 2020
@@ -284,7 +284,24 @@ $KYLIN_HOME/bin/kylin.sh start</code></p
 
 <p>所有步骤成功执行后,Cube 的状态变为 “Ready” 且您可以像往常那样进行查询。</p>
 
-<h2 id="section-1">疑难解答</h2>
+<h2 id="apache-livyspark">通过Apache Livy使用Spark</h2>
+<p>开启使用Livy需要修改如下配置:</p>
+
+<div class="highlight"><pre><code class="language-groff" data-lang="groff">kylin.engine.livy-conf.livy-enabled=true
+kylin.engine.livy-conf.livy-url=http://ip:8998
+kylin.engine.livy-conf.livy-key.file=hdfs:///path/kylin-job-3.0.0-SNAPSHOT.jar
+kylin.engine.livy-conf.livy-arr.jars=hdfs:///path/hbase-client-1.2.0-{$env.version}.jar,hdfs:///path/hbase-common-1.2.0-{$env.version}.jar,hdfs:///path/hbase-hadoop-compat-1.2.0-{$env.version}.jar,hdfs:///path/hbase-hadoop2-compat-1.2.0-{$env.version}.jar,hdfs:///path/hbase-server-1.2.0-{$env.version}.jar,hdfs:///path/htrace-core-3.2.0-incubating.jar,hdfs:///path/metrics-core-2.2.0.jar</code></pre></div>
+
+<p>需要注意的是jar包路径之间不能存在空格。</p>
+
+<h2 id="section-1">可选功能</h2>
+
+<p>现在构建步骤中的’extract fact table distinct value’ 和 ‘build dimension dictionary’ 两个步骤也可以使用Spark进行构建了。相关的配置如下:</p>
+
+<div class="highlight"><pre><code class="language-groff" data-lang="groff">kylin.engine.spark-fact-distinct=true
+kylin.engine.spark-dimension-dictionary=true</code></pre></div>
+
+<h2 id="section-2">疑难解答</h2>
 
 <p>当出现 error,您可以首先查看 “logs/kylin.log”. 其中包含 Kylin 执行的所有 Spark 命令,例如:</p>
 
@@ -320,7 +337,7 @@ Caused by: java.util.NoSuchElementExcept
 
 <p>解决办法是: 将 <code class="highlighter-rouge">hbase-hadoop2-compat-*.jar</code> 和 <code class="highlighter-rouge">hbase-hadoop-compat-*.jar</code> 拷贝到 <code class="highlighter-rouge">$KYLIN_HOME/spark/jars</code> 目录下 (这两个 jar 文件可以从 HBase 的 lib 目录找到); 如果你已经生成了 Spark assembly jar 并上传到了 HDFS, 那么你需要重新打包上传。在这之后,重试失败的 cube 任务,应该就可以成功了。相关的 JIRA issue 是 KYLIN-3607,会在未来版本修复.</p>
 
-<h2 id="section-2">进一步</h2>
+<h2 id="section-3">进一步</h2>
 
 <p>如果您是 Kylin 的管理员但是对于 Spark 是新手,建议您浏览 <a href="https://spark.apache.org/docs/2.1.2/">Spark 文档</a>,别忘记相应地去更新配置。您可以开启 Spark 的 <a href="https://spark.apache.org/docs/2.1.2/job-scheduling.html#dynamic-resource-allocation">Dynamic Resource Allocation</a> ,以便其对于不同的工作负载能自动伸缩。Spark 性能依赖于集群的内存和 CPU 资源,当有复杂数据模型和巨大的数据集一次构建时 Kylin 的 Cube 构建将会是一项繁重的任务。如果您的集群资源不能够执行,Spark executors å°±ä¼
 šæŠ›å‡ºå¦‚ “OutOfMemorry” 这样的错误,因此请合理的使用。对于有 UHC dimension,过多组合 (例如,一个 cube 超过 12 dimensions),或耗尽内存的度量 (Count Distinct,Top-N) 的 Cube,建议您使用 MapReduce engine。如果您的 Cube 模型较为简单,所有度量都是 SUM/MIN/MAX/COUNT,源数据规模小至中等,Spark engine 将会是个好的选择。</p>
 

Modified: kylin/site/cn/docs31/tutorial/sql_reference.html
URL: http://svn.apache.org/viewvc/kylin/site/cn/docs31/tutorial/sql_reference.html?rev=1877742&r1=1877741&r2=1877742&view=diff
==============================================================================
--- kylin/site/cn/docs31/tutorial/sql_reference.html (original)
+++ kylin/site/cn/docs31/tutorial/sql_reference.html Thu May 14 14:14:16 2020
@@ -354,7 +354,7 @@ SELECT lstg_format_name, SUM(price) AS g
 <p>在表中存在至少一个匹配时,<code class="highlighter-rouge">INNER JOIN</code> 关键字返回行。<br />
 例子:</p>
 
-<div class="highlight"><pre><code class="language-groff" data-lang="groff">SELECT kylin_cal_dt.cal_dt, kylin_sales.price FROM kylin_sales INNER JOIN kylin_cal_dt AS kylin_cal_dt ON kylin_sales.part_dt**** = kylin_cal_dt.cal_dt;</code></pre></div>
+<div class="highlight"><pre><code class="language-groff" data-lang="groff">SELECT kylin_cal_dt.cal_dt, kylin_sales.price FROM kylin_sales INNER JOIN kylin_cal_dt AS kylin_cal_dt ON kylin_sales.part_dt = kylin_cal_dt.cal_dt;</code></pre></div>
 
 <h3 id="LEFTJOIN">LEFT JOIN</h3>
 <p>使用 <code class="highlighter-rouge">LEFT JOIN</code> 关键字会从左表 (kylin_sales) 那里返回所有的行,即使在右表 (kylin_category_groupings) 中没有匹配的行。<br />

Modified: kylin/site/feed.xml
URL: http://svn.apache.org/viewvc/kylin/site/feed.xml?rev=1877742&r1=1877741&r2=1877742&view=diff
==============================================================================
--- kylin/site/feed.xml (original)
+++ kylin/site/feed.xml Thu May 14 14:14:16 2020
@@ -19,8 +19,8 @@
     <description>Apache Kylin Home</description>
     <link>http://kylin.apache.org/</link>
     <atom:link href="http://kylin.apache.org/feed.xml" rel="self" type="application/rss+xml"/>
-    <pubDate>Tue, 05 May 2020 18:57:01 -0700</pubDate>
-    <lastBuildDate>Tue, 05 May 2020 18:57:01 -0700</lastBuildDate>
+    <pubDate>Thu, 14 May 2020 06:59:11 -0700</pubDate>
+    <lastBuildDate>Thu, 14 May 2020 06:59:11 -0700</lastBuildDate>
     <generator>Jekyll v2.5.3</generator>
     
       <item>