You are viewing a plain text version of this content. The canonical link for it is here.
Posted to commits@kylin.apache.org by li...@apache.org on 2019/01/10 14:09:27 UTC

svn commit: r1850940 - in /kylin/site: blog/index.html cn/docs/tutorial/cube_spark.html docs/tutorial/cube_spark.html feed.xml

Author: lidong
Date: Thu Jan 10 14:09:26 2019
New Revision: 1850940

URL: http://svn.apache.org/viewvc?rev=1850940&view=rev
Log:
Update cube_spark document with KYLIN-3607

Modified:
    kylin/site/blog/index.html
    kylin/site/cn/docs/tutorial/cube_spark.html
    kylin/site/docs/tutorial/cube_spark.html
    kylin/site/feed.xml

Modified: kylin/site/blog/index.html
URL: http://svn.apache.org/viewvc/kylin/site/blog/index.html?rev=1850940&r1=1850939&r2=1850940&view=diff
==============================================================================
--- kylin/site/blog/index.html (original)
+++ kylin/site/blog/index.html Thu Jan 10 14:09:26 2019
@@ -6047,21 +6047,21 @@ var _hmt = _hmt || [];
             </div>
       
             <div class="col-md-6 col-lg-6 col-xs-12">
-              <a class="blog-card" href="/cn/blog/2018/09/20/release-v2.5.0/">
+              <a class="blog-card" href="/blog/2018/09/20/release-v2.5.0/">
                 <div class="blog-pic">
                   <img width="20" src="../assets/images/icon_blog_w.png" />
                 </div>
-                <p class="blog-title">Apache Kylin v2.5.0 正式发布</p>
+                <p class="blog-title">Apache Kylin v2.5.0 Release Announcement</p>
                 <p align="left" class="post-meta">posted: Sep 20, 2018</p>
               </a>
             </div>
       
             <div class="col-md-6 col-lg-6 col-xs-12">
-              <a class="blog-card" href="/blog/2018/09/20/release-v2.5.0/">
+              <a class="blog-card" href="/cn/blog/2018/09/20/release-v2.5.0/">
                 <div class="blog-pic">
                   <img width="20" src="../assets/images/icon_blog_w.png" />
                 </div>
-                <p class="blog-title">Apache Kylin v2.5.0 Release Announcement</p>
+                <p class="blog-title">Apache Kylin v2.5.0 正式发布</p>
                 <p align="left" class="post-meta">posted: Sep 20, 2018</p>
               </a>
             </div>
@@ -6347,21 +6347,21 @@ var _hmt = _hmt || [];
             </div>
       
             <div class="col-md-6 col-lg-6 col-xs-12">
-              <a class="blog-card" href="/cn/blog/2016/03/16/release-v1.3.0/">
+              <a class="blog-card" href="/blog/2016/03/16/release-v1.3.0/">
                 <div class="blog-pic">
                   <img width="20" src="../assets/images/icon_blog_w.png" />
                 </div>
-                <p class="blog-title">Apache Kylin v1.3.0 正式发布</p>
+                <p class="blog-title">Apache Kylin v1.3.0 Release Announcement</p>
                 <p align="left" class="post-meta">posted: Mar 16, 2016</p>
               </a>
             </div>
       
             <div class="col-md-6 col-lg-6 col-xs-12">
-              <a class="blog-card" href="/blog/2016/03/16/release-v1.3.0/">
+              <a class="blog-card" href="/cn/blog/2016/03/16/release-v1.3.0/">
                 <div class="blog-pic">
                   <img width="20" src="../assets/images/icon_blog_w.png" />
                 </div>
-                <p class="blog-title">Apache Kylin v1.3.0 Release Announcement</p>
+                <p class="blog-title">Apache Kylin v1.3.0 正式发布</p>
                 <p align="left" class="post-meta">posted: Mar 16, 2016</p>
               </a>
             </div>
@@ -6387,41 +6387,41 @@ var _hmt = _hmt || [];
             </div>
       
             <div class="col-md-6 col-lg-6 col-xs-12">
-              <a class="blog-card" href="/cn/blog/2015/12/25/support-powerbi-tableau9/">
+              <a class="blog-card" href="/blog/2015/12/25/support-powerbi-tableau9/">
                 <div class="blog-pic">
                   <img width="20" src="../assets/images/icon_blog_w.png" />
                 </div>
-                <p class="blog-title">Apache Kylin增加对Tableau 9及微软Excel, Power BI的支持</p>
+                <p class="blog-title">Apache Kylin supports Tableau 9 and MS Excel, Power BI now</p>
                 <p align="left" class="post-meta">posted: Dec 25, 2015</p>
               </a>
             </div>
       
             <div class="col-md-6 col-lg-6 col-xs-12">
-              <a class="blog-card" href="/blog/2015/12/25/support-powerbi-tableau9/">
+              <a class="blog-card" href="/cn/blog/2015/12/25/support-powerbi-tableau9/">
                 <div class="blog-pic">
                   <img width="20" src="../assets/images/icon_blog_w.png" />
                 </div>
-                <p class="blog-title">Apache Kylin supports Tableau 9 and MS Excel, Power BI now</p>
+                <p class="blog-title">Apache Kylin增加对Tableau 9及微软Excel, Power BI的支持</p>
                 <p align="left" class="post-meta">posted: Dec 25, 2015</p>
               </a>
             </div>
       
             <div class="col-md-6 col-lg-6 col-xs-12">
-              <a class="blog-card" href="/cn/blog/2015/12/23/release-v1.2/">
+              <a class="blog-card" href="/blog/2015/12/23/release-v1.2/">
                 <div class="blog-pic">
                   <img width="20" src="../assets/images/icon_blog_w.png" />
                 </div>
-                <p class="blog-title">Apache Kylin v1.2 正式发布</p>
+                <p class="blog-title">Apache Kylin v1.2 Release Announcement</p>
                 <p align="left" class="post-meta">posted: Dec 23, 2015</p>
               </a>
             </div>
       
             <div class="col-md-6 col-lg-6 col-xs-12">
-              <a class="blog-card" href="/blog/2015/12/23/release-v1.2/">
+              <a class="blog-card" href="/cn/blog/2015/12/23/release-v1.2/">
                 <div class="blog-pic">
                   <img width="20" src="../assets/images/icon_blog_w.png" />
                 </div>
-                <p class="blog-title">Apache Kylin v1.2 Release Announcement</p>
+                <p class="blog-title">Apache Kylin v1.2 正式发布</p>
                 <p align="left" class="post-meta">posted: Dec 23, 2015</p>
               </a>
             </div>

Modified: kylin/site/cn/docs/tutorial/cube_spark.html
URL: http://svn.apache.org/viewvc/kylin/site/cn/docs/tutorial/cube_spark.html?rev=1850940&r1=1850939&r2=1850940&view=diff
==============================================================================
--- kylin/site/cn/docs/tutorial/cube_spark.html (original)
+++ kylin/site/cn/docs/tutorial/cube_spark.html Thu Jan 10 14:09:26 2019
@@ -292,6 +292,22 @@ $KYLIN_HOME/bin/kylin.sh start</code></p
 
 <p>点击一个具体的 job,运行时的具体信息将会展示,该信息对疑难解答和性能调整有极大的帮助。</p>
 
+<p>在某些 Hadoop 版本上, 在 “Convert Cuboid Data to HFile” 这一步可能会遇到下面这个错误:</p>
+
+<div class="highlight"><pre><code class="language-groff" data-lang="groff">Caused by: java.lang.RuntimeException: Could not create  interface org.apache.hadoop.hbase.regionserver.MetricsRegionServerSourceFactory Is the hadoop compatibility jar on the classpath?
+	at org.apache.hadoop.hbase.CompatibilitySingletonFactory.getInstance(CompatibilitySingletonFactory.java:73)
+	at org.apache.hadoop.hbase.io.MetricsIO.&lt;init&gt;(MetricsIO.java:31)
+	at org.apache.hadoop.hbase.io.hfile.HFile.&lt;clinit&gt;(HFile.java:192)
+	... 15 more
+Caused by: java.util.NoSuchElementException
+	at java.util.ServiceLoader$LazyIterator.nextService(ServiceLoader.java:365)
+	at java.util.ServiceLoader$LazyIterator.next(ServiceLoader.java:404)
+	at java.util.ServiceLoader$1.next(ServiceLoader.java:480)
+	at org.apache.hadoop.hbase.CompatibilitySingletonFactory.getInstance(CompatibilitySingletonFactory.java:59)
+	... 17 more</code></pre></div>
+
+<p>解决办法是: 将 <code class="highlighter-rouge">hbase-hadoop2-compat-*.jar</code> 和 <code class="highlighter-rouge">hbase-hadoop-compat-*.jar</code> 拷贝到 <code class="highlighter-rouge">$KYLIN_HOME/spark/jars</code> 目录下 (这两个 jar 文件可以从 HBase 的 lib 目录找到); 如果你已经生成了 Spark assembly jar 并上传到了 HDFS, 那么你需要重新打包上传。在这之后,重试失败的 cube 任务,应该就可以成功了。相关的 JIRA issue 是 KYLIN-3607,会在未来版本修复.</p>
+
 <h2 id="section-2">进一步</h2>
 
 <p>如果您是 Kylin 的管理员但是对于 Spark 是新手,建议您浏览 <a href="https://spark.apache.org/docs/2.1.2/">Spark 文档</a>,别忘记相应地去更新配置。您可以开启 Spark 的 <a href="https://spark.apache.org/docs/2.1.2/job-scheduling.html#dynamic-resource-allocation">Dynamic Resource Allocation</a> ,以便其对于不同的工作负载能自动伸缩。Spark 性能依赖于集群的内存和 CPU 资源,当有复杂数据模型和巨大的数据集一次构建时 Kylin 的 Cube 构建将会是一项繁重的任务。如果您的集群资源不能够执行,Spark executors å°±ä¼
 šæŠ›å‡ºå¦‚ “OutOfMemorry” 这样的错误,因此请合理的使用。对于有 UHC dimension,过多组合 (例如,一个 cube 超过 12 dimensions),或耗尽内存的度量 (Count Distinct,Top-N) 的 Cube,建议您使用 MapReduce engine。如果您的 Cube 模型较为简单,所有度量都是 SUM/MIN/MAX/COUNT,源数据规模小至中等,Spark engine 将会是个好的选择。</p>

Modified: kylin/site/docs/tutorial/cube_spark.html
URL: http://svn.apache.org/viewvc/kylin/site/docs/tutorial/cube_spark.html?rev=1850940&r1=1850939&r2=1850940&view=diff
==============================================================================
--- kylin/site/docs/tutorial/cube_spark.html (original)
+++ kylin/site/docs/tutorial/cube_spark.html Thu Jan 10 14:09:26 2019
@@ -6048,7 +6048,7 @@ export KYLIN_HOME=/usr/local/apache-kyli
 
 <h2 id="check-spark-configuration">Check Spark configuration</h2>
 
-<p>Kylin embeds a Spark binary (v2.1.0) in $KYLIN_HOME/spark, all the Spark configurations can be managed in $KYLIN_HOME/conf/kylin.properties with prefix <em>“kylin.engine.spark-conf.”</em>. These properties will be extracted and applied when runs submit Spark job; E.g, if you configure “kylin.engine.spark-conf.spark.executor.memory=4G”, Kylin will use “–conf spark.executor.memory=4G” as parameter when execute “spark-submit”.</p>
+<p>Kylin embeds a Spark binary (Spark v2.1 for Kylin 2.4 and 2.5) in $KYLIN_HOME/spark, all the Spark configurations can be managed in $KYLIN_HOME/conf/kylin.properties with prefix <em>“kylin.engine.spark-conf.”</em>. These properties will be extracted and applied when runs submit Spark job; E.g, if you configure “kylin.engine.spark-conf.spark.executor.memory=4G”, Kylin will use “–conf spark.executor.memory=4G” as parameter when execute “spark-submit”.</p>
 
 <p>Before you run Spark cubing, suggest take a look on these configurations and do customization according to your cluster. Below is the recommended configurations:</p>
 
@@ -6149,6 +6149,22 @@ $KYLIN_HOME/bin/kylin.sh start</code></p
 
 <p>Click a specific job, there you will see the detail runtime information, that is very helpful for trouble shooting and performance tuning.</p>
 
+<p>On some Hadoop release, you may encounter the following error in the “Convert Cuboid Data to HFile” step:</p>
+
+<div class="highlight"><pre><code class="language-groff" data-lang="groff">Caused by: java.lang.RuntimeException: Could not create  interface org.apache.hadoop.hbase.regionserver.MetricsRegionServerSourceFactory Is the hadoop compatibility jar on the classpath?
+	at org.apache.hadoop.hbase.CompatibilitySingletonFactory.getInstance(CompatibilitySingletonFactory.java:73)
+	at org.apache.hadoop.hbase.io.MetricsIO.&lt;init&gt;(MetricsIO.java:31)
+	at org.apache.hadoop.hbase.io.hfile.HFile.&lt;clinit&gt;(HFile.java:192)
+	... 15 more
+Caused by: java.util.NoSuchElementException
+	at java.util.ServiceLoader$LazyIterator.nextService(ServiceLoader.java:365)
+	at java.util.ServiceLoader$LazyIterator.next(ServiceLoader.java:404)
+	at java.util.ServiceLoader$1.next(ServiceLoader.java:480)
+	at org.apache.hadoop.hbase.CompatibilitySingletonFactory.getInstance(CompatibilitySingletonFactory.java:59)
+	... 17 more</code></pre></div>
+
+<p>The workaround is: add <code class="highlighter-rouge">hbase-hadoop2-compat-*.jar</code> and <code class="highlighter-rouge">hbase-hadoop-compat-*.jar</code> into <code class="highlighter-rouge">$KYLIN_HOME/spark/jars</code> (the two jar files can be found in HBase’s lib folder); If you already make the Spark assembly jar and uploaded to HDFS, you may need to re-package that and re-upload to HDFS. After that, resume the failed job, the job should be succesful. The related issue is KYLIN-3607 which will be fixed in later version.</p>
+
 <h2 id="go-further">Go further</h2>
 
 <p>If you’re a Kylin administrator but new to Spark, suggest you go through <a href="https://spark.apache.org/docs/2.1.0/">Spark documents</a>, and don’t forget to update the configurations accordingly. You can enable Spark <a href="https://spark.apache.org/docs/2.1.0/job-scheduling.html#dynamic-resource-allocation">Dynamic Resource Allocation</a> so that it can auto scale/shrink for different work load. Spark’s performance relies on Cluster’s memory and CPU resource, while Kylin’s Cube build is a heavy task when having a complex data model and a huge dataset to build at one time. If your cluster resource couldn’t fulfill, errors like “OutOfMemorry” will be thrown in Spark executors, so please use it properly. For Cube which has UHC dimension, many combinations (e.g, a full cube with more than 12 dimensions), or memory hungry measures (Count Distinct, Top-N), suggest to use the MapReduce engine. If your Cube model is simple, all measures are S
 UM/MIN/MAX/COUNT, source data is small to medium scale, Spark engine would be a good choice. Besides, Streaming build isn’t supported in this engine so far (KYLIN-2484).</p>

Modified: kylin/site/feed.xml
URL: http://svn.apache.org/viewvc/kylin/site/feed.xml?rev=1850940&r1=1850939&r2=1850940&view=diff
==============================================================================
--- kylin/site/feed.xml (original)
+++ kylin/site/feed.xml Thu Jan 10 14:09:26 2019
@@ -19,8 +19,8 @@
     <description>Apache Kylin Home</description>
     <link>http://kylin.apache.org/</link>
     <atom:link href="http://kylin.apache.org/feed.xml" rel="self" type="application/rss+xml"/>
-    <pubDate>Wed, 09 Jan 2019 05:59:25 -0800</pubDate>
-    <lastBuildDate>Wed, 09 Jan 2019 05:59:25 -0800</lastBuildDate>
+    <pubDate>Thu, 10 Jan 2019 05:59:22 -0800</pubDate>
+    <lastBuildDate>Thu, 10 Jan 2019 05:59:22 -0800</lastBuildDate>
     <generator>Jekyll v2.5.3</generator>
     
       <item>
@@ -235,6 +235,70 @@ Graphic 10 Process of Querying Cube&lt;/
       </item>
     
       <item>
+        <title>Apache Kylin v2.5.0 正式发布</title>
+        <description>&lt;p&gt;近日Apache Kylin 社区很高兴地宣布,Apache Kylin 2.5.0 正式发布。&lt;/p&gt;
+
+&lt;p&gt;Apache Kylin 是一个开源的分布式分析引擎,旨在为极大数据集提供 SQL 接口和多维分析(OLAP)的能力。&lt;/p&gt;
+
+&lt;p&gt;这是继2.4.0 后的一个新功能版本。该版本引入了很多有价值的改进,完整的改动列表请参见&lt;a href=&quot;https://kylin.apache.org/docs/release_notes.html&quot;&gt;release notes&lt;/a&gt;;这里挑一些主要改进做说明:&lt;/p&gt;
+
+&lt;h3 id=&quot;all-in-spark--cubing-&quot;&gt;All-in-Spark 的 Cubing 引擎&lt;/h3&gt;
+&lt;p&gt;Kylin 的 Spark 引擎将使用 Spark 运行 cube 计算中的所有分布式作业,包括获取各个维度的不同值,将 cuboid 文件转换为 HBase HFile,合并 segment,合并词典等。默认的 Spark 配置也经过优化,使得用户可以获得开箱即用的体验。相关开发任务是 KYLIN-3427, KYLIN-3441, KYLIN-3442.&lt;/p&gt;
+
+&lt;p&gt;Spark 任务管理也有所改进:一旦 Spark 任务开始运行,您就可以在Web控制台上获得作业链接;如果您丢弃该作业,Kylin 将立刻终止 Spark 作业以及时释放资源;如果重新启动 Kylin,它可以从上一个作业恢复,而不是重新提交新作业.&lt;/p&gt;
+
+&lt;h3 id=&quot;mysql--kylin-&quot;&gt;MySQL 做 Kylin 元数据的存储&lt;/h3&gt;
+&lt;p&gt;在过去,HBase 是 Kylin 元数据存储的唯一选择。 在某些情况下 HBase不适用,例如使用多个 HBase 集群来为 Kylin 提供跨区域的高可用,这里复制的 HBase 集群是只读的,所以不能做元数据存储。现在我们引入了 MySQL Metastore 以满足这种需求。此功能现在处于测试阶段。更多内容参见 KYLIN-3488。&lt;/p&gt;
+
+&lt;h3 id=&quot;hybrid-model-&quot;&gt;Hybrid model 图形界面&lt;/h3&gt;
+&lt;p&gt;Hybrid 是一种用于组装多个 cube 的高级模型。 它可用于满足 cube 的 schema 要发生改变的情况。这个功能过去没有图形界面,因此只有一小部分用户知道它。现在我们在 Web 界面上开启了它,以便更多用户可以尝试。&lt;/p&gt;
+
+&lt;h3 id=&quot;cube-planner&quot;&gt;默认开启 Cube planner&lt;/h3&gt;
+&lt;p&gt;Cube planner 可以极大地优化 cube 结构,减少构建的 cuboid 数量,从而节省计算/存储资源并提高查询性能。它是在v2.3中引入的,但默认情况下没有开启。为了让更多用户看到并尝试它,我们默认在v2.5中启用它。 算法将在第一次构建 segment 的时候,根据数据统计自动优化 cuboid 集合.&lt;/p&gt;
+
+&lt;h3 id=&quot;segment-&quot;&gt;改进的 Segment 剪枝&lt;/h3&gt;
+&lt;p&gt;Segment(分区)修剪可以有效地减少磁盘和网络I / O,因此大大提高了查询性能。 过去,Kylin 只按分区列 (partition date column) 的值进行 segment 的修剪。 如果查询中没有将分区列作为过滤条件,那么修剪将不起作用,会扫描所有segment。.&lt;br /&gt;
+现在从v2.5开始,Kylin 将在 segment 级别记录每个维度的最小/最大值。 在扫描 segment 之前,会将查询的条件与最小/最大索引进行比较。 如果不匹配,将跳过该 segment。 检查KYLIN-3370了解更多信息。&lt;/p&gt;
+
+&lt;h3 id=&quot;yarn-&quot;&gt;在 YARN 上合并字典&lt;/h3&gt;
+&lt;p&gt;当 segment 合并时,它们的词典也需要合并。在过去,字典合并发生在 Kylin 的 JVM 中,这需要使用大量的本地内存和 CPU 资源。 在极端情况下(如果有几个并发作业),可能会导致 Kylin 进程崩溃。 因此,一些用户不得不为 Kylin 任务节点分配更多内存,或运行多个任务节点以平衡工作负载。&lt;br /&gt;
+现在从v2.5开始,Kylin 将把这项任务提交给 Hadoop MapReduce 和 Spark,这样就可以解决这个瓶颈问题。 查看KYLIN-3471了解更多信息.&lt;/p&gt;
+
+&lt;h3 id=&quot;cube-&quot;&gt;改进使用全局字典的 cube 构建性能&lt;/h3&gt;
+&lt;p&gt;全局字典 (Global Dictionary) 是 bitmap 精确去重计数的必要条件。如果去重列具有非常高的基数,则 GD 可能非常大。在 cube 构建阶段,Kylin 需要通过 GD 将非整数值转换为整数。尽管 GD 已被分成多个切片,可以分开加载到内存,但是由于去重列的值是乱序的。Kylin 需要反复载入和载出(swap in/out)切片,这会导致构建任务非常缓慢。&lt;br /&gt;
+该增强功能引入了一个新步骤,为每个数据块从全局字典中构建一个缩小的字典。 随后每个任务只需要加载缩小的字典,从而避免频繁的载入和载出。性能可以比以前快3倍。查看 KYLIN-3491 了解更多信息.&lt;/p&gt;
+
+&lt;h3 id=&quot;topn-count-distinct--cube-&quot;&gt;改进含 TOPN, COUNT DISTINCT 的 cube 大小的估计&lt;/h3&gt;
+&lt;p&gt;Cube 的大小在构建时是预先估计的,并被后续几个步骤使用,例如决定 MR / Spark 作业的分区数,计算 HBase region 切割等。它的准确与否会对构建性能产生很大影响。 当存在 COUNT DISTINCT,TOPN 的度量时候,因为它们的大小是灵活的,因此估计值可能跟真实值有很大偏差。 在过去,用户需要调整若干个参数以使尺寸估计更接近实际尺寸,这对普通用户有点困难。&lt;br /&gt;
+现在,Kylin 将根据收集的统计信息自动调整大小估计。这可以使估计值与实际大小更接近。查看 KYLIN-3453 了解更多信息。&lt;/p&gt;
+
+&lt;h3 id=&quot;hadoop-30hbase-20&quot;&gt;支持Hadoop 3.0/HBase 2.0&lt;/h3&gt;
+&lt;p&gt;Hadoop 3和 HBase 2开始被许多用户采用。现在 Kylin 提供使用新的 Hadoop 和 HBase API 编译的新二进制包。我们已经在 Hortonworks HDP 3.0 和 Cloudera CDH 6.0 上进行了测试&lt;/p&gt;
+
+&lt;p&gt;&lt;strong&gt;下载&lt;/strong&gt;&lt;/p&gt;
+
+&lt;p&gt;要下载Apache Kylin v2.5.0源代码或二进制包,请访问&lt;a href=&quot;http://kylin.apache.org/download&quot;&gt;下载页面&lt;/a&gt; .&lt;/p&gt;
+
+&lt;p&gt;&lt;strong&gt;升级&lt;/strong&gt;&lt;/p&gt;
+
+&lt;p&gt;参考&lt;a href=&quot;/docs/howto/howto_upgrade.html&quot;&gt;升级指南&lt;/a&gt;.&lt;/p&gt;
+
+&lt;p&gt;&lt;strong&gt;反馈&lt;/strong&gt;&lt;/p&gt;
+
+&lt;p&gt;如果您遇到问题或疑问,请发送邮件至 Apache Kylin dev 或 user 邮件列表:dev@kylin.apache.org,user@kylin.apache.org; 在发送之前,请确保您已通过发送电子邮件至 dev-subscribe@kylin.apache.org 或 user-subscribe@kylin.apache.org订阅了邮件列表。&lt;/p&gt;
+
+&lt;p&gt;&lt;em&gt;非常感谢所有贡献Apache Kylin的朋友!&lt;/em&gt;&lt;/p&gt;
+</description>
+        <pubDate>Thu, 20 Sep 2018 13:00:00 -0700</pubDate>
+        <link>http://kylin.apache.org/cn/blog/2018/09/20/release-v2.5.0/</link>
+        <guid isPermaLink="true">http://kylin.apache.org/cn/blog/2018/09/20/release-v2.5.0/</guid>
+        
+        
+        <category>blog</category>
+        
+      </item>
+    
+      <item>
         <title>Apache Kylin v2.5.0 Release Announcement</title>
         <description>&lt;p&gt;The Apache Kylin community is pleased to announce the release of Apache Kylin v2.5.0.&lt;/p&gt;
 
@@ -303,70 +367,6 @@ Graphic 10 Process of Querying Cube&lt;/
         
         
         <category>blog</category>
-        
-      </item>
-    
-      <item>
-        <title>Apache Kylin v2.5.0 正式发布</title>
-        <description>&lt;p&gt;近日Apache Kylin 社区很高兴地宣布,Apache Kylin 2.5.0 正式发布。&lt;/p&gt;
-
-&lt;p&gt;Apache Kylin 是一个开源的分布式分析引擎,旨在为极大数据集提供 SQL 接口和多维分析(OLAP)的能力。&lt;/p&gt;
-
-&lt;p&gt;这是继2.4.0 后的一个新功能版本。该版本引入了很多有价值的改进,完整的改动列表请参见&lt;a href=&quot;https://kylin.apache.org/docs/release_notes.html&quot;&gt;release notes&lt;/a&gt;;这里挑一些主要改进做说明:&lt;/p&gt;
-
-&lt;h3 id=&quot;all-in-spark--cubing-&quot;&gt;All-in-Spark 的 Cubing 引擎&lt;/h3&gt;
-&lt;p&gt;Kylin 的 Spark 引擎将使用 Spark 运行 cube 计算中的所有分布式作业,包括获取各个维度的不同值,将 cuboid 文件转换为 HBase HFile,合并 segment,合并词典等。默认的 Spark 配置也经过优化,使得用户可以获得开箱即用的体验。相关开发任务是 KYLIN-3427, KYLIN-3441, KYLIN-3442.&lt;/p&gt;
-
-&lt;p&gt;Spark 任务管理也有所改进:一旦 Spark 任务开始运行,您就可以在Web控制台上获得作业链接;如果您丢弃该作业,Kylin 将立刻终止 Spark 作业以及时释放资源;如果重新启动 Kylin,它可以从上一个作业恢复,而不是重新提交新作业.&lt;/p&gt;
-
-&lt;h3 id=&quot;mysql--kylin-&quot;&gt;MySQL 做 Kylin 元数据的存储&lt;/h3&gt;
-&lt;p&gt;在过去,HBase 是 Kylin 元数据存储的唯一选择。 在某些情况下 HBase不适用,例如使用多个 HBase 集群来为 Kylin 提供跨区域的高可用,这里复制的 HBase 集群是只读的,所以不能做元数据存储。现在我们引入了 MySQL Metastore 以满足这种需求。此功能现在处于测试阶段。更多内容参见 KYLIN-3488。&lt;/p&gt;
-
-&lt;h3 id=&quot;hybrid-model-&quot;&gt;Hybrid model 图形界面&lt;/h3&gt;
-&lt;p&gt;Hybrid 是一种用于组装多个 cube 的高级模型。 它可用于满足 cube 的 schema 要发生改变的情况。这个功能过去没有图形界面,因此只有一小部分用户知道它。现在我们在 Web 界面上开启了它,以便更多用户可以尝试。&lt;/p&gt;
-
-&lt;h3 id=&quot;cube-planner&quot;&gt;默认开启 Cube planner&lt;/h3&gt;
-&lt;p&gt;Cube planner 可以极大地优化 cube 结构,减少构建的 cuboid 数量,从而节省计算/存储资源并提高查询性能。它是在v2.3中引入的,但默认情况下没有开启。为了让更多用户看到并尝试它,我们默认在v2.5中启用它。 算法将在第一次构建 segment 的时候,根据数据统计自动优化 cuboid 集合.&lt;/p&gt;
-
-&lt;h3 id=&quot;segment-&quot;&gt;改进的 Segment 剪枝&lt;/h3&gt;
-&lt;p&gt;Segment(分区)修剪可以有效地减少磁盘和网络I / O,因此大大提高了查询性能。 过去,Kylin 只按分区列 (partition date column) 的值进行 segment 的修剪。 如果查询中没有将分区列作为过滤条件,那么修剪将不起作用,会扫描所有segment。.&lt;br /&gt;
-现在从v2.5开始,Kylin 将在 segment 级别记录每个维度的最小/最大值。 在扫描 segment 之前,会将查询的条件与最小/最大索引进行比较。 如果不匹配,将跳过该 segment。 检查KYLIN-3370了解更多信息。&lt;/p&gt;
-
-&lt;h3 id=&quot;yarn-&quot;&gt;在 YARN 上合并字典&lt;/h3&gt;
-&lt;p&gt;当 segment 合并时,它们的词典也需要合并。在过去,字典合并发生在 Kylin 的 JVM 中,这需要使用大量的本地内存和 CPU 资源。 在极端情况下(如果有几个并发作业),可能会导致 Kylin 进程崩溃。 因此,一些用户不得不为 Kylin 任务节点分配更多内存,或运行多个任务节点以平衡工作负载。&lt;br /&gt;
-现在从v2.5开始,Kylin 将把这项任务提交给 Hadoop MapReduce 和 Spark,这样就可以解决这个瓶颈问题。 查看KYLIN-3471了解更多信息.&lt;/p&gt;
-
-&lt;h3 id=&quot;cube-&quot;&gt;改进使用全局字典的 cube 构建性能&lt;/h3&gt;
-&lt;p&gt;全局字典 (Global Dictionary) 是 bitmap 精确去重计数的必要条件。如果去重列具有非常高的基数,则 GD 可能非常大。在 cube 构建阶段,Kylin 需要通过 GD 将非整数值转换为整数。尽管 GD 已被分成多个切片,可以分开加载到内存,但是由于去重列的值是乱序的。Kylin 需要反复载入和载出(swap in/out)切片,这会导致构建任务非常缓慢。&lt;br /&gt;
-该增强功能引入了一个新步骤,为每个数据块从全局字典中构建一个缩小的字典。 随后每个任务只需要加载缩小的字典,从而避免频繁的载入和载出。性能可以比以前快3倍。查看 KYLIN-3491 了解更多信息.&lt;/p&gt;
-
-&lt;h3 id=&quot;topn-count-distinct--cube-&quot;&gt;改进含 TOPN, COUNT DISTINCT 的 cube 大小的估计&lt;/h3&gt;
-&lt;p&gt;Cube 的大小在构建时是预先估计的,并被后续几个步骤使用,例如决定 MR / Spark 作业的分区数,计算 HBase region 切割等。它的准确与否会对构建性能产生很大影响。 当存在 COUNT DISTINCT,TOPN 的度量时候,因为它们的大小是灵活的,因此估计值可能跟真实值有很大偏差。 在过去,用户需要调整若干个参数以使尺寸估计更接近实际尺寸,这对普通用户有点困难。&lt;br /&gt;
-现在,Kylin 将根据收集的统计信息自动调整大小估计。这可以使估计值与实际大小更接近。查看 KYLIN-3453 了解更多信息。&lt;/p&gt;
-
-&lt;h3 id=&quot;hadoop-30hbase-20&quot;&gt;支持Hadoop 3.0/HBase 2.0&lt;/h3&gt;
-&lt;p&gt;Hadoop 3和 HBase 2开始被许多用户采用。现在 Kylin 提供使用新的 Hadoop 和 HBase API 编译的新二进制包。我们已经在 Hortonworks HDP 3.0 和 Cloudera CDH 6.0 上进行了测试&lt;/p&gt;
-
-&lt;p&gt;&lt;strong&gt;下载&lt;/strong&gt;&lt;/p&gt;
-
-&lt;p&gt;要下载Apache Kylin v2.5.0源代码或二进制包,请访问&lt;a href=&quot;http://kylin.apache.org/download&quot;&gt;下载页面&lt;/a&gt; .&lt;/p&gt;
-
-&lt;p&gt;&lt;strong&gt;升级&lt;/strong&gt;&lt;/p&gt;
-
-&lt;p&gt;参考&lt;a href=&quot;/docs/howto/howto_upgrade.html&quot;&gt;升级指南&lt;/a&gt;.&lt;/p&gt;
-
-&lt;p&gt;&lt;strong&gt;反馈&lt;/strong&gt;&lt;/p&gt;
-
-&lt;p&gt;如果您遇到问题或疑问,请发送邮件至 Apache Kylin dev 或 user 邮件列表:dev@kylin.apache.org,user@kylin.apache.org; 在发送之前,请确保您已通过发送电子邮件至 dev-subscribe@kylin.apache.org 或 user-subscribe@kylin.apache.org订阅了邮件列表。&lt;/p&gt;
-
-&lt;p&gt;&lt;em&gt;非常感谢所有贡献Apache Kylin的朋友!&lt;/em&gt;&lt;/p&gt;
-</description>
-        <pubDate>Thu, 20 Sep 2018 13:00:00 -0700</pubDate>
-        <link>http://kylin.apache.org/cn/blog/2018/09/20/release-v2.5.0/</link>
-        <guid isPermaLink="true">http://kylin.apache.org/cn/blog/2018/09/20/release-v2.5.0/</guid>
-        
-        
-        <category>blog</category>
         
       </item>