You are viewing a plain text version of this content. The canonical link for it is here.
Posted to commits@mxnet.apache.org by ib...@apache.org on 2019/03/04 01:58:45 UTC
[incubator-mxnet] branch ib/jl-runtime-features updated (93f8e59 -> 6d9e429)

This is an automated email from the ASF dual-hosted git repository.

iblis pushed a change to branch ib/jl-runtime-features
in repository https://gitbox.apache.org/repos/asf/incubator-mxnet.git.


 discard 93f8e59  update
 discard 189478d  mx.isenabled
 discard 64a2a3d  2 space
 discard 3c2132a  update to new API
 discard d465c52  Julia: add binding for runtime feature detection
     new 5f32f32  Dual stream cudnn Convolution backward() with MXNET_GPU_WORKER_NSTREAMS=2. (#14006)
     new 0af40f7  [MXNET-1325] Make InferShapeAttr a standalone pass (#14193)
     new 0eed3da  Temporarily disables windows pipeline to unblock PRs (#14261)
     new e3a51b5  [op] add back support for scalar type rescale_grad argument for adamw_update/mp_adamw_update (#14221)
     new 7c617cc  pypi package description. manifest/setup.py update (#14255)
     new f0fedec  Refactors USE_NVRTC setting to ENABLE_CUDA_RTC in pip make config files (#14250)
     new c319ae5  MXNet Java bug fixes and experience improvement (#14213)
     new 992c3c0  [MXNET-1330] Bring nnvm::Tuple to mxnet::Tuple (#14270)
     new c6b1fd5  MXNET-1302 Exclude commons-codec and commons-io from assembled JAR (#14000)
     new 3180f9c  added mkldnn dependency for plugin compile target (#14274)
     new fb4f9d5  Large array support for randint (#14242)
     new 7aac0b5  reverting broadcasting fixes (#14299)
     new 0e23a18  add symbolic link to mkldnn header files in include (#14300)
     new 053ffc7  fix memory-related issues to enable ASAN tests (#14223)
     new 7b1727a  Julia: add binding for runtime feature detection
     new ec80b31  update to new API
     new 03698eb  2 space
     new 271fed6  mx.isenabled
     new 6d9e429  update

This update added new revisions after undoing existing revisions.
That is to say, some revisions that were in the old version of the
branch are not in the new version.  This situation occurs
when a user --force pushes a change and generates a repository
containing something like this:

 * -- * -- B -- O -- O -- O   (93f8e59)
            \
             N -- N -- N   refs/heads/ib/jl-runtime-features (6d9e429)

You should already have received notification emails for all of the O
revisions, and so the following emails describe only the N revisions
from the common base, B.

Any revisions marked "omit" are not gone; other references still
refer to them.  Any revisions marked "discard" are gone forever.

The 9336 revisions listed above as "new" are entirely new to this
repository and will be described in separate emails.  The revisions
listed as "add" were already present in the repository and have only
been added to this reference.


Summary of changes:
 3rdparty/dmlc-core                                 |   2 +-
 3rdparty/mshadow                                   |   2 +-
 CONTRIBUTORS.md                                    |   1 +
 Makefile                                           |   2 +-
 amalgamation/prep_nnvm.sh                          |   1 -
 ci/docker/runtime_functions.sh                     |   2 -
 ci/jenkins/Jenkinsfile_windows_cpu                 |  10 +-
 ci/jenkins/Jenkinsfile_windows_gpu                 |  10 +-
 cpp-package/example/alexnet.cpp                    |   1 +
 cpp-package/example/charRNN.cpp                    |  10 +
 cpp-package/example/googlenet.cpp                  |   1 +
 cpp-package/example/inception_bn.cpp               |   1 +
 cpp-package/example/lenet.cpp                      |   1 +
 cpp-package/example/lenet_with_mxdataiter.cpp      |   1 +
 cpp-package/example/mlp_cpu.cpp                    |   1 +
 cpp-package/example/mlp_csv.cpp                    |   1 +
 cpp-package/example/mlp_gpu.cpp                    |   1 +
 cpp-package/example/resnet.cpp                     |   1 +
 cpp-package/example/test_optimizer.cpp             |   1 +
 cpp-package/example/test_score.cpp                 |   1 +
 docs/architecture/overview.md                      |  22 +-
 docs/faq/add_op_in_backend.md                      |   8 +-
 docs/faq/env_var.md                                |   6 +
 docs/faq/new_op.md                                 |   2 +-
 .../predict-cpp/image-classification-predict.cc    |   4 +-
 include/mkldnn                                     |   1 +
 include/mxnet/base.h                               | 137 ++++-
 include/mxnet/executor.h                           |   4 +-
 include/mxnet/ndarray.h                            |  93 +--
 include/mxnet/op_attr_types.h                      |  11 +-
 include/mxnet/operator.h                           |  20 +-
 include/mxnet/operator_util.h                      |   8 +-
 include/mxnet/tensor_blob.h                        |  12 +-
 include/mxnet/tuple.h                              | 682 +++++++++++++++++++++
 make/pip/pip_darwin_cpu.mk                         |   2 +-
 make/pip/pip_darwin_mkl.mk                         |   2 +-
 make/pip/pip_linux_cpu.mk                          |   2 +-
 make/pip/pip_linux_cu100.mk                        |   2 +-
 make/pip/pip_linux_cu100mkl.mk                     |   2 +-
 make/pip/pip_linux_cu75.mk                         |   2 +-
 make/pip/pip_linux_cu75mkl.mk                      |   2 +-
 make/pip/pip_linux_cu80.mk                         |   2 +-
 make/pip/pip_linux_cu80mkl.mk                      |   2 +-
 make/pip/pip_linux_cu90.mk                         |   2 +-
 make/pip/pip_linux_cu90mkl.mk                      |   2 +-
 make/pip/pip_linux_cu91.mk                         |   2 +-
 make/pip/pip_linux_cu91mkl.mk                      |   2 +-
 make/pip/pip_linux_cu92.mk                         |   2 +-
 make/pip/pip_linux_cu92mkl.mk                      |   2 +-
 make/pip/pip_linux_mkl.mk                          |   2 +-
 plugin/caffe/caffe_blob.cc                         |   4 +-
 plugin/caffe/caffe_blob.h                          |   4 +-
 plugin/caffe/caffe_loss-inl.h                      |  12 +-
 plugin/caffe/caffe_loss.cc                         |   4 +-
 plugin/caffe/caffe_op-inl.h                        |  14 +-
 plugin/caffe/caffe_op.cc                           |   4 +-
 plugin/opencv/cv_api.cc                            |   6 +-
 plugin/sframe/iter_sframe.cc                       |   4 +-
 plugin/torch/torch_criterion-inl.h                 |  14 +-
 plugin/torch/torch_module-inl.h                    |  12 +-
 plugin/warpctc/warpctc-inl.h                       |  12 +-
 .../mxnet/contrib/onnx/onnx2mx/_op_translations.py |  36 +-
 .../contrib/onnx/onnx2mx/_translation_utils.py     |  14 -
 python/mxnet/ndarray/contrib.py                    |  26 +
 python/mxnet/ndarray/register.py                   |  11 +
 python/mxnet/symbol/contrib.py                     |  22 +
 python/mxnet/symbol/register.py                    |  11 +
 .../assembly/src/main/assembly/assembly.xml        |   2 +
 scala-package/core/pom.xml                         |   5 -
 .../scala/org/apache/mxnet/javaapi/NDArray.scala   |   2 +
 scala-package/deploy/src/main/deploy/deploy.xml    |  10 +
 scala-package/macros/pom.xml                       |   5 -
 scala-package/mxnet-demo/java-demo/README.md       |  18 +-
 .../mxnet-demo/java-demo/bin/java_sample.sh        |   2 +-
 scala-package/mxnet-demo/java-demo/bin/run_od.sh   |   2 +-
 scala-package/mxnet-demo/java-demo/pom.xml         |   6 +
 .../src/main/java/mxnet/ImageClassification.java}  |  95 +--
 .../{HelloWorld.java => NDArrayCreation.java}      |  29 +-
 .../{HelloWorld.java => NDArrayOperation.java}     |  26 +-
 .../src/main/java/mxnet/ObjectDetection.java       |  16 +-
 scala-package/pom.xml                              |   5 +
 src/c_api/c_api.cc                                 |  18 +-
 src/c_api/c_api_common.h                           |   4 +-
 src/c_api/c_api_executor.cc                        |   8 +-
 src/c_api/c_api_function.cc                        |  10 +-
 src/c_api/c_api_symbolic.cc                        |  10 +-
 src/c_api/c_predict_api.cc                         |  42 +-
 src/common/exec_utils.h                            |   8 +-
 src/common/object_pool.h                           |   7 +-
 src/common/serialization.h                         |   1 -
 src/common/utils.h                                 |  14 +-
 src/engine/naive_engine.cc                         |  25 +-
 src/engine/stream_manager.h                        |  25 +-
 src/engine/threaded_engine.cc                      |   2 +-
 src/engine/threaded_engine.h                       |   3 +-
 src/engine/threaded_engine_perdevice.cc            |  12 +-
 src/executor/attach_op_execs_pass.cc               |   6 +-
 src/executor/exec_pass.h                           |  53 +-
 src/executor/graph_executor.cc                     |  59 +-
 src/executor/graph_executor.h                      |   8 +-
 src/executor/infer_graph_attr_pass.cc              | 274 ++++++++-
 src/executor/tensorrt_pass.cc                      |   8 +-
 src/executor/trt_graph_executor.cc                 |  21 +-
 src/executor/trt_graph_executor.h                  |   8 +-
 src/imperative/cached_op.cc                        |  20 +-
 src/imperative/imperative.cc                       |   4 +-
 src/imperative/imperative_utils.h                  |  26 +-
 src/io/image_aug_default.cc                        |   2 +-
 src/io/image_det_aug_default.cc                    |   2 +-
 src/io/image_io.cc                                 |  17 +-
 src/io/image_iter_common.h                         |   2 +-
 src/io/inst_vector.h                               |   2 +-
 src/io/iter_batchloader.h                          |   6 +-
 src/io/iter_csv.cc                                 |   8 +-
 src/io/iter_image_det_recordio.cc                  |   2 +-
 src/io/iter_image_recordio_2.cc                    |   4 +-
 src/io/iter_libsvm.cc                              |  12 +-
 src/io/iter_mnist.cc                               |   2 +-
 src/io/iter_sparse.h                               |   2 +-
 src/io/iter_sparse_batchloader.h                   |   8 +-
 src/io/iter_sparse_prefetcher.h                    |   2 +-
 src/kvstore/comm.h                                 |  14 +-
 src/kvstore/comm_tree.h                            |   8 +-
 src/kvstore/kvstore_dist.h                         |   5 +-
 src/kvstore/kvstore_dist_server.h                  |  10 +-
 src/kvstore/kvstore_nccl.h                         |   6 +-
 src/ndarray/ndarray.cc                             |  66 +-
 src/ndarray/ndarray_function.h                     |  10 +-
 src/nnvm/gradient.cc                               | 281 +++++++++
 src/nnvm/graph_algorithm.h                         | 131 ++++
 src/nnvm/legacy_op_util.cc                         |  20 +-
 src/nnvm/plan_memory.cc                            | 412 +++++++++++++
 src/operator/batch_norm_v1-inl.h                   |  16 +-
 src/operator/batch_norm_v1.cc                      |   4 +-
 src/operator/bilinear_sampler-inl.h                |  12 +-
 src/operator/bilinear_sampler.cc                   |   2 +-
 src/operator/contrib/adamw-inl.h                   |   8 +-
 src/operator/contrib/adamw.cc                      |  14 +-
 src/operator/contrib/adamw.cu                      |   4 +-
 src/operator/contrib/adaptive_avg_pooling-inl.h    |  10 +-
 src/operator/contrib/adaptive_avg_pooling.cc       |   2 +-
 src/operator/contrib/bilinear_resize-inl.h         |   6 +-
 src/operator/contrib/bilinear_resize.cc            |   2 +-
 src/operator/contrib/boolean_mask.cc               |   2 +-
 src/operator/contrib/boolean_mask.cu               |   2 +-
 src/operator/contrib/bounding_box-inl.h            |  37 +-
 src/operator/contrib/bounding_box.cc               |   6 +-
 src/operator/contrib/count_sketch-inl.h            |  18 +-
 src/operator/contrib/count_sketch.cc               |   4 +-
 src/operator/contrib/deformable_convolution-inl.h  |  44 +-
 src/operator/contrib/deformable_convolution.cc     |   8 +-
 src/operator/contrib/deformable_convolution.cu     |   4 +-
 .../contrib/deformable_psroi_pooling-inl.h         |  16 +-
 src/operator/contrib/deformable_psroi_pooling.cc   |   4 +-
 src/operator/contrib/dgl_graph.cc                  |  68 +-
 src/operator/contrib/fft-inl.h                     |  24 +-
 src/operator/contrib/fft.cc                        |   2 +-
 src/operator/contrib/ifft-inl.h                    |  22 +-
 src/operator/contrib/ifft.cc                       |   2 +-
 src/operator/contrib/index_copy-inl.h              |   4 +-
 src/operator/contrib/index_copy.cc                 |   2 +-
 src/operator/contrib/krprod.cc                     |   8 +-
 src/operator/contrib/multi_proposal-inl.h          |  10 +-
 src/operator/contrib/multibox_detection-inl.h      |  21 +-
 src/operator/contrib/multibox_detection.cc         |   4 +-
 src/operator/contrib/multibox_prior-inl.h          |  13 +-
 src/operator/contrib/multibox_prior.cc             |   4 +-
 src/operator/contrib/multibox_target-inl.h         |  23 +-
 src/operator/contrib/multibox_target.cc            |   4 +-
 src/operator/contrib/nn/deformable_im2col.cuh      |  18 +-
 src/operator/contrib/nn/deformable_im2col.h        |  20 +-
 src/operator/contrib/nnvm_to_onnx-inl.h            |   6 +-
 src/operator/contrib/nnvm_to_onnx.cc               |  30 +-
 src/operator/contrib/nnz.cc                        |   6 +-
 src/operator/contrib/optimizer_op.cc               |   6 +-
 src/operator/contrib/proposal-inl.h                |  10 +-
 src/operator/contrib/psroi_pooling-inl.h           |  14 +-
 src/operator/contrib/psroi_pooling.cc              |   4 +-
 src/operator/contrib/quadratic_op-inl.h            |   4 +-
 src/operator/contrib/quadratic_op.cc               |   2 +-
 src/operator/contrib/roi_align-inl.h               |   2 +-
 src/operator/contrib/roi_align.cc                  |   8 +-
 src/operator/contrib/sync_batch_norm-inl.h         |  16 +-
 src/operator/contrib/sync_batch_norm.cc            |   4 +-
 src/operator/contrib/tensorrt.cc                   |   8 +-
 src/operator/control_flow.cc                       |  68 +-
 src/operator/convolution_v1-inl.h                  |  34 +-
 src/operator/convolution_v1.cc                     |   8 +-
 src/operator/convolution_v1.cu                     |   4 +-
 src/operator/correlation-inl.h                     |  12 +-
 src/operator/correlation.cc                        |   2 +-
 src/operator/crop-inl.h                            |  18 +-
 src/operator/cross_device_copy.cc                  |   8 +-
 src/operator/custom/custom.cc                      |  14 +-
 src/operator/custom/native_op-inl.h                |  16 +-
 src/operator/custom/ndarray_op-inl.h               |  10 +-
 src/operator/elemwise_op_common.h                  |   8 +-
 src/operator/grid_generator-inl.h                  |  22 +-
 src/operator/grid_generator.cc                     |   2 +-
 src/operator/identity_attach_KL_sparse_reg-inl.h   |  10 +-
 src/operator/image/image_random-inl.h              |  24 +-
 src/operator/image/image_random.cc                 |   4 +-
 src/operator/image/resize-inl.h                    |   8 +-
 src/operator/image/resize.cc                       |   2 +-
 src/operator/instance_norm-inl.h                   |  14 +-
 src/operator/instance_norm.cc                      |   2 +-
 src/operator/l2_normalization-inl.h                |  18 +-
 src/operator/l2_normalization.cc                   |   4 +-
 src/operator/leaky_relu-inl.h                      |  30 +-
 src/operator/leaky_relu.cc                         |   2 +-
 src/operator/loss_binary_op-inl.h                  |   6 +-
 src/operator/loss_binary_op.cc                     |   2 +-
 src/operator/make_loss-inl.h                       |  12 +-
 src/operator/make_loss.cc                          |   4 +-
 src/operator/nn/activation.cc                      |   2 +-
 src/operator/nn/batch_norm-inl.h                   |   4 +-
 src/operator/nn/batch_norm.cc                      |  20 +-
 src/operator/nn/batch_norm.cu                      |   4 +-
 src/operator/nn/concat.cc                          |  24 +-
 src/operator/nn/convolution-inl.h                  |  20 +-
 src/operator/nn/convolution.cc                     |  10 +-
 src/operator/nn/convolution.cu                     |  20 +-
 src/operator/nn/ctc_loss-inl.h                     |  14 +-
 src/operator/nn/ctc_loss.cc                        |   2 +-
 src/operator/nn/cudnn/cudnn_algoreg-inl.h          |   6 +-
 src/operator/nn/cudnn/cudnn_batch_norm.cc          |  16 +-
 src/operator/nn/cudnn/cudnn_convolution-inl.h      | 127 ++--
 src/operator/nn/cudnn/cudnn_deconvolution-inl.h    |  56 +-
 src/operator/nn/deconvolution-inl.h                |  40 +-
 src/operator/nn/deconvolution.cc                   |  10 +-
 src/operator/nn/deconvolution.cu                   |  12 +-
 src/operator/nn/depthwise_convolution-inl.h        |   4 +-
 src/operator/nn/dropout-inl.h                      |  12 +-
 src/operator/nn/dropout.cc                         |   6 +-
 src/operator/nn/fully_connected-inl.h              |   8 +-
 src/operator/nn/fully_connected.cc                 |  12 +-
 src/operator/nn/im2col.cuh                         |  16 +-
 src/operator/nn/im2col.h                           |  22 +-
 src/operator/nn/layer_norm-inl.h                   |   8 +-
 src/operator/nn/layer_norm.cc                      |  14 +-
 src/operator/nn/lrn.cc                             |   8 +-
 src/operator/nn/mkldnn/mkldnn_base-inl.h           |  10 +-
 src/operator/nn/mkldnn/mkldnn_fully_connected.cc   |   8 +-
 src/operator/nn/mkldnn/mkldnn_pooling-inl.h        |   2 +-
 src/operator/nn/mkldnn/mkldnn_slice.cc             |   4 +-
 src/operator/nn/pool.cuh                           |  44 +-
 src/operator/nn/pool.h                             | 160 ++---
 src/operator/nn/pooling-inl.h                      |  44 +-
 src/operator/nn/pooling.cc                         |  16 +-
 src/operator/nn/softmax-inl.h                      |   8 +-
 src/operator/nn/softmax.cc                         |  12 +-
 src/operator/nn/upsampling-inl.h                   |   8 +-
 src/operator/nn/upsampling.cc                      |   8 +-
 src/operator/nnpack/nnpack_fully_connected-inl.h   |   4 +-
 src/operator/operator_common.h                     |  14 +-
 src/operator/operator_util.cc                      |  34 +-
 src/operator/optimizer_op-inl.h                    |   8 +-
 src/operator/optimizer_op.cc                       |  32 +-
 src/operator/pad-inl.h                             |  12 +-
 src/operator/pad.cc                                |   2 +-
 src/operator/pooling_v1-inl.h                      |  30 +-
 src/operator/pooling_v1.cc                         |   4 +-
 src/operator/quantization/dequantize-inl.h         |   6 +-
 src/operator/quantization/dequantize.cc            |   2 +-
 .../quantization/mkldnn/mkldnn_requantize-inl.h    |   4 +-
 src/operator/quantization/quantization_utils.h     |   8 +-
 src/operator/quantization/quantize-inl.h           |  10 +-
 src/operator/quantization/quantize.cc              |   2 +-
 src/operator/quantization/quantize_v2-inl.h        |  13 +-
 src/operator/quantization/quantize_v2.cc           |   2 +-
 src/operator/quantization/quantized_concat.cc      |  18 +-
 src/operator/quantization/quantized_conv.cc        |  18 +-
 src/operator/quantization/quantized_conv.cu        |  34 +-
 src/operator/quantization/quantized_flatten-inl.h  |  14 +-
 src/operator/quantization/quantized_flatten.cc     |   2 +-
 .../quantization/quantized_fully_connected.cc      |  26 +-
 .../quantization/quantized_fully_connected.cu      |   6 +-
 src/operator/quantization/quantized_pooling.cc     |  18 +-
 src/operator/quantization/quantized_pooling.cu     |   2 +-
 src/operator/quantization/requantize-inl.h         |   4 +-
 src/operator/quantization/requantize.cc            |   2 +-
 src/operator/random/multisample_op.cc              |   2 +-
 src/operator/random/multisample_op.h               |  16 +-
 src/operator/random/sample_multinomial_op.cc       |   2 +-
 src/operator/random/sample_multinomial_op.h        |  16 +-
 src/operator/random/sample_op.cc                   |   4 +-
 src/operator/random/sample_op.h                    |  18 +-
 src/operator/random/sampler.h                      |   4 +-
 src/operator/random/shuffle_op.cc                  |   4 +-
 src/operator/random/shuffle_op.cu                  |   2 +-
 src/operator/random/unique_sample_op.cc            |   2 +-
 src/operator/random/unique_sample_op.h             |   8 +-
 src/operator/regression_output-inl.h               |   8 +-
 src/operator/regression_output.cc                  |   2 +-
 src/operator/rnn-inl.h                             |  20 +-
 src/operator/rnn.cc                                |   2 +-
 src/operator/roi_pooling-inl.h                     |  14 +-
 src/operator/roi_pooling.cc                        |   2 +-
 src/operator/sequence_last-inl.h                   |  16 +-
 src/operator/sequence_last.cc                      |   2 +-
 src/operator/sequence_mask-inl.h                   |  12 +-
 src/operator/sequence_mask.cc                      |   2 +-
 src/operator/sequence_reverse-inl.h                |  12 +-
 src/operator/sequence_reverse.cc                   |   2 +-
 src/operator/slice_channel-inl.h                   |  16 +-
 src/operator/slice_channel.cc                      |   2 +-
 src/operator/softmax_output-inl.h                  |  20 +-
 src/operator/softmax_output.cc                     |  16 +-
 src/operator/spatial_transformer-inl.h             |  20 +-
 src/operator/spatial_transformer.cc                |   2 +-
 src/operator/subgraph/common.h                     |  12 +-
 src/operator/subgraph/mkldnn/mkldnn_conv.cc        |  14 +-
 src/operator/subgraph_op_common.cc                 |  10 +-
 src/operator/subgraph_op_common.h                  |   6 +-
 src/operator/svm_output-inl.h                      |  16 +-
 src/operator/svm_output.cc                         |   2 +-
 src/operator/swapaxis-inl.h                        |  18 +-
 src/operator/swapaxis.cc                           |   2 +-
 src/operator/tensor/broadcast_reduce-inl.cuh       |  12 +-
 src/operator/tensor/broadcast_reduce-inl.h         |   9 +-
 src/operator/tensor/broadcast_reduce_op.h          | 164 ++---
 src/operator/tensor/broadcast_reduce_op_index.cc   |   4 +-
 src/operator/tensor/broadcast_reduce_op_value.cc   |  10 +-
 src/operator/tensor/broadcast_reduce_op_value.cu   |   2 +-
 src/operator/tensor/cast_storage-inl.cuh           |   1 -
 src/operator/tensor/cast_storage-inl.h             |   2 +-
 src/operator/tensor/cast_storage.cc                |   2 +-
 src/operator/tensor/control_flow_op.cc             |   2 +-
 src/operator/tensor/control_flow_op.h              |   6 +-
 src/operator/tensor/diag_op-inl.h                  |  26 +-
 src/operator/tensor/diag_op.cc                     |   2 +-
 src/operator/tensor/dot-inl.h                      |  32 +-
 src/operator/tensor/dot.cc                         |   4 +-
 .../tensor/elemwise_binary_broadcast_op-inl.cuh    |   2 +-
 src/operator/tensor/elemwise_binary_broadcast_op.h |  44 +-
 src/operator/tensor/elemwise_binary_op-inl.h       |   2 +-
 src/operator/tensor/elemwise_binary_op.h           |   2 +-
 src/operator/tensor/elemwise_binary_scalar_op.h    |   2 +-
 .../tensor/elemwise_binary_scalar_op_basic.cc      |   2 +-
 .../tensor/elemwise_binary_scalar_op_extended.cc   |   2 +-
 src/operator/tensor/elemwise_sum.cc                |  10 +-
 src/operator/tensor/elemwise_unary_op.h            |  10 +-
 src/operator/tensor/elemwise_unary_op_basic.cc     |  34 +-
 src/operator/tensor/histogram-inl.h                |  12 +-
 src/operator/tensor/histogram.cc                   |   2 +-
 src/operator/tensor/indexing_op.cc                 |  34 +-
 src/operator/tensor/indexing_op.cu                 |  10 +-
 src/operator/tensor/indexing_op.h                  |  86 +--
 src/operator/tensor/init_op.cc                     |  16 +-
 src/operator/tensor/init_op.h                      |  28 +-
 src/operator/tensor/la_op.cc                       |  20 +-
 src/operator/tensor/la_op.h                        |  56 +-
 src/operator/tensor/matrix_op-inl.h                | 281 ++++-----
 src/operator/tensor/matrix_op.cc                   |  42 +-
 src/operator/tensor/matrix_op.cu                   |   4 +-
 src/operator/tensor/ordering_op-inl.h              |  38 +-
 src/operator/tensor/ordering_op.cc                 |   6 +-
 src/operator/tensor/ravel.cc                       |   4 +-
 src/operator/tensor/ravel.h                        |  20 +-
 src/operator/tensor/sparse_retain-inl.h            |   6 +-
 src/operator/tensor/sparse_retain.cc               |   2 +-
 src/operator/tensor/square_sum-inl.h               |   6 +-
 src/profiler/profiler.h                            |   4 +-
 tests/cpp/include/test_core_op.h                   |  22 +-
 tests/cpp/include/test_legacy_op.h                 |  16 +-
 tests/cpp/include/test_mkldnn.h                    |  46 +-
 tests/cpp/include/test_ndarray_utils.h             |  20 +-
 tests/cpp/include/test_op.h                        |   4 +-
 tests/cpp/include/test_op_runner.h                 |  12 +-
 tests/cpp/include/test_tune.h                      |   8 +-
 tests/cpp/include/test_util.h                      |  44 +-
 tests/cpp/misc/serialization.cc                    |  10 +-
 tests/cpp/operator/activation_perf.cc              |  14 +-
 tests/cpp/operator/batchnorm_test.cc               |  48 +-
 tests/cpp/operator/coreop_perf.cc                  |   6 +-
 tests/cpp/operator/dropout_perf.cc                 |  14 +-
 tests/cpp/operator/fully_conn_perf.cc              |  25 +-
 tests/cpp/operator/mkldnn_operator_test.cc         |  30 +-
 tests/cpp/operator/mkldnn_test.cc                  |   4 +-
 tests/cpp/operator/runner/core_op_runner_test.cc   |  44 +-
 tests/cpp/operator/slice_channel_perf.cc           |  14 +-
 tests/cpp/operator/tune/operator_tune_test.cc      |   6 +-
 tests/nightly/test_large_array.py                  |  14 +
 tests/python/gpu/test_operator_gpu.py              |  50 ++
 tests/python/unittest/test_contrib_optimizer.py    |  12 +
 tools/pip/MANIFEST.in                              |   3 +
 tools/pip/doc/CPU_ADDITIONAL.md                    |  40 ++
 tools/pip/doc/CU100MKL_ADDITIONAL.md               |  44 ++
 tools/pip/doc/CU100_ADDITIONAL.md                  |  44 ++
 tools/pip/doc/CU75MKL_ADDITIONAL.md                |  42 ++
 tools/pip/doc/CU75_ADDITIONAL.md                   |  42 ++
 tools/pip/doc/CU80MKL_ADDITIONAL.md                |  42 ++
 tools/pip/doc/CU80_ADDITIONAL.md                   |  42 ++
 tools/pip/doc/CU90MKL_ADDITIONAL.md                |  42 ++
 tools/pip/doc/CU90_ADDITIONAL.md                   |  42 ++
 tools/pip/doc/CU91MKL_ADDITIONAL.md                |  42 ++
 tools/pip/doc/CU91_ADDITIONAL.md                   |  42 ++
 tools/pip/doc/CU92MKL_ADDITIONAL.md                |  42 ++
 tools/pip/doc/CU92_ADDITIONAL.md                   |  42 ++
 tools/pip/doc/MKL_ADDITIONAL.md                    |  40 ++
 docs/api/index.md => tools/pip/doc/PYPI_README.md  |  18 +-
 tools/pip/setup.py                                 |  17 +-
 402 files changed, 5374 insertions(+), 2458 deletions(-)
 create mode 120000 include/mkldnn
 create mode 100644 include/mxnet/tuple.h
 copy scala-package/{examples/src/main/java/org/apache/mxnetexamples/javaapi/infer/predictor/PredictorExample.java => mxnet-demo/java-demo/src/main/java/mxnet/ImageClassification.java} (60%)
 copy scala-package/mxnet-demo/java-demo/src/main/java/mxnet/{HelloWorld.java => NDArrayCreation.java} (59%)
 rename scala-package/mxnet-demo/java-demo/src/main/java/mxnet/{HelloWorld.java => NDArrayOperation.java} (67%)
 create mode 100644 src/nnvm/gradient.cc
 create mode 100644 src/nnvm/graph_algorithm.h
 create mode 100644 src/nnvm/plan_memory.cc
 create mode 100644 tools/pip/doc/CPU_ADDITIONAL.md
 create mode 100644 tools/pip/doc/CU100MKL_ADDITIONAL.md
 create mode 100644 tools/pip/doc/CU100_ADDITIONAL.md
 create mode 100644 tools/pip/doc/CU75MKL_ADDITIONAL.md
 create mode 100644 tools/pip/doc/CU75_ADDITIONAL.md
 create mode 100644 tools/pip/doc/CU80MKL_ADDITIONAL.md
 create mode 100644 tools/pip/doc/CU80_ADDITIONAL.md
 create mode 100644 tools/pip/doc/CU90MKL_ADDITIONAL.md
 create mode 100644 tools/pip/doc/CU90_ADDITIONAL.md
 create mode 100644 tools/pip/doc/CU91MKL_ADDITIONAL.md
 create mode 100644 tools/pip/doc/CU91_ADDITIONAL.md
 create mode 100644 tools/pip/doc/CU92MKL_ADDITIONAL.md
 create mode 100644 tools/pip/doc/CU92_ADDITIONAL.md
 create mode 100644 tools/pip/doc/MKL_ADDITIONAL.md
 copy docs/api/index.md => tools/pip/doc/PYPI_README.md (65%)