Optimize `merge` algorithm for data sizes equal or greater then 4M items #1933

SergeyKopienko · 2024-11-06T16:10:01Z

In this PR we optimize merge algorithm for data sizes equal or greater then 4M items.
The main idea - we doing two submits:

in the first submit we find split point in some "base" diagonal's subset.
in the second submit we find split points in all other diagonal and run serial merge for each diagonal (as before).
But when we find split point on the current diagonal, we setup some indexes limits for rng1 and 'rng2'.
For these limits we load split point's data from previous and next "base" diagonals, calculated on the step (1).

Applying this approach we have good perf profit for biggest data sizes with float and int data types.

As additional profit, we have sign performance boost for small and middle data sizes in the merge_sort algorithm.

…introduce new function __find_start_point_in Signed-off-by: Sergey Kopienko <[email protected]>

…introduce __parallel_merge_submitter_large for merge of biggest data sizes Signed-off-by: Sergey Kopienko <[email protected]>

…using __parallel_merge_submitter_large for merge data equal or greater then 4M items Signed-off-by: Sergey Kopienko <[email protected]>

Signed-off-by: Sergey Kopienko <[email protected]>

SergeyKopienko · 2024-11-07T15:24:02Z

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h

+            auto __scratch_acc = __result_and_scratch.template __get_scratch_acc<sycl::access_mode::write>(
+                __cgh, __dpl_sycl::__no_init{});
+
+            __cgh.parallel_for<_FindSplitPointsKernelOnMidDiagonal>(


@rarutyun Compile error is here:
https://github.com/oneapi-src/oneDPL/actions/runs/11722920053/job/32653481992?pr=1933

D:\a\oneDPL\oneDPL\include\oneapi\dpl\pstl\hetero\dpcpp\parallel_backend_sycl_merge.h(322,64): error: definition with same mangled name '...' as another definition

…fix compile error Signed-off-by: Sergey Kopienko <[email protected]>

SergeyKopienko · 2024-11-08T09:12:36Z

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h

+
+        _PRINT_INFO_IN_DEBUG_MODE(__exec);
+
+        using _FindSplitPointsOnMidDiagonalKernel =


@rarutyun I have fixed the error here. Is it correct way?
I am using __kernel_name_generator here because I should have two Kernel names: one passed as template parameter pack and the second name I should create inside.

I haven't yet looked at this in detail, but can't we just pass the _IdType to __kernel_name_generator directly, and use a single _find_split_points_kernel_on_mid_diagonal type?

SergeyKopienko requested review from dmitriy-sobolev, danhoeflinger, mmichel11 and MikeDvorskiy November 6, 2024 16:10

SergeyKopienko added this to the 2022.8.0 milestone Nov 6, 2024

SergeyKopienko force-pushed the dev/skopienko/optimize_merge_to_main branch 2 times, most recently from 5a8ff9e to fedebda Compare November 6, 2024 16:56

SergeyKopienko added 2 commits November 7, 2024 09:26

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h - …

a2e142d

…introduce new function __find_start_point_in Signed-off-by: Sergey Kopienko <[email protected]>

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h - …

b33656a

…introduce __parallel_merge_submitter_large for merge of biggest data sizes Signed-off-by: Sergey Kopienko <[email protected]>

SergeyKopienko force-pushed the dev/skopienko/optimize_merge_to_main branch 2 times, most recently from 142ffa0 to a6164fd Compare November 7, 2024 08:41

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h - …

d4721ca

…using __parallel_merge_submitter_large for merge data equal or greater then 4M items Signed-off-by: Sergey Kopienko <[email protected]>

SergeyKopienko force-pushed the dev/skopienko/optimize_merge_to_main branch from a6164fd to d4721ca Compare November 7, 2024 12:24

Apply GitHUB clang format

93fd2e8

Signed-off-by: Sergey Kopienko <[email protected]>

SergeyKopienko commented Nov 7, 2024

View reviewed changes

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h - …

82167d5

…fix compile error Signed-off-by: Sergey Kopienko <[email protected]>

SergeyKopienko commented Nov 8, 2024

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Optimize `merge` algorithm for data sizes equal or greater then 4M items #1933

Optimize `merge` algorithm for data sizes equal or greater then 4M items #1933

SergeyKopienko commented Nov 6, 2024 •

edited

Loading

SergeyKopienko Nov 7, 2024 •

edited

Loading

SergeyKopienko Nov 8, 2024

danhoeflinger Nov 8, 2024


		_PRINT_INFO_IN_DEBUG_MODE(__exec);

		using _FindSplitPointsOnMidDiagonalKernel =

Optimize merge algorithm for data sizes equal or greater then 4M items #1933

Are you sure you want to change the base?

Optimize merge algorithm for data sizes equal or greater then 4M items #1933

Conversation

SergeyKopienko commented Nov 6, 2024 • edited Loading

SergeyKopienko Nov 7, 2024 • edited Loading

Choose a reason for hiding this comment

SergeyKopienko Nov 8, 2024

Choose a reason for hiding this comment

danhoeflinger Nov 8, 2024

Choose a reason for hiding this comment

Optimize `merge` algorithm for data sizes equal or greater then 4M items #1933

Optimize `merge` algorithm for data sizes equal or greater then 4M items #1933

SergeyKopienko commented Nov 6, 2024 •

edited

Loading

SergeyKopienko Nov 7, 2024 •

edited

Loading