SIGNET_FORGE/z__order_8hpp_source.html

// SPDX-License-Identifier: AGPL-3.0-or-later

// Copyright 2026 Johnson Ogundeji

#pragma once


#include "signet/types.hpp"


#include <algorithm>

#include <cstdint>

#include <cstring>

#include <numeric>

#include <stdexcept>

#include <string>

#include <string_view>

#include <vector>


namespace signet::forge::z_order {


// ===========================================================================

// Value normalization -- preserve sort order as unsigned integers

// ===========================================================================


inline uint32_t normalize_int32(int32_t v) {

    return static_cast<uint32_t>(v) ^ 0x80000000u;

}


inline uint64_t normalize_int64(int64_t v) {

    return static_cast<uint64_t>(v) ^ 0x8000000000000000ULL;

}


inline uint32_t normalize_float(float v) {

    uint32_t bits;

    std::memcpy(&bits, &v, 4);

    uint32_t mask = -static_cast<int32_t>(bits >> 31) | 0x80000000u;

    return bits ^ mask;

}


inline uint64_t normalize_double(double v) {

    uint64_t bits;

    std::memcpy(&bits, &v, 8);

    uint64_t mask = -static_cast<int64_t>(bits >> 63) | 0x8000000000000000ULL;

    return bits ^ mask;

}


inline uint32_t normalize_string(std::string_view v) {

    uint32_t result = 0;

    for (size_t i = 0; i < 4 && i < v.size(); ++i) {

        result |= static_cast<uint32_t>(static_cast<uint8_t>(v[i])) << (24 - 8 * i);

    }

    return result;

}


inline uint32_t truncate_to_32(uint64_t v) {

    return static_cast<uint32_t>(v >> 32);

}


// ===========================================================================

// Morton code — bit interleaving

// ===========================================================================


inline uint64_t morton_2d(uint32_t x, uint32_t y) {

    auto spread = [](uint32_t v) -> uint64_t {

        uint64_t r = v;

        r = (r | (r << 16)) & 0x0000FFFF0000FFFFULL;

        r = (r | (r <<  8)) & 0x00FF00FF00FF00FFULL;

        r = (r | (r <<  4)) & 0x0F0F0F0F0F0F0F0FULL;

        r = (r | (r <<  2)) & 0x3333333333333333ULL;

        r = (r | (r <<  1)) & 0x5555555555555555ULL;

        return r;

    };

    return spread(x) | (spread(y) << 1);

}


inline void deinterleave_2d(uint64_t code, uint32_t& x, uint32_t& y) {

    auto compact = [](uint64_t v) -> uint32_t {

        v &= 0x5555555555555555ULL;

        v = (v | (v >> 1))  & 0x3333333333333333ULL;

        v = (v | (v >> 2))  & 0x0F0F0F0F0F0F0F0FULL;

        v = (v | (v >> 4))  & 0x00FF00FF00FF00FFULL;

        v = (v | (v >> 8))  & 0x0000FFFF0000FFFFULL;

        v = (v | (v >> 16)) & 0x00000000FFFFFFFFULL;

        return static_cast<uint32_t>(v);

    };

    x = compact(code);

    y = compact(code >> 1);

}


inline std::vector<uint8_t> morton_nd(const std::vector<uint32_t>& normalized,

                                       size_t bits_per_col = 32) {

    size_t n = normalized.size();

    if (n == 0) return {};


    size_t total_bits = n * bits_per_col;

    size_t total_bytes = (total_bits + 7) / 8;

    std::vector<uint8_t> result(total_bytes, 0);


    // Round-robin interleave: bit position `b` of column `c` maps to

    // output bit position `b * n + c`, with MSB first.

    size_t out_bit = 0;

    for (size_t b = 0; b < bits_per_col; ++b) {

        size_t src_bit = bits_per_col - 1 - b;  // MSB first

        for (size_t c = 0; c < n; ++c) {

            if (normalized[c] & (1u << src_bit)) {

                size_t byte_idx = out_bit / 8;

                size_t bit_in_byte = 7 - (out_bit % 8);

                result[byte_idx] |= static_cast<uint8_t>(1u << bit_in_byte);

            }

            ++out_bit;

        }

    }


    return result;

}


// ===========================================================================

// ZOrderColumn -- describes a column's data for Z-order sorting

// ===========================================================================


struct ZOrderColumn {

    PhysicalType type;

    const void* data;

    size_t count;

};


// ===========================================================================

// ZOrderSorter -- sorts row indices by Morton key

// ===========================================================================


struct ZOrderSorter {


    [[nodiscard]] static std::vector<size_t> sort(

            size_t num_rows,

            const std::vector<ZOrderColumn>& columns) {


        if (num_rows == 0 || columns.empty()) return {};


        size_t n_cols = columns.size();


        // Validate that each column's count matches num_rows (CWE-787: OOB write)

        for (size_t c = 0; c < n_cols; ++c) {

            if (columns[c].count != num_rows) {

                throw std::out_of_range(

                    "ZOrderSorter::sort: column " + std::to_string(c) +

                    " count (" + std::to_string(columns[c].count) +

                    ") != num_rows (" + std::to_string(num_rows) + ")");

            }

        }


        // Normalize all values to uint32_t

        std::vector<std::vector<uint32_t>> normalized(n_cols);

        for (size_t c = 0; c < n_cols; ++c) {

            normalized[c].resize(num_rows);

            normalize_column(columns[c], normalized[c]);

        }


        // Fast path: 2 columns — use morton_2d with uint64_t sort keys

        if (n_cols == 2) {

            std::vector<uint64_t> keys(num_rows);

            for (size_t r = 0; r < num_rows; ++r) {

                keys[r] = morton_2d(normalized[0][r], normalized[1][r]);

            }


            std::vector<size_t> perm(num_rows);

            std::iota(perm.begin(), perm.end(), 0);

            std::sort(perm.begin(), perm.end(),

                      [&keys](size_t a, size_t b) { return keys[a] < keys[b]; });

            return perm;

        }


        // General path: N columns — use morton_nd byte-array sort keys

        std::vector<std::vector<uint8_t>> keys(num_rows);

        std::vector<uint32_t> row_vals(n_cols);

        for (size_t r = 0; r < num_rows; ++r) {

            for (size_t c = 0; c < n_cols; ++c) {

                row_vals[c] = normalized[c][r];

            }

            keys[r] = morton_nd(row_vals);

        }


        std::vector<size_t> perm(num_rows);

        std::iota(perm.begin(), perm.end(), 0);

        std::sort(perm.begin(), perm.end(),

                  [&keys](size_t a, size_t b) { return keys[a] < keys[b]; });

        return perm;

    }


private:

    static void normalize_column(const ZOrderColumn& col,

                                  std::vector<uint32_t>& out) {

        if (col.data == nullptr) {

            throw std::invalid_argument(

                "ZOrderSorter: column data pointer is null");

        }

        switch (col.type) {

            case PhysicalType::INT32: {

                // CWE-704, C++ [basic.align] — alignment check before pointer cast

                if (reinterpret_cast<uintptr_t>(col.data) % alignof(int32_t) != 0) {

                    throw std::invalid_argument(

                        "ZOrderSorter: INT32 data pointer not aligned for int32_t");

                }

                const auto* vals = static_cast<const int32_t*>(col.data);

                for (size_t i = 0; i < col.count; ++i) {

                    out[i] = normalize_int32(vals[i]);

                }

                break;

            }

            case PhysicalType::INT64: {

                // CWE-704, C++ [basic.align] — alignment check before pointer cast

                if (reinterpret_cast<uintptr_t>(col.data) % alignof(int64_t) != 0) {

                    throw std::invalid_argument(

                        "ZOrderSorter: INT64 data pointer not aligned for int64_t");

                }

                const auto* vals = static_cast<const int64_t*>(col.data);

                for (size_t i = 0; i < col.count; ++i) {

                    out[i] = truncate_to_32(normalize_int64(vals[i]));

                }

                break;

            }

            case PhysicalType::FLOAT: {

                // CWE-704, C++ [basic.align] — alignment check before pointer cast

                if (reinterpret_cast<uintptr_t>(col.data) % alignof(float) != 0) {

                    throw std::invalid_argument(

                        "ZOrderSorter: FLOAT data pointer not aligned for float");

                }

                const auto* vals = static_cast<const float*>(col.data);

                for (size_t i = 0; i < col.count; ++i) {

                    out[i] = normalize_float(vals[i]);

                }

                break;

            }

            case PhysicalType::DOUBLE: {

                // CWE-704, C++ [basic.align] — alignment check before pointer cast

                if (reinterpret_cast<uintptr_t>(col.data) % alignof(double) != 0) {

                    throw std::invalid_argument(

                        "ZOrderSorter: DOUBLE data pointer not aligned for double");

                }

                const auto* vals = static_cast<const double*>(col.data);

                for (size_t i = 0; i < col.count; ++i) {

                    out[i] = truncate_to_32(normalize_double(vals[i]));

                }

                break;

            }

            case PhysicalType::BYTE_ARRAY: {

                // Interpret data as array of std::string pointers

                const auto* vals = static_cast<const std::string*>(col.data);

                for (size_t i = 0; i < col.count; ++i) {

                    out[i] = normalize_string(vals[i]);

                }

                break;

            }

            default: {

                // For unsupported types, use zero (all rows sort equally)

                for (size_t i = 0; i < col.count; ++i) {

                    out[i] = 0;

                }

                break;

            }

        }

    }

};


} // namespace signet::forge::z_order


signet::forge::z_order
Z-order curve (Morton code) utilities for spatial sort keys.
Definition z_order.hpp:41

signet::forge::z_order::normalize_double
uint64_t normalize_double(double v)
Normalize a 64-bit double to uint64_t preserving total order.
Definition z_order.hpp:83

signet::forge::z_order::normalize_string
uint32_t normalize_string(std::string_view v)
Normalize a string to uint32_t by taking the first 4 bytes in big-endian order.
Definition z_order.hpp:102

signet::forge::z_order::normalize_int32
uint32_t normalize_int32(int32_t v)
Normalize a signed 32-bit integer to an unsigned 32-bit integer that preserves the original sort orde...
Definition z_order.hpp:51

signet::forge::z_order::morton_2d
uint64_t morton_2d(uint32_t x, uint32_t y)
Interleave bits of two uint32_t values into a single uint64_t Morton code (2D).
Definition z_order.hpp:134

signet::forge::z_order::normalize_float
uint32_t normalize_float(float v)
Normalize a 32-bit float to uint32_t preserving total order.
Definition z_order.hpp:70

signet::forge::z_order::normalize_int64
uint64_t normalize_int64(int64_t v)
Normalize a signed 64-bit integer to uint64_t (flip sign bit).
Definition z_order.hpp:58

signet::forge::z_order::morton_nd
std::vector< uint8_t > morton_nd(const std::vector< uint32_t > &normalized, size_t bits_per_col=32)
Generalized N-column Morton code via round-robin bit interleaving (MSB-first).
Definition z_order.hpp:183

signet::forge::z_order::truncate_to_32
uint32_t truncate_to_32(uint64_t v)
Truncate a uint64_t to uint32_t by extracting the upper 32 bits.
Definition z_order.hpp:117

signet::forge::z_order::deinterleave_2d
void deinterleave_2d(uint64_t code, uint32_t &x, uint32_t &y)
Deinterleave a 2D Morton code back into its two uint32_t components.
Definition z_order.hpp:155

signet::forge::PhysicalType
PhysicalType
Parquet physical (storage) types as defined in parquet.thrift.
Definition types.hpp:20

signet::forge::PhysicalType::INT64
@ INT64
64-bit signed integer (little-endian).

signet::forge::PhysicalType::INT32
@ INT32
32-bit signed integer (little-endian).

signet::forge::PhysicalType::BYTE_ARRAY
@ BYTE_ARRAY
Variable-length byte sequence (strings, binary).

signet::forge::PhysicalType::FLOAT
@ FLOAT
IEEE 754 single-precision float.

signet::forge::PhysicalType::DOUBLE
@ DOUBLE
IEEE 754 double-precision float.

signet::forge::z_order::ZOrderColumn
Descriptor for a single column of raw typed data used by ZOrderSorter.
Definition z_order.hpp:220

signet::forge::z_order::ZOrderColumn::count
size_t count
Number of elements in the array (must equal num_rows).
Definition z_order.hpp:223

signet::forge::z_order::ZOrderColumn::type
PhysicalType type
Parquet physical type of the column data.
Definition z_order.hpp:221

signet::forge::z_order::ZOrderColumn::data
const void * data
Pointer to a contiguous typed array (not owned).
Definition z_order.hpp:222

signet::forge::z_order::ZOrderSorter
Computes a permutation vector that reorders rows by Z-order (Morton) key.
Definition z_order.hpp:240

signet::forge::z_order::ZOrderSorter::sort
static std::vector< size_t > sort(size_t num_rows, const std::vector< ZOrderColumn > &columns)
Sort row indices [0..num_rows) by Z-order key computed from columns.
Definition z_order.hpp:248

types.hpp
Parquet format enumerations, type traits, and statistics structs.