Вы можете указать следующие параметры хранения Parquet-файлов в JSON-файле, после чего применить их при выполнении хранимой процедуры metastore.add_files или metastore.copy_table:
compression: алгоритм сжатия данных.
Возможные значения:
snappy
zstd
gzip
lz4/lz4_raw
brotli
uncompressed
compression_level: уровень сжатия данных.
Возможны значения от 1 до 22.
Значение по умолчанию: 3.
Необязательный параметр. Игнорируется, если используется любой алгоритм сжатия, кроме zstd.
row_group_size: максимальное количество строк в группе строк. Чем больше значение, тем лучше сжатие. Чем меньше значение, тем больше потоков используется при чтении Parquet-файлов и тем лучше фильтрация по статистике.
Минимальное значение: 2048.
Значение по умолчанию: 122_880.
Рекомендуемый диапазон значений — от 100_000 до 1_000_000.
Пример 29.3.
{
"compression": "zstd",
"compression_level": 9,
"row_group_size": 500000
}