Выложить результат в таблицу Hadoop

0 голосов
SpellBuilder в категории Как сделать...
Настроил ODBC Hive Hadoop. Данные сохраняются в таблицу.

1. Т.к. в Hadoop нет удаления, предварительно приходится делать truncate.Подскажите пожалуйста, как это автоматизировать в сценарии?
2. Обнаружил, что файл паркет бьется на куски по 10000 строк, как можно увеличить?
3. Есть ли пример сохранить табличку через Програмирование-Phyton. Скажем сформировать паркетный файл и перенести в HDFS?

Ответы: 2 шт.

0 голосов
evgeniy_stuchalkin
Насчет автоматизации Truncate. Что если использовать узел Импорт данных из БД, и выполнять в нем соответствующий запрос?
0 голосов
arustamov_s

1) Что касается удаления данных в Hadoop, то нужно искать обходные пути. По ссылке есть вариант с перезаписыванием данных, что в некоторых случаях будет равносильно удалению.

2) На данный момент не можем ответить на вопрос

3) Есть пример работы с паркетным файлом. Он демонстрирует чтение/запись одного файла, а также пачек файлов, которые расположены в определенной заданной папке. На основе данного примера можно дореализовать желаемый функционал, а именно: прочитать паркетные данные и записать в hdfs. Запись табличных данных в hdfs можно реализовать множеством различных библиотек, в частности Pandas: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_hdf.html#pandas.DataFrame.to_hdf

...