Выложить результат в таблицу Hadoop

0 голосов
SpellBuilder в категории Как сделать...
Настроил ODBC Hive Hadoop. Данные сохраняются в таблицу.

1. Т.к. в Hadoop нет удаления, предварительно приходится делать truncate.Подскажите пожалуйста, как это автоматизировать в сценарии?
2. Обнаружил, что файл паркет бьется на куски по 10000 строк, как можно увеличить?
3. Есть ли пример сохранить табличку через Програмирование-Phyton. Скажем сформировать паркетный файл и перенести в HDFS?

Ответы: 2 шт.

0 голосов
evgeniy_stuchalkin
Насчет автоматизации Truncate. Что если использовать узел Импорт данных из БД, и выполнять в нем соответствующий запрос?
0 голосов
arustamov_s

1) Что касается удаления данных в Hadoop, то нужно искать обходные пути. По ссылке есть вариант с перезаписыванием данных, что в некоторых случаях будет равносильно удалению.

2) На данный момент не можем ответить на вопрос

3) Есть пример работы с паркетным файлом. Он демонстрирует чтение/запись одного файла, а также пачек файлов, которые расположены в определенной заданной папке. На основе данного примера можно дореализовать желаемый функционал, а именно: прочитать паркетные данные и записать в hdfs. Запись табличных данных в hdfs можно реализовать множеством различных библиотек, в частности Pandas: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_hdf.html#pandas.DataFrame.to_hdf

SpellBuilder
1. Какие могут быть обходные пути для продукта ETL. В Informatica и таргета есть блок pre-sql и pos-sql, куда пользователь вносить свой SQL код который необходимо выполнить перед или после вставки в таргет. В в логинов похоже только просто добавлять и обновлять по ключевому полю может. В общем непонятно каким образом свой кусок с update выполнить.

3. Если человек владеет pandas-phyton, зачем ему логином, есть куча шедулеров в т.ч. Airflow или ETL NiFi
...