Вопросы по теме 'apache-spark-sql'

Clojure — не найден метод сопоставления для метода выбора в DataFrame при использовании Flambo
Я использую Flambo для работы со Spark. Я хочу получить DataFrame , который содержит заданные имена столбцов. Я написал простую функцию следующим образом: (defn make-dataset ([data-path column-names and-another] (let [data (sql/read-csv...
645 просмотров

Spark объединяет/объединяет массивы в groupBy/aggregate
Следующий код Spark правильно демонстрирует то, что я хочу сделать, и генерирует правильный вывод с крошечным набором демонстрационных данных. Когда я запускаю тот же общий тип кода на большом объеме производственных данных, у меня возникают...
17825 просмотров
schedule 28.03.2024

Разделить строку (или список строк) на отдельные столбцы в искровом кадре данных
Учитывая фрейм данных «df» и список столбцов «colStr», есть ли способ в Spark Dataframe извлечь или сослаться на эти столбцы из фрейма данных. Вот пример - val in = sc.parallelize(List(0, 1, 2, 3, 4, 5)) val df = in.map(x => (x, x+1,...
1234 просмотров

Как исправить токен делегирования, который может быть выдан только с помощью Kerberos или веб-аутентификации при выполнении запроса через Hive с использованием Oozie?
Когда я пытаюсь написать кадр данных, полученный путем запроса улья с использованием контекста улья в oozie, я получаю следующее исключение. Что может быть проблемой Caused by: org.apache.spark.sql.catalyst.errors.package$TreeNodeException:...
6701 просмотров

Дублирование кадра данных в разделе
У меня есть 1 миллиард строк данных. схема -------------------------- action_id , hash , user_no -------------------------- click , go4grf , 1 click , ferfg43 , 2 view , erioer , 3 view , erioer , 3 view , oijnvio , 4 ... many many rows......
1069 просмотров
schedule 07.03.2024

Spark vs pandas dataframe (с большими столбцами) head (n) в блокноте jupyter
Сегодня данные имеют большое количество функций. Чтобы получить краткую сводку данных, люди загружают данные во фреймы данных и используют метод head() для их отображения. Довольно распространено проводить эксперименты с использованием Jupyter...
840 просмотров

Пользовательский столбец сортировки Spark в Java
У меня есть приведенный ниже результат набора данных. 1. +------+---------+--------+ | Col1 | Col2 | NumCol | +------+---------+--------+ | abc | jun2016 | 25 | | aac | jun2017 | 28 | | aac | dec2017 | 30 | | aac | apr2018 |...
460 просмотров

Поведение перераспределения Pyspark
Я пытаюсь понять поведение repartition() в контексте SQL. У меня есть фрейм данных, в котором 178 строк. Один столбец представляет собой уникальный идентификатор, связанный с данными. В моем кадре данных я знаю, что у меня есть 2 строки для...
634 просмотров
schedule 09.03.2024

Как получить пары по столбцу в искровом фрейме данных, например python pandas?
Привет ~ Я новичок в искре. Я хочу получить пары со столбцом в фрейме данных, каждый элемент в столбце ("all_mv_id") заставляет другие составлять пары, например: До: +---------+ |all_mv_id| +---------+ | 131| | 121| | 2223| |...
97 просмотров
schedule 28.03.2024

Добавить дополнительные столбцы в фрейм данных Spark
Я анализирую фрейм данных Spark, используя пути к файлам, но теперь я хотел бы добавить пути к результирующему фрейму данных вместе со временем в виде отдельного столбца. Вот текущее решение (pathToDF — вспомогательный метод): val paths =...
57 просмотров
schedule 24.04.2024

Как использовать окно SQL для суммирования строк с условием
Предположим, это моя таблица: id start_date event_date sales ------------------------------------ 1 2020-09-09 2020-08-30 27.9 1 2020-09-09 2020-09-01 15 1 2020-09-09 2020-09-05 25 1 2020-09-09 2020-09-06...
31 просмотров
schedule 09.04.2024