Статьи по теме apache-spark

Публикации по теме 'apache-spark'

Машинное обучение с использованием PySpark

Специалистам по данным нравится работать с PySpark, поскольку он помогает оптимизировать общий процесс развертывания моделей машинного обучения производственного уровня, начиная с этапа прототипирования. Исследователи данных в организациях утверждают, что это помогает им сократить объем поддержки, необходимой команде разработчиков для масштабирования моделей машинного обучения от прототипирования до производства. Если вы специалист по данным или инженер по машинному обучению, стремящийся..

15 решений Hien для саммита Data+AI

До Саммита данных + ИИ осталось всего несколько недель — 24–28 мая ( к вашему сведению: виртуальная генеральная конференция бесплатна ). Первые два дня отведены как для бесплатных, так и для платных тренировок. Последние три дня посвящены сотням интересных сессий, посвященных широкому кругу тем, таких как Внутреннее устройство Spark и рекомендации , Инженерия данных , Архитектура данных , Наука о данных , Глубокое обучение и машинное обучение , SQL Analytics , Бизнес-аналитика..

Вопросы по теме 'apache-spark'

Эквивалент левого внешнего соединения в SPARK

Есть ли эквивалент левого внешнего соединения в SPARK SCALA? Я понимаю, что есть операция соединения, которая эквивалентна внутреннему соединению базы данных.

28013 просмотров

apache-spark scala

16.04.2024

Spark scala RDD обход

Как я могу пройти по RDD, используя Spark scala. Я хочу напечатать каждое значение, присутствующее в Seq, с соответствующим ключом res1: org.apache.spark.rdd.RDD[(java.lang.String, Seq[java.lang.String])] = MapPartitionsRDD[6] at groupByKey at...

1219 просмотров

apache-spark scala rdd map

05.05.2024

сделать файлы доступными для рабочих узлов

Я относительно новичок в GCE и Spark. У меня есть экземпляр Spark-Master с смонтированным диском (/ mnt / spark-data), который содержит много файлов, которые я хочу обработать в моем искровом кластере. Проблема: как мои рабочие узлы могут получить...

760 просмотров

google-cloud-storage google-compute-engine apache-spark

08.04.2024

CoreNLP на Apache Spark

Я не уверен, связано ли это со Spark или NLP. Пожалуйста, помогите. В настоящее время я пытаюсь запустить библиотеку Stanford CoreNLP на Apache Spark, и когда я пытаюсь запустить ее на нескольких ядрах, я получаю следующее исключение. Я использую...

1237 просмотров

java nlp apache-spark concurrency stanford-nlp

19.03.2024

Пользовательский интерфейс Spark на AWS EMR

Я использую кластер AWS EMR со Spark (1.3.1), установленным из раскрывающегося списка консоли EMR. Spark является текущим и обрабатывает данные, но я пытаюсь найти порт, назначенный для WebUI. Я пробовал переадресацию портов как 4040, так и 8080 без...

20489 просмотров

apache-spark amazon-emr

12.04.2024

Стадия фильтрации теряется при повторном выполнении линии RDD

У меня есть вопрос о RDD и графике происхождения. Позвольте мне проиллюстрировать это на примере: у меня есть файл данных, который выглядит так: ID; parent; level; type;content; Budget; 999999 ;;a;Total;total; 313344394; 01 ;;a;Part 1;Chancellery...

114 просмотров

apache-spark

01.05.2024

Сделать RDD из списка в scala&spark

Исходные данные ID, NAME, SEQ, NUMBER A, John, 1, 3 A, Bob, 2, 5 A, Sam, 3, 1 B, Kim, 1, 4 B, John, 2, 3 B, Ria, 3, 5 Чтобы составить список групп ID, я сделал ниже val MapRDD = originDF.map { x => (x.getAs[String](colMap.ID), List(x))...

1192 просмотров

apache-spark scala rdd

18.03.2024

Clojure — не найден метод сопоставления для метода выбора в DataFrame при использовании Flambo

Я использую Flambo для работы со Spark. Я хочу получить DataFrame , который содержит заданные имена столбцов. Я написал простую функцию следующим образом: (defn make-dataset ([data-path column-names and-another] (let [data (sql/read-csv...

645 просмотров

apache-spark apache-spark-sql clojure spark-dataframe flambo

17.03.2024

Запуск искрового кластера в автономном режиме по сравнению с Yarn/Mesos

В настоящее время я запускаю свой искровой кластер в автономном режиме. Я читаю данные из плоских файлов или Cassandra (в зависимости от задания) и записываю обработанные данные в сам Cassandra . Мне интересно, если я переключусь на Hadoop и...

3550 просмотров

apache-spark hadoop yarn mesos

23.04.2024

как использовать потоковую передачу искры + kafka с streamingListener

у меня тут одна ситуация. Я хочу, чтобы мое приложение подключалось к kafka один раз, считывало смещение, выполняло действие и затем останавливало приложение. Я читал о StreamingListener для определения, когда происходит первая итерация. я не...

247 просмотров

apache-spark spark-streaming scala

08.03.2024

Потоковая передача Spark - ошибка java.lang.NoSuchMethodError

Я пытаюсь получить доступ к потоковым твитам из Spark Streaming. Это конфигурация программного обеспечения. Ubuntu 14.04.2 LTS scala -версия Средство выполнения кода Scala версии 2.11.7 - Copyright 2002-2013, LAMP / EPFL...

999 просмотров

eclipse apache-spark spark-streaming scala twitter4j

26.03.2024

Интерпретация сходства элементов Spark (перекрестное сходство и сходство)

Я использовал Spark Item Similarity через mahout, выполнив шаги, описанные в этой статье: https://mahout.apache.org/users/algorithms/intro-cooccurrence-spark.html Я смог очистить свои данные, настроить локальный узел spark/hadoop и все такое....

831 просмотров

apache-spark recommendation-engine mahout mahout-recommender

17.05.2024

Spark объединяет/объединяет массивы в groupBy/aggregate

Следующий код Spark правильно демонстрирует то, что я хочу сделать, и генерирует правильный вывод с крошечным набором демонстрационных данных. Когда я запускаю тот же общий тип кода на большом объеме производственных данных, у меня возникают...

17825 просмотров

apache-spark apache-spark-sql scala

28.03.2024

Разделить строку (или список строк) на отдельные столбцы в искровом кадре данных

Учитывая фрейм данных «df» и список столбцов «colStr», есть ли способ в Spark Dataframe извлечь или сослаться на эти столбцы из фрейма данных. Вот пример - val in = sc.parallelize(List(0, 1, 2, 3, 4, 5)) val df = in.map(x => (x, x+1,...

1234 просмотров

apache-spark pyspark apache-spark-sql scala spark-dataframe

24.04.2024

Как исправить токен делегирования, который может быть выдан только с помощью Kerberos или веб-аутентификации при выполнении запроса через Hive с использованием Oozie?

Когда я пытаюсь написать кадр данных, полученный путем запроса улья с использованием контекста улья в oozie, я получаю следующее исключение. Что может быть проблемой Caused by: org.apache.spark.sql.catalyst.errors.package$TreeNodeException:...

6701 просмотров

apache-spark apache-spark-sql hive kerberos oozie

16.05.2024

Нужно ли устанавливать Apache Spark и/или Scala для запуска jUnit?

Я очень новичок в среде Apache Spark, пытаясь настроить свой первый jUnit следующим образом: package com.sample.ccspark; import com.holdenkarau.spark.testing.SharedJavaSparkContext; import org.apache.spark.api.java.JavaRDD; import...

258 просмотров

java maven apache-spark junit

15.05.2024

Дублирование кадра данных в разделе

У меня есть 1 миллиард строк данных. схема -------------------------- action_id , hash , user_no -------------------------- click , go4grf , 1 click , ferfg43 , 2 view , erioer , 3 view , erioer , 3 view , oijnvio , 4 ... many many rows......

1069 просмотров

apache-spark apache-spark-sql

07.03.2024

Добавить запись в RDD с помощью цикла

Я пытаюсь добавить запись в существующий RDD на каждой итерации цикла. Мой код до сих пор: var newY = sc.emptyRDD[MatrixEntry] for (j <- 0 until 8000) { var arrTmp = Array(MatrixEntry(j, j, 1)) var rddTmp = sc.parallelize(arrTmp) newY =...

744 просмотров

apache-spark rdd

30.04.2024

Как загрузить большой CSV-файл, проверить каждую строку и обработать данные

Я хочу проверить каждую строку CSV-файла из более чем 600 миллионов строк и до 30 столбцов (решение должно обрабатывать несколько больших CSV-файлов этого диапазона). Столбцы могут быть текстовыми, датами или суммами. CSV должен быть проверен с...

1695 просмотров

csv java apache-spark hadoop data-ingestion

21.04.2024

Неверное количество параметров типа для функции перегрузки createDirectStream

Я новичок в искровом scala, и при попытке запустить этот простой код, который пытается читать из темы kafka, я увяз в ошибке при создании прямого потока, предполагая, что я предоставляю неправильное количество параметров типа для функции перегрузки...

362 просмотров

apache-kafka apache-spark scala

21.04.2024