Публикации по теме 'apache-spark'


Машинное обучение с использованием PySpark
Специалистам по данным нравится работать с PySpark, поскольку он помогает оптимизировать общий процесс развертывания моделей машинного обучения производственного уровня, начиная с этапа прототипирования. Исследователи данных в организациях утверждают, что это помогает им сократить объем поддержки, необходимой команде разработчиков для масштабирования моделей машинного обучения от прототипирования до производства. Если вы специалист по данным или инженер по машинному обучению, стремящийся..

15 решений Hien для саммита Data+AI
До Саммита данных + ИИ осталось всего несколько недель — 24–28 мая ( к вашему сведению: виртуальная генеральная конференция бесплатна ). Первые два дня отведены как для бесплатных, так и для платных тренировок. Последние три дня посвящены сотням интересных сессий, посвященных широкому кругу тем, таких как Внутреннее устройство Spark и рекомендации , Инженерия данных , Архитектура данных , Наука о данных , Глубокое обучение и машинное обучение , SQL Analytics , Бизнес-аналитика..

Вопросы по теме 'apache-spark'

Эквивалент левого внешнего соединения в SPARK
Есть ли эквивалент левого внешнего соединения в SPARK SCALA? Я понимаю, что есть операция соединения, которая эквивалентна внутреннему соединению базы данных.
28013 просмотров
schedule 16.04.2024

Spark scala RDD обход
Как я могу пройти по RDD, используя Spark scala. Я хочу напечатать каждое значение, присутствующее в Seq, с соответствующим ключом res1: org.apache.spark.rdd.RDD[(java.lang.String, Seq[java.lang.String])] = MapPartitionsRDD[6] at groupByKey at...
1219 просмотров
schedule 05.05.2024

сделать файлы доступными для рабочих узлов
Я относительно новичок в GCE и Spark. У меня есть экземпляр Spark-Master с смонтированным диском (/ mnt / spark-data), который содержит много файлов, которые я хочу обработать в моем искровом кластере. Проблема: как мои рабочие узлы могут получить...
760 просмотров

CoreNLP на Apache Spark
Я не уверен, связано ли это со Spark или NLP. Пожалуйста, помогите. В настоящее время я пытаюсь запустить библиотеку Stanford CoreNLP на Apache Spark, и когда я пытаюсь запустить ее на нескольких ядрах, я получаю следующее исключение. Я использую...
1237 просмотров

Пользовательский интерфейс Spark на AWS EMR
Я использую кластер AWS EMR со Spark (1.3.1), установленным из раскрывающегося списка консоли EMR. Spark является текущим и обрабатывает данные, но я пытаюсь найти порт, назначенный для WebUI. Я пробовал переадресацию портов как 4040, так и 8080 без...
20489 просмотров
schedule 12.04.2024

Стадия фильтрации теряется при повторном выполнении линии RDD
У меня есть вопрос о RDD и графике происхождения. Позвольте мне проиллюстрировать это на примере: у меня есть файл данных, который выглядит так: ID; parent; level; type;content; Budget; 999999 ;;a;Total;total; 313344394; 01 ;;a;Part 1;Chancellery...
114 просмотров
schedule 01.05.2024

Сделать RDD из списка в scala&spark
Исходные данные ID, NAME, SEQ, NUMBER A, John, 1, 3 A, Bob, 2, 5 A, Sam, 3, 1 B, Kim, 1, 4 B, John, 2, 3 B, Ria, 3, 5 Чтобы составить список групп ID, я сделал ниже val MapRDD = originDF.map { x => (x.getAs[String](colMap.ID), List(x))...
1192 просмотров
schedule 18.03.2024

Clojure — не найден метод сопоставления для метода выбора в DataFrame при использовании Flambo
Я использую Flambo для работы со Spark. Я хочу получить DataFrame , который содержит заданные имена столбцов. Я написал простую функцию следующим образом: (defn make-dataset ([data-path column-names and-another] (let [data (sql/read-csv...
645 просмотров

Запуск искрового кластера в автономном режиме по сравнению с Yarn/Mesos
В настоящее время я запускаю свой искровой кластер в автономном режиме. Я читаю данные из плоских файлов или Cassandra (в зависимости от задания) и записываю обработанные данные в сам Cassandra . Мне интересно, если я переключусь на Hadoop и...
3550 просмотров
schedule 23.04.2024

как использовать потоковую передачу искры + kafka с streamingListener
у меня тут одна ситуация. Я хочу, чтобы мое приложение подключалось к kafka один раз, считывало смещение, выполняло действие и затем останавливало приложение. Я читал о StreamingListener для определения, когда происходит первая итерация. я не...
247 просмотров
schedule 08.03.2024

Потоковая передача Spark - ошибка java.lang.NoSuchMethodError
Я пытаюсь получить доступ к потоковым твитам из Spark Streaming. Это конфигурация программного обеспечения. Ubuntu 14.04.2 LTS scala -версия Средство выполнения кода Scala версии 2.11.7 - Copyright 2002-2013, LAMP / EPFL...
999 просмотров

Интерпретация сходства элементов Spark (перекрестное сходство и сходство)
Я использовал Spark Item Similarity через mahout, выполнив шаги, описанные в этой статье: https://mahout.apache.org/users/algorithms/intro-cooccurrence-spark.html Я смог очистить свои данные, настроить локальный узел spark/hadoop и все такое....
831 просмотров

Spark объединяет/объединяет массивы в groupBy/aggregate
Следующий код Spark правильно демонстрирует то, что я хочу сделать, и генерирует правильный вывод с крошечным набором демонстрационных данных. Когда я запускаю тот же общий тип кода на большом объеме производственных данных, у меня возникают...
17825 просмотров
schedule 28.03.2024

Разделить строку (или список строк) на отдельные столбцы в искровом кадре данных
Учитывая фрейм данных «df» и список столбцов «colStr», есть ли способ в Spark Dataframe извлечь или сослаться на эти столбцы из фрейма данных. Вот пример - val in = sc.parallelize(List(0, 1, 2, 3, 4, 5)) val df = in.map(x => (x, x+1,...
1234 просмотров

Как исправить токен делегирования, который может быть выдан только с помощью Kerberos или веб-аутентификации при выполнении запроса через Hive с использованием Oozie?
Когда я пытаюсь написать кадр данных, полученный путем запроса улья с использованием контекста улья в oozie, я получаю следующее исключение. Что может быть проблемой Caused by: org.apache.spark.sql.catalyst.errors.package$TreeNodeException:...
6701 просмотров

Нужно ли устанавливать Apache Spark и/или Scala для запуска jUnit?
Я очень новичок в среде Apache Spark, пытаясь настроить свой первый jUnit следующим образом: package com.sample.ccspark; import com.holdenkarau.spark.testing.SharedJavaSparkContext; import org.apache.spark.api.java.JavaRDD; import...
258 просмотров
schedule 15.05.2024

Дублирование кадра данных в разделе
У меня есть 1 миллиард строк данных. схема -------------------------- action_id , hash , user_no -------------------------- click , go4grf , 1 click , ferfg43 , 2 view , erioer , 3 view , erioer , 3 view , oijnvio , 4 ... many many rows......
1069 просмотров
schedule 07.03.2024

Добавить запись в RDD с помощью цикла
Я пытаюсь добавить запись в существующий RDD на каждой итерации цикла. Мой код до сих пор: var newY = sc.emptyRDD[MatrixEntry] for (j <- 0 until 8000) { var arrTmp = Array(MatrixEntry(j, j, 1)) var rddTmp = sc.parallelize(arrTmp) newY =...
744 просмотров
schedule 30.04.2024

Как загрузить большой CSV-файл, проверить каждую строку и обработать данные
Я хочу проверить каждую строку CSV-файла из более чем 600 миллионов строк и до 30 столбцов (решение должно обрабатывать несколько больших CSV-файлов этого диапазона). Столбцы могут быть текстовыми, датами или суммами. CSV должен быть проверен с...
1695 просмотров
schedule 21.04.2024

Неверное количество параметров типа для функции перегрузки createDirectStream
Я новичок в искровом scala, и при попытке запустить этот простой код, который пытается читать из темы kafka, я увяз в ошибке при создании прямого потока, предполагая, что я предоставляю неправильное количество параметров типа для функции перегрузки...
362 просмотров
schedule 21.04.2024