@bigdata_ru

Страница 222 из 327

Aleksey

02.02.2018
09:25:30

Всем привет, подскажите, актуально ли еще книга https://www.amazon.com/Learning-Spark-Lightning-Fast-Data-Analysis/dp/1449358624?

Tsh

02.02.2018
09:35:01

Код - нет

Но для новичков сойдет

Они выпустили / почти выпустили 2 издание или книгу с другим названием, но по сути являющейся "освежением" этой книги

Google

Aleksey

02.02.2018
09:43:50

Они выпустили / почти выпустили 2 издание или книгу с другим названием, но по сути являющейся "освежением" этой книги

Я сейчас берусь за http://shop.oreilly.com/product/0636920046967.do. Думаю чем заполнить разница между начальным уровнем и уровнем этой книги

Tsh

02.02.2018
10:01:11

Spark the definitive guide

Nick

02.02.2018
10:02:59

Она, как бы, будет доступна 25.02.2018 по инфо с амазона. Как вы можете её рекомендовать?

Tsh

02.02.2018
10:03:31

Она уже доступна

В safaribooks online

В принципе для опытных спарководов там ничего нового, просто как review

Aleksey

02.02.2018
10:04:56

То есть это обнавленная версия Learning Spark?

Tsh

02.02.2018
10:05:08

Я бы сказал что да

Aleksey

02.02.2018
10:06:12

Я бы сказал что да

Стоит прочитать, если только стартуешь со Spark, или можно попробовать обойтись менее объемными ресурсами?

Tsh

02.02.2018
10:07:09

Я бы ее просмотрел по диагонали раза 2

А потом углубился бы в то что нужно

Aleksey

02.02.2018
10:07:48

А как насчет High Perfomance Spark?

Tsh

02.02.2018
10:07:54

Она даёт некую широту кругозора

Google

Tsh

02.02.2018
10:08:11

Щас гляну на high performance spark

Вторая книга про более низкоуровневые вещи, некий сборник best practices

Если вам Спарк нужен как дата сциентисту - то сначала definitive guide, потом high performance по желанию

Если вы - программер, то наоборот

Но это мое имхо

Aleksey

02.02.2018
10:15:37

Но это мое имхо

Спасибо за мнение

Nick

02.02.2018
10:19:41

Можете коротко рассказать для чего хорош Спарк и для чего не очень?

Loki

02.02.2018
10:34:22

Здраствуйте, в гугле наше что самые точные OCR у leadtool и у ABBYY, может кто посоветует еще что, оказывается у них там чтото вроде апи,а не оффлайн тулзы

Tsh

02.02.2018
10:38:22

Можете коротко рассказать для чего хорош Спарк и для чего не очень?

В спарке много багов, много начатых и заброшенных фич, многие алгоритмы они тупо не позволяют вмержить в спарк

Они - датабрикс, клаудера и т.д.

По сути он превратился в коммерческий продукт

Он он самый проработанный по сравнению с другими, банки, фарма, страховые компании (по крайней мере не в России) перешли / переходят на него

Но по сути мало проектов где действительно биг дата, даже стриминг редко нужен

Поэтому для прокачки скиллов по ДС сайкита достаточно

Oleksandr

02.02.2018
10:43:31

В спарке много багов, много начатых и заброшенных фич, многие алгоритмы они тупо не позволяют вмержить в спарк

а что именно не позволяют вмерджить ?

Tsh

02.02.2018
10:45:13

Новые алгоритмы если они идут вразрез с роадмапами и желаниями датабрикс

Пример: была некая реализация нейронных сетей для спарка. Ее не мержили, потом сказали типа не нужны нн в спарке

Когда появился бигдл и некоторые другие продукты

Сразу появился аналог от датабрикс

Sergey

02.02.2018
10:48:27

Deeplearning4j есть и bigdl

Google

Sergey

02.02.2018
10:48:45

Ну потому что датабрикс выгоднее самим пилить

Tsh

02.02.2018
10:49:00

Эта реализация была до бигдл и дл4г

Да, они не пускают никого на свою поляну, хотят единолично собирать урожай

?

Oleksandr

02.02.2018
10:51:12

Пример: была некая реализация нейронных сетей для спарка. Ее не мержили, потом сказали типа не нужны нн в спарке

а тикет можно?

звучит как-то малореалистично

Nick

02.02.2018
10:51:55

Допустим, у меня есть 40гб посекундных time series в CSV формате. Я хочу их сгруппировать по часам. В пандас с минимальными оптимизациями и разбиением на меньшие блоки группировка занимает 12 часов на Core i7 Kaby Lake 32Gb RAM. Спарк мне может как-то помочь в этом случае?

Sergey

02.02.2018
10:56:16

Попробуй dask сначала

http://dask.pydata.org/en/latest/dataframe-overview.html

Nick

02.02.2018
10:58:34

Даск пробовал, делаю им часть первичных сортировок. Дальше тупо не хватает памяти, пандас медленно группирует.

Oleksandr

02.02.2018
10:58:36

для 40 гб — несерьезно

Nick

02.02.2018
10:59:04

Сейчас скрипт юзает даск + пандас

Вова, Usopp

02.02.2018
10:59:21

Настрой даску норм шедулер с воркерами

И грамотно распредели память воркерам, что бы хватало

Oleksandr

02.02.2018
10:59:40

ну на спарке такую группировку локально написать — пара часов, почему бы не проверить?

Nick

02.02.2018
10:59:58

На одном компе выигрыша нет или он очень небольшой.

Думал на амазоне запустить или поставить рядом ещё машину и на ней воркеры запускать

Вова, Usopp

02.02.2018
11:00:44

Даск все ядра сейчас юзает?

Nick

02.02.2018
11:00:54

Да

Admin

ERROR: S client not available

Google

Вова, Usopp

02.02.2018
11:02:14

Кста, в что мешает выровнять по чанкам 60*60*24 и быстро над ними проводить необходимые операции?

Nick

02.02.2018
11:04:07

Ну, это не просто группировка, а ещё и вычисление всяких полей, суммы, средние всякие и т.п.

То есть, препроцессинг + группировка + постпроцессинг

Вот для всего этого Спарк подойдёт?

Anton

02.02.2018
13:44:48

Здраствуйте. А Вы не могли бы помочь новичку в нейроных сетях? Необходимо классифицировать тексты с помощью нейросети, тест представляю в векторном виде с помощью word2vec, нейросеть пишу с помощью keras, для реккуретной сети там есть спец класс LSTM, но ему на вход подается двумерный массив, а у меня вектор текста. Как решить эту проблему? Как вообще создать нейросеть на питоне для классификации текста с использованием Keras + word2Vec?

Drino

02.02.2018
13:46:27

Здраствуйте. А Вы не могли бы помочь новичку в нейроных сетях? Необходимо классифицировать тексты с помощью нейросети, тест представляю в векторном виде с помощью word2vec, нейросеть пишу с помощью keras, для реккуретной сети там есть спец класс LSTM, но ему на вход подается двумерный массив, а у меня вектор текста. Как решить эту проблему? Как вообще создать нейросеть на питоне для классификации текста с использованием Keras + word2Vec?

Двумерный массив = уложенные подряд векторы текста, ЕМНИП

То есть если вектора слов размерности 1024, то на вход подаётся размер 1024 x N, где N - количество слов в предложении

*или N x 1024

Anton

02.02.2018
13:51:52

У меня корпус из большого кол-во текста, я прогоняю каждый через word2vec и усредняю, в резудьтате получается что-то вроде вектора текста т.е мне нужно преобразовать его например в 100 x N, где N кол-во слов в теесте. Я правильно понял?

Andrey