
Aleksey
02.02.2018
09:25:30
Всем привет, подскажите, актуально ли еще книга https://www.amazon.com/Learning-Spark-Lightning-Fast-Data-Analysis/dp/1449358624?

Tsh
02.02.2018
09:35:01
Код - нет
Но для новичков сойдет
Они выпустили / почти выпустили 2 издание или книгу с другим названием, но по сути являющейся "освежением" этой книги

Google

Aleksey
02.02.2018
09:43:50

Tsh
02.02.2018
10:01:11
Spark the definitive guide

Nick
02.02.2018
10:02:59
Она, как бы, будет доступна 25.02.2018 по инфо с амазона. Как вы можете её рекомендовать?

Tsh
02.02.2018
10:03:31
Она уже доступна
В safaribooks online
В принципе для опытных спарководов там ничего нового, просто как review

Aleksey
02.02.2018
10:04:56
То есть это обнавленная версия Learning Spark?

Tsh
02.02.2018
10:05:08
Я бы сказал что да

Aleksey
02.02.2018
10:06:12
Я бы сказал что да
Стоит прочитать, если только стартуешь со Spark, или можно попробовать обойтись менее объемными ресурсами?

Tsh
02.02.2018
10:07:09
Я бы ее просмотрел по диагонали раза 2
А потом углубился бы в то что нужно

Aleksey
02.02.2018
10:07:48
А как насчет High Perfomance Spark?

Tsh
02.02.2018
10:07:54
Она даёт некую широту кругозора

Google

Tsh
02.02.2018
10:08:11
Щас гляну на high performance spark
Вторая книга про более низкоуровневые вещи, некий сборник best practices
Если вам Спарк нужен как дата сциентисту - то сначала definitive guide, потом high performance по желанию
Если вы - программер, то наоборот
Но это мое имхо

Aleksey
02.02.2018
10:15:37

Nick
02.02.2018
10:19:41
Можете коротко рассказать для чего хорош Спарк и для чего не очень?

Loki
02.02.2018
10:34:22
Здраствуйте, в гугле наше что самые точные OCR у leadtool и у ABBYY, может кто посоветует еще что, оказывается у них там чтото вроде апи,а не оффлайн тулзы

Tsh
02.02.2018
10:38:22
Они - датабрикс, клаудера и т.д.
По сути он превратился в коммерческий продукт
Он он самый проработанный по сравнению с другими, банки, фарма, страховые компании (по крайней мере не в России) перешли / переходят на него
Но по сути мало проектов где действительно биг дата, даже стриминг редко нужен
Поэтому для прокачки скиллов по ДС сайкита достаточно

Oleksandr
02.02.2018
10:43:31

Tsh
02.02.2018
10:45:13
Новые алгоритмы если они идут вразрез с роадмапами и желаниями датабрикс
Пример: была некая реализация нейронных сетей для спарка. Ее не мержили, потом сказали типа не нужны нн в спарке
Когда появился бигдл и некоторые другие продукты
Сразу появился аналог от датабрикс

Sergey
02.02.2018
10:48:27
Deeplearning4j есть и bigdl

Google

Sergey
02.02.2018
10:48:45
Ну потому что датабрикс выгоднее самим пилить

Tsh
02.02.2018
10:49:00
Эта реализация была до бигдл и дл4г
Да, они не пускают никого на свою поляну, хотят единолично собирать урожай
?

Oleksandr
02.02.2018
10:51:12
звучит как-то малореалистично

Nick
02.02.2018
10:51:55
Допустим, у меня есть 40гб посекундных time series в CSV формате. Я хочу их сгруппировать по часам. В пандас с минимальными оптимизациями и разбиением на меньшие блоки группировка занимает 12 часов на Core i7 Kaby Lake 32Gb RAM. Спарк мне может как-то помочь в этом случае?

Sergey
02.02.2018
10:56:16
Попробуй dask сначала
http://dask.pydata.org/en/latest/dataframe-overview.html

Nick
02.02.2018
10:58:34
Даск пробовал, делаю им часть первичных сортировок. Дальше тупо не хватает памяти, пандас медленно группирует.

Oleksandr
02.02.2018
10:58:36
для 40 гб — несерьезно

Nick
02.02.2018
10:59:04
Сейчас скрипт юзает даск + пандас

Вова, Usopp
02.02.2018
10:59:21
Настрой даску норм шедулер с воркерами
И грамотно распредели память воркерам, что бы хватало

Oleksandr
02.02.2018
10:59:40
ну на спарке такую группировку локально написать — пара часов, почему бы не проверить?

Nick
02.02.2018
10:59:58
На одном компе выигрыша нет или он очень небольшой.
Думал на амазоне запустить или поставить рядом ещё машину и на ней воркеры запускать

Вова, Usopp
02.02.2018
11:00:44
Даск все ядра сейчас юзает?

Nick
02.02.2018
11:00:54
Да

Admin
ERROR: S client not available

Google

Вова, Usopp
02.02.2018
11:02:14
Кста, в что мешает выровнять по чанкам 60*60*24 и быстро над ними проводить необходимые операции?

Nick
02.02.2018
11:04:07
Ну, это не просто группировка, а ещё и вычисление всяких полей, суммы, средние всякие и т.п.
То есть, препроцессинг + группировка + постпроцессинг
Вот для всего этого Спарк подойдёт?

Anton
02.02.2018
13:44:48
Здраствуйте.
А Вы не могли бы помочь новичку в нейроных сетях? Необходимо классифицировать тексты с помощью нейросети, тест представляю в векторном виде с помощью word2vec, нейросеть пишу с помощью keras, для реккуретной сети там есть спец класс LSTM, но ему на вход подается двумерный массив, а у меня вектор текста. Как решить эту проблему? Как вообще создать нейросеть на питоне для классификации текста с использованием Keras + word2Vec?

Drino
02.02.2018
13:46:27
То есть если вектора слов размерности 1024, то на вход подаётся размер 1024 x N, где N - количество слов в предложении
*или N x 1024

Anton
02.02.2018
13:51:52
У меня корпус из большого кол-во текста, я прогоняю каждый через word2vec и усредняю, в резудьтате получается что-то вроде вектора текста т.е мне нужно преобразовать его например в 100 x N, где N кол-во слов в теесте. Я правильно понял?

Andrey
02.02.2018
13:53:23
В lstm пихают последовательность. Если уже все слова в векторной форме усреднили, то зачем lstm?
Возьми какой-то простой пример, хотя бы резенции imdb. Там все пошагово показано

Drino
02.02.2018
13:57:38

Anton
02.02.2018
13:59:23
Thanks
I understand
Извините, еще один, для вас элементарный вопрос, но каким образом увеличивать точность сети ?

Evgeniy
02.02.2018
14:15:10

Pipito
02.02.2018
14:15:35
оч пространный вопрос
техник же куча

Anton
02.02.2018
14:16:39
Например)

Pipito
02.02.2018
14:42:35
Например)
отбор параметров(X)+Feature Engineering(что на мой взгляд уже отдельная стезя, где можно долго копать)

Google

Pipito
02.02.2018
14:44:09
мое мнение, может не прав

Evgeniy
02.02.2018
15:16:18

Pipito
02.02.2018
15:16:49

Drino
02.02.2018
15:18:36
Чтобы он дообучался под конкретную задачу

Dan
02.02.2018
19:11:03
@Christypro нет, эту информацию мы здесь публиковать не станем.

Крис
02.02.2018
19:11:42