@bigdata_ru

Страница 222 из 327
Aleksey
02.02.2018
09:25:30
Всем привет, подскажите, актуально ли еще книга https://www.amazon.com/Learning-Spark-Lightning-Fast-Data-Analysis/dp/1449358624?

Tsh
02.02.2018
09:35:01
Код - нет

Но для новичков сойдет

Они выпустили / почти выпустили 2 издание или книгу с другим названием, но по сути являющейся "освежением" этой книги

Google
Aleksey
02.02.2018
09:43:50
Они выпустили / почти выпустили 2 издание или книгу с другим названием, но по сути являющейся "освежением" этой книги
Я сейчас берусь за http://shop.oreilly.com/product/0636920046967.do. Думаю чем заполнить разница между начальным уровнем и уровнем этой книги

Tsh
02.02.2018
10:01:11
Spark the definitive guide

Nick
02.02.2018
10:02:59
Она, как бы, будет доступна 25.02.2018 по инфо с амазона. Как вы можете её рекомендовать?

Tsh
02.02.2018
10:03:31
Она уже доступна

В safaribooks online

В принципе для опытных спарководов там ничего нового, просто как review

Aleksey
02.02.2018
10:04:56
То есть это обнавленная версия Learning Spark?

Tsh
02.02.2018
10:05:08
Я бы сказал что да

Aleksey
02.02.2018
10:06:12
Я бы сказал что да
Стоит прочитать, если только стартуешь со Spark, или можно попробовать обойтись менее объемными ресурсами?

Tsh
02.02.2018
10:07:09
Я бы ее просмотрел по диагонали раза 2

А потом углубился бы в то что нужно

Aleksey
02.02.2018
10:07:48
А как насчет High Perfomance Spark?

Tsh
02.02.2018
10:07:54
Она даёт некую широту кругозора

Google
Tsh
02.02.2018
10:08:11
Щас гляну на high performance spark

Вторая книга про более низкоуровневые вещи, некий сборник best practices

Если вам Спарк нужен как дата сциентисту - то сначала definitive guide, потом high performance по желанию

Если вы - программер, то наоборот

Но это мое имхо

Aleksey
02.02.2018
10:15:37
Но это мое имхо
Спасибо за мнение

Nick
02.02.2018
10:19:41
Можете коротко рассказать для чего хорош Спарк и для чего не очень?

Loki
02.02.2018
10:34:22
Здраствуйте, в гугле наше что самые точные OCR у leadtool и у ABBYY, может кто посоветует еще что, оказывается у них там чтото вроде апи,а не оффлайн тулзы

Tsh
02.02.2018
10:38:22
Можете коротко рассказать для чего хорош Спарк и для чего не очень?
В спарке много багов, много начатых и заброшенных фич, многие алгоритмы они тупо не позволяют вмержить в спарк

Они - датабрикс, клаудера и т.д.

По сути он превратился в коммерческий продукт

Он он самый проработанный по сравнению с другими, банки, фарма, страховые компании (по крайней мере не в России) перешли / переходят на него

Но по сути мало проектов где действительно биг дата, даже стриминг редко нужен

Поэтому для прокачки скиллов по ДС сайкита достаточно

Tsh
02.02.2018
10:45:13
Новые алгоритмы если они идут вразрез с роадмапами и желаниями датабрикс

Пример: была некая реализация нейронных сетей для спарка. Ее не мержили, потом сказали типа не нужны нн в спарке

Когда появился бигдл и некоторые другие продукты

Сразу появился аналог от датабрикс

Sergey
02.02.2018
10:48:27
Deeplearning4j есть и bigdl

Google
Sergey
02.02.2018
10:48:45
Ну потому что датабрикс выгоднее самим пилить

Tsh
02.02.2018
10:49:00
Эта реализация была до бигдл и дл4г

Да, они не пускают никого на свою поляну, хотят единолично собирать урожай

?

Nick
02.02.2018
10:51:55
Допустим, у меня есть 40гб посекундных time series в CSV формате. Я хочу их сгруппировать по часам. В пандас с минимальными оптимизациями и разбиением на меньшие блоки группировка занимает 12 часов на Core i7 Kaby Lake 32Gb RAM. Спарк мне может как-то помочь в этом случае?

Sergey
02.02.2018
10:56:16
Попробуй dask сначала

http://dask.pydata.org/en/latest/dataframe-overview.html

Nick
02.02.2018
10:58:34
Даск пробовал, делаю им часть первичных сортировок. Дальше тупо не хватает памяти, пандас медленно группирует.

Oleksandr
02.02.2018
10:58:36
для 40 гб — несерьезно

Nick
02.02.2018
10:59:04
Сейчас скрипт юзает даск + пандас

Вова, Usopp
02.02.2018
10:59:21
Настрой даску норм шедулер с воркерами

И грамотно распредели память воркерам, что бы хватало

Oleksandr
02.02.2018
10:59:40
ну на спарке такую группировку локально написать — пара часов, почему бы не проверить?

Nick
02.02.2018
10:59:58
На одном компе выигрыша нет или он очень небольшой.

Думал на амазоне запустить или поставить рядом ещё машину и на ней воркеры запускать

Вова, Usopp
02.02.2018
11:00:44
Даск все ядра сейчас юзает?

Nick
02.02.2018
11:00:54
Да

Admin
ERROR: S client not available

Google
Вова, Usopp
02.02.2018
11:02:14
Кста, в что мешает выровнять по чанкам 60*60*24 и быстро над ними проводить необходимые операции?

Nick
02.02.2018
11:04:07
Ну, это не просто группировка, а ещё и вычисление всяких полей, суммы, средние всякие и т.п.

То есть, препроцессинг + группировка + постпроцессинг

Вот для всего этого Спарк подойдёт?

Anton
02.02.2018
13:44:48
Здраствуйте. А Вы не могли бы помочь новичку в нейроных сетях? Необходимо классифицировать тексты с помощью нейросети, тест представляю в векторном виде с помощью word2vec, нейросеть пишу с помощью keras, для реккуретной сети там есть спец класс LSTM, но ему на вход подается двумерный массив, а у меня вектор текста. Как решить эту проблему? Как вообще создать нейросеть на питоне для классификации текста с использованием Keras + word2Vec?

Anton
02.02.2018
13:51:52
У меня корпус из большого кол-во текста, я прогоняю каждый через word2vec и усредняю, в резудьтате получается что-то вроде вектора текста т.е мне нужно преобразовать его например в 100 x N, где N кол-во слов в теесте. Я правильно понял?

Andrey
02.02.2018
13:53:23
В lstm пихают последовательность. Если уже все слова в векторной форме усреднили, то зачем lstm?

Возьми какой-то простой пример, хотя бы резенции imdb. Там все пошагово показано

Anton
02.02.2018
13:59:23
Thanks

I understand

Извините, еще один, для вас элементарный вопрос, но каким образом увеличивать точность сети ?

Pipito
02.02.2018
14:15:35
оч пространный вопрос

техник же куча

Anton
02.02.2018
14:16:39
Например)

Pipito
02.02.2018
14:42:35
Например)
отбор параметров(X)+Feature Engineering(что на мой взгляд уже отдельная стезя, где можно долго копать)

Google
Pipito
02.02.2018
14:44:09
мое мнение, может не прав

Pipito
02.02.2018
15:16:49
для нейронок явно не лучший вариант
+, я про более простые вещи

Drino
02.02.2018
15:18:36
Чтобы он дообучался под конкретную задачу

Dan
02.02.2018
19:11:03
@Christypro нет, эту информацию мы здесь публиковать не станем.

Страница 222 из 327