
Ilia
05.09.2017
16:33:15
.count?)
А, сорри, сначала не так понял. Ну скажем 100к строк нужно будет вычитывать в среднем

Andrey
05.09.2017
16:34:30
используйте broadcast join
100к это немного :)

Ilia
05.09.2017
16:35:36
А с какого количества начнутся проблемы? 1m?

Google

Ilia
05.09.2017
16:36:42
Проблемы в том смысле что производительность резко упадёт и нельзя будет решить добавив больше машин в кластер

Andrey
05.09.2017
16:38:02
проблем не будет, просто на небольших df broadcast позволяет положить правый df в память каждого executor'а

Ilia
05.09.2017
16:38:04
Сейчас таски для небольших групп объектов выполняются, но все может быть
Ааа, ясно, почитаю про это

Grigory
06.09.2017
07:37:16
@gurinderu ты купил в итоге весь бандл за 15$?

Nick
06.09.2017
07:41:23
Да
Скинуть?

KrivdaTheTriewe
06.09.2017
07:43:46
расскажите за бандл)
это тип 3 сундучка в доте , надеюсь?

Grigory
06.09.2017
07:44:25
да тип того
@gurinderu "Head First Data Analysis" не смотрел?

KrivdaTheTriewe
06.09.2017
07:45:04
скиньте мне плез , у меня совсем плохо с литературой сейчас

Nick
06.09.2017
07:45:14
Сейчас читаю)

Google

Nick
06.09.2017
07:45:36
Гриша охерел, знает меня от и до
Охеренная книга. Жаль 9 главы у меня не было(

KrivdaTheTriewe
06.09.2017
07:46:09
ваы даже названия не даёте(

Nick
06.09.2017
07:46:42

KrivdaTheTriewe
06.09.2017
07:47:10
в смысле я читал!

Grigory
06.09.2017
07:47:14
KrivdaAllStars https://www.humblebundle.com/books/data-science-books

Nick
06.09.2017
07:47:37
Я могу скинуть, но не всем
А то не совсем честно )

Artem
06.09.2017
07:47:58
не честно не всем)

Nick
06.09.2017
07:48:07
Хотя нас тут не много

Grigory
06.09.2017
07:48:20
нас всего 278, считай половина это боты

KrivdaTheTriewe
06.09.2017
07:48:27
ник,а ты в итоге не купил подписку в сафари букс?

Nick
06.09.2017
07:48:38
Да сафари букс гавно какое то
Мне не понравилось совсем(

KrivdaTheTriewe
06.09.2017
07:49:51
но там есть все орейлевские книги
в том числе и не вышедшие еще

Nick
06.09.2017
07:50:08
И

Google

Nick
06.09.2017
07:50:39
У меня ещё крут стоит недочитанный и пурпурный дракон
На пару лет чтива)

KrivdaTheTriewe
06.09.2017
07:51:00
у меня тоже,уже несколько лет стоит этот список

Daniel
06.09.2017
07:54:01

Nick
06.09.2017
07:55:34

Daniel
06.09.2017
07:55:59
да я шучу
я вообще только одну книгу хотел из всех

Nick
06.09.2017
07:57:24
Так что давайте в группу не буду кидать, кто попросит - тому скину

KrivdaTheTriewe
06.09.2017
07:58:33
прошу

Daniel
06.09.2017
07:59:20

Nick
06.09.2017
08:00:24
Ща до работы доеду и скину

Daniel
06.09.2017
08:00:41
кассандра

Nick
06.09.2017
08:03:12
Ого

KrivdaTheTriewe
06.09.2017
08:09:54
а, не сорь, я все читал кроме питона и Р

Nick
06.09.2017
08:10:16
Нифига себе у тебя времени)

KrivdaTheTriewe
06.09.2017
08:10:46
я давно читал
как раз на сафарибукс

Oleksandr
06.09.2017
08:15:25
насчет книг -- оч рекомендую designing data intensive applications, годнота

Daniel
06.09.2017
08:16:43
её в бандле нет, и так хорошо продается

Google

Daniel
06.09.2017
08:16:59
у нее хорошие шансы стать классикой

KrivdaTheTriewe
06.09.2017
08:31:38

Nick
06.09.2017
08:33:24
вы вообще очень жесткие ребята) я успеваю только в чатик писать

Grigory
06.09.2017
08:35:50
вот так вот

KrivdaTheTriewe
06.09.2017
08:36:14

Grigory
06.09.2017
08:36:16
спумят да книги читают

KrivdaTheTriewe
06.09.2017
08:36:36

Nick
06.09.2017
08:40:14
@pomadchin я точно знаю, что ты удалял CDATA из xml в спарке

Grigory
06.09.2017
09:15:24
NO

Nick
06.09.2017
09:15:35
зачем мы тебя тут держим)

Grigory
06.09.2017
09:15:43
я не работаю с хмл)
а в чем у тя проблема? обычн хмл парсеры игноряд сдату

Nick
06.09.2017
09:16:16
да нифига
я кароч базу террористов грузанул и там везде cdata)

Artem
06.09.2017
09:20:17

Nick
06.09.2017
09:21:50
нужно поискать там Помадчина)