
Mikhail
11.12.2017
11:04:23
блин, все, понял
я просто ИДЕ не использую, для меня редактирование кода и его запуск — 2 разных процесса

Igor
11.12.2017
11:04:44
Нужно будет подключиться к remote interpreter

Evgeniy
11.12.2017
11:05:02
для юзера прозрачно, можно переключаться между remote и local

Google

Pipito
11.12.2017
11:45:59
Добрый день. Хотел бы узнать, кто как работает с большим количеством переменных. У меня есть набор данных, где 890 переменных и мне необходимо(Feature Ranking), я запустил 5 тестов и в таблице вывел средние значения, но не шибко хочу им доверять ибо обычный chi2 может показывать вообще другие результаты.Спасибо

MIkhail
11.12.2017
11:56:12
понедельник, ага..

Dog
11.12.2017
12:11:03
Привет ребзя, вопрос к тем кто юзал HBase, оправдана ли модель, где на каждый RowKey есть по 10к ColumnFamily, например если я хочу иметь счетчик действий пользователя по каждому дню, я сделаю RowKey как дата (точность - сутки) а ColumnFamily как ид пользователя, такая модель вообще имеет место быть в HBase?

MIkhail
11.12.2017
12:27:34
Вы пишите больше чем читаете из хадупа, да? Разве HBase это не там где надо больше читать?

Dog
11.12.2017
12:28:11
"перезаписывать" я бы так даже сказал

MIkhail
11.12.2017
12:28:55
нет, хайв это хайв)
кассандра на запись оч бодра
попробуйте рассмотреть композитные ключи
date+uid - например

Dog
11.12.2017
12:39:02
date+uid - например
ну RowKey:ColumnFamily - как раз вроде как композитный ключ, посмотрел сейчас, вроде как HBase быстрее кассандры будет

Google

Viktor
11.12.2017
12:43:37

Andrey
11.12.2017
13:16:10

Pipito
11.12.2017
13:33:30
возможно
но что делать, если результаты дерева никак не вяжутся с chi2?

Artyom
11.12.2017
19:30:50
?
для удаления совсем слабых можно и IV смотреть, а в целом использовать пермутированные важности леса

Pipito
11.12.2017
19:31:24
хорошо
спасибо

Igor
11.12.2017
23:52:32
Новая работа от Джеффа Дина:
https://www.arxiv-vanity.com/papers/1712.01208v1/
Jeff Dean and co at GOOG just released a paper showing how machine-learned indexes can replace B-Trees, Hash Indexes, and Bloom Filters. Execute 3x faster than B-Trees, 10-100x less space. Executes on GPU, which are getting faster unlike CPU.


yopp
12.12.2017
00:12:30
Ага, спасибо. В анонсе совсем коротко было.
Теперь понятно что чуда пока не случилось, но начало занимательное. Индексы read-only, добавление только через полную перестройку. Потенциально можно с delta индексами.
Про GPU/TPU ничего толком не исследовано, но молодцы, отметили что While it is reasonable to assume, that probably all learned indexes will fit on the GPU/TPU because of the exceptional compression ratio as shown before, it still requires 2-3 micro-seconds to invoke any operation on them
Но тут есть большая проблема: с современной архитектурой везде будут задействованы разные шины, что очень сильно аукнется в latency, что для таких операций как поиск по индексу будет очень больно.


Igor
12.12.2017
00:25:48
Of course, the latency for transferring the input and retrieving the result from a GPU is still significantly higher, roughly 2 micro-seconds or thousands of cycles, but this problem is not insuperable given batching and/or the recent trend to more closely integrate CPU/GPU/TPUs

yopp
12.12.2017
00:27:12
Плюс заявление что с такой компрессией индексы будут вмещаться в память GPU/TPU слегка инфантильное, пушо GPU с 128 гигами я не видел, а вот сервера с 1 тб вполне себе видел.
Batching это конечно хорошо, но это опять latency. Плюс досвиданья параллелизация
Плюс после поиска по индексу, нада ехать за данными.
Если нам будут из индекса пачками кидать ответы, ездить за данными тоже надо будет пачками
Так что пока надо опираться на результаты которые получаются на ЦПУ. Если в реальных условиях хоть половина их цифр будет наблюдаться, то уже гигантский вин.
Ещё интересная область — оптимизация кешей

Google

Evgeniy
12.12.2017
00:42:18

yopp
12.12.2017
00:44:06
Нет возможности без полной перестройки обновлять индекс — вот тебе и read only
Потому что если у тебя индекс должен отображать все хранимые данные, ты на каждое изменение не сможешь себе этого позволить

Igor
12.12.2017
00:45:36
Как всегда дьявол в деталях
Вы уже все успели прочитать? Я только просмотрел мельком, но вроде как у них есть идеи, как это перенести на случаи "insert-heavy workloads."?

yopp
12.12.2017
00:45:53
Я по диагонали пробежался
Там дельта индексы опять
Это вариант конечно, но тоже не особо конкурентный пока.
Я же говорю что начало хорошее

Igor
12.12.2017
00:47:20
Это первая работа на эту тему, или были еще?

yopp
12.12.2017
00:47:37
Что-то было уже по-моему
https://www.microsoft.com/en-us/quantum/development-kit

MIkhail
12.12.2017
09:17:07
Всем привет! Подскажите, пожалуйста, для NLP великого_и_могучего, что используете?

MIkhail
12.12.2017
09:17:33
(если без сетей)

Denis
12.12.2017
18:45:31
надеюсь)

yopp
12.12.2017
18:46:59
Как это связанно?

Admin
ERROR: S client not available

yopp
12.12.2017
18:47:41
Хеш функции быстрее считать не станут.

/dev
12.12.2017
18:49:06

Denis
12.12.2017
18:49:38
могут быстро всякие rsa или ecdsa считать

Google

Denis
12.12.2017
18:49:58
ну, скоро будут уже реальные, возможно даже при нашей жизни

Dan
12.12.2017
19:05:17

Evgeniy
12.12.2017
19:17:24

Denis
12.12.2017
19:29:34
кошельки взломать легче

yopp
12.12.2017
19:33:04
А для ключей уже post quantum алгоритмы есть

Denis
12.12.2017
19:33:49
доступ к кошелькам будет, а не пересчет цепочки))
разве что только его, да

Крис
12.12.2017
21:37:55
всем привет) а что можно почитать по интеллектуальному анализу текста? С чего начать изучение темы? Выбрала тему диплома: создание веб-сервиса для проверки текста на соответствие правил русского языка (тему выбрала сама, легких путей не ищу). Нашла, конечно, открытое АПИ одного сервиса, но хочется попробовать написать систему анализа самой. А опыта — ноль. С чего начать вообще не знаю, потому что всю жизнь занимаюсь тем, что пишу про стартапы и бизнес.

Dan
12.12.2017
21:38:39
А еще Антонио очень крутую подборку книг делал, сейчас ссылку найду
https://ru.stackoverflow.com/a/683632/1084

Крис
12.12.2017
21:39:36
спасибо большое!

Dan
12.12.2017
21:40:32
Вообще на русском довольно мало хороших материалов, а вот по всяким запросам типа "awesome machine learning" или "awesome data science" нагугливаются ТАКИЕ штуки, что вообще можно потерять счёт времени и пространства ?

Крис
12.12.2017
21:45:26
английский — не очень проблема, поэтому погуглю)
а вообще за полгода реально написать что-то стоящее, если я полный нуб в этом деле?
*пытается себя успокоить*

Dan
12.12.2017
21:47:59
Точно знаю что ничего невозможного нет. Есть примеры, когда люди вообще далёкие от кодинга за довольно короткий промежуток времени становились вполне себе разработчиками. Тут главное желание, как мне кажется

Boris
12.12.2017
23:00:56
недавно на хакатоне сбербанка по анализу текстов 1млн рублей выиграл чел программирующий около года ) сказал что изучил самые свежие методы по проблемной области и просто применил их
там нужно было по статье в википедии и данному вопросу понять релевантен ли вопрос статье, чот такое

Google

Dan
12.12.2017
23:16:42
Вполне реально. Если есть желание, цель, и силы ?

Kek
12.12.2017
23:25:51
я вот лерн питон зе хард вей лелаю