@bigdata_ru

« Назад

Страница 193 из 327

Далее »

Mikhail

11.12.2017
11:04:23

блин, все, понял

я просто ИДЕ не использую, для меня редактирование кода и его запуск — 2 разных процесса

Igor

11.12.2017
11:04:44

Нужно будет подключиться к remote interpreter

Evgeniy

11.12.2017
11:05:02

для юзера прозрачно, можно переключаться между remote и local

Google

Pipito

11.12.2017
11:45:59

Добрый день. Хотел бы узнать, кто как работает с большим количеством переменных. У меня есть набор данных, где 890 переменных и мне необходимо(Feature Ranking), я запустил 5 тестов и в таблице вывел средние значения, но не шибко хочу им доверять ибо обычный chi2 может показывать вообще другие результаты.Спасибо

MIkhail

11.12.2017
11:56:12

понедельник, ага..

Dog

11.12.2017
12:11:03

Привет ребзя, вопрос к тем кто юзал HBase, оправдана ли модель, где на каждый RowKey есть по 10к ColumnFamily, например если я хочу иметь счетчик действий пользователя по каждому дню, я сделаю RowKey как дата (точность - сутки) а ColumnFamily как ид пользователя, такая модель вообще имеет место быть в HBase?

MIkhail

11.12.2017
12:27:34

Вы пишите больше чем читаете из хадупа, да? Разве HBase это не там где надо больше читать?

Dog

11.12.2017
12:28:11

Вы пишите больше чем читаете из хадупа, да? Разве HBase это не там где надо больше читать?

Hive, вроде как там, где надо много читать, а HBase где много писать

"перезаписывать" я бы так даже сказал

MIkhail

11.12.2017
12:28:55

нет, хайв это хайв)

кассандра на запись оч бодра

попробуйте рассмотреть композитные ключи

date+uid - например

Dog

11.12.2017
12:39:02

date+uid - например

ну RowKey:ColumnFamily - как раз вроде как композитный ключ, посмотрел сейчас, вроде как HBase быстрее кассандры будет

Google

Viktor

11.12.2017
12:43:37

Добрый день. Хотел бы узнать, кто как работает с большим количеством переменных. У меня есть набор данных, где 890 переменных и мне необходимо(Feature Ranking), я запустил 5 тестов и в таблице вывел средние значения, но не шибко хочу им доверять ибо обычный chi2 может показывать вообще другие результаты.Спасибо

Я бы смотрел в сторону lasso. Должно помочь избавиться от неважных фич из тех 800.

Andrey

11.12.2017
13:16:10

Я бы смотрел в сторону lasso. Должно помочь избавиться от неважных фич из тех 800.

Дерево лучше отберёт фичи

Pipito

11.12.2017
13:33:30

возможно

но что делать, если результаты дерева никак не вяжутся с chi2?

Дерево лучше отберёт фичи

?

Artyom

11.12.2017
19:30:50

?

для удаления совсем слабых можно и IV смотреть, а в целом использовать пермутированные важности леса

Pipito

11.12.2017
19:31:24

хорошо

спасибо

Igor

11.12.2017
23:52:32

Новая работа от Джеффа Дина: https://www.arxiv-vanity.com/papers/1712.01208v1/

Jeff Dean and co at GOOG just released a paper showing how machine-learned indexes can replace B-Trees, Hash Indexes, and Bloom Filters. Execute 3x faster than B-Trees, 10-100x less space. Executes on GPU, which are getting faster unlike CPU.

yopp

12.12.2017
00:12:30

Ага, спасибо. В анонсе совсем коротко было. Теперь понятно что чуда пока не случилось, но начало занимательное. Индексы read-only, добавление только через полную перестройку. Потенциально можно с delta индексами. Про GPU/TPU ничего толком не исследовано, но молодцы, отметили что While it is reasonable to assume, that probably all learned indexes will fit on the GPU/TPU because of the exceptional compression ratio as shown before, it still requires 2-3 micro-seconds to invoke any operation on them

Но тут есть большая проблема: с современной архитектурой везде будут задействованы разные шины, что очень сильно аукнется в latency, что для таких операций как поиск по индексу будет очень больно.

Igor

12.12.2017
00:25:48

Of course, the latency for transferring the input and retrieving the result from a GPU is still significantly higher, roughly 2 micro-seconds or thousands of cycles, but this problem is not insuperable given batching and/or the recent trend to more closely integrate CPU/GPU/TPUs

yopp

12.12.2017
00:27:12

Плюс заявление что с такой компрессией индексы будут вмещаться в память GPU/TPU слегка инфантильное, пушо GPU с 128 гигами я не видел, а вот сервера с 1 тб вполне себе видел.

Of course, the latency for transferring the input and retrieving the result from a GPU is still significantly higher, roughly 2 micro-seconds or thousands of cycles, but this problem is not insuperable given batching and/or the recent trend to more closely integrate CPU/GPU/TPUs

Как всегда дьявол в деталях

Batching это конечно хорошо, но это опять latency. Плюс досвиданья параллелизация

Плюс после поиска по индексу, нада ехать за данными.

Если нам будут из индекса пачками кидать ответы, ездить за данными тоже надо будет пачками

Так что пока надо опираться на результаты которые получаются на ЦПУ. Если в реальных условиях хоть половина их цифр будет наблюдаться, то уже гигантский вин.

Ещё интересная область — оптимизация кешей

Google

Evgeniy

12.12.2017
00:42:18

Ага, спасибо. В анонсе совсем коротко было. Теперь понятно что чуда пока не случилось, но начало занимательное. Индексы read-only, добавление только через полную перестройку. Потенциально можно с delta индексами. Про GPU/TPU ничего толком не исследовано, но молодцы, отметили что While it is reasonable to assume, that probably all learned indexes will fit on the GPU/TPU because of the exceptional compression ratio as shown before, it still requires 2-3 micro-seconds to invoke any operation on them

ну там не совсем рид онли, просто деградация

yopp

12.12.2017
00:44:06

Нет возможности без полной перестройки обновлять индекс — вот тебе и read only

Потому что если у тебя индекс должен отображать все хранимые данные, ты на каждое изменение не сможешь себе этого позволить

Igor

12.12.2017
00:45:36

Как всегда дьявол в деталях

Вы уже все успели прочитать? Я только просмотрел мельком, но вроде как у них есть идеи, как это перенести на случаи "insert-heavy workloads."?

yopp

12.12.2017
00:45:53

Я по диагонали пробежался

Там дельта индексы опять

Это вариант конечно, но тоже не особо конкурентный пока.

Я же говорю что начало хорошее

Igor

12.12.2017
00:47:20

Это первая работа на эту тему, или были еще?

yopp

12.12.2017
00:47:37

Что-то было уже по-моему

https://www.microsoft.com/en-us/quantum/development-kit

MIkhail

12.12.2017
09:17:07

Всем привет! Подскажите, пожалуйста, для NLP великого_и_могучего, что используете?

MIkhail

12.12.2017
09:17:33

(если без сетей)

Denis

12.12.2017
18:45:31

https://www.microsoft.com/en-us/quantum/development-kit

конец эпохи биткоина!)

надеюсь)

yopp

12.12.2017
18:46:59

Как это связанно?

Admin

ERROR: S client not available

yopp

12.12.2017
18:47:41

Хеш функции быстрее считать не станут.

/dev

12.12.2017
18:49:06

конец эпохи биткоина!)

так это ж симулятор, а не кванты

Denis

12.12.2017
18:49:38

могут быстро всякие rsa или ecdsa считать

Google

Denis

12.12.2017
18:49:58

ну, скоро будут уже реальные, возможно даже при нашей жизни

Dan

12.12.2017
19:05:17

Всем привет! Подскажите, пожалуйста, для NLP великого_и_могучего, что используете?

https://t.me/bigdata_ru/19177

Evgeniy

12.12.2017
19:17:24

могут быстро всякие rsa или ecdsa считать

а биткоин причем

Denis

12.12.2017
19:29:34

кошельки взломать легче

yopp

12.12.2017
19:33:04

могут быстро всякие rsa или ecdsa считать

Так Proof of work на поиске коллизий в хеш суммах построен. Известных оптимизаций нет

А для ключей уже post quantum алгоритмы есть

Denis

12.12.2017
19:33:49

доступ к кошелькам будет, а не пересчет цепочки))

разве что только его, да

Крис

12.12.2017
21:37:55

всем привет) а что можно почитать по интеллектуальному анализу текста? С чего начать изучение темы? Выбрала тему диплома: создание веб-сервиса для проверки текста на соответствие правил русского языка (тему выбрала сама, легких путей не ищу). Нашла, конечно, открытое АПИ одного сервиса, но хочется попробовать написать систему анализа самой. А опыта — ноль. С чего начать вообще не знаю, потому что всю жизнь занимаюсь тем, что пишу про стартапы и бизнес.

Dan

12.12.2017
21:38:39

всем привет) а что можно почитать по интеллектуальному анализу текста? С чего начать изучение темы? Выбрала тему диплома: создание веб-сервиса для проверки текста на соответствие правил русского языка (тему выбрала сама, легких путей не ищу). Нашла, конечно, открытое АПИ одного сервиса, но хочется попробовать написать систему анализа самой. А опыта — ноль. С чего начать вообще не знаю, потому что всю жизнь занимаюсь тем, что пишу про стартапы и бизнес.

Привет, посмотри вот тут, может найдёшь что полезного: https://github.com/demidovakatya/vvedenie-mashinnoe-obuchenie

А еще Антонио очень крутую подборку книг делал, сейчас ссылку найду

https://ru.stackoverflow.com/a/683632/1084

Крис

12.12.2017
21:39:36

спасибо большое!

Dan

12.12.2017
21:40:32

Вообще на русском довольно мало хороших материалов, а вот по всяким запросам типа "awesome machine learning" или "awesome data science" нагугливаются ТАКИЕ штуки, что вообще можно потерять счёт времени и пространства ?

Крис

12.12.2017
21:45:26

английский — не очень проблема, поэтому погуглю)

а вообще за полгода реально написать что-то стоящее, если я полный нуб в этом деле?

*пытается себя успокоить*

Dan

12.12.2017
21:47:59

Точно знаю что ничего невозможного нет. Есть примеры, когда люди вообще далёкие от кодинга за довольно короткий промежуток времени становились вполне себе разработчиками. Тут главное желание, как мне кажется

Boris

12.12.2017
23:00:56

недавно на хакатоне сбербанка по анализу текстов 1млн рублей выиграл чел программирующий около года ) сказал что изучил самые свежие методы по проблемной области и просто применил их

там нужно было по статье в википедии и данному вопросу понять релевантен ли вопрос статье, чот такое

Google

Dan

12.12.2017
23:16:42

Вполне реально. Если есть желание, цель, и силы ?

Kek

12.12.2017
23:25:51

я вот лерн питон зе хард вей лелаю

« Назад

Страница 193 из 327

Далее »

Открыть в Telegram