
Daniel
12.10.2016
10:05:38
а по апи периодически странности попадаются
без сорцов никогда не понял бы как они из текстовых файлов читают
при этом нормальной доки нет
из npy формата какбы умеют читать, но как бы не работает
пришлось свое писать
решения системы уравнений нет, инвертированные матрицы тоже отсутствуют

Google

Daniel
12.10.2016
10:07:10
но зато сообщество весьма активно)

Dim
12.10.2016
10:07:43
Ага, спасибо за фидбек, просто думал браться или нет

Daniel
12.10.2016
10:09:01
я в итоге у себя поднял сервис питоновский на фласке и пушу туда математику
головной боли в разы меньше
аналатику проще проверить корректность, работает сильно быстрее (numpy и scipy)

Сергей
12.10.2016
14:53:00
так присоединились две дамы
Здравствуйте)

Irina
12.10.2016
14:53:36
Добрый вечер :)

Сергей
12.10.2016
14:53:54
опа, да я успешен)
и Вам хорошего

Леонид
12.10.2016
15:09:15
Градиентный спуск я тоже понял. Объясните смысл обратного распространения ошибки
Что бы узнать ошибку нейрона из предыдущего слоя, мы умножаем вес связи этого нейрона с каждым нейроном из текущего слоя на ошибку этого "каждого нейрона" и все складываем. Результат умножаем на производную функции активации.
Полученное число используем, что бы посчитать ошибку предыдущего слоя и что бы подкрутить веса этого нейрона

Belskikh
12.10.2016
16:20:45
Всем привет! Кто-нибудь занимается анализом снимков ДЗЗ иди ГИС?

Vladislav
13.10.2016
07:56:40

Maxim
13.10.2016
08:37:17
Если вес прав, то он будет увеличиваться, а если нет то уменьшаться

Google

Maxim
13.10.2016
08:43:09
Идет подгонка веса под правильный результат
Но можно решать дифференциальные уравнения, но когда переменных много, то это неудобно и проще подогнать вес
Можно самому вручную подгонять веса и проверять качество смотря на среднюю квадратическую ошибку

Lepus
13.10.2016
08:55:52

yopp
13.10.2016
09:19:44
эм
у меня только что два сообщения пропало

Maxim
13.10.2016
10:33:51
Найти минимум функции можно либо путем подгона, либо аналитически - вот так правильней=)

Fyodor
13.10.2016
10:52:11
Не подскажете, есть ли в какой-нибудь высокоуровневой библиотеке машинного обучения (по типу Keras/Lasagne) что-то промежуточное между (обучаемым) слоем и (статичными) данными? Т.е. значения этих слоев-данных задаются на каждой итерации обучения и могут быть разными для каждого примера в батче, но на них также влияет backprop (ну и после итерации обновленные значения сохраняются). Если бы в батче значение было бы одним для всех примеров, то данное поведение можно имитировать фейковым слоем. На Theano такое задать можно, но ковыряться на “низком” уровне не хочется. Поэтому вопрос: есть ли подобный велосипед?

Just
15.10.2016
11:12:30
Подскажите куда двигаться, задача из области big data:
Нужно построить граф из 1.5 миллионов узлов и 30 миллионов связей между ними, с тем, что бы можно было
- быстро получать соседей узла X
- добавлять в день по 200 тысяч связей
- искать путь между двумя узлами.
Интересует именнно, в какой формате этот граф хранить, в какой БД.

Yuriy
15.10.2016
11:14:58
вам наверное в эту сторону https://neo4j.com/ надо посмотреть

Ech
15.10.2016
11:21:29
Можно в Semantic Web еще https://www.blazegraph.com/
Хотя если семантика не нужна, то neo4j, будет быстрее

Ilya
15.10.2016
11:23:34

Евгений
15.10.2016
11:32:01
neo4j сравним с простым mysql по скорости, процентов на 10% быстрее, и если нужно найти пару сотен наиболее плотных узлов на расстоянии в 3-4 узла от заданного, то это десятки секунд
с описанным количеством узлов и связей
если есть не общее описание желаемых задач, а вполне конкретные механизмы, то может оказаться, свое решение поверх in-memory базы данных будет быстрее

Oleksandr
15.10.2016
11:48:10
если вопрос в скорости, то лучше писать в файл и свелосипедить свою структуру данных с (де)пиклингом

Just
15.10.2016
11:52:47
Специфика еще в том, что все эти связи разбиты по дням и в каждом такой файле храниться граф за один день. Но нужно имет возможность получить граф за месяц, например, тогда нужно все эти списки для каждого узла обьединять.

Google

Oleksandr
15.10.2016
12:00:25
итого, требования:
1) поиск соседей 1 уровня для заданного узла
2) уметь мерджить две таких графа
3) находить путь между двумя узлами одного графа
ничего не упустил?
вопросы:
1) может ли быть нужен поиск более удаленных соседей?
2) может ли узел за день 1 ссылаться на узел за день 2 ? (те на что-то вне текущего графа)
и 3) исходя из предметной области, возможна ли кластеризация узлов? (те если спроектировать это добро на пространство, тут будут ли четко выраженные "плотные" группы узлов?)


Just
15.10.2016
12:15:27
и 3) исходя из предметной области, возможна ли кластеризация узлов? (те если спроектировать это добро на пространство, тут будут ли четко выраженные "плотные" группы узлов?)
1) насколько я понимаю, это тоже самое что найти путь между двумя узлами, а если имеются ввиду соседи соседей и тд, то это тоже нужно, но делается рекурсивно применением 1го пункта и не является отдельной задачей, по сути
2) у нам приходят сразу связи, ну по существу, это транзакции финансовые, у них указано от кого кому и конечно у организаций каждый день могут быть транзакции с разными партнерами, вопрос в том, как бы получить все эти связи за месяц
3) наверняка есть более плотные группы, но как их кластеризовать и что с этим делать... тут не знаю

Magistr
15.10.2016
12:16:53
смотреть на графовые дб, друид еще есть если неошибаюсь


Oleksandr
15.10.2016
12:30:52
1) насколько я понимаю, это тоже самое что найти путь между двумя узлами, а если имеются ввиду соседи соседей и тд, то это тоже нужно, но делается рекурсивно применением 1го пункта и не является отдельной задачей, по сути
2) у нам приходят сразу связи, ну по существу, это транзакции финансовые, у них указано от кого кому и конечно у организаций каждый день могут быть транзакции с разными партнерами, вопрос в том, как бы получить все эти связи за месяц
3) наверняка есть более плотные группы, но как их кластеризовать и что с этим делать... тут не знаю
1) поиск соседей порядка N иногда можно решать эффективнее, чем через "соседей соседа"
если уж велосипедить (те есть время и ресурсы), то я бы смотрел в сторону locality-sensitive hashing (а точнее, kNN графов)
это великолепно (если данные позволяют, а транзакции, скорее всего, позволяют) решает задачу поиска соседей
с вставкой ситуация похуже, зависит от кучи параметров — добавляются узлы по 1 или большими группами, есть ли хорошие хешфункции (впрочем, 200000 вставок в день — немного)
основная проблема будет с обьемом памяти


Леонид
15.10.2016
12:36:50

Oleksandr
15.10.2016
12:37:07
ну, "если есть время и ресурсы" :)

Just
15.10.2016
12:43:50
Спасибо всем за советы!) Учту, поизучаю, что мы с этим сможем сделать

KrivdaTheTriewe
15.10.2016
12:46:23
Кассандра

Misha
15.10.2016
13:27:36
кто может помочь повысить преферанс распознавания кисти руки? писали давно здесь об этом. наша идея перенести часть нагрузки на мобильные устройства. кто делал подобное?

Андрей
16.10.2016
07:43:20
Всем привет, помогите советом :)
Есть ли готовые решения по определению преобладающих цветов/тонов на изображении? Нашел алгоритмы - но у них большой процент промаха. Может НС здесь отлично работают? Кто сталкивался или может подсказать куда копать?

Andrey
16.10.2016
08:55:57
Кластеризация пикселей должна работать хорошо

Ech
16.10.2016
09:05:01
Можно на GMM кластеринг посмотреть: https://www.youtube.com/watch?v=qMTuMa86NzU

Андрей
16.10.2016
09:12:35
спасибо!

Alexei
16.10.2016
16:36:20

Just
16.10.2016
16:37:24

Uncel
16.10.2016
16:39:48
Для oltp титан/s2graph/dse graph
Olap во всех через spark и друзей

Albert
17.10.2016
17:09:45
Есть отличные стенфордские лекции о сверточных сетях. Там, в частности, рассказывается про обучение обычных сетей. Курс 231n, есть записи на ютубе

Google

Albert
17.10.2016
17:09:46
В прошлой серии мы дошли до того, что задача обучения НС сводится к поиску минимуму ошибки. Мы дошли до того, что в методе обратного распространения ошибки суть сводится к нахождению производной функции ошибки и поправки веса одного входа на эту ошибку
Там наглядно показан backprop

Uncel
18.10.2016
15:21:34
https://devblogs.nvidia.com/parallelforall/intersection-large-scale-graph-analytics-deep-learning/

Мерлин
18.10.2016
20:13:48
А кто тыкал в word2vec на питоне?
Какие есть туториалы по этой теме?

魯
18.10.2016
21:57:01
kaggle
https://www.kaggle.com/c/word2vec-nlp-tutorial

Just
19.10.2016
15:55:50
Для oltp титан/s2graph/dse graph
тестировал наш велосипед и как-то он слишком много памяти жрет, так что решил я изучить детальнее другие варианты. в транзакциях кроме откуда/куда еще есть важное поле даты ее совершения (пока там около 300 дат, с каждым днем +1). так вот для того, что бы получить все транзакции даного узла за данный перидо (месяц, например) лучше подойдет oltp? а для более сложных запросов нужно уже брать olap, но и скорость у него хуже?
транзакций около 30 млн, узлов 1.5 млн, дат 300,
в день добавляется 200 тис транзакций
в наличии один сервер (можно еще несколько подключить, если будет надо), 2 ядра, 8 гигов оперативы, много жесткого.
вопрос в том, что, учитывая сравнительно небольшие, как я понимаю, обьемы, проще все использовать из титан/s2graph/dse graph - везде пишут примерно одно и тоже, но что проще настроить и юзать не понятно


Magistr
19.10.2016
16:21:19
тестировал наш велосипед и как-то он слишком много памяти жрет, так что решил я изучить детальнее другие варианты. в транзакциях кроме откуда/куда еще есть важное поле даты ее совершения (пока там около 300 дат, с каждым днем +1). так вот для того, что бы получить все транзакции даного узла за данный перидо (месяц, например) лучше подойдет oltp? а для более сложных запросов нужно уже брать olap, но и скорость у него хуже?
транзакций около 30 млн, узлов 1.5 млн, дат 300,
в день добавляется 200 тис транзакций
в наличии один сервер (можно еще несколько подключить, если будет надо), 2 ядра, 8 гигов оперативы, много жесткого.
вопрос в том, что, учитывая сравнительно небольшие, как я понимаю, обьемы, проще все использовать из титан/s2graph/dse graph - везде пишут примерно одно и тоже, но что проще настроить и юзать не понятно
для olap можно кликхаус еще глянуть, если подойдет по функционалу


Dan
20.10.2016
10:24:22
https://events.epam.com/events/itsubbotnik-autumn-2016
@nlp_ru кстати, если кому интересна тематика Natural Language Processing

Lepus
20.10.2016
10:40:04
Крутота, спасибо

ptchol
20.10.2016
12:37:25
А кто то хорошо знает про то как в YARN работает DRF ?

Damir
20.10.2016
13:55:31
Всем привет. Не подскажите алгоритмы для работы с big data. Например начиная с подсчета топ 10 повторяемых элементов. Заранее всем спасибо :).

Magistr
20.10.2016
13:56:34

/dev
20.10.2016
13:57:01

Damir
20.10.2016
13:57:31

/dev
20.10.2016
13:57:53

Damir
20.10.2016
14:01:36
Если у нас в 70% случаев вот эта равно вероятно встречаются любое из значение из искомого топа. А остальные 30% можно рассмотреть как шум.

/dev
20.10.2016
14:09:28

Google

/dev
20.10.2016
14:12:06
Если встречаемости у тебя уже отдельно посчитаны, то только куча одна

Just
20.10.2016
14:18:50
а как быстро искать по 1.5 млн строк, каждая длиной 5-20 символов? поиск по части имени, что бы находить список из 10 наиболее вероятных

/dev
20.10.2016
15:07:20

Just
20.10.2016
15:20:52
elasticsearch?
честно говоря, не удалось его настроить в свое время, хотелось бы способ попроще

/dev
20.10.2016
15:21:39