@bigdata_ru

« Назад

Страница 19 из 327

Далее »

Daniel

12.10.2016
10:05:38

а по апи периодически странности попадаются без сорцов никогда не понял бы как они из текстовых файлов читают

при этом нормальной доки нет

из npy формата какбы умеют читать, но как бы не работает пришлось свое писать

решения системы уравнений нет, инвертированные матрицы тоже отсутствуют

Google

Daniel

12.10.2016
10:07:10

но зато сообщество весьма активно)

Dim

12.10.2016
10:07:43

Ага, спасибо за фидбек, просто думал браться или нет

Daniel

12.10.2016
10:09:01

я в итоге у себя поднял сервис питоновский на фласке и пушу туда математику головной боли в разы меньше аналатику проще проверить корректность, работает сильно быстрее (numpy и scipy)

Сергей

12.10.2016
14:53:00

так присоединились две дамы

Здравствуйте)

Irina

12.10.2016
14:53:36

Добрый вечер :)

Сергей

12.10.2016
14:53:54

опа, да я успешен)

и Вам хорошего

Леонид

12.10.2016
15:09:15

Градиентный спуск я тоже понял. Объясните смысл обратного распространения ошибки

Что бы узнать ошибку нейрона из предыдущего слоя, мы умножаем вес связи этого нейрона с каждым нейроном из текущего слоя на ошибку этого "каждого нейрона" и все складываем. Результат умножаем на производную функции активации. Полученное число используем, что бы посчитать ошибку предыдущего слоя и что бы подкрутить веса этого нейрона

Belskikh

12.10.2016
16:20:45

Всем привет! Кто-нибудь занимается анализом снимков ДЗЗ иди ГИС?

Vladislav

13.10.2016
07:56:40

Градиентный спуск я тоже понял. Объясните смысл обратного распространения ошибки

Если понял спуск-вопрос:чтобы спуститься на один шаг вниз по loss function,что нам нужно?

Maxim

13.10.2016
08:37:17

Градиентный спуск я тоже понял. Объясните смысл обратного распространения ошибки

От веса отнимается среднее значение ошибки умноженное на ту переменную для которой подбирается вес

Если вес прав, то он будет увеличиваться, а если нет то уменьшаться

Google

Maxim

13.10.2016
08:43:09

Идет подгонка веса под правильный результат

Но можно решать дифференциальные уравнения, но когда переменных много, то это неудобно и проще подогнать вес

Можно самому вручную подгонять веса и проверять качество смотря на среднюю квадратическую ошибку

Lepus

13.10.2016
08:55:52

Кстати, gradient descend используется не только в нейронках. В svm без проблем можно использовать. А svm проще нейронок, на мой взгляд, можно на нем разбираться

Свм вообще "для понимания" самый простой алгоритм

Но можно решать дифференциальные уравнения, но когда переменных много, то это неудобно и проще подогнать вес

Если у функции с производными всё ок, то проще минимум найти, чем подгонять.

yopp

13.10.2016
09:19:44

эм

у меня только что два сообщения пропало

Maxim

13.10.2016
10:33:51

Найти минимум функции можно либо путем подгона, либо аналитически - вот так правильней=)

Fyodor

13.10.2016
10:52:11

Не подскажете, есть ли в какой-нибудь высокоуровневой библиотеке машинного обучения (по типу Keras/Lasagne) что-то промежуточное между (обучаемым) слоем и (статичными) данными? Т.е. значения этих слоев-данных задаются на каждой итерации обучения и могут быть разными для каждого примера в батче, но на них также влияет backprop (ну и после итерации обновленные значения сохраняются). Если бы в батче значение было бы одним для всех примеров, то данное поведение можно имитировать фейковым слоем. На Theano такое задать можно, но ковыряться на “низком” уровне не хочется. Поэтому вопрос: есть ли подобный велосипед?

Just

15.10.2016
11:12:30

Подскажите куда двигаться, задача из области big data: Нужно построить граф из 1.5 миллионов узлов и 30 миллионов связей между ними, с тем, что бы можно было - быстро получать соседей узла X - добавлять в день по 200 тысяч связей - искать путь между двумя узлами. Интересует именнно, в какой формате этот граф хранить, в какой БД.

Yuriy

15.10.2016
11:14:58

вам наверное в эту сторону https://neo4j.com/ надо посмотреть

Ech

15.10.2016
11:21:29

Можно в Semantic Web еще https://www.blazegraph.com/

Хотя если семантика не нужна, то neo4j, будет быстрее

Ilya

15.10.2016
11:23:34

Подскажите куда двигаться, задача из области big data: Нужно построить граф из 1.5 миллионов узлов и 30 миллионов связей между ними, с тем, что бы можно было - быстро получать соседей узла X - добавлять в день по 200 тысяч связей - искать путь между двумя узлами. Интересует именнно, в какой формате этот граф хранить, в какой БД.

Это не совсем big data. Список смежности для этого графа спокойно ложится в память

Евгений

15.10.2016
11:32:01

neo4j сравним с простым mysql по скорости, процентов на 10% быстрее, и если нужно найти пару сотен наиболее плотных узлов на расстоянии в 3-4 узла от заданного, то это десятки секунд

с описанным количеством узлов и связей

если есть не общее описание желаемых задач, а вполне конкретные механизмы, то может оказаться, свое решение поверх in-memory базы данных будет быстрее

Oleksandr

15.10.2016
11:48:10

если вопрос в скорости, то лучше писать в файл и свелосипедить свою структуру данных с (де)пиклингом

Just

15.10.2016
11:52:47

если вопрос в скорости, то лучше писать в файл и свелосипедить свою структуру данных с (де)пиклингом

вот сейчас в файл и пишем, структура такая: Список узлов, каждый из которых хранить arcsIN и arcsOUT - список дуг в него входящих и исходящих соответственно, каждая из которых хранит свои данные и указатель (пишется на D, так что это нормальный указатель, как в С) на узел партнер. Эта структура сериализуется и записывается в файл

Специфика еще в том, что все эти связи разбиты по дням и в каждом такой файле храниться граф за один день. Но нужно имет возможность получить граф за месяц, например, тогда нужно все эти списки для каждого узла обьединять.

Google

Oleksandr

15.10.2016
12:00:25

итого, требования: 1) поиск соседей 1 уровня для заданного узла 2) уметь мерджить две таких графа 3) находить путь между двумя узлами одного графа ничего не упустил? вопросы: 1) может ли быть нужен поиск более удаленных соседей? 2) может ли узел за день 1 ссылаться на узел за день 2 ? (те на что-то вне текущего графа)

и 3) исходя из предметной области, возможна ли кластеризация узлов? (те если спроектировать это добро на пространство, тут будут ли четко выраженные "плотные" группы узлов?)

Just

15.10.2016
12:15:27

и 3) исходя из предметной области, возможна ли кластеризация узлов? (те если спроектировать это добро на пространство, тут будут ли четко выраженные "плотные" группы узлов?)

1) насколько я понимаю, это тоже самое что найти путь между двумя узлами, а если имеются ввиду соседи соседей и тд, то это тоже нужно, но делается рекурсивно применением 1го пункта и не является отдельной задачей, по сути 2) у нам приходят сразу связи, ну по существу, это транзакции финансовые, у них указано от кого кому и конечно у организаций каждый день могут быть транзакции с разными партнерами, вопрос в том, как бы получить все эти связи за месяц 3) наверняка есть более плотные группы, но как их кластеризовать и что с этим делать... тут не знаю

Magistr

15.10.2016
12:16:53

смотреть на графовые дб, друид еще есть если неошибаюсь

Oleksandr

15.10.2016
12:30:52

1) насколько я понимаю, это тоже самое что найти путь между двумя узлами, а если имеются ввиду соседи соседей и тд, то это тоже нужно, но делается рекурсивно применением 1го пункта и не является отдельной задачей, по сути 2) у нам приходят сразу связи, ну по существу, это транзакции финансовые, у них указано от кого кому и конечно у организаций каждый день могут быть транзакции с разными партнерами, вопрос в том, как бы получить все эти связи за месяц 3) наверняка есть более плотные группы, но как их кластеризовать и что с этим делать... тут не знаю

1) поиск соседей порядка N иногда можно решать эффективнее, чем через "соседей соседа" если уж велосипедить (те есть время и ресурсы), то я бы смотрел в сторону locality-sensitive hashing (а точнее, kNN графов) это великолепно (если данные позволяют, а транзакции, скорее всего, позволяют) решает задачу поиска соседей с вставкой ситуация похуже, зависит от кучи параметров — добавляются узлы по 1 или большими группами, есть ли хорошие хешфункции (впрочем, 200000 вставок в день — немного) основная проблема будет с обьемом памяти

Леонид

15.10.2016
12:36:50

если вопрос в скорости, то лучше писать в файл и свелосипедить свою структуру данных с (де)пиклингом

Это называется - писать свою базу данных. Если человек обладает подготовкой, что бы написать свою бд, он об этом знает :). А если нет, писать в файл - плохая идея.

Oleksandr

15.10.2016
12:37:07

ну, "если есть время и ресурсы" :)

Just

15.10.2016
12:43:50

Спасибо всем за советы!) Учту, поизучаю, что мы с этим сможем сделать

KrivdaTheTriewe

15.10.2016
12:46:23

Кассандра

Misha

15.10.2016
13:27:36

кто может помочь повысить преферанс распознавания кисти руки? писали давно здесь об этом. наша идея перенести часть нагрузки на мобильные устройства. кто делал подобное?

Андрей

16.10.2016
07:43:20

Всем привет, помогите советом :) Есть ли готовые решения по определению преобладающих цветов/тонов на изображении? Нашел алгоритмы - но у них большой процент промаха. Может НС здесь отлично работают? Кто сталкивался или может подсказать куда копать?

Andrey

16.10.2016
08:55:57

Кластеризация пикселей должна работать хорошо

Ech

16.10.2016
09:05:01

Можно на GMM кластеринг посмотреть: https://www.youtube.com/watch?v=qMTuMa86NzU

Андрей

16.10.2016
09:12:35

спасибо!

Alexei

16.10.2016
16:36:20

Подскажите куда двигаться, задача из области big data: Нужно построить граф из 1.5 миллионов узлов и 30 миллионов связей между ними, с тем, что бы можно было - быстро получать соседей узла X - добавлять в день по 200 тысяч связей - искать путь между двумя узлами. Интересует именнно, в какой формате этот граф хранить, в какой БД.

Redis. Если испытываете ограничения по памяти, то те же структуры можно в embedded db засунуть типа kyoto cabinet.

Just

16.10.2016
16:37:24

Redis. Если испытываете ограничения по памяти, то те же структуры можно в embedded db засунуть типа kyoto cabinet.

спасибо

Uncel

16.10.2016
16:39:48

вам наверное в эту сторону https://neo4j.com/ надо посмотреть

Говнище

Для oltp титан/s2graph/dse graph

Olap во всех через spark и друзей

Albert

17.10.2016
17:09:45

Есть отличные стенфордские лекции о сверточных сетях. Там, в частности, рассказывается про обучение обычных сетей. Курс 231n, есть записи на ютубе

Google

Albert

17.10.2016
17:09:46

В прошлой серии мы дошли до того, что задача обучения НС сводится к поиску минимуму ошибки. Мы дошли до того, что в методе обратного распространения ошибки суть сводится к нахождению производной функции ошибки и поправки веса одного входа на эту ошибку

Там наглядно показан backprop

Uncel

18.10.2016
15:21:34

https://devblogs.nvidia.com/parallelforall/intersection-large-scale-graph-analytics-deep-learning/

Мерлин

18.10.2016
20:13:48

А кто тыкал в word2vec на питоне?

Какие есть туториалы по этой теме?

魯

18.10.2016
21:57:01

kaggle

https://www.kaggle.com/c/word2vec-nlp-tutorial

Just

19.10.2016
15:55:50

Для oltp титан/s2graph/dse graph

тестировал наш велосипед и как-то он слишком много памяти жрет, так что решил я изучить детальнее другие варианты. в транзакциях кроме откуда/куда еще есть важное поле даты ее совершения (пока там около 300 дат, с каждым днем +1). так вот для того, что бы получить все транзакции даного узла за данный перидо (месяц, например) лучше подойдет oltp? а для более сложных запросов нужно уже брать olap, но и скорость у него хуже? транзакций около 30 млн, узлов 1.5 млн, дат 300, в день добавляется 200 тис транзакций в наличии один сервер (можно еще несколько подключить, если будет надо), 2 ядра, 8 гигов оперативы, много жесткого. вопрос в том, что, учитывая сравнительно небольшие, как я понимаю, обьемы, проще все использовать из титан/s2graph/dse graph - везде пишут примерно одно и тоже, но что проще настроить и юзать не понятно

Magistr

19.10.2016
16:21:19

тестировал наш велосипед и как-то он слишком много памяти жрет, так что решил я изучить детальнее другие варианты. в транзакциях кроме откуда/куда еще есть важное поле даты ее совершения (пока там около 300 дат, с каждым днем +1). так вот для того, что бы получить все транзакции даного узла за данный перидо (месяц, например) лучше подойдет oltp? а для более сложных запросов нужно уже брать olap, но и скорость у него хуже? транзакций около 30 млн, узлов 1.5 млн, дат 300, в день добавляется 200 тис транзакций в наличии один сервер (можно еще несколько подключить, если будет надо), 2 ядра, 8 гигов оперативы, много жесткого. вопрос в том, что, учитывая сравнительно небольшие, как я понимаю, обьемы, проще все использовать из титан/s2graph/dse graph - везде пишут примерно одно и тоже, но что проще настроить и юзать не понятно

для olap можно кликхаус еще глянуть, если подойдет по функционалу

Dan