
Nikolay
10.12.2016
18:22:08
причем тут либа?
я про то, что вне зависимости от гетерогенности архитектуры, на каждой ноде все должно считаться оптимально именно для ее ресурсов
и BLAS как бы для этого и создан

Nick
10.12.2016
18:23:37
Ну и положи jblas или какой нибудь colt и считай

Google

Daniel
10.12.2016
18:23:58
теоретики, вы пробовали это делать?
сравнивали производительность?
там же катастрофа
и да, blas не спасет в большинстве ситуаций
jni реально проблема

Nick
10.12.2016
18:25:09
Jni не проблема

Daniel
10.12.2016
18:25:19
ок

Dmitry
10.12.2016
18:25:29
на котлине UI писать ок
вот эти вот swing huing

Daniel
10.12.2016
18:26:10
по поводу открытых ML либ, не важно на чем, тоже не все прекрасно
но спарк наверное наиболее фееричен
напихали решений в лоб, и даже не думали смотреть а параллелится ли оно

Nick
10.12.2016
18:27:23
И правильно сделали

Nikolay
10.12.2016
18:27:39
а есть хоть одно работающее решение deep learning для джавы?

Google

Nikolay
10.12.2016
18:27:43

Nick
10.12.2016
18:27:49
Это ж бизнес, нужно продукт давать 'вчера', а потом уже чтот оптимизировать

Lev
10.12.2016
18:27:56
И правильно сделали
естественно. раз ждут, пока сбт собирает, подождут и пока в кластере посчитается

Daniel
10.12.2016
18:28:35

Lev
10.12.2016
18:28:44
боль, но выбора нет

Nikolay
10.12.2016
18:28:48
dl4j
и что, оно хоть с tensorflow сравнимо?

Lev
10.12.2016
18:28:52
нет

Nick
10.12.2016
18:29:28
Интересно, чем вам jni не угодил? Если не делать коротких и частых вызовов все ок.
Ах да, есть ж jni critical

Daniel
10.12.2016
18:29:42
у меня в одном проекте оказалось существенно быстрее и дешевле скидывать по сети матрицы в сервис с numpy

Alexander
10.12.2016
18:30:54

Daniel
10.12.2016
18:30:59
проблема с jni в том что ML часто data intensive

Nick
10.12.2016
18:31:45

Lev
10.12.2016
18:32:44

Nick
10.12.2016
18:33:38

Lev
10.12.2016
18:33:44
ну или взять спарк и заплатить в несколько раз больше за обучение моделей
а потом придумывать, как эти модели в продакшене использовать))

Kirill
10.12.2016
18:34:08

Nick
10.12.2016
18:35:16

Google

Kirill
10.12.2016
18:35:33

Oleksandr
10.12.2016
18:35:51
насчет машинного обучения — с моей точки зрения, нлп удобнее делать именно в джаве (stanford nlp, factorie)
причем последняя на скале
но, может, я не дорос до действительно сложных задач

Nick
10.12.2016
18:36:33

Lev
10.12.2016
18:36:39

Kirill
10.12.2016
18:36:49

Oleksandr
10.12.2016
18:36:56

Lev
10.12.2016
18:36:59
после релиза syntaxNet он устарел

Nikolay
10.12.2016
18:37:20

Lev
10.12.2016
18:37:34
да даже на POS tagging он проигрывает

Oleksandr
10.12.2016
18:38:36
я активно с ним работал года два назад
тогда всех этих диплернингов не было
действительно оно круче того же CRF для аннотаций? (NER, POS, разные парсеры)

Nick
10.12.2016
18:40:47

Lev
10.12.2016
18:41:52
после того, как гугл начал публиковать исследования и открывать код, всё, что старше 2-3 лет стало стремительно терять актуальность =/

Sergey Tolmachev
10.12.2016
18:44:21

Oleksandr
10.12.2016
18:44:48

Google

Sergey Tolmachev
10.12.2016
18:44:50
ну так, интересно что там в этих нлп с русским от того, кто что-то в этом понимает

Oleksandr
10.12.2016
18:45:04
русский дико сложный, вообще говоря

Sergey Tolmachev
10.12.2016
18:45:07
я не видел давно в стенфорде ничего предобученного

Oleksandr
10.12.2016
18:46:41
надо потратить пару месяцев на воспоминания, и ещё пару на вьезд в тему

Lev
10.12.2016
18:47:50

Sergey Tolmachev
10.12.2016
18:48:01
короче скорее никак

Oleksandr
10.12.2016
18:48:21
пни кого-то из яндекса
у них, говорят, своих наработок хватает

Admin
ERROR: S client not available

Oleksandr
10.12.2016
18:48:50
но те, что в открытом доступе, сырые до невозможности

Lev
10.12.2016
18:49:19
они даже открывать что-то начинали, но у них с опенсорсом не складывается почему-то
вроде только друид нормально сопровождается

Sergey Tolmachev
10.12.2016
18:49:49
сейчас без сторонних api невозможно просто взять и достать из текста дату или что-то там еще несложное
и то наверняка и там оно на if-ах

Oleksandr
10.12.2016
18:50:16

Sergey Tolmachev
10.12.2016
18:50:23
ну такое вот типа "завтра"
без явного формата

Lev
10.12.2016
18:50:46
дату сейчас и на английском не достать. есть миллион библиотек на if-else / yacc, но каждая по-своему ущербна )

Oleksandr
10.12.2016
18:50:49
и готовый словарь, конечно

Sergey Tolmachev
10.12.2016
18:51:21
ну как-то там лучше кажется и хоть что-то есть. хотя на англ я совсем не пробовал

Google

Lev
10.12.2016
18:51:46
на английском парсить руками проще

Sergey Tolmachev
10.12.2016
18:51:54
сентимент анализ на англ вроде есть больше предобученных моделей

Lev
10.12.2016
18:52:17
а то у нас ведь могут сказать “со вчера до завтрашнего обеда” — и выкручивайся как хочешь =(

Oleksandr
10.12.2016
18:52:44
ну вообще регулярки — зло в таких задачах
я для похожего разбивал на dependency graph и как-то финтил
недалеко ушел от ифов, впрочем

Sergey Tolmachev
10.12.2016
18:52:59
вот это все сильно тормозит текстовые/голосовые интерфейсы. то ничего, что нет в опенсурсе

Lev
10.12.2016
18:53:12

Sergey Tolmachev
10.12.2016
18:53:34
хотя у фирм, делающих всяких корпоративных автоответчиков наверняка этих шаблонов сделанных навалом
наверное достают же смысл или посыл запроса, когда человек в поддержку позвонил
ну да, вы упоминали яндекс, он вроде в это вошел

Oleksandr
10.12.2016
18:54:24
есть куча сервисов типа alchemyapi / api.ai / ...
но они платные)

Sergey Tolmachev
10.12.2016
18:54:34
угу, вот только api
и тоже не делятся
классификатор ашманова туда же

Oleksandr
10.12.2016
18:54:59
ну это их хлеб, было бы странно, если бы делились

Sergey Tolmachev
10.12.2016
18:55:45
почему-то в интернетах 100500 веб фреймворков открытых, это ничей не хлеб. а вот текстовые модели зажали
возможно не лучший пример, но полно всякого в опенсурсе, что есть чей-то хлеб. или был им

Oleksandr
10.12.2016
18:56:13
уверен, что 80% всех этих супер-умных диплернингов так и работают

Sergey Tolmachev
10.12.2016
18:56:39
да как-то накостылить/разработать можно, мне все готовое подавай :D