@bigdata_ru

Страница 188 из 327
MIkhail
01.12.2017
14:56:03
Коллеги, привет! Есть владельцы DataStax лиценций? Сколько стоили?

Mars
01.12.2017
14:57:19
Google
tonko
01.12.2017
15:39:33
Ну например hmm+gmm, lstm+ctc. Для разметки требуется только транскрипция без привязки ко времени

Mars
01.12.2017
15:45:33
Seq2seq модель можно попробовать обучить
Что можно почитать про алгоритм? Очень желательно про проблему, которую решает и примеры использования. Я не спец в этом

Andrey
01.12.2017
15:53:13
Генерация текста на основе другого текста. Перевод как пример

Mars
01.12.2017
15:54:37
Ладно, попробую что то отыскать, на русском что то совсем мало чего есть. Спасибо

Sergey
01.12.2017
16:28:55
Коллеги, привет! Есть владельцы DataStax лиценций? Сколько стоили?
я сними разговаривал на этот предмет. Они хотят иметь дело с 20+ нод в продакшин, прайс больше $100к per year

Fi
01.12.2017
18:35:39
Народ! Можно узнать сколько вам приблизительно лет? Хочу оценить вход в профессию.

Timofey
01.12.2017
18:43:20
Запили опрос

Sergey
01.12.2017
19:32:38
имхо, гораздо важнее сколько времени(и целей) человек посвятил выбранной теме, чем колличество лет

Fi
01.12.2017
19:34:28
Я хочу узнать во сколько не поздно учиться

Андрей
01.12.2017
19:34:44
Мне 18, втупляю в ленал, матречки и нейронки.

Google
Диёр
01.12.2017
19:34:44
А что когда-то бывает поздно учиться?

?
01.12.2017
19:34:51
учиться никогда не поздно (с)

Fi
01.12.2017
19:35:14
Мне 37 я может не успею освоить

Можно ли за год подготовиться?

Диёр
01.12.2017
19:35:47
С математической подготовкой - да

Fi
01.12.2017
19:36:03
Ленал - это линейная адгебра?

?
01.12.2017
19:37:07
в 37 уже о душе пора думать

Fi
01.12.2017
19:38:21
А какие требования к дата инженеру?

Диёр
01.12.2017
19:38:46
никто не знает точно

но обычно просят приносить пользу

Evgeniy
01.12.2017
19:39:15
Fi
01.12.2017
19:39:31
Примерно можно узнать?

Диёр
01.12.2017
19:39:53
ну вакансии просмотри

Fi
01.12.2017
19:40:08
Я таких не видел к стати

MIkhail
01.12.2017
19:40:58
Мне 37 я может не успею освоить
Успеешь, за пол года можно, есть гит, литература. Не сомневайся.

Fi
01.12.2017
19:41:19
Спасибо

Какие свои проекты надо показать чтобы устроиться?

Диёр
01.12.2017
19:42:56
Я таких не видел к стати
https://careers.google.com/jobs#!t=jo&jid=/google/data-scientist-quantitative-analyst-901-cherry-ave-san-bruno-ca-usa-2459700631&f=true&

ну глянь вскользь

Fi
01.12.2017
19:43:35
Спасибо

Google
MIkhail
01.12.2017
19:44:18
хз, пиши то что интересно самому, решай практические задачи

Диёр
01.12.2017
19:44:49
Спасибо
почему ты думаешь что оно тебе понравится?

может тебя через пару недель тошнить будет

Fi
01.12.2017
19:45:19
Вакансии в юсэй) я в России расчитываю

Чем только не занимался!

MIkhail
01.12.2017
19:51:11
я сними разговаривал на этот предмет. Они хотят иметь дело с 20+ нод в продакшин, прайс больше $100к per year
Сергей, спасибо большое! примерно такую же инфу раньше встречал, от 2 до 6к за тачку.

Andrii
02.12.2017
05:18:22
Какой порог вхождения на должность data scientist?

Andrey
02.12.2017
05:49:01
Если к папе на фирму, то порога вообще не будет

Если не к папе, то тоже могут взять без проблем, но потом не заплатят

Artyom
02.12.2017
09:01:24
Какие свои проекты надо показать чтобы устроиться?
давай я тебе дам пару реальных проектов, оценишь свои силы

Mark
02.12.2017
09:03:37
привет кто шарит в отношениях uml посмотрите пожалуйста правильно ли я указал отношения https://stackoverflow.com/questions/47601635/what-could-be-wrong-with-this-uml-relationships

Kek
02.12.2017
09:41:56
блять какая же интересная штука эта ваша биг дата

спасибо большое за демонстрацию

теперь я просто обязан влиться в ваши ряды строителей цифрового гулага

Max
02.12.2017
09:50:46
Привет, такой вопрос: собственные значения в PCA объясняют только дисперсию исходных данных относительно главной компоненты?

или всё таки это угол поворота главной компоненты

Пашка
02.12.2017
10:37:05
Привет, такой вопрос: собственные значения в PCA объясняют только дисперсию исходных данных относительно главной компоненты?
например для первой главной компоненты собственное значение показывает дисперсию исходных данных , которая объясняется данной компонентой. Обычно задается процент дисперсии ( 75%, например ) , которую необходимо объяснить с помощью главных компонент. Исходя из этого уже смотрят , сколькими компонентами можно это сделать ( суммируют дисперсии рассматриваемых компонент и делят на суммарную дисперсию всех компонент )

Admin
ERROR: S client not available

Google
Vova
02.12.2017
14:05:30
немного не в тему, не заметили резкий рост недоступности дешевых облачных сервисов? типа scaleway

нужно было подсчитать кое что на гриде и бац out ofstock куча дешевых вариантов

есть подозрение почему...

Artyom
02.12.2017
15:16:20
присоединяйся к нам. я ссылку кинул

Fi
02.12.2017
16:16:52
присоединяйся к нам. я ссылку кинул
4 mb после распаковки 0 kb. Как это?

Max
02.12.2017
20:18:02
Привет,кто работал с этим датасетом datasets.fetch_lfw_people?

Nikolay
03.12.2017
08:27:37
Привет всем. Попробую тут спросить :)

Возник такой вопрос. Вот есть у нас системы распознавания речи. Ок. Можно перевести запись в текст. Но на выходе получаем текст не совсем удобный для чтения - без разделения на предложения, абзацы, знаки препинания и т.д. Можно ли научить нейросеть сплошной текст разбивать на предложения? Или проще ориентироваться по паузам между словами и высчитывать каждый раз индивидуально где будет конец предложения?

tonko
03.12.2017
09:37:23
Погугли "нормализация" в контексте распознавания речи

Но вообще дело гиблое , т.к. интонация/паузы сейчас при этом не учитывается.

Nikolay
03.12.2017
10:04:44
Эх жаль... Я думал мож можно натравить нейронку и оно найдет чаще всего встречающиеся слова с которых начинается предложение и немного улучшит. Но в принципе по логике там любое слово может быть.

?
03.12.2017
10:12:19
теоретически можно сделать триграммы из огромного корпуса с учетом знаков препинания и считать вероятность того, когда два слова _скорее всего_ разделены знаком препинания.

Dan
03.12.2017
15:27:47
Добрый день! 9 декабря в Санкт-Перербурге пройдет самая масштабная конференция EPAM в России - #ITsubbotnik https://events.epam.com/events/itsubbotnik-winter-2017. 13 спикеров поделятся своим опытом и лайфхаками с реальных рабочих проектов. В этот раз доклады будут в следующих направлениях: Data, JS, Mobile, DevOps и Java. Конференция бесплатная. Узнать о программе, познакомиться со спикерами и зарегистрироваться можно здесь: https://events.epam.com/events/itsubbotnik-winter-2017 Встречаемся 9 декабря в 10:30 по адресу: ул. Лодейнопольская, 5, центр ПетроКонгресс. Приходите, будет интересно!

Antonio
03.12.2017
19:11:07
Подскажите пожалуйста, у меня не запускается пример pytorch В системе Ubuntu 16.04 установлена Anaconda 4.3.30, пытаюсь запустить по гайду https://github.com/ikostrikov/pytorch-a2c-ppo-acktr выдает ошибку, вообще ни один пример на запускается. dev@dev-System:~/baselines/pytorch-a2c-ppo-acktr$ python main.py —env-name "PongNoFrameskip-v4" Traceback (most recent call last): File "main.py", line 15, in <module> from baselines.common.vec_env.dummy_vec_env import DummyVecEnv File "/home/dev/baselines/baselines/common/init.py", line 3, in <module> from baselines.common.math_util import * File "/home/dev/baselines/baselines/common/math_util.py", line 2, in <module> import scipy.signal File "/home/dev/anaconda3/lib/python3.6/site-packages/scipy/signal/init.py", line 282, in <module> from .bsplines import * File "/home/dev/anaconda3/lib/python3.6/site-packages/scipy/signal/bsplines.py", line 12, in <module> from scipy.special import comb, gamma File "/home/dev/anaconda3/lib/python3.6/site-packages/scipy/special/init.py", line 627, in <module> from ._ufuncs import * ImportError: /home/dev/anaconda3/lib/python3.6/site-packages/scipy/special/_ufuncs.cpython-36m-x86_64-linux-gnu.so: undefined symbol: _gfortran_stop_numeric_f08 Зависимости устанавливал по этому же гайду. даже gfortran заново установил - не помогло.

Sergey
03.12.2017
19:20:02
Ребят. Хочу сделать спам фильтр. Знаю только один способ трансформации слов в машинно понятные значения, это tf-idf. Но тут есть проблемка, чтоб научить прогу распозновать спам, ему нужно еще скормить и нормальные сообщения, соответственно если это будет телеграмм бот, с каждым новым сообщением бд будет обонвляться или пополняться. Можно как-то обойтись только спам предложениями, без нормальных сообщений?

Kirill
03.12.2017
20:56:28
не очень понял, а в чем проблема с использованием не спам сообщений?

Google
Kirill
03.12.2017
20:57:52
а как будешь размечать данные? спам - не спам

или уже есть размеченные

Sergey
03.12.2017
20:58:49
нет пока не чего

а как будешь размечать данные? спам - не спам
не знаю, поэтому и спрашиваю) Вот подумываю использовать два фильтра, один сочетание пар слов ( skip-n-gramm), а второй tf ? все слова будут весить 100%(1), а потом когда пользователи будут писать нормальные сообщения, и если в этих сообщениях будут пересикаемые слова со спамными, то их вес будет уменьшаться, и не надо записывать нормальные сообщения в бд ? но это только предположение, сейчас пробую реализовать

Kirill
03.12.2017
21:08:42
может есть смысл поискать существующие датасеты в интернете? или сообщения специфичны? в любом случае для создания спам фильтра классическим способом на мой взгляд является создание модели классификации с учителем. то есть тебе надо либо найти в инете (в похожем целевому формате) , либо найти и плюс ещё самому разметить сообщения, которые надо считать спамом, а какие - нет. дальше, например, с помощью мешков слов и какого нибудь xgboost обучить модель

?
03.12.2017
21:08:58
в свое время пол грэм с помощью байесовкого фильтра большую часть спама победил http://www.paulgraham.com/better.html

Kirill
03.12.2017
21:13:51
хм. то есть ты будешь знать что вот такой то текст спам, а такой то - нет?

Страница 188 из 327