@bigdata_ru

« Назад

Страница 188 из 327

Далее »

MIkhail

01.12.2017
14:56:03

Коллеги, привет! Есть владельцы DataStax лиценций? Сколько стоили?

Mars

01.12.2017
14:57:19

Seq2seq модель можно попробовать обучить

О, спасибо. Почитаю

tonko

01.12.2017
15:30:37

Народ, уже спрашивал... но попробую еще раз) Как составлять датасет для обучения распознования речи? Вернее.. как автоматизировать процесс, чтобы именно текущий спектр\мфсс попадал именно на нужную букву.

Почему именно такой способ обучения выбрал ? Чем классические методы не устроили ?

Vyaches

01.12.2017
15:36:22

Почему именно такой способ обучения выбрал ? Чем классические методы не устроили ?

Классические - это какие?

Google

tonko

01.12.2017
15:39:33

Ну например hmm+gmm, lstm+ctc. Для разметки требуется только транскрипция без привязки ко времени

Mars

01.12.2017
15:45:33

Seq2seq модель можно попробовать обучить

Что можно почитать про алгоритм? Очень желательно про проблему, которую решает и примеры использования. Я не спец в этом

Andrey

01.12.2017
15:53:13

Генерация текста на основе другого текста. Перевод как пример

Mars

01.12.2017
15:54:37

Генерация текста на основе другого текста. Перевод как пример

Это очень слишком сжато )

Ладно, попробую что то отыскать, на русском что то совсем мало чего есть. Спасибо

Vyaches

01.12.2017
16:04:49

Ну например hmm+gmm, lstm+ctc. Для разметки требуется только транскрипция без привязки ко времени

Ну вот я про них и спрашивал(

Sergey

01.12.2017
16:28:55

Коллеги, привет! Есть владельцы DataStax лиценций? Сколько стоили?

я сними разговаривал на этот предмет. Они хотят иметь дело с 20+ нод в продакшин, прайс больше $100к per year

Fi

01.12.2017
18:35:39

Народ! Можно узнать сколько вам приблизительно лет? Хочу оценить вход в профессию.

Timofey

01.12.2017
18:43:20

Запили опрос

Sergey

01.12.2017
19:32:38

имхо, гораздо важнее сколько времени(и целей) человек посвятил выбранной теме, чем колличество лет

Диёр

01.12.2017
19:33:45

имхо, гораздо важнее сколько времени(и целей) человек посвятил выбранной теме, чем колличество лет

а года это уже не время? О_о

Fi

01.12.2017
19:34:28

Я хочу узнать во сколько не поздно учиться

Андрей

01.12.2017
19:34:44

Мне 18, втупляю в ленал, матречки и нейронки.

Google

Диёр

01.12.2017
19:34:44

А что когда-то бывает поздно учиться?

?

01.12.2017
19:34:51

учиться никогда не поздно (с)

Fi

01.12.2017
19:35:14

Мне 37 я может не успею освоить

Можно ли за год подготовиться?

Диёр

01.12.2017
19:35:47

С математической подготовкой - да

Fi

01.12.2017
19:36:03

Ленал - это линейная адгебра?

?

01.12.2017
19:37:07

в 37 уже о душе пора думать

Fi

01.12.2017
19:38:21

А какие требования к дата инженеру?

Диёр

01.12.2017
19:38:46

никто не знает точно

но обычно просят приносить пользу

Evgeniy

01.12.2017
19:39:15

Я хочу узнать во сколько не поздно учиться

пока жив не поздно

Fi

01.12.2017
19:39:31

Примерно можно узнать?

Диёр

01.12.2017
19:39:53

ну вакансии просмотри

Fi

01.12.2017
19:40:08

Я таких не видел к стати

MIkhail

01.12.2017
19:40:58

Мне 37 я может не успею освоить

Успеешь, за пол года можно, есть гит, литература. Не сомневайся.

Fi

01.12.2017
19:41:19

Спасибо

Какие свои проекты надо показать чтобы устроиться?

Диёр

01.12.2017
19:42:56

Я таких не видел к стати

https://careers.google.com/jobs#!t=jo&jid=/google/data-scientist-quantitative-analyst-901-cherry-ave-san-bruno-ca-usa-2459700631&f=true&

ну глянь вскользь

Fi

01.12.2017
19:43:35

Спасибо

Google

MIkhail

01.12.2017
19:44:18

хз, пиши то что интересно самому, решай практические задачи

Диёр

01.12.2017
19:44:49

Спасибо

почему ты думаешь что оно тебе понравится?

может тебя через пару недель тошнить будет

Fi

01.12.2017
19:45:19

Вакансии в юсэй) я в России расчитываю

Чем только не занимался!

MIkhail

01.12.2017
19:51:11

я сними разговаривал на этот предмет. Они хотят иметь дело с 20+ нод в продакшин, прайс больше $100к per year

Сергей, спасибо большое! примерно такую же инфу раньше встречал, от 2 до 6к за тачку.

Andrii

02.12.2017
05:18:22

Какой порог вхождения на должность data scientist?

Andrey

02.12.2017
05:49:01

Если к папе на фирму, то порога вообще не будет

Если не к папе, то тоже могут взять без проблем, но потом не заплатят

Artyom

02.12.2017
09:01:24

Какие свои проекты надо показать чтобы устроиться?

давай я тебе дам пару реальных проектов, оценишь свои силы

Mark

02.12.2017
09:03:37

привет кто шарит в отношениях uml посмотрите пожалуйста правильно ли я указал отношения https://stackoverflow.com/questions/47601635/what-could-be-wrong-with-this-uml-relationships

Kek

02.12.2017
09:03:52

давай я тебе дам пару реальных проектов, оценишь свои силы

было бы круто

Kek

02.12.2017
09:41:56

блять какая же интересная штука эта ваша биг дата

спасибо большое за демонстрацию

теперь я просто обязан влиться в ваши ряды строителей цифрового гулага

Max

02.12.2017
09:50:46

Привет, такой вопрос: собственные значения в PCA объясняют только дисперсию исходных данных относительно главной компоненты?

или всё таки это угол поворота главной компоненты

/dev

02.12.2017
09:57:15

или всё таки это угол поворота главной компоненты

нет там угла

Пашка

02.12.2017
10:37:05

Привет, такой вопрос: собственные значения в PCA объясняют только дисперсию исходных данных относительно главной компоненты?

например для первой главной компоненты собственное значение показывает дисперсию исходных данных , которая объясняется данной компонентой. Обычно задается процент дисперсии ( 75%, например ) , которую необходимо объяснить с помощью главных компонент. Исходя из этого уже смотрят , сколькими компонентами можно это сделать ( суммируют дисперсии рассматриваемых компонент и делят на суммарную дисперсию всех компонент )

Admin

ERROR: S client not available

Google

Max

02.12.2017
10:38:11

например для первой главной компоненты собственное значение показывает дисперсию исходных данных , которая объясняется данной компонентой. Обычно задается процент дисперсии ( 75%, например ) , которую необходимо объяснить с помощью главных компонент. Исходя из этого уже смотрят , сколькими компонентами можно это сделать ( суммируют дисперсии рассматриваемых компонент и делят на суммарную дисперсию всех компонент )

ну да примерно я так и думал,только чуть проще, спасибо

Vova

02.12.2017
14:05:30

немного не в тему, не заметили резкий рост недоступности дешевых облачных сервисов? типа scaleway

нужно было подсчитать кое что на гриде и бац out ofstock куча дешевых вариантов

есть подозрение почему...

Fi

02.12.2017
15:14:21

давай я тебе дам пару реальных проектов, оценишь свои силы

Я еще учить не начал)

Artyom

02.12.2017
15:16:20

присоединяйся к нам. я ссылку кинул

Fi

02.12.2017
16:16:52

присоединяйся к нам. я ссылку кинул

4 mb после распаковки 0 kb. Как это?

Max

02.12.2017
20:18:02

Привет,кто работал с этим датасетом datasets.fetch_lfw_people?

Nikolay

03.12.2017
08:27:37

Привет всем. Попробую тут спросить :)

Возник такой вопрос. Вот есть у нас системы распознавания речи. Ок. Можно перевести запись в текст. Но на выходе получаем текст не совсем удобный для чтения - без разделения на предложения, абзацы, знаки препинания и т.д. Можно ли научить нейросеть сплошной текст разбивать на предложения? Или проще ориентироваться по паузам между словами и высчитывать каждый раз индивидуально где будет конец предложения?

tonko

03.12.2017
09:37:23

Погугли "нормализация" в контексте распознавания речи

Но вообще дело гиблое , т.к. интонация/паузы сейчас при этом не учитывается.

Nikolay

03.12.2017
10:04:44

Эх жаль... Я думал мож можно натравить нейронку и оно найдет чаще всего встречающиеся слова с которых начинается предложение и немного улучшит. Но в принципе по логике там любое слово может быть.

?

03.12.2017
10:12:19

теоретически можно сделать триграммы из огромного корпуса с учетом знаков препинания и считать вероятность того, когда два слова _скорее всего_ разделены знаком препинания.

Drino

03.12.2017
12:54:15

Возник такой вопрос. Вот есть у нас системы распознавания речи. Ок. Можно перевести запись в текст. Но на выходе получаем текст не совсем удобный для чтения - без разделения на предложения, абзацы, знаки препинания и т.д. Можно ли научить нейросеть сплошной текст разбивать на предложения? Или проще ориентироваться по паузам между словами и высчитывать каждый раз индивидуально где будет конец предложения?

Тем же трансформером можно нормализовать текст. Выходит сносно, правда с "казнить нельзя помиловать" проблемы

Dan

03.12.2017
15:27:47

Добрый день! 9 декабря в Санкт-Перербурге пройдет самая масштабная конференция EPAM в России - #ITsubbotnik https://events.epam.com/events/itsubbotnik-winter-2017. 13 спикеров поделятся своим опытом и лайфхаками с реальных рабочих проектов. В этот раз доклады будут в следующих направлениях: Data, JS, Mobile, DevOps и Java. Конференция бесплатная. Узнать о программе, познакомиться со спикерами и зарегистрироваться можно здесь: https://events.epam.com/events/itsubbotnik-winter-2017 Встречаемся 9 декабря в 10:30 по адресу: ул. Лодейнопольская, 5, центр ПетроКонгресс. Приходите, будет интересно!

Antonio

03.12.2017
19:11:07

Подскажите пожалуйста, у меня не запускается пример pytorch В системе Ubuntu 16.04 установлена Anaconda 4.3.30, пытаюсь запустить по гайду https://github.com/ikostrikov/pytorch-a2c-ppo-acktr выдает ошибку, вообще ни один пример на запускается. dev@dev-System:~/baselines/pytorch-a2c-ppo-acktr$ python main.py —env-name "PongNoFrameskip-v4" Traceback (most recent call last): File "main.py", line 15, in <module> from baselines.common.vec_env.dummy_vec_env import DummyVecEnv File "/home/dev/baselines/baselines/common/init.py", line 3, in <module> from baselines.common.math_util import * File "/home/dev/baselines/baselines/common/math_util.py", line 2, in <module> import scipy.signal File "/home/dev/anaconda3/lib/python3.6/site-packages/scipy/signal/init.py", line 282, in <module> from .bsplines import * File "/home/dev/anaconda3/lib/python3.6/site-packages/scipy/signal/bsplines.py", line 12, in <module> from scipy.special import comb, gamma File "/home/dev/anaconda3/lib/python3.6/site-packages/scipy/special/init.py", line 627, in <module> from ._ufuncs import * ImportError: /home/dev/anaconda3/lib/python3.6/site-packages/scipy/special/_ufuncs.cpython-36m-x86_64-linux-gnu.so: undefined symbol: _gfortran_stop_numeric_f08 Зависимости устанавливал по этому же гайду. даже gfortran заново установил - не помогло.

Sergey

03.12.2017
19:20:02

Ребят. Хочу сделать спам фильтр. Знаю только один способ трансформации слов в машинно понятные значения, это tf-idf. Но тут есть проблемка, чтоб научить прогу распозновать спам, ему нужно еще скормить и нормальные сообщения, соответственно если это будет телеграмм бот, с каждым новым сообщением бд будет обонвляться или пополняться. Можно как-то обойтись только спам предложениями, без нормальных сообщений?

Kirill

03.12.2017
20:56:28

не очень понял, а в чем проблема с использованием не спам сообщений?

Sergey

03.12.2017
20:57:08

не очень понял, а в чем проблема с использованием не спам сообщений?

ну а зачем хранить лишнее в бд

Google

Kirill

03.12.2017
20:57:52

а как будешь размечать данные? спам - не спам

или уже есть размеченные

Sergey

03.12.2017
20:58:49

нет пока не чего

а как будешь размечать данные? спам - не спам

не знаю, поэтому и спрашиваю) Вот подумываю использовать два фильтра, один сочетание пар слов ( skip-n-gramm), а второй tf ? все слова будут весить 100%(1), а потом когда пользователи будут писать нормальные сообщения, и если в этих сообщениях будут пересикаемые слова со спамными, то их вес будет уменьшаться, и не надо записывать нормальные сообщения в бд ? но это только предположение, сейчас пробую реализовать

Kirill

03.12.2017
21:08:42

может есть смысл поискать существующие датасеты в интернете? или сообщения специфичны? в любом случае для создания спам фильтра классическим способом на мой взгляд является создание модели классификации с учителем. то есть тебе надо либо найти в инете (в похожем целевому формате) , либо найти и плюс ещё самому разметить сообщения, которые надо считать спамом, а какие - нет. дальше, например, с помощью мешков слов и какого нибудь xgboost обучить модель

?

03.12.2017
21:08:58

в свое время пол грэм с помощью байесовкого фильтра большую часть спама победил http://www.paulgraham.com/better.html

Sergey

03.12.2017
21:09:59

может есть смысл поискать существующие датасеты в интернете? или сообщения специфичны? в любом случае для создания спам фильтра классическим способом на мой взгляд является создание модели классификации с учителем. то есть тебе надо либо найти в инете (в похожем целевому формате) , либо найти и плюс ещё самому разметить сообщения, которые надо считать спамом, а какие - нет. дальше, например, с помощью мешков слов и какого нибудь xgboost обучить модель

да. бот будет знать что спам а что нет, это телеграмм бот, и сообщения с спамом должны помечаться пользователями как /spam

Kirill

03.12.2017
21:13:51

хм. то есть ты будешь знать что вот такой то текст спам, а такой то - нет?

« Назад

Страница 188 из 327

Далее »

Открыть в Telegram