@bigdata_ru

Страница 148 из 327

Serhii

24.09.2017
15:58:08

О, и ещё один вопрос появился. Если G - энкодер-декодер, мы же можем в качестве энтодера взять предобученную сеть (на имеджнете), заморозить веса и не трогать? На выходе то будет картинка кодированная в latent space что в случае предобученной сети что в случае если мы с 0 тренируем

Drino

24.09.2017
16:06:16

Наверное можно - явных проблем в таком подходе не вижу.

Черный Мойведь

25.09.2017
14:41:38

как етот дмк-пресс в плане оперативности доставки по городу Москва?

Максим

25.09.2017
19:06:36

180к?? Чет пздц

Google

Максим

25.09.2017
19:07:44

Было вроде 150

Alexander

25.09.2017
21:10:01

Подскажите, нужно сделать категоризацию товаров с чеков. Скажем, на вход дается "Кока-Кола" нужно сказать, что это -- напиток, а "Lays Острые" -- чипсы. Наименования должны быть на русском языке, знает ли кто-нибудь готовые базы для этого и что можно погуглить?

Max

26.09.2017
04:46:46

Господа, нужна помощь, пишу проект который будет наполнятся с других ресурсов, нужно придумать механизм который реализует углубленную проверку на дубли, который основывается на анализе текста и полнотекстовом поиске. Возможно кто-то сталикивался уже и есть какие-то готовые решения ?

Andrey

26.09.2017
04:58:08

Все системы антиплагиата, не?

Alex

26.09.2017
07:14:55

Господа, нужна помощь, пишу проект который будет наполнятся с других ресурсов, нужно придумать механизм который реализует углубленную проверку на дубли, который основывается на анализе текста и полнотекстовом поиске. Возможно кто-то сталикивался уже и есть какие-то готовые решения ?

Вектора для ключевых фраз. Потом сравнение и отфильтровка близких

Andrey

26.09.2017
10:26:29

Ребят, привет. Кто-нибудь сталкивался с задачей запуска INSERT и UPDATE в sql базу из pyspark?

Задача такая, берем таблицу из базы, всасываем в Df. Колбасим, в итоге получаем несколько записей которые в этой таблице нужно изменить. Количество измененных строк на уровне 1%, по этому просто запись DF с mode override не оч подходит своим оверхедом.

Alex

26.09.2017
11:14:46

Всем привет. Подскажите, как в CatBoostClassifier перебирать параметры по типу - GridSearchCV?

tonko

26.09.2017
11:20:53

Обернуть катбуст в модель sklearn, вроде base_classifier класс называется. В домашках ods пример был.

これはスタスか…ロマンですか

26.09.2017
11:31:36

Подскажите, нужно сделать категоризацию товаров с чеков. Скажем, на вход дается "Кока-Кола" нужно сказать, что это -- напиток, а "Lays Острые" -- чипсы. Наименования должны быть на русском языке, знает ли кто-нибудь готовые базы для этого и что можно погуглить?

NLP Entity Recognition

Rostislav

26.09.2017
13:55:30

Ребят, привет. А кто-нибудь занимался DQN или обучением с подкреплением вообще? Хочу проконсультироваться

Antonio

26.09.2017
20:06:58

подскажите пожалуйста, для нейронных сетей условие дифференцируемости обязательно?

Nikolay

26.09.2017
20:07:30

Задача такая, берем таблицу из базы, всасываем в Df. Колбасим, в итоге получаем несколько записей которые в этой таблице нужно изменить. Количество измененных строк на уровне 1%, по этому просто запись DF с mode override не оч подходит своим оверхедом.

какая у вас база исходная?

Google

Andrey

26.09.2017
20:07:51

какая у вас база исходная?

Postgres

какая у вас база исходная?

Я уже высмотрел все что выдает гугл. И чет ощущение что никто с таким не сталкивался. проблема у нас абстрактна от конкретной базы по сути. Нужен просто способ долбить кастомные инсерты/апдейты из спарка. А я пока ничего кроме write с разными mode не нашел, а этот вариант нам не модходит потому что он либо пропускает ошибки, либо полностью переписывает таблицу

Nikolay

26.09.2017
20:13:48

а много таких записей, которые нужно изменить. То, что их 1% это понятно, но большой ли обьем в штуках( магабайтах)?

можно черех foreach вызывать jdbc и записывать пачками через PraparedStatement. Из вариантов похуже - записывать в стэйджинговую табицу на стороне постгресса и вызывать процесс перезаписи на сервере. В оракле можно было бы сделать триггер на эту stg таблицу, но лучше попробовать первый вариант с foreach.

suren

26.09.2017
20:22:22

подскажите пожалуйста, для нейронных сетей условие дифференцируемости обязательно?

ну разве что не градиентными оптимизаторами воспользоваться, лет 15 назад экспериментировали эволюционными методами, видимо не очень эффективно, сейчас не слышно

Nikolay

26.09.2017
20:22:28

хотел ссылку на чатик по спарку скинуть, но видать такие сообщения режут

Antonio

26.09.2017
20:23:01

ну разве что не градиентными оптимизаторами воспользоваться, лет 15 назад экспериментировали эволюционными методами, видимо не очень эффективно, сейчас не слышно

а дл примера какие существуют? метод ньютона что ли?

suren

26.09.2017
20:25:35

я отредактировал свое сообщение, случайно раньше времени отправил

Andrey

26.09.2017
20:28:43

а много таких записей, которые нужно изменить. То, что их 1% это понятно, но большой ли обьем в штуках( магабайтах)?

в мегабайтах не много. 10-100мб.

можно черех foreach вызывать jdbc и записывать пачками через PraparedStatement. Из вариантов похуже - записывать в стэйджинговую табицу на стороне постгресса и вызывать процесс перезаписи на сервере. В оракле можно было бы сделать триггер на эту stg таблицу, но лучше попробовать первый вариант с foreach.

А можете примером кода поделиться?

Nikolay

26.09.2017
20:29:38

могу завтра написать, но на джаве

Andrey

26.09.2017
20:30:28

могу завтра написать, но на джаве

Та мне хоть на псевдоязыке.) Хотя определенные костыли с pyspark есть(

Что меня удивляет, задача то вроде достаточно очевидная. Нежуели никто не сталкивался(

Nikolay

26.09.2017
20:39:13

https://stackoverflow.com/questions/34643200/spark-dataframes-upsert-to-postgres-table

Вот там есть пример. Он последний в списке ответов.

Andrey

26.09.2017
20:42:57

Вот там есть пример. Он последний в списке ответов.

Ага, спасибо большое, будем пробовать переписать это на pyspark

Antonio

26.09.2017
22:28:58

список книг кстати обновился, добавлена книга Дж. Вандер Плас Python для сложных задач. Наука о данных и машинное обучение https://ru.stackoverflow.com/a/683632/1084

Andrey

27.09.2017
07:40:39

а дл примера какие существуют? метод ньютона что ли?

Довольно странный вопрос, ведь Ньютон - метод второго порядка, и порядок тут - это порядок производной

Antonio

27.09.2017
08:25:41

https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%9D%D1%8C%D1%8E%D1%82%D0%BE%D0%BD%D0%B0 "Также метод Ньютона может быть использован для решения задач оптимизации, в которых требуется определить нуль первой производной либо градиента в случае многомерного пространства."

Andrey

27.09.2017
08:34:19

Я именно об этом

Google

Alexey

27.09.2017
08:36:41

Товарищи, для Caffe2 существуют ли книги на русском?

Павел

27.09.2017
08:37:46

Всем привет. А тут кто нибудь делает финтех проекты? Интересно познакомиться

Nick

27.09.2017
11:32:05

Подскажите пожалуйста, имеет ли смысл тестировать модель с помощью метода Монте-Карло?

Mike

28.09.2017
11:22:14

Ребят,а кто подскажет - в word2vec (doc2vec) модели, если документы корпуса меньше окна, это сильно сказывается на результате? Mikolov в "Distributed Representations of Sentences and Documents" пишет: "If the paragraph has less than 9 words, we pre-pad with a special NULL word symbol." Может кто уже интересовался, отпишитесь)

Andrey

28.09.2017
12:12:38

Не должно сильно влиять

NULL в эмбеддинге будет кагбэ маркером "короткости"

Oleksandr

28.09.2017
20:45:04

https://groups.google.com/forum/#!topic/theano-users/7Poq8BZutbY

Antonio

28.09.2017
21:32:10

список книг снова обновился, добавлена книга Джулли А., Пал С. Библиотека Keras - инструмент глубокого обучения https://ru.stackoverflow.com/a/683632/1084

Beka

28.09.2017
22:19:08

Привет комрады. Мы работаем над Видео серсивом. Онлайн ТВ, У нас есть проблема и думаю мы могли бы решить эту проблему эффективнее с помошью МЛ. Проблема состоит из:

Клиенты качают куски видео длинной 4 секнд. *.ts файлы(Далее Сегмент). Представте себе ситуацию. Средная скачка сегмента для битрейта 720 - 300 миллисекунд в среднем

Происходит так. 1.ts - 300 мс 2.ts - 300 мс 3.ts - 300 мс 4.ts - 5000 мс (Тут интересно, наш бэкэнд не смог передать сегмент быстро по неопределенным причинам) 5.ts - 300 мс

これはスタスか…ロマンですか

28.09.2017
22:26:15

Beka

28.09.2017
22:26:33

Как вы видите для 4 ого сегмента у нас время скачки прыгает на верх. И алгоритм выборки адаптивного битрейта думает сеть ухудшился. И начинает качать не 720 видео а скажем 240. Качество видео сильно падает. Хотя сеть тот же.

Могу ли я предугадать по определенным патернам что это тупо проблема моего бэкэнда.

Это можно понять через обучение?

これはスタスか…ロマンですか

28.09.2017
22:30:14

почини бэкенд

вина его или сети, в любом слючае throughput пвдает, логично уменьшить битрейт

Beka

28.09.2017
22:31:42

Эти сегменты не всегда так быстро достаются. Это еще зависит от других сервисов который мы не имеем контроля.

これはスタスか…ロマンですか

28.09.2017
22:33:26

если бэкенд састревает пусть пошлёт "сорри, меня не ждите"

Beka

28.09.2017
22:36:31

если бэкенд састревает пусть пошлёт "сорри, меня не ждите"

И что пропускать этот сегмент?

Google

Beka

28.09.2017
22:36:50

Это же совсем нонсенс. пропускать 4 секунд куска видео.

Nick

28.09.2017
22:43:33

Если у вас последовательное чтение кусков из какого-то источника данных, вы можете доставать кадры из кеша, работающего на опережение

これはスタスか…ロマンですか

28.09.2017
22:44:57

Это же совсем нонсенс. пропускать 4 секунд куска видео.

так он же всё равно не придёт

Beka

28.09.2017
23:06:55

так он же всё равно не придёт

Как раз и придет.

Идет 4 секунды.

« Назад

Страница 148 из 327

Далее »

Открыть в Telegram