
Dan
14.09.2016
22:13:18
why not

Леонид
14.09.2016
22:36:29

Andrew
15.09.2016
10:42:50

Ilya
15.09.2016
20:47:34
Доброй ночи! Есть тут у кого нибудь опыт работы с elastic? Вопрос по конфигурации индекса с несколькими связанными между собой типами

Google

Drow
16.09.2016
02:48:16

Andrey
16.09.2016
03:11:41
Это так не работает. Мусор на входе - мусор на выходе - самый базовый принцип машинного обучения.

Drow
16.09.2016
03:35:37
Так никто же с этим не спорит
но уже обученная сеть, может же разбираться лучше с тем как относится к изменениям и что важно, а что нет
но опять же, это вопрос до какого состояния надо довести данные и я слышал, тут опять же, я скорее вопрос задаю, чем утверждаю что-то, что сейчас некоторые фреймворки умеют сами выделять значимые сигналы и умеют их отслеживать даже в изменяющихся данных, что есть автокоррекция ошибок разных и т.д.

Andrey
16.09.2016
03:53:57
Данные нужно довести до того формата, в котором была обучающая выборка. Если сеть ожидает на вход 10 числовых признаков, она не будет работать, если признаков подать всего 5, из которых 2 она видит впервые, а еще 2 - текстовые вместо числовых. Или если признак "цена" вместо $ кто-то задаст в рублях, сеть тоже к этому не "адаптируется".

Паша
16.09.2016
07:26:44

Andrew
16.09.2016
08:47:50


Леонид
16.09.2016
14:01:04
но опять же, это вопрос до какого состояния надо довести данные и я слышал, тут опять же, я скорее вопрос задаю, чем утверждаю что-то, что сейчас некоторые фреймворки умеют сами выделять значимые сигналы и умеют их отслеживать даже в изменяющихся данных, что есть автокоррекция ошибок разных и т.д.
Выкинуть автоматически незначимые признаки не сложно. Это будет равно тому, что вы эти признаки вообще не собираете.
То есть, собрать все, а потом отсеять - подход нормальный. Но если у вас все - мусор, то все и придется отсеять с таким подходом )
Вообще, подготовка данных - больше половины работы. И чем дальше, тем хуже. :)
Выровнять размерность, заполнить пробелы, перевести строки в числа - это все не так уж сложно, но первоначальную настройку требует, конечно.
Алгоритм то можно по мануалу за полчаса запустить, а вот мануала для формата ваших данных нигде нет - наверняка ваша ситуация уникальна.


Drow
17.09.2016
09:14:40
Леонид, вот есть подозрение, что значимые данные есть :) Но так как сигналов очень много, то хочется какой-нибудь магии :))) разумеется базово подготовить данные мы можем, чтобы числами было, чтобы без null и т.д., но вот размерности и прочее уже сложнее.

Andrey ?
17.09.2016
09:19:15
Сижу на лекции о ассмеблеру и понимаю, что биг датой может быть и 1мб.

Google

Леонид
17.09.2016
09:48:29
Леонид, вот есть подозрение, что значимые данные есть :) Но так как сигналов очень много, то хочется какой-нибудь магии :))) разумеется базово подготовить данные мы можем, чтобы числами было, чтобы без null и т.д., но вот размерности и прочее уже сложнее.
А в чем конкретно сложность? Магия для обработки данных уже написана - пользоваться ей не сложно. Выровнять, заполнить пробелы, уменьшить размерность (при желании), нормализовать.
Или сложность в том, что просто не знаете, какие шаги делать?

Ilya
17.09.2016
11:35:08

Leonid
17.09.2016
19:24:42
Здравствуйте, кто-нибудь может подсказать достойную литературу по big data?

Drow
18.09.2016
05:44:23


Alex
18.09.2016
14:16:46
Всем привет. Для адекватной работы ML на большом портфеле акций необходимо убрать влияние общерыночных факторов. Например, предиктором является разность между текущей ценой и скользящей средней. Соответственно, в один месяц среднее значение предиктора будет одним, в другой месяц – будет другим. Т.е. само среднее значение будет так или иначе коррелировать на рынок. Собственно, вопрос в том, как от этого влияния избавиться и убрать корреляцию по значениям внутри выборки. Самый простой вариант – это, конечно, просто нормировать на среднее значение. Но может есть более удачные варианты?


ZeroFQ
18.09.2016
15:36:12
Есть много текстов (тексты новостей с местных новостных порталов).
В этих текстах есть адреса, но они все в совершенно разных форматах ("на ул. Буденого", "возле десятого дома Черниговского пр-та", "в доме номер 10 на Великолукской ул." и т.п.)
Так вот, как мне эти адреса доставать с достаточно высокой точностью (хотя бы процентов 80 адресов)?
Есть у кого опыт подобных задач? Может, накидаете ссылок на подробные маны?
Я думаю в сторону нейронных сетей (на вход подавать справочник существующих адресов и тексты новостей, есть возможность пару тысяч новостеек обработать вручную для обучения), но опыта у меня с ними нет, если не считать синтетических обучающих примеров. Может, есть готовые предобученные конфигурации для распознавания русского текста?
Полученные адреса планирую прогонять через геокодер и размещать на карте.


Леонид
18.09.2016
15:45:44
Есть много текстов (тексты новостей с местных новостных порталов).
В этих текстах есть адреса, но они все в совершенно разных форматах ("на ул. Буденого", "возле десятого дома Черниговского пр-та", "в доме номер 10 на Великолукской ул." и т.п.)
Так вот, как мне эти адреса доставать с достаточно высокой точностью (хотя бы процентов 80 адресов)?
Есть у кого опыт подобных задач? Может, накидаете ссылок на подробные маны?
Я думаю в сторону нейронных сетей (на вход подавать справочник существующих адресов и тексты новостей, есть возможность пару тысяч новостеек обработать вручную для обучения), но опыта у меня с ними нет, если не считать синтетических обучающих примеров. Может, есть готовые предобученные конфигурации для распознавания русского текста?
Магии не будет. Отличать адрес от не адреса, конечно, можно, но проще проверкой по списку названий улиц.
А найти начало адреса и конец - для этого нейронка вообще очень слабо подходит.Грамматический разбор больше подходит


Magistr
18.09.2016
15:55:31

ZeroFQ
18.09.2016
16:39:39
а зачем ?
Потом выявлять самые криминальные районы, районы, где больше всего ДТП, районы, которые чаще упоминалось в позитивных или негативных новостях и т.д.

Alex
18.09.2016
16:58:18

Ivan
18.09.2016
17:41:03
Так вот геокодер это дело нормально отработал в 90%


ZeroFQ
18.09.2016
17:43:26
Там не просто адрес в непонятном формате, там куча текста, в котором может упоминаться адрес.

Ivan
18.09.2016
17:43:29
Ну а на входе массив текста.
У меня на входе было максисмум пара предложений.

ZeroFQ
18.09.2016
17:46:01
Вот можно попробовать по списку улиц искать улицу, потом брать кусок текста +/- пара слов и уже это пихать в яндекс и гугл.

Google

Ivan
18.09.2016
17:52:43
http://geocode.xyz
Вот тут есть геопарсинг внутри текста
http://www.cs.cmu.edu/~gelern/pdfs/GIR%202013%20upload%202.pdf
Ну и какието общие принципы(правда для коротких твитов), но может поможет с идеей.

ZeroFQ
18.09.2016
18:05:00
Спасибо!

Паша
19.09.2016
07:02:02
Есть много текстов (тексты новостей с местных новостных порталов).
В этих текстах есть адреса, но они все в совершенно разных форматах ("на ул. Буденого", "возле десятого дома Черниговского пр-та", "в доме номер 10 на Великолукской ул." и т.п.)
Так вот, как мне эти адреса доставать с достаточно высокой точностью (хотя бы процентов 80 адресов)?
Есть у кого опыт подобных задач? Может, накидаете ссылок на подробные маны?
Я думаю в сторону нейронных сетей (на вход подавать справочник существующих адресов и тексты новостей, есть возможность пару тысяч новостеек обработать вручную для обучения), но опыта у меня с ними нет, если не считать синтетических обучающих примеров. Может, есть готовые предобученные конфигурации для распознавания русского текста?
не реклама, просто очень известная компания делает: https://dadata.ru/merging/#address
у них топовые решения на рынке для нормализации данных по адресам/ФИО/итд

Sergey
19.09.2016
07:54:09

Паша
19.09.2016
07:55:16
это поможет очевидно на этапе "размещать адреса на карте"
задача из трех частей. Из текста найти что-то похожее на адрес (здесь лучше побольше FP допустить), распознать/нормировать адрес + координаты, разместить на карте.
3я часть техническая и понятная, вторая через дадату или еще что-то, с первой самое мутное пока что, каким-то образом по списку улиц выглядит наиболее логично искать для начала

Dan
19.09.2016
19:00:38
#book #полезное #bigdata #datascience

Kirill
19.09.2016
19:04:13
Спасибо

Dan
19.09.2016
20:01:59
вот еще кстати по машинному обучению, но польза не проверена мной лично, поэтому только для общего развития:
http://ai-news.ru/2016/08/top_100_statej_po_mashinnomu_obucheniu_i_analizu_dannyh_624071.html
возможно, там что-то и будет хорошее и годное

Dmitry
20.09.2016
07:32:51
Всем привет! кто нибудь сталкивался с dbInputFormat и oracle реализацией при создании таблиц в hive?

Konstantin
20.09.2016
08:37:15
https://habrahabr.ru/company/oleg-bunin/blog/310418/

yopp
21.09.2016
09:25:46
ммм
привет!
везде знакомые лица
я на самом деле больше за датамайнинг хочу поговорить
есть ли у ЕС штука типа ipums.org?

Google

yopp
21.09.2016
09:26:44
или я не по адресу?

Леонид
21.09.2016
13:00:18
или я не по адресу?
Да тут все молчат в основном. Наверное хотят что-то узнать. А профи, обсуждающие вопросы, тут появляются крайне редко )

Lepus
21.09.2016
13:10:50
Все работают.

Леонид
21.09.2016
13:40:49
Круглосуточно :)

Sergey
21.09.2016
14:28:10
Да, это очень хороший чатик, здесь умные люди и не шумно.