
Леонид
02.09.2016
03:35:37

IH
02.09.2016
04:45:44
big data это разве не просто статистически выделенные данные? Мне кажется, что для одного автосервиса можно и в Экселе мышкой поводить.

Andrey
02.09.2016
05:06:53
Big data начинается там, где данные не влазят в ОЗУ
Поэтому у каждого они свои, если есть машина с пол-ТБ ОЗУ, то фиг вы найдете так просто данные, для которых этого будет мало

Google

IH
02.09.2016
06:42:22

Andrey
02.09.2016
07:12:40
Про автосервис: можно предсказывать средний чек по марке авто и наличию ифона у владельца

IH
02.09.2016
09:39:20

aodzaki.toko
02.09.2016
10:01:33

Aleksei
02.09.2016
12:53:26
Мы головой думали и составляли веса для разных параметров. Так как для БИГ даты мало данных.

ThisIs
03.09.2016
04:54:28
А как расшарить конфу?
Ссылка на конфу

Ahm
03.09.2016
05:13:48
в профиле есть линк

ThisIs
03.09.2016
05:21:46
Спасибр

Vladyslav
04.09.2016
06:59:40
Всем привет, есть ли среди участников чата кто-то кто работал с big data в привязке к Teradata? Они сейчас активно пытаются влезть на этот рынок, но на практике у меня таких проектов сейчас нет, потомки знания ограниченные. Может кто то работал и даст наводку где углубляться в детали?

aodzaki.toko
04.09.2016
07:02:44
https://m.geektimes.ru/post/280000/

ThisIs
04.09.2016
07:09:41
как раз это читаю)

Google

Dan
04.09.2016
08:07:03

Vladyslav
04.09.2016
08:34:54

Dan
04.09.2016
13:26:15
Apache Spark @Scale: A 60 TB+ production use case from Facebook.
https://databricks.com/blog/2016/08/31/apache-spark-scale-a-60-tb-production-use-case.html
This is next to HUGE.

Faxriddin
05.09.2016
06:39:08
Thanks qosim

ptchol
06.09.2016
18:43:21
а кто то ловил это дерьмо https://issues.apache.org/jira/browse/HDFS-8344 ?

Григорий
07.09.2016
20:02:54
Реализовывал кто-нибудь inception v3 модуль для сверточных сетей? Я не могу понять, как конкатинацию разных тензоров сделать...


Svetlana
08.09.2016
08:17:09
#job #BIGDATA
Working in a stable company
The prospect of a long-term development of the company
The high level of official income
Our client is a large Israeli company. We are looking for the Global Data Scientist, who can lead our client in the future of the full service on-demand business.
First, you need to be passionate about data and scientific approaches and have relevant hard skills and experience. Second, you need to have an excellent business orientation in order to turn massive amounts of data into insightful and meaningful business information.
The role is based in Moscow reporting to Head of Global Business Performance Management. In the beginning, you will be improving Supply function: develop and constantly improve a model based on machine learning approach to set optimal product settings worldwide (up to 100 settings) to drive our business at the most efficient way. At the first steps, most of the time will be devoted to routing algorithm optimization. Monitor model performance (i.e., the settings effectiveness) and solve "something went wrong" situations on a daily basis together with operational supply team. Develop the holistic and practical demand/supply model, which predicts key business indicators.
Ideal candidate have Bachelor or Master degree from leading university (preferably in Applied Math, Sciences or Engineering). At least 1+ years of experience in a business area.Top places on olympiads and Kaggle competitions as a plus.
Programming: R or Python. Working knowledge of libraries for geodata as a plus. Basic SQL.
Svetlana Zhukova
svetlana.zhukova@hays.ru


Konstantin
08.09.2016
17:30:31


Svetlana
08.09.2016
17:41:02

Konstantin
08.09.2016
17:41:15
конечно рад!
как дела?

Svetlana
08.09.2016
17:42:30
как дела?
За флуд могу в бан ;( а так норм. Биг даты ннннада;))

Konstantin
08.09.2016
17:43:25
а ETL считается бигдатой?

Svetlana
08.09.2016
17:45:14
Нужен аналитик заточенный на big data /data science /machine learning

Andrew
09.09.2016
10:42:31
хотелось бы услышать мнения искушенных о excellent business orientation vs "черный ящик"

Леонид
10.09.2016
16:52:38
В плане машинного обучения? Простая регрессия обыгрывает экспертное мнение, есть исследования.
Черный ящик + эксперт не будет хуже простого черного ящика, если эксперт используется для улучшения, а не перетягивает одеяло на себя.

Drow
14.09.2016
15:59:01
Всем привет! Скажите пожалуйста, а есть тут кто нибудь, кто решал или хотя бы приближался к задаче кластеризации нескольких десятков миллионов пользователей опираясь на не очень чистые данные?
например такой есть вопрос: хочется понимать купит человек подписку на сервис или нет, учитывая что про человека есть какая-то куча разных маректинговых данных
Я что-то понял, что не могу задать вопрос, так чтобы ничего не сказать про задачу которая на самом деле есть. Но если вдруг кто-то что-то понял из того про что я спрашиваю, то я бы в личных сообщениях пообщался и потом может NDA и тогда можно было бы уже как-то внятно поговорить :)

Dan
14.09.2016
16:29:22
Что-то мне подсказывает, что такое уже реализовали. И на месте разработчиков я вряд ли стал алгоритм такой технологии отдавать в общий чат, т.к. такая технология позволит точно прогнозировать доходы, и следовательно получать очень высокую прибыль. К чему тогда конкуренты? )

Google

Dan
14.09.2016
16:30:01
На всякий случай сошлюсь на соглашение о неразглашении, во избежание детальных ответов :-)

Magistr
14.09.2016
16:30:48
да весь адтех так работает, это сегментация аудитории
только вот там не купит не купит, а вот это пожарник давайте покажем ему рекламу для пожарников

Dan
14.09.2016
16:31:14
Одной мыслью поделиться могу. Очень сильная математика + теорвер + нейросеть.

Magistr
14.09.2016
16:31:49
и дальше уже единицы процентов конверсия
ну да

Drow
14.09.2016
16:32:20
да теоретически там никакой проблемы нет
есть сет на котором можно учить, есть каналы с данными, надо просто научить нейросеть и всё хорошо
проблемы возникают на практике :)))

Dan
14.09.2016
16:32:50
А еще

Drow
14.09.2016
16:32:52
и их много разных

Dan
14.09.2016
16:32:57
Ты сказал что данные не чистые
Что это значит?

Drow
14.09.2016
16:35:05
ну это значит, что каналы периодически переделываются и поэтому данные не очень конгруентные, кроме этого всё запутанно очень хранится и не сведено к единым размерностям