@bigdata_ru

Страница 15 из 327
Andrey
27.09.2016
14:43:32
Но я не начинал с нее, просто считаю самой доходчивой

Начинал с книг, где про нейросети всего одна глава - это не то. Кохонен и Хайкин мне пока не зашли, но и к ним еще вернусь.

Alexandra
27.09.2016
14:49:19
Ясно Спасибо за инфу:) Пойду разбираться

Boojum
28.09.2016
18:28:37
Тимур Камаев

Google
Timur
28.09.2016
18:30:18
м? потихоньку, да)

Uncel
30.09.2016
13:50:28
http://mail-archives.apache.org/mod_mbox/incubator-general/201609.mbox/%3C1D97DADB-8BE1-4C06-8680-5F0832262516%40gmail.com%3E

утонул титан

Oleksandr
30.09.2016
13:51:22
а можно для непосвященных что там происходит?

Andrew
30.09.2016
13:51:52
это про графовую БД на основе HBase?

Daniel
30.09.2016
13:53:07
hbase лишь один из возможных бэкэндов

имхо, туда титану и дорога с другой стороны что аналог еще надо поискать (варианты есть, но надо еще проверить их)

Uncel
30.09.2016
13:57:42
Тогда пример аналогичной распределенной графовой бд

опенсурсной

а можно для непосвященных что там происходит?
Хотели сделать форк https://github.com/thinkaurelius/titan/tree/titan11 в инкубатор апача

Daniel
30.09.2016
13:58:48
аранго хочу проверить, когда вернусь к проекту есть еще очень похожий unicorn

Uncel
30.09.2016
13:59:10
Триллион связей btw

Daniel
30.09.2016
13:59:55
еще один или два проекта попадались, но названия не помню

Google
Uncel
30.09.2016
14:00:13
Аранго на френдстере отъедает где-то 512 гигабайт RAM

Daniel
30.09.2016
14:00:37
что за френдстер?

Uncel
30.09.2016
14:01:37
https://archive.org/details/friendster-dataset-201107

The dataset contains the friends lists of 103,750,348 users. The friends lists of an additional 14,001,031 users had been marked private. In total, the dataset contains 2,586,147,869 friend connections. In graph terms: the graph contains 117,751,379 nodes and 2,586,147,869 directed edges.

Daniel
30.09.2016
14:02:51
аранго, насколько помню описание, любит оперативу, но может жить и в ограниченных условиях

с очевидным проседанием по скорости

Uncel
30.09.2016
14:05:16
От js тошнит

Daniel
30.09.2016
14:05:48
ArangoDB is a “mostly memory” database, which means that it appreciates RAM very much and is most performing when it is not forced to swap data to the hard disk. So how much RAM do you need? This depends on the size and structure of your data: Your application will access one or many collections (think of collections as denormalized tables for the time being). Once you open a collection the indexes for this collection are created in the RAM and the data is loaded into the RAM using memory-mapped files. If your collections are bigger than your RAM, the operation system will be forced to swap data in and out of the swap space.

так дрова разные есть

а их интерфейс Foxx по всем отзывам лучше избегать

Uncel
30.09.2016
14:07:17
Ок

хочу кластер на 20 нод

без приколов вида, пишем в мастер и потом синкаем

https://docs.arangodb.com/3.0/Manual/Deployment/simple_cluster.png

Daniel
30.09.2016
14:10:30
боюсь без тестов трудно угадать что будет их бенчмарк на миллион запросов, был весьма тривиальный, с очень малым числом связей

Uncel
30.09.2016
14:21:14
Мне больше быстрый olap нужен

https://lists.apache.org/thread.html/e4f2c1403bfb4fe75fce9bd6f3182b9a95b9830ad9893944bac01ed9@%3Cgeneral.incubator.apache.org%3E

Hello - my name is Jason Anderson with the DataStax legal group. On behalf of DataStax, I wanted to clarify any potential confusion regarding the DataStax position on Titan. As several posts here have explained, DataStax owns the copyright and trademark rights to Titan. DataStax does not approve of and objects to the proposed forking of Titan into Olympian or any other ASF project. DataStax is evaluating the path forward for the Titan project and considering the various go-forward licensing options. Titan may or may not stay ASL 2.0 licensed as there may be potentially broader benefits to the community with GPL or A-GPL. At this time, we do not have a timetable on these decisions but will provide more details to the community when possible. Jason

Леонид
30.09.2016
15:45:48
Мне больше быстрый olap нужен
Олап на 20 нод? Вы там все показы поиска Яндекса анализируете?

Uncel
30.09.2016
15:46:08
internet of shit же

Google
Леонид
30.09.2016
15:50:07
Это мало что объясняет. 20 нод - это в Тб сколько? И что мешает агрегировать в фоне и сохранять?

Uncel
30.09.2016
15:52:32
Веб отклик? до 300мс

Пока граф весит терабайт

Леонид
30.09.2016
15:57:40
Заранее агрегировать. Это менее гибко, но дешевле по ресурсам

Uncel
30.09.2016
15:59:13
Дешевле по ресурсам быть DARPA\DOD и гридферма :)

Dim
30.09.2016
23:49:19
Из графовых ещё интересно выглядит OrientDb, правда версия 2.1.x очень бажная. У нас есть либа для мэппинга линкованых документов в Scala case classes.

Master-master репликация, инстансы находят друг друга в сети через hazelcast-овский механизм. Граф в узлах которого документы.

Daniel
01.10.2016
05:02:33
про ориент много негатива говорят баги не фиксят, а в основном удаляют из трекера

Vasiliy
01.10.2016
21:30:13
Привет! может анонимус знает где можно сервак вычислительный арендовать не так чтобы очень дорого?

Dan
01.10.2016
21:49:59
AWS ?

Uncel
01.10.2016
21:54:29
триалка на гуглклауде 300$

Vasiliy
01.10.2016
22:37:39
20 тыщ это нормально. Ак

KrivdaTheTriewe
02.10.2016
16:29:41
Здраствуйте друзья

Alex
02.10.2016
16:31:01
добрый вечер

KrivdaTheTriewe
02.10.2016
16:31:34
CounterBackedAccumulator ы кто-нибудь реализовывал для Спарка ?

Как вообще мониторите стримминг в спарке?

Oleksandr
02.10.2016
18:50:21
https://www.wired.com/2016/09/how-to-steal-an-ai/

Мерлин
03.10.2016
05:01:25
Мерлин: В Калининграде выложили пять петабайт записей с городских камер видеонаблюдения Официально вроде

ZeroFQ
03.10.2016
17:07:36
Не выложили, а выдают по запросу

Это они накопили 5 ПБ

Google
Artem
04.10.2016
13:45:27
Привет всем! Работал ли кто в последнее время с классификацией текстов по топикам?

Интересует то, что работает на больших объемах ну и топики пересекаются

Леонид
04.10.2016
13:49:38
Для One-vs-all нет проблемы, что топики пересекаются (вопрос только в разметке обучающих примеров) Большие объемы - это какие? Миллион текстов или сто миллиардов?

Artem
04.10.2016
13:50:01
10 миллиардов веб страниц

ну вернее выжимок

обучатся есть размеченная выборка в 10 миллионов выжимок

Леонид
04.10.2016
13:56:28
One-vs-all - это подход, его в принципе с любым алгоритмом использовать можно. Из алгоритмов на моих тестах лучше всего SGD. Но в вашем случае еще и проблемы скорости встанут.

Так что ее придется, вероятно, учитывать при выборе алгоритма.

Artem
04.10.2016
13:57:05
Угу понятно спасибо!

а сколько тем было у вас?

Леонид
04.10.2016
13:58:13
Ну а векторизация - bag of words. Что-то более сложное в вашем случае, опять же, может быть недостаточно быстрое

Около 50. А в вашем случае?

Artem
04.10.2016
13:58:51
1671 :(

ну я думаю можно до 500 сократить

Oleksandr
04.10.2016
14:54:29
возможно иерархически поделить? например, айфон с андроидом входят в "телефоны" если да, то может помочь "наслаивание" нескольких классификаторов

(для "андроид или айфон" писать частный случай классификатора, который работает только для них)

такой подход используется в, например, alchemy api

Vladislav
04.10.2016
14:57:49
Google
Artem
04.10.2016
14:58:10
блин а это интересно

у нас как раз "топики" иерархические

Vladislav
04.10.2016
14:58:38
угу
интересная идея вообще

Страница 15 из 327