
Артем
02.09.2018
10:42:10
Я вот вы вместо углубленного изучение философию какую-то добавили

Alexander
02.09.2018
10:42:35
мои знания далеко не идеальны и я рад узнать что-то новое, но подменять понятия не надо

Артем
02.09.2018
10:43:29
А я и не говорил что все. но ваш пример с 10 гигами csv очень забавен, мимо пройти ну никак

Google

Eugene
02.09.2018
10:46:01

Alexander
02.09.2018
10:47:04
ладно, хватит письками меряться. @artem_pankov распиши общие понятия, нет из вики
мне и всем кто тут есть будет полезно
все же у нас чатик для обмена опытом
буду первым и напишу - горизонтальное масштабирование инструментов это не запуск на 2х и более “машинах”.

Артем
02.09.2018
11:22:18
общие понятия очень просты

Alexander
02.09.2018
11:25:11
ну вот опять

Артем
02.09.2018
11:25:12
если ваши данные влезли на 1 ваш сервер, можно сколько угодно тешить себя, что вы работаете с бигдатой. реальность же заключается в том, что действительная потребность в особых алгоритмах появляется только тогда, когда ваши данные ну никак не уместить на 1 сервере, и никак не загрузить в оперативую память. то есть сталкиваетесь с ситуацией, когда привычные инструменты просто не работают. вы не можете приджойнить 2 таблицы в запросе, потому что они просто не лезут в память. вы не можете даже просто разместить данные на диске, так как его не хватило

Alexander
02.09.2018
11:26:06
я не просто так написал - масштабирование инструментов

Артем
02.09.2018
11:26:10
а так-то да, можно запустить десять хадупов даже на одной виртуалке и с умным видом рассказывать вечером друзьям за пивом о том что вы теперь дата сатанист)) ну или как греф с умным видом на конференции затереть
только....

Google

Артем
02.09.2018
11:27:12
вышеупомянутый десятигиговый цсвшник за несколько секунд на моём макбуке элементарный пандас прочитает и делай с ними что хошь

Eugene
02.09.2018
11:45:51

Dmitry
02.09.2018
11:46:10


Alexander
02.09.2018
11:46:46
я все же еще раз хочу отметить, что есть недопонимание, что есть машина и какая связь есть с железом. Дело в том, что сейчас облака строят на RDS и все железо по сути является свободным пуллом. Хочешь 1 CPU, хочешь 100. Горизонтальное масштабирование в наше время это именно кластеризация процесов, в то время, как железо отходит на второй план.
я не просто так заострял внимание на этом моменте, а именно из-за знаний построения облаков и горизонтального масштабирования на них.
есть еще возможность оверкомита на облаке, когда кластер приложений/виртуалок по сути работает на 20% с большими ресурсами чем есть на самом деле

Артем
02.09.2018
11:49:42

Dmitry
02.09.2018
11:51:22

Eugene
02.09.2018
11:51:58

Артем
02.09.2018
11:52:08
запустить там я не знаю пул фронт серверов к бэкенду чтобы коннекты держать или что-то другое
бигдата для вас и яндекса будет разной
бигдата для яндекса и гугла тоже разная

Alexander
02.09.2018
11:53:29

Dmitry
02.09.2018
11:53:45

Eugene
02.09.2018
11:54:19

Alexander
02.09.2018
11:54:28
по сути просто выходит биткоин это бигдата. 10кб данных, а вычислительных мощностей нужно огого

Google

Alexander
02.09.2018
11:55:52

Артем
02.09.2018
11:56:13

Artem
02.09.2018
11:56:34
да бигдата с объемом данных никак не связана, это больше про обработку данных. Мне нравится определение, что бигдата - это данные, которые отребуют особой обработки, и пример с 10гб csv как раз акцентирует внимание не на объема, а на структуре данных (что ее нет, и ее, эту структуру надо создавать)
А вообще, «бигдата» - разве не менеджерское определение непонятно чего? а данные так и остаются данными, какой смысл дискуссии?
? - Дмитрий, я бы еще добавил, что основа инструментария бигдата, это методы математической статистики, а не количество серверов, объем данных и прочее что тут ребята пишут

Артем
02.09.2018
11:59:03

Eugene
02.09.2018
11:59:14

Артем
02.09.2018
11:59:31
что это - Big data usually includes data sets with sizes beyond the ability of commonly used software tools to capture, curate, manage, and process data within a tolerable elapsed time.
сколько это - Big data "size" is a constantly moving target, as of 2012 ranging from a few dozen terabytes to many exabytes of data
кто обрабатывает - "Big data is where parallel computing tools are needed to handle data"

Alexander
02.09.2018
12:00:41
кстати, у постгреса нет лимита на размер базы или размер индекса. Если джоин не смог, то просто больше угля в топку бросать надо

Eugene
02.09.2018
12:01:37

Артем
02.09.2018
12:02:32

Eugene
02.09.2018
12:03:39
Вот из того, что быстро нашел.
Это NER-результаты, хитро вывернутые в Siren.
Запрос - "а покажи ка ключевые слова класса "организация" и покажи, насколько плотные вхождения"

Артем
02.09.2018
12:06:49
Ваш пример?
мой пример прост. я лично участвовал в разработке системы - аналога retail rocket или rees46
конечно скриншота с красивенькими стрелочками у меня чота нет
правда, я так и не понял, какое отношение он имеет к вопросу

Eugene
02.09.2018
12:07:58

Артем
02.09.2018
12:08:38
всё равно непонятно

Google

Admin
ERROR: S client not available

Dmitry
02.09.2018
12:08:57
Артем, если я жлоб и нищеброд, взял 10 бесплатных VPS вместо 1 платной, и просто храню элементарные данные на разных машинах - я становлюсь специалистом big data? ну как-то не оч

Eugene
02.09.2018
12:09:02
всё равно непонятно
http://amzn.to/2xwopag
"Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy"

Alexander
02.09.2018
12:10:01
или наоборот, 1 твой vps - это 100 серверов
про облака я тут все же могу сказать все ?

Артем
02.09.2018
12:11:34

Alexander
02.09.2018
12:12:39

Dmitry
02.09.2018
12:12:49
Т.е. ключевой аспект - все-таки, обработка данных? а не их хранение где-либо

Max
02.09.2018
12:13:09

Dmitry
02.09.2018
12:13:12
Хранение где-либо - это абстракция, у меня данные могут быть на 1 сервере в разных базах и хранилищах

Артем
02.09.2018
12:14:34
знаете почему?
потому что мне это не было нужно. применительно к эликсиру хайлоад для меня начнётся когда топовая виртуалка на селектеле или мой физический сервер уже не смогут обслуживать клиентов. я поставлю второй, сделаю две ноды и буду смотреть как это работает
так же и с бигдатой. её большой обьём заставляет - не оставляет выбора - использовать особые алгоритмы и инструменты
безусловно, можно собрать кластер из десяти хадупов на 1 виртуалке и типа да. но без реальных обьёмов не столкнёшься со всем спектром проблем, включая скорость обработки
есть еще возможность оверкомита на облаке, когда кластер приложений/виртуалок по сути работает на 20% с большими ресурсами чем есть на самом деле
можно к примеру продолжить считать, что сработает вот это
за сим вынужден откланяться. думаю, кому действительно интересно, понял, о чём я


Alexander
02.09.2018
12:45:23

Google

Yauheni
02.09.2018
13:53:44
Господа добрый день
Подскажите ответ на такой вопрос
Я валидирую джейсон с помощью схемы которая хранится в отдельном файле
Где правильно хранить этот файл в структуре приложения?

Vladislav
02.09.2018
14:04:26
/ban

Fey
02.09.2018
14:46:31

Buckler
02.09.2018
15:35:48
Привет, Agretha!
Пожалуйста, реши капчу:
Вычисли: 64+83=...
Осталось попыток: 3
Если не решишь - забаню навеки...
Удачи!
Привет, Clotilda!
Пожалуйста, реши капчу:
Вычисли: 33+78=...
Осталось попыток: 3
Если не решишь - забаню навеки...
Удачи!
Привет, Carmita!
Пожалуйста, реши капчу:
Вычисли: 60+66=...
Осталось попыток: 3
Если не решишь - забаню навеки...
Удачи!

Azat
02.09.2018
17:08:41
Мм, было бы лучше 600+66


Alexey
02.09.2018
17:30:19
если ваши данные влезли на 1 ваш сервер, можно сколько угодно тешить себя, что вы работаете с бигдатой. реальность же заключается в том, что действительная потребность в особых алгоритмах появляется только тогда, когда ваши данные ну никак не уместить на 1 сервере, и никак не загрузить в оперативую память. то есть сталкиваетесь с ситуацией, когда привычные инструменты просто не работают. вы не можете приджойнить 2 таблицы в запросе, потому что они просто не лезут в память. вы не можете даже просто разместить данные на диске, так как его не хватило
мне нравится определения, где есть субъективная привязка "привычные инструменты". тут можно так всё наизнанку вывернуть. к примеру, бигдатщики постоянно обрабатывают данные, которые в память не помещаются и одной машиной не вычисляются. но, в связи с тем, что для них это не является непривычным инструментом, то это не бигдата )))) звучит так, как будто бигдата - это что-то такое недостижимое для вас, дураков