@proelixir

Страница 1016 из 1045
Артем
02.09.2018
10:42:10
Я вот вы вместо углубленного изучение философию какую-то добавили

Alexander
02.09.2018
10:42:35
Я не запутался, я с этой областью работаю лет 5 а не пару статеек прочитал
значит есть чем поделиться, но все же нельзя слепо заявлять что все тут идиоты

мои знания далеко не идеальны и я рад узнать что-то новое, но подменять понятия не надо

Артем
02.09.2018
10:43:29
А я и не говорил что все. но ваш пример с 10 гигами csv очень забавен, мимо пройти ну никак

Google
Eugene
02.09.2018
10:46:01
Alexander
02.09.2018
10:47:04
ладно, хватит письками меряться. @artem_pankov распиши общие понятия, нет из вики

мне и всем кто тут есть будет полезно

все же у нас чатик для обмена опытом

буду первым и напишу - горизонтальное масштабирование инструментов это не запуск на 2х и более “машинах”.

Артем
02.09.2018
11:22:18
буду первым и напишу - горизонтальное масштабирование инструментов это не запуск на 2х и более “машинах”.
разумеется, горизонтальное масштабирование - это кластер из 2х и более машин, вполне себе физических

общие понятия очень просты

Alexander
02.09.2018
11:25:11
ну вот опять

Артем
02.09.2018
11:25:12
если ваши данные влезли на 1 ваш сервер, можно сколько угодно тешить себя, что вы работаете с бигдатой. реальность же заключается в том, что действительная потребность в особых алгоритмах появляется только тогда, когда ваши данные ну никак не уместить на 1 сервере, и никак не загрузить в оперативую память. то есть сталкиваетесь с ситуацией, когда привычные инструменты просто не работают. вы не можете приджойнить 2 таблицы в запросе, потому что они просто не лезут в память. вы не можете даже просто разместить данные на диске, так как его не хватило

Alexander
02.09.2018
11:26:06
я не просто так написал - масштабирование инструментов

Артем
02.09.2018
11:26:10
а так-то да, можно запустить десять хадупов даже на одной виртуалке и с умным видом рассказывать вечером друзьям за пивом о том что вы теперь дата сатанист)) ну или как греф с умным видом на конференции затереть

только....

Google
Артем
02.09.2018
11:27:12
вышеупомянутый десятигиговый цсвшник за несколько секунд на моём макбуке элементарный пандас прочитает и делай с ними что хошь

Alexander
02.09.2018
11:46:46
я все же еще раз хочу отметить, что есть недопонимание, что есть машина и какая связь есть с железом. Дело в том, что сейчас облака строят на RDS и все железо по сути является свободным пуллом. Хочешь 1 CPU, хочешь 100. Горизонтальное масштабирование в наше время это именно кластеризация процесов, в то время, как железо отходит на второй план.

я не просто так заострял внимание на этом моменте, а именно из-за знаний построения облаков и горизонтального масштабирования на них.

есть еще возможность оверкомита на облаке, когда кластер приложений/виртуалок по сути работает на 20% с большими ресурсами чем есть на самом деле

Артем
02.09.2018
11:49:42
Как-то за уши притянуто, 1 сервер может иметь бесконечно много памяти и ресурсов
безусловно. в компании, в которой работает бесконечное количество сотрудников, каждый из которых получает бесконечную зарплату, явно есть бесконечное количество серверов, на каждом из которые бесконечное количество памяти

я все же еще раз хочу отметить, что есть недопонимание, что есть машина и какая связь есть с железом. Дело в том, что сейчас облака строят на RDS и все железо по сути является свободным пуллом. Хочешь 1 CPU, хочешь 100. Горизонтальное масштабирование в наше время это именно кластеризация процесов, в то время, как железо отходит на второй план.
эффективная обработка данных возможна только на физических машинах, где данные прочитались с массива, попали в оперативную память и их обработали ядра именно этого сервера. вся эта облачная лажа абсолютно для других, элементарых и не тяжелых задач

Dmitry
02.09.2018
11:51:22
вышеупомянутый десятигиговый цсвшник за несколько секунд на моём макбуке элементарный пандас прочитает и делай с ними что хошь
да бигдата с объемом данных никак не связана, это больше про обработку данных. Мне нравится определение, что бигдата - это данные, которые отребуют особой обработки, и пример с 10гб csv как раз акцентирует внимание не на объема, а на структуре данных (что ее нет, и ее, эту структуру надо создавать) А вообще, «бигдата» - разве не менеджерское определение непонятно чего? а данные так и остаются данными, какой смысл дискуссии?

Eugene
02.09.2018
11:51:58
вышеупомянутый десятигиговый цсвшник за несколько секунд на моём макбуке элементарный пандас прочитает и делай с ними что хошь
"As Cathy O’Neil explains in Weapons of Math Destruction, we often don’t understand the data we feed into our systems and data bias is becoming a massive problem. A related problem is that of overfitting. It may sound impressive to have a model that is 99% accurate, but if it is not robust to changing conditions, you might be better off with one that is 70% accurate and simpler." Это к тому, что конец истории с бесполезной бигдатой уже произошел, зачем его продолжать в разговорах?

Артем
02.09.2018
11:52:08
запустить там я не знаю пул фронт серверов к бэкенду чтобы коннекты держать или что-то другое

Окей, со скольки ГБ начинается бигдата?
со стольки, которые не влезут в ваш сервер. именно с этой цифры начнётся ваша корпоративная бигдата

бигдата для вас и яндекса будет разной

бигдата для яндекса и гугла тоже разная

Alexander
02.09.2018
11:53:29
со стольки, которые не влезут в ваш сервер. именно с этой цифры начнётся ваша корпоративная бигдата
тут вопрос, бигдата именно по размеру данных или сложности обработки?

Dmitry
02.09.2018
11:53:45
Eugene
02.09.2018
11:54:19
со стольки, которые не влезут в ваш сервер. именно с этой цифры начнётся ваша корпоративная бигдата
Ох ) Мы тут вообще не учитываем "связность данных", т.е. csv - это не neo4j или не siren investigate. Big data начиналась как виток темы "мы алгоритмами восстановим связность данных"

Alexander
02.09.2018
11:54:28
по сути просто выходит биткоин это бигдата. 10кб данных, а вычислительных мощностей нужно огого

Google
Alexander
02.09.2018
11:55:52
Артем
02.09.2018
11:56:13
тут вопрос, бигдата именно по размеру данных или сложности обработки?
это одно и то же. если две таблицы постгреса настолько велики, что он не может их приджойнить в запросе из-за недостаточного обьема памяти - для вас настала бигдата, вам нужны особые подходы обработки и хранения. из-за того, что данные стали большие, возросла сложность

Артем
02.09.2018
11:59:03
? - Дмитрий, я бы еще добавил, что основа инструментария бигдата, это методы математической статистики, а не количество серверов, объем данных и прочее что тут ребята пишут
на самом деле, разумеется нет. бигдата это не философия и не теория относительности, у этого термина есть вполне чёткие определения. почитайте хотя бы https://en.wikipedia.org/wiki/Big_data

Eugene
02.09.2018
11:59:14
? - Дмитрий, я бы еще добавил, что основа инструментария бигдата, это методы математической статистики, а не количество серверов, объем данных и прочее что тут ребята пишут
"Восстановление связей" - это именно математика и алгоритмы. То, что для этого нужно "расплываться по серверам" - это execution, который никак не поясняет, "что именно мы там считаем". Поэтому говорить о big data с точки зрения Postgres, а не с точки зрения задачи о восстановлении связей в данных - это проф.деформация

Артем
02.09.2018
11:59:31
что это - Big data usually includes data sets with sizes beyond the ability of commonly used software tools to capture, curate, manage, and process data within a tolerable elapsed time.

сколько это - Big data "size" is a constantly moving target, as of 2012 ranging from a few dozen terabytes to many exabytes of data

кто обрабатывает - "Big data is where parallel computing tools are needed to handle data"

Alexander
02.09.2018
12:00:41
кстати, у постгреса нет лимита на размер базы или размер индекса. Если джоин не смог, то просто больше угля в топку бросать надо

кто обрабатывает - "Big data is where parallel computing tools are needed to handle data"
именно это с самого начала я и пытался выудить.

Eugene
02.09.2018
12:01:37
на самом деле, разумеется нет. бигдата это не философия и не теория относительности, у этого термина есть вполне чёткие определения. почитайте хотя бы https://en.wikipedia.org/wiki/Big_data
Думаю, пока IT-человек не послушает 5-7 лекций Черниговской или аналогичных когнитивных заходов на "данные" - всё будет ему говорить про серверы и масштабирование.

Артем
02.09.2018
12:02:32
Думаю, пока IT-человек не послушает 5-7 лекций Черниговской или аналогичных когнитивных заходов на "данные" - всё будет ему говорить про серверы и масштабирование.
думаю, что пока человек не сделает несколько систем на практике, он так и будет оперировать терминами из лекций

Eugene
02.09.2018
12:03:39
Вот из того, что быстро нашел. Это NER-результаты, хитро вывернутые в Siren. Запрос - "а покажи ка ключевые слова класса "организация" и покажи, насколько плотные вхождения"

Артем
02.09.2018
12:06:49
Ваш пример?
мой пример прост. я лично участвовал в разработке системы - аналога retail rocket или rees46

конечно скриншота с красивенькими стрелочками у меня чота нет

правда, я так и не понял, какое отношение он имеет к вопросу

Артем
02.09.2018
12:08:38
всё равно непонятно

Google
Admin
ERROR: S client not available

Dmitry
02.09.2018
12:08:57
Артем, если я жлоб и нищеброд, взял 10 бесплатных VPS вместо 1 платной, и просто храню элементарные данные на разных машинах - я становлюсь специалистом big data? ну как-то не оч

Eugene
02.09.2018
12:09:02
всё равно непонятно
http://amzn.to/2xwopag "Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy"

Alexander
02.09.2018
12:10:01
или наоборот, 1 твой vps - это 100 серверов

про облака я тут все же могу сказать все ?

Артем
02.09.2018
12:11:34
Артем, если я жлоб и нищеброд, взял 10 бесплатных VPS вместо 1 платной, и просто храню элементарные данные на разных машинах - я становлюсь специалистом big data? ну как-то не оч
если при этом используются какие-то алгоритмы пареллельной обработки данных на них - безусловно можно начать понимать чуть больше чем большинство. даже если это просто спарк и что-то учебное типа slope one

Dmitry
02.09.2018
12:12:49
Т.е. ключевой аспект - все-таки, обработка данных? а не их хранение где-либо

Max
02.09.2018
12:13:09
Dmitry
02.09.2018
12:13:12
Хранение где-либо - это абстракция, у меня данные могут быть на 1 сервере в разных базах и хранилищах

Артем
02.09.2018
12:14:34
Т.е. ключевой аспект - все-таки, обработка данных? а не их хранение где-либо
давайте попробуем взять пример поближе. вот я, например, о ужас, ни разу не запускал эликсир с несколькими нодами

знаете почему?

потому что мне это не было нужно. применительно к эликсиру хайлоад для меня начнётся когда топовая виртуалка на селектеле или мой физический сервер уже не смогут обслуживать клиентов. я поставлю второй, сделаю две ноды и буду смотреть как это работает

так же и с бигдатой. её большой обьём заставляет - не оставляет выбора - использовать особые алгоритмы и инструменты

безусловно, можно собрать кластер из десяти хадупов на 1 виртуалке и типа да. но без реальных обьёмов не столкнёшься со всем спектром проблем, включая скорость обработки

есть еще возможность оверкомита на облаке, когда кластер приложений/виртуалок по сути работает на 20% с большими ресурсами чем есть на самом деле

можно к примеру продолжить считать, что сработает вот это

за сим вынужден откланяться. думаю, кому действительно интересно, понял, о чём я

Alexander
02.09.2018
12:45:23
можно к примеру продолжить считать, что сработает вот это
мне кажется нельзя так вот писать зная что оверкоммит присутствует в хадуупе нативно с этого года и уже 6 лет, как патч.

Google
Yauheni
02.09.2018
13:53:44
Господа добрый день Подскажите ответ на такой вопрос

Я валидирую джейсон с помощью схемы которая хранится в отдельном файле Где правильно хранить этот файл в структуре приложения?

Vladislav
02.09.2018
14:04:26
/ban

Buckler
02.09.2018
15:35:48
Привет, Agretha! Пожалуйста, реши капчу: Вычисли: 64+83=... Осталось попыток: 3 Если не решишь - забаню навеки... Удачи!

Привет, Clotilda! Пожалуйста, реши капчу: Вычисли: 33+78=... Осталось попыток: 3 Если не решишь - забаню навеки... Удачи!

Привет, Carmita! Пожалуйста, реши капчу: Вычисли: 60+66=... Осталось попыток: 3 Если не решишь - забаню навеки... Удачи!

Azat
02.09.2018
17:08:41
Мм, было бы лучше 600+66

Alexey
02.09.2018
17:30:19
если ваши данные влезли на 1 ваш сервер, можно сколько угодно тешить себя, что вы работаете с бигдатой. реальность же заключается в том, что действительная потребность в особых алгоритмах появляется только тогда, когда ваши данные ну никак не уместить на 1 сервере, и никак не загрузить в оперативую память. то есть сталкиваетесь с ситуацией, когда привычные инструменты просто не работают. вы не можете приджойнить 2 таблицы в запросе, потому что они просто не лезут в память. вы не можете даже просто разместить данные на диске, так как его не хватило
мне нравится определения, где есть субъективная привязка "привычные инструменты". тут можно так всё наизнанку вывернуть. к примеру, бигдатщики постоянно обрабатывают данные, которые в память не помещаются и одной машиной не вычисляются. но, в связи с тем, что для них это не является непривычным инструментом, то это не бигдата )))) звучит так, как будто бигдата - это что-то такое недостижимое для вас, дураков

Страница 1016 из 1045