@proelixir

« Назад

Страница 1016 из 1045

Далее »

Артем

02.09.2018
10:42:10

Я вот вы вместо углубленного изучение философию какую-то добавили

Alexander

02.09.2018
10:42:35

Я не запутался, я с этой областью работаю лет 5 а не пару статеек прочитал

значит есть чем поделиться, но все же нельзя слепо заявлять что все тут идиоты

мои знания далеко не идеальны и я рад узнать что-то новое, но подменять понятия не надо

Артем

02.09.2018
10:43:29

А я и не говорил что все. но ваш пример с 10 гигами csv очень забавен, мимо пройти ну никак

Google

Eugene

02.09.2018
10:46:01

Больши́е да́нные (англ. big data, [ˈbɪɡ ˈdeɪtə]) — обозначение структурированных и неструктурированных данных огромных объёмов и значительного многообразия, эффективно обрабатываемых горизонтально масштабируемыми программными инструментами, появившимися в конце 2000-х годов и альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence[1][2][3].

Это технологический аспект, а есть и организационный ("данные, позволяющие восстановить такие позиции стейкхолдеров и их аспекты, которые раньше были не заметны"), и аналитический ("извлечение из "незнания о незнании" аспектов "знания о незнании").

Alexander

02.09.2018
10:47:04

А я и не говорил что все. но ваш пример с 10 гигами csv очень забавен, мимо пройти ну никак

рад что развлек

ладно, хватит письками меряться. @artem_pankov распиши общие понятия, нет из вики

мне и всем кто тут есть будет полезно

все же у нас чатик для обмена опытом

буду первым и напишу - горизонтальное масштабирование инструментов это не запуск на 2х и более “машинах”.

Артем

02.09.2018
11:22:18

буду первым и напишу - горизонтальное масштабирование инструментов это не запуск на 2х и более “машинах”.

разумеется, горизонтальное масштабирование - это кластер из 2х и более машин, вполне себе физических

общие понятия очень просты

Alexander

02.09.2018
11:25:11

ну вот опять

Артем

02.09.2018
11:25:12

если ваши данные влезли на 1 ваш сервер, можно сколько угодно тешить себя, что вы работаете с бигдатой. реальность же заключается в том, что действительная потребность в особых алгоритмах появляется только тогда, когда ваши данные ну никак не уместить на 1 сервере, и никак не загрузить в оперативую память. то есть сталкиваетесь с ситуацией, когда привычные инструменты просто не работают. вы не можете приджойнить 2 таблицы в запросе, потому что они просто не лезут в память. вы не можете даже просто разместить данные на диске, так как его не хватило

Alexander

02.09.2018
11:26:06

я не просто так написал - масштабирование инструментов

Артем

02.09.2018
11:26:10

а так-то да, можно запустить десять хадупов даже на одной виртуалке и с умным видом рассказывать вечером друзьям за пивом о том что вы теперь дата сатанист)) ну или как греф с умным видом на конференции затереть

только....

Google

Артем

02.09.2018
11:27:12

вышеупомянутый десятигиговый цсвшник за несколько секунд на моём макбуке элементарный пандас прочитает и делай с ними что хошь

Eugene

02.09.2018
11:45:51

если ваши данные влезли на 1 ваш сервер, можно сколько угодно тешить себя, что вы работаете с бигдатой. реальность же заключается в том, что действительная потребность в особых алгоритмах появляется только тогда, когда ваши данные ну никак не уместить на 1 сервере, и никак не загрузить в оперативую память. то есть сталкиваетесь с ситуацией, когда привычные инструменты просто не работают. вы не можете приджойнить 2 таблицы в запросе, потому что они просто не лезут в память. вы не можете даже просто разместить данные на диске, так как его не хватило

Вы тут точно про bigdata говорите?

Dmitry

02.09.2018
11:46:10

если ваши данные влезли на 1 ваш сервер, можно сколько угодно тешить себя, что вы работаете с бигдатой. реальность же заключается в том, что действительная потребность в особых алгоритмах появляется только тогда, когда ваши данные ну никак не уместить на 1 сервере, и никак не загрузить в оперативую память. то есть сталкиваетесь с ситуацией, когда привычные инструменты просто не работают. вы не можете приджойнить 2 таблицы в запросе, потому что они просто не лезут в память. вы не можете даже просто разместить данные на диске, так как его не хватило

Как-то за уши притянуто, 1 сервер может иметь бесконечно много памяти и ресурсов

Alexander

02.09.2018
11:46:46

я все же еще раз хочу отметить, что есть недопонимание, что есть машина и какая связь есть с железом. Дело в том, что сейчас облака строят на RDS и все железо по сути является свободным пуллом. Хочешь 1 CPU, хочешь 100. Горизонтальное масштабирование в наше время это именно кластеризация процесов, в то время, как железо отходит на второй план.

я не просто так заострял внимание на этом моменте, а именно из-за знаний построения облаков и горизонтального масштабирования на них.

есть еще возможность оверкомита на облаке, когда кластер приложений/виртуалок по сути работает на 20% с большими ресурсами чем есть на самом деле

Артем

02.09.2018
11:49:42

Как-то за уши притянуто, 1 сервер может иметь бесконечно много памяти и ресурсов

безусловно. в компании, в которой работает бесконечное количество сотрудников, каждый из которых получает бесконечную зарплату, явно есть бесконечное количество серверов, на каждом из которые бесконечное количество памяти

я все же еще раз хочу отметить, что есть недопонимание, что есть машина и какая связь есть с железом. Дело в том, что сейчас облака строят на RDS и все железо по сути является свободным пуллом. Хочешь 1 CPU, хочешь 100. Горизонтальное масштабирование в наше время это именно кластеризация процесов, в то время, как железо отходит на второй план.

эффективная обработка данных возможна только на физических машинах, где данные прочитались с массива, попали в оперативную память и их обработали ядра именно этого сервера. вся эта облачная лажа абсолютно для других, элементарых и не тяжелых задач

Dmitry

02.09.2018
11:51:22

вышеупомянутый десятигиговый цсвшник за несколько секунд на моём макбуке элементарный пандас прочитает и делай с ними что хошь

да бигдата с объемом данных никак не связана, это больше про обработку данных. Мне нравится определение, что бигдата - это данные, которые отребуют особой обработки, и пример с 10гб csv как раз акцентирует внимание не на объема, а на структуре данных (что ее нет, и ее, эту структуру надо создавать) А вообще, «бигдата» - разве не менеджерское определение непонятно чего? а данные так и остаются данными, какой смысл дискуссии?

безусловно. в компании, в которой работает бесконечное количество сотрудников, каждый из которых получает бесконечную зарплату, явно есть бесконечное количество серверов, на каждом из которые бесконечное количество памяти

Окей, со скольки ГБ начинается бигдата?

Eugene

02.09.2018
11:51:58

вышеупомянутый десятигиговый цсвшник за несколько секунд на моём макбуке элементарный пандас прочитает и делай с ними что хошь

"As Cathy O’Neil explains in Weapons of Math Destruction, we often don’t understand the data we feed into our systems and data bias is becoming a massive problem. A related problem is that of overfitting. It may sound impressive to have a model that is 99% accurate, but if it is not robust to changing conditions, you might be better off with one that is 70% accurate and simpler." Это к тому, что конец истории с бесполезной бигдатой уже произошел, зачем его продолжать в разговорах?

Артем

02.09.2018
11:52:08

запустить там я не знаю пул фронт серверов к бэкенду чтобы коннекты держать или что-то другое

Окей, со скольки ГБ начинается бигдата?

со стольки, которые не влезут в ваш сервер. именно с этой цифры начнётся ваша корпоративная бигдата

бигдата для вас и яндекса будет разной

бигдата для яндекса и гугла тоже разная

Alexander

02.09.2018
11:53:29

со стольки, которые не влезут в ваш сервер. именно с этой цифры начнётся ваша корпоративная бигдата

тут вопрос, бигдата именно по размеру данных или сложности обработки?

Dmitry

02.09.2018
11:53:45

со стольки, которые не влезут в ваш сервер. именно с этой цифры начнётся ваша корпоративная бигдата

это просто распределенные данные получаются, почему «бигдата»?

Eugene

02.09.2018
11:54:19

со стольки, которые не влезут в ваш сервер. именно с этой цифры начнётся ваша корпоративная бигдата

Ох ) Мы тут вообще не учитываем "связность данных", т.е. csv - это не neo4j или не siren investigate. Big data начиналась как виток темы "мы алгоритмами восстановим связность данных"

Alexander

02.09.2018
11:54:28

по сути просто выходит биткоин это бигдата. 10кб данных, а вычислительных мощностей нужно огого

Ох ) Мы тут вообще не учитываем "связность данных", т.е. csv - это не neo4j или не siren investigate. Big data начиналась как виток темы "мы алгоритмами восстановим связность данных"

вот это я все пытался выразить, спасибо

Google

Alexander

02.09.2018
11:55:52

бигдата для вас и яндекса будет разной

тоже отлично

Артем

02.09.2018
11:56:13

тут вопрос, бигдата именно по размеру данных или сложности обработки?

это одно и то же. если две таблицы постгреса настолько велики, что он не может их приджойнить в запросе из-за недостаточного обьема памяти - для вас настала бигдата, вам нужны особые подходы обработки и хранения. из-за того, что данные стали большие, возросла сложность

Artem

02.09.2018
11:56:34

да бигдата с объемом данных никак не связана, это больше про обработку данных. Мне нравится определение, что бигдата - это данные, которые отребуют особой обработки, и пример с 10гб csv как раз акцентирует внимание не на объема, а на структуре данных (что ее нет, и ее, эту структуру надо создавать) А вообще, «бигдата» - разве не менеджерское определение непонятно чего? а данные так и остаются данными, какой смысл дискуссии?

? - Дмитрий, я бы еще добавил, что основа инструментария бигдата, это методы математической статистики, а не количество серверов, объем данных и прочее что тут ребята пишут

Артем

02.09.2018
11:59:03

? - Дмитрий, я бы еще добавил, что основа инструментария бигдата, это методы математической статистики, а не количество серверов, объем данных и прочее что тут ребята пишут

на самом деле, разумеется нет. бигдата это не философия и не теория относительности, у этого термина есть вполне чёткие определения. почитайте хотя бы https://en.wikipedia.org/wiki/Big_data

Eugene

02.09.2018
11:59:14

? - Дмитрий, я бы еще добавил, что основа инструментария бигдата, это методы математической статистики, а не количество серверов, объем данных и прочее что тут ребята пишут

"Восстановление связей" - это именно математика и алгоритмы. То, что для этого нужно "расплываться по серверам" - это execution, который никак не поясняет, "что именно мы там считаем". Поэтому говорить о big data с точки зрения Postgres, а не с точки зрения задачи о восстановлении связей в данных - это проф.деформация

Артем

02.09.2018
11:59:31

что это - Big data usually includes data sets with sizes beyond the ability of commonly used software tools to capture, curate, manage, and process data within a tolerable elapsed time.

сколько это - Big data "size" is a constantly moving target, as of 2012 ranging from a few dozen terabytes to many exabytes of data

кто обрабатывает - "Big data is where parallel computing tools are needed to handle data"

Alexander

02.09.2018
12:00:41

кстати, у постгреса нет лимита на размер базы или размер индекса. Если джоин не смог, то просто больше угля в топку бросать надо

кто обрабатывает - "Big data is where parallel computing tools are needed to handle data"

именно это с самого начала я и пытался выудить.

Eugene

02.09.2018
12:01:37

на самом деле, разумеется нет. бигдата это не философия и не теория относительности, у этого термина есть вполне чёткие определения. почитайте хотя бы https://en.wikipedia.org/wiki/Big_data

Думаю, пока IT-человек не послушает 5-7 лекций Черниговской или аналогичных когнитивных заходов на "данные" - всё будет ему говорить про серверы и масштабирование.

Артем

02.09.2018
12:02:32

Думаю, пока IT-человек не послушает 5-7 лекций Черниговской или аналогичных когнитивных заходов на "данные" - всё будет ему говорить про серверы и масштабирование.

думаю, что пока человек не сделает несколько систем на практике, он так и будет оперировать терминами из лекций

Eugene

02.09.2018
12:03:39

думаю, что пока человек не сделает несколько систем на практике, он так и будет оперировать терминами из лекций

Ага, давайте примерами обменяемся

Вот из того, что быстро нашел. Это NER-результаты, хитро вывернутые в Siren. Запрос - "а покажи ка ключевые слова класса "организация" и покажи, насколько плотные вхождения"

думаю, что пока человек не сделает несколько систем на практике, он так и будет оперировать терминами из лекций

Ваш пример?

Артем

02.09.2018
12:06:49

Ваш пример?

мой пример прост. я лично участвовал в разработке системы - аналога retail rocket или rees46

конечно скриншота с красивенькими стрелочками у меня чота нет

правда, я так и не понял, какое отношение он имеет к вопросу

Eugene

02.09.2018
12:07:58

"As Cathy O’Neil explains in Weapons of Math Destruction, we often don’t understand the data we feed into our systems and data bias is becoming a massive problem. A related problem is that of overfitting. It may sound impressive to have a model that is 99% accurate, but if it is not robust to changing conditions, you might be better off with one that is 70% accurate and simpler." Это к тому, что конец истории с бесполезной бигдатой уже произошел, зачем его продолжать в разговорах?

Я напомню, к чему я вёл: "data bias is becoming a massive problem"

Артем

02.09.2018
12:08:38

всё равно непонятно

Google

Admin

ERROR: S client not available

Dmitry

02.09.2018
12:08:57

Артем, если я жлоб и нищеброд, взял 10 бесплатных VPS вместо 1 платной, и просто храню элементарные данные на разных машинах - я становлюсь специалистом big data? ну как-то не оч

Eugene

02.09.2018
12:09:02

всё равно непонятно

http://amzn.to/2xwopag "Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy"

Alexander

02.09.2018
12:10:01

Артем, если я жлоб и нищеброд, взял 10 бесплатных VPS вместо 1 платной, и просто храню элементарные данные на разных машинах - я становлюсь специалистом big data? ну как-то не оч

слава rds, возможно все твои vps внутри 1 дохлого сервера

или наоборот, 1 твой vps - это 100 серверов

про облака я тут все же могу сказать все ?

Артем

02.09.2018
12:11:34

Артем, если я жлоб и нищеброд, взял 10 бесплатных VPS вместо 1 платной, и просто храню элементарные данные на разных машинах - я становлюсь специалистом big data? ну как-то не оч

если при этом используются какие-то алгоритмы пареллельной обработки данных на них - безусловно можно начать понимать чуть больше чем большинство. даже если это просто спарк и что-то учебное типа slope one

Alexander

02.09.2018
12:12:39

если при этом используются какие-то алгоритмы пареллельной обработки данных на них - безусловно можно начать понимать чуть больше чем большинство. даже если это просто спарк и что-то учебное типа slope one

“если ваши данные влезли на 1 ваш сервер, можно сколько угодно тешить себя, что вы работаете с бигдатой”

Dmitry

02.09.2018
12:12:49

Т.е. ключевой аспект - все-таки, обработка данных? а не их хранение где-либо

Max

02.09.2018
12:13:09

Привет. Я правильно понимаю, Ecto - это реализация DataMapper, не ActiveRecord паттерна?

не совсем. https://groups.google.com/forum/#!topic/elixir-ecto/CSC3ZRbJ9cU

Dmitry

02.09.2018
12:13:12

Хранение где-либо - это абстракция, у меня данные могут быть на 1 сервере в разных базах и хранилищах

Артем

02.09.2018
12:14:34

Т.е. ключевой аспект - все-таки, обработка данных? а не их хранение где-либо

давайте попробуем взять пример поближе. вот я, например, о ужас, ни разу не запускал эликсир с несколькими нодами

знаете почему?

потому что мне это не было нужно. применительно к эликсиру хайлоад для меня начнётся когда топовая виртуалка на селектеле или мой физический сервер уже не смогут обслуживать клиентов. я поставлю второй, сделаю две ноды и буду смотреть как это работает

так же и с бигдатой. её большой обьём заставляет - не оставляет выбора - использовать особые алгоритмы и инструменты

безусловно, можно собрать кластер из десяти хадупов на 1 виртуалке и типа да. но без реальных обьёмов не столкнёшься со всем спектром проблем, включая скорость обработки

есть еще возможность оверкомита на облаке, когда кластер приложений/виртуалок по сути работает на 20% с большими ресурсами чем есть на самом деле

можно к примеру продолжить считать, что сработает вот это

за сим вынужден откланяться. думаю, кому действительно интересно, понял, о чём я

Alexander

02.09.2018
12:45:23

можно к примеру продолжить считать, что сработает вот это

мне кажется нельзя так вот писать зная что оверкоммит присутствует в хадуупе нативно с этого года и уже 6 лет, как патч.

Google

Yauheni

02.09.2018
13:53:44

Господа добрый день Подскажите ответ на такой вопрос

Я валидирую джейсон с помощью схемы которая хранится в отдельном файле Где правильно хранить этот файл в структуре приложения?

Vladislav

02.09.2018
14:04:26

/ban

Fey

02.09.2018
14:46:31

Я валидирую джейсон с помощью схемы которая хранится в отдельном файле Где правильно хранить этот файл в структуре приложения?

где-нибудь в /priv

Buckler

02.09.2018
15:35:48

Привет, Agretha! Пожалуйста, реши капчу: Вычисли: 64+83=... Осталось попыток: 3 Если не решишь - забаню навеки... Удачи!

Привет, Clotilda! Пожалуйста, реши капчу: Вычисли: 33+78=... Осталось попыток: 3 Если не решишь - забаню навеки... Удачи!

Привет, Carmita! Пожалуйста, реши капчу: Вычисли: 60+66=... Осталось попыток: 3 Если не решишь - забаню навеки... Удачи!

Azat

02.09.2018
17:08:41

Мм, было бы лучше 600+66

Alexey

02.09.2018
17:30:19

если ваши данные влезли на 1 ваш сервер, можно сколько угодно тешить себя, что вы работаете с бигдатой. реальность же заключается в том, что действительная потребность в особых алгоритмах появляется только тогда, когда ваши данные ну никак не уместить на 1 сервере, и никак не загрузить в оперативую память. то есть сталкиваетесь с ситуацией, когда привычные инструменты просто не работают. вы не можете приджойнить 2 таблицы в запросе, потому что они просто не лезут в память. вы не можете даже просто разместить данные на диске, так как его не хватило

мне нравится определения, где есть субъективная привязка "привычные инструменты". тут можно так всё наизнанку вывернуть. к примеру, бигдатщики постоянно обрабатывают данные, которые в память не помещаются и одной машиной не вычисляются. но, в связи с тем, что для них это не является непривычным инструментом, то это не бигдата )))) звучит так, как будто бигдата - это что-то такое недостижимое для вас, дураков

« Назад

Страница 1016 из 1045

Далее »

Открыть в Telegram