Vladislav
Vladislav
Блин, надо за выхи ищуй написать
Nikolay
Чем обработать json 17 гб?
Nikolay
Чтобы не ждать вечность
Nikolay
C++?
Nikolay
Вообще есть json файлов на 30 гб, и вот их нужно обработать и структурировать
Ayrat
Ayrat
Поэтому бигдата на csv сидит, а не на жсонах
Nikolay
Их нужно как раз подготовить
Nikolay
python, даже с либой ijson непростительно медленно работает
Ayrat
Формат текст
Nikolay
Это не моё апи
Ayrat
Грустно
x
Nikolay
Было бы конечно правильно сразу при выгрузке конвертировать в csv, но уже поздно :C
Ayrat
Nikolay
Хотя я так понимаю всё равно скорее всего упрётся всё в производительность ядра
Ayrat
Если джсон не супер вложенный, а просто массив небольших объектов, я бы свой парсер написал на ленивое чтение
Ayrat
При доле удачи, можно даже распараллелить если есть уникальный токен разделения объектов. В csv это всегда crlf
Ayrat
Если тебе повезёт, то ты сможешь найти такой токен в своём жсоне. Например символ конца объекта. Это если других вложенных объектов нет
Vladislav
У жсон нет есть апи для этого
Nikolay
https://otvet.mail.ru/api/v2/question?qid=50000
Nikolay
Такой
Nikolay
+ формат может быть разным
x
Мне кажется, или в самом деле ньютонсофта в списке нет? http://json.org/
Romɑn
Pavel
x
тьфу чёрт. да
Олег Сулима
https://www.youtube.com/watch?v=0mHspoS5Zf8&index=15&list=PLzwKsX9q9inoYZ9-OM-U_G6OmHnSHb8zb&t=223s может кому-то пригодится как формат выступления
Hog
Ayrat
заваливать парсинг гигабайтной цсвехи из-за одной говнострочки не престало!
Hog
Я лет надцать назад упоролся - взял парсер с кодпрожекта и навертел на него стримы сверху.
Hog
И такие кейсы там обрабатывались
Ayrat
я видел как парсят цсвехи в бигдате
они могут даже распределенно лежать на N HDD
её делят в виртуальном HDD (даталейк) на N кусков по офсетам и начинают парсить в N потоков (точнее головок чтения)
самое начало парсинга может попасть на междустрочье поэтому каждый поток идёт до первого переноса строки и начинает жарить
Ayrat
в теории даталейк поддерживает петабайтные файлы. Я таких не видел, но с такой системой чтения записи проблема размера не стоит
Hog
Vasily
Да цсв норм параллелится
Vasily
Главное, не завязываться на конец строки как на разделитель
x
Кажись что-то крутое https://habr.com/company/piter/blog/432416/
Ayrat
x
Статья хрень? Или типы?
Ayrat
Статья
Ayrat
Там все кончилось на arrayOfOne plus arrayOfTwo equals arrayOfThree
Ayrat
У любого вменяемого человека этот пример вызовет отторжение.
Ayrat
Так же никто не пишет
Hog
https://careers.walmart.com//us/jobs/GH1452979-senior-back-end-engineer-dublin-ireland-dublin
x
Hog
Hog
x
?
Modern office in Dublin City Centre with standing desks and whiteboard walls,
Karen
Karen
Не все пишут пьюр, увы
x
Видел такое вчера в баре
x
Спина не болела!
x
Парадокс
x
На работе-то всё болит
x
Всегда
Vasily
Никакого парадокса
Vasily
Работа не является насущной потребностью человеческого организма
Bonart
Всегда
Не всегда. В ренкапе у всех были кресла herman miller aeron. Спина не болела ни разу
Bonart
Hog
Bonart
Аэрон хорошее кресло.
Да, я до того думал что это дорогое фуфло, теперь думаю, что просто дорогое кресло
Hog
Bonart
У моей жопы тоже есть гордость
Bonart
Домой надо будет взять в итоге
x
а я пошёл другим путём и заказал мастеровой wave stool за 120 баксов. Идея в общем та же что со стоячим рабочим местом минус плоскостопие
Vladislav
Прочитал 451 по Фаренгейту, понравилась, и конец интересный
Андрей