
Romka
26.10.2018
12:55:49
Ребят, как Правильно читать большие файлы питоном?
И как вы это делаете/делали? Где можно почитать бест практис?

Проксимов
26.10.2018
12:56:52

?? Eugene
26.10.2018
12:56:52
построчно, байтами, смотря что за файлы

Google

?? Eugene
26.10.2018
12:57:05
объект файла - ленивый генератор

Проксимов
26.10.2018
12:57:12

Romka
26.10.2018
12:57:22
нужно прочитать

Jentry
26.10.2018
12:57:44

Romka
26.10.2018
12:58:41
тип как товар - категория
там и там json объекты

Jentry
26.10.2018
12:59:26
тебе нужна база данных, поздравляю)

Romka
26.10.2018
12:59:37
что это выгрузка з бд

Aragaer
26.10.2018
12:59:56
значит надо делать обратно вгрузку

Google

Проксимов
26.10.2018
12:59:59

Jentry
26.10.2018
13:00:00
засунь обратно и соедини

Romka
26.10.2018
13:00:01
мне нужно собрать в кучу и над каждым объектом провернуть кое-что

Проксимов
26.10.2018
13:00:08

Romka
26.10.2018
13:00:25
мы просили
нас послали
сказали "что есть то и даём"

Проксимов
26.10.2018
13:00:48
Перегони в свою бд

Romka
26.10.2018
13:01:26
а как скорость?
где я больше потеряю? при загрузке всего в какую-нить nosql и потом обратно или если загружу всё и сразу?
если брать в меньших маштабах, там для примера 80мб 16мб и 7мб - 3 файла

Проксимов
26.10.2018
13:03:30

Romka
26.10.2018
13:04:57
прост у мя сейчас как, я читаю по одному объекту с первого файла, беру его индексы, запихиваю их в генератор, потом второй файл, потом третий, потом я беру каждый обьект с первого, ищу релейшены между всеми и тогда уже достаю обьект из файлового стрима и загружаю в программу

Alex
26.10.2018
13:08:29

Romka
26.10.2018
13:09:21
https://pastebin.com/Exmd2Z5G
это накидал на скорую руку

Google

Romka
26.10.2018
13:09:43
"для себя"

Alex
26.10.2018
13:09:55
ужас какой. парсишь json руками?
впрочем не удивительно, с учетом размеров

Romka
26.10.2018
13:10:12

Проксимов
26.10.2018
13:10:40

Romka
26.10.2018
13:10:49

Alex
26.10.2018
13:10:52

Romka
26.10.2018
13:10:55
поетому и пишу сюда

Alex
26.10.2018
13:11:37
вообще те кто выдают гигабайтные дампы базы в JSON очень сильно не правы.

It'sMe
26.10.2018
13:11:56

Alex
26.10.2018
13:11:57
т.к. JSON изначально не очень создавался для потокового парсинга.

Romka
26.10.2018
13:12:08

Romka
26.10.2018
13:12:10
знаю

It'sMe
26.10.2018
13:12:20
не определился что ли? xd

Romka
26.10.2018
13:12:20
is
да
чВ
я писал его сегодня в 6 утра

It'sMe
26.10.2018
13:12:39
ладно бы ещё одинаково написал

Romka
26.10.2018
13:12:53
мне уже было похуй, лишь бы работало

Google

Alex
26.10.2018
13:13:03

Romka
26.10.2018
13:13:06
или нету
хз кароч, на очень скорую руку писал, сорри
окей, пусть я json прочитаю стримом, как мне правильно его мерджить?

Admin
ERROR: S client not available

Alex
26.10.2018
13:17:17
https://stackoverflow.com/questions/6886283/how-i-can-i-lazily-read-multiple-json-values-from-a-file-stream-in-python

Romka
26.10.2018
13:17:48
и splitstream

Alex
26.10.2018
13:19:29

Romka
26.10.2018
13:19:49
мне вот скорость важна
у мя вообще задача получить что-то и засунуть куда-то. Т.е. от кастомера я получаю данные в json и пихаю в нашу систему
но от кастомера мы можем получить не только json, а и xml, доступы в еластик сёрч, какую-либо бд и тд
и пихать в нашу систему нужно по маппингу
и это всё должно быть очень быстро
и в реалтайм
архитектура уже есть, базовые вещи заложили, но вот с появились json файлики на 1гб и все присели
раньше json с еластика тягали

Google

Romka
26.10.2018
13:23:20
теперь нужно с файлов

Alex
26.10.2018
13:23:52

Romka
26.10.2018
13:24:30
окей, буду смотреть по дб
спасибо

Muhammadyusuf
26.10.2018
13:51:43

Tigran
26.10.2018
13:53:16
Ты не туда смотришь потому что
self.graph = {} # dictionary for graph attributes

Muhammadyusuf
26.10.2018
13:53:34

Tigran
26.10.2018
13:53:49
документацию-то можно почитать

Muhammadyusuf
26.10.2018
13:55:02

p4sh
26.10.2018
14:00:27
какие мысли насчет ого, что GoLang оторжрет от python нишу веб-кодинга?

Maxim
26.10.2018
14:01:03

p4sh
26.10.2018
14:01:40

Maxim
26.10.2018
14:02:22
я как новичек хочу узнать почему?
Потому что django проще настроить, чем проект с нуля написать. Golang под специфичные цели используется. И еще на django очень много проектов, которые нужно поддерживать

?
26.10.2018
14:02:58
потихоньку

Maxim
26.10.2018
14:03:54
python щас рулит в машинном обучении, веб-разработке и тестировании