@ru_python

Страница 6848 из 9768
Romka
26.10.2018
12:55:49
Ребят, как Правильно читать большие файлы питоном?

И как вы это делаете/делали? Где можно почитать бест практис?

?? Eugene
26.10.2018
12:56:52
построчно, байтами, смотря что за файлы

Google
?? Eugene
26.10.2018
12:57:05
объект файла - ленивый генератор

Проксимов
26.10.2018
12:57:12
Чанками
В офф доке же пример

Romka
26.10.2018
12:57:22
построчно, байтами, смотря что за файлы
ну вот есть у меня json на 1гб

нужно прочитать

Jentry
26.10.2018
12:57:44
Ребят, как Правильно читать большие файлы питоном?
в чем разница, питоном или не питоном? зависит от того, что тебе нужно, если алгоритм ленивый - можешь читать по мере необходимости, если нужен весь файл - его придется прочитать весь

ну вот есть у меня json на 1гб
тебе правда нужен весь или только некоторые поля?

Romka
26.10.2018
12:58:41
тебе правда нужен весь или только некоторые поля?
вот тут трабл, есть 1 файл на гб и есть файл на 10мб, их нужно связать

тип как товар - категория

там и там json объекты

Jentry
26.10.2018
12:59:26
тебе нужна база данных, поздравляю)

Romka
26.10.2018
12:59:37
что это выгрузка з бд

Aragaer
26.10.2018
12:59:56
значит надо делать обратно вгрузку

Google
Jentry
26.10.2018
13:00:00
засунь обратно и соедини

Romka
26.10.2018
13:00:01
мне нужно собрать в кучу и над каждым объектом провернуть кое-что

Проксимов
26.10.2018
13:00:08
Romka
26.10.2018
13:00:25
мы просили

нас послали

сказали "что есть то и даём"

Проксимов
26.10.2018
13:00:48
Перегони в свою бд

Romka
26.10.2018
13:01:26
а как скорость?

где я больше потеряю? при загрузке всего в какую-нить nosql и потом обратно или если загружу всё и сразу?

если брать в меньших маштабах, там для примера 80мб 16мб и 7мб - 3 файла

Romka
26.10.2018
13:04:57
прост у мя сейчас как, я читаю по одному объекту с первого файла, беру его индексы, запихиваю их в генератор, потом второй файл, потом третий, потом я беру каждый обьект с первого, ищу релейшены между всеми и тогда уже достаю обьект из файлового стрима и загружаю в программу

Romka
26.10.2018
13:09:21
как-то это все громоздко выглядит.
если что-то будет понятно - вот

https://pastebin.com/Exmd2Z5G

это накидал на скорую руку

Google
Romka
26.10.2018
13:09:43
"для себя"

Alex
26.10.2018
13:09:55
ужас какой. парсишь json руками?

впрочем не удивительно, с учетом размеров

Проксимов
26.10.2018
13:10:40
https://pastebin.com/Exmd2Z5G
Что-то как-то не оч

Romka
26.10.2018
13:10:49
Что-то как-то не оч
я вот тоже так думаю

Alex
26.10.2018
13:10:52
я вот тоже так думаю
https://stackoverflow.com/questions/444380/is-there-a-streaming-api-for-json

Romka
26.10.2018
13:10:55
поетому и пишу сюда

Alex
26.10.2018
13:11:37
вообще те кто выдают гигабайтные дампы базы в JSON очень сильно не правы.

It'sMe
26.10.2018
13:11:56
https://pastebin.com/Exmd2Z5G
мне очень нравятся у тебя строки type(...) is list и type(...) == dict

Alex
26.10.2018
13:11:57
т.к. JSON изначально не очень создавался для потокового парсинга.

Romka
26.10.2018
13:12:10
знаю

It'sMe
26.10.2018
13:12:20
не определился что ли? xd

Romka
26.10.2018
13:12:20
is

да

чВ

я писал его сегодня в 6 утра

It'sMe
26.10.2018
13:12:39
ладно бы ещё одинаково написал

Romka
26.10.2018
13:12:53
мне уже было похуй, лишь бы работало

Google
Alex
26.10.2018
13:13:03
Romka
26.10.2018
13:13:06
isinstance
там и такое есть

или нету

хз кароч, на очень скорую руку писал, сорри

окей, пусть я json прочитаю стримом, как мне правильно его мерджить?

Admin
ERROR: S client not available

Alex
26.10.2018
13:17:17
https://stackoverflow.com/questions/6886283/how-i-can-i-lazily-read-multiple-json-values-from-a-file-stream-in-python

Alex
26.10.2018
13:19:29
окей, пусть я json прочитаю стримом, как мне правильно его мерджить?
лучше в какую-нибудь таки базу данных его запихай.

Romka
26.10.2018
13:19:49
мне вот скорость важна

у мя вообще задача получить что-то и засунуть куда-то. Т.е. от кастомера я получаю данные в json и пихаю в нашу систему

но от кастомера мы можем получить не только json, а и xml, доступы в еластик сёрч, какую-либо бд и тд

и пихать в нашу систему нужно по маппингу

и это всё должно быть очень быстро

и в реалтайм

архитектура уже есть, базовые вещи заложили, но вот с появились json файлики на 1гб и все присели

раньше json с еластика тягали

Google
Romka
26.10.2018
13:23:20
теперь нужно с файлов

Alex
26.10.2018
13:23:52
но от кастомера мы можем получить не только json, а и xml, доступы в еластик сёрч, какую-либо бд и тд
для XML уже десяток лет есть SAX парсеры, но нужно вообще смотреть. не могу сказать насколько это будет быстрее, медленнее.

Romka
26.10.2018
13:24:30
окей, буду смотреть по дб

спасибо

Muhammadyusuf
26.10.2018
13:51:43


Tigran
26.10.2018
13:53:16
Ты не туда смотришь потому что

self.graph = {} # dictionary for graph attributes

Muhammadyusuf
26.10.2018
13:53:34
Tigran
26.10.2018
13:53:49
а куда смотрет)
G.nodes, например

документацию-то можно почитать

Muhammadyusuf
26.10.2018
13:55:02
документацию-то можно почитать
Я был на первой странице)

p4sh
26.10.2018
14:00:27
какие мысли насчет ого, что GoLang оторжрет от python нишу веб-кодинга?

Maxim
26.10.2018
14:01:03
p4sh
26.10.2018
14:01:40
django всегда будет в тренде, это 100%
я как новичек хочу узнать почему?

Maxim
26.10.2018
14:02:22
я как новичек хочу узнать почему?
Потому что django проще настроить, чем проект с нуля написать. Golang под специфичные цели используется. И еще на django очень много проектов, которые нужно поддерживать

?
26.10.2018
14:02:58
я как новичек хочу узнать почему?
python занял уже другую нишу, от создания сайтиков отходит ?

потихоньку

Maxim
26.10.2018
14:03:54
python щас рулит в машинном обучении, веб-разработке и тестировании

Страница 6848 из 9768