@ru_python

Страница 8534 из 9768
Vladimir
28.03.2019
07:21:28
да я уже там ) спасибо ))))

Ilya
28.03.2019
07:22:21
привет

Vladimir
28.03.2019
07:22:34
тоесть, если у меня таких строк тысячи, то можно было впринципе, не делить на строки, правильно? всеравно регулярка будет находить по признакам, или правильнее таки делить?

Ilya
28.03.2019
07:22:52
кто знает почему меня с этой группы выкидывает

Google
Dark
28.03.2019
07:24:07
как работать с csv на 1,5 гб? пандас ругается DtypeWarning: Columns (0,1) have mixed types. Specify dtype option on import or set low_memory=False. interactivity=interactivity, compiler=compiler, result=result)

Nikolay
28.03.2019
07:24:25
Tishka17
28.03.2019
07:24:35
типа, есть строка: Реєстраційний номероб’єкта нерухомогомайна:1369698468252Об’єкт нерухомогомайна:земельна ділянкаКадастровий номер:6825255100:01:001:0079Опис об’єкта:Площа (га): 2.152Цільове призначення:для ведення товарного сільськогосподарського виробництваАдреса:Хмельницька обл., Чемеровецький р., сщ/рада. ЧемеровецькаАктуальна інформація про державну реєстрацію іншого речового праваНомер запису про інше речове право: 22662377Дата, час державноїреєстрації:29.09.2017 15:06:14Державний реєстратор:Мозолюк Людмила Олександрівна, Комунальне підприємство"Чемеровецьке бюро нерухомості", Хмельницька обл.Підстава виникненняіншого речового права:договір оренди земельної ділянки, серія та номер: б/н, виданий09.08.2017, видавник: ТОВ “ОБОЛОНЬ АГРО”Підстава внесеннязапису:Рішення про державну реєстрацію прав та їх обтяжень (з відкриттямрозділу), індексний номер: 37408046 від 04.10.2017 18:18:09,Мозолюк Людмила Олександрівна, Комунальне підприємство"Чемеровецьке бюро нерухомості", Хмельницька обл.Вид іншого речовогоправа:право оренди земельної ділянки RRP-4HHANNPACЗміст, характеристикаіншого речового права:Строк дії: 10 роківВідомості про суб’єктаіншого речового права:Орендар: ТОВАРИСТВО З ОБМЕЖЕНОЮ ВІДПОВІДАЛЬНІСТЮ’’ОБОЛОНЬ АГРО’’, код ЄДРПОУ: 34222628 Орендодавець: Забродська Тамара МиколаївнаОпис об’єкта іншогоречового права:земельна ділянка
жесть какая

ты руками хоть можешь разделить?

Vladimir
28.03.2019
07:25:21
ты руками хоть можешь разделить?
Да руками оно делится ))) Это продолжение вчерашнего пдф ?, привет )

Dark
28.03.2019
07:25:26
Тип для столбцов неверный указал?
а я не знаю какой там тип)

Nikolay
28.03.2019
07:25:45
)0

Dark
28.03.2019
07:25:48
думаю что один строка, а второй булеан

df = pd.read_csv('list_of_exp.csv', error_bad_lines=False, index_col=False)

Tishka17
28.03.2019
07:26:10
Да руками оно делится ))) Это продолжение вчерашнего пдф ?, привет )
я бы предложил по разделителям превратить в нормальный список/списки. А потом уже искать данные

Vladimir
28.03.2019
07:27:28
У меня что-то сплит не хочет делить, сохраняя разделители )))

Nikolay
28.03.2019
07:28:04
)0

Google
Dark
28.03.2019
07:29:00
)0
помоги))

или мне во что то конвертироваь этот csv надо) потому что 1,5 гб в озу это ппц

Ilya
28.03.2019
07:29:47
меня кикают отсюда или че я не пойму ??

Сергей
28.03.2019
07:29:50
У меня что-то сплит не хочет делить, сохраняя разделители )))
А зачем сохранять разделители, если элементы уже разделены. Конечно, можно пробежаться по элементам и добавить, но не могу придумать, зачем

Vladimir
28.03.2019
07:30:31
Потому в идеале все это дело засунуть в словарь, а из словаря уже в пандас

Tishka17
28.03.2019
07:31:40
У меня что-то сплит не хочет делить, сохраняя разделители )))
сплит делит по одному разделителю. ты сам его вызвал и знаешь какой он

Сергей
28.03.2019
07:31:54
А как потом понять в какой столбик какие данные засовывать?
структура до разделения одинакова или часть атрибутов в некоторых строках может отсутствовать?

Vladimir
28.03.2019
07:32:15
Может отсутствовать, и может быть переставлена местами

В этом и проблема

Сергей
28.03.2019
07:33:15
можно увидеть одну строку до разделения?

Vladimir
28.03.2019
07:34:05
До разделения, это из пдф еще?

Сергей
28.03.2019
07:34:56
когда вытаскиваешь из pdf, то информация выглядит так? https://t.me/ru_python/853290

Vladimir
28.03.2019
07:35:02
вообще, оно выглядит вот так



я его сначала поделил по "Актуальна інформація... "

получил строки по каждой записи

Сергей
28.03.2019
07:36:31
интересует в том виде в каком ты ее достал из pdf до любой обработки

Vladimir
28.03.2019
07:39:01
Сейчас выгружу )))

интересует в том виде в каком ты ее достал из pdf до любой обработки
RRP-4HHANNPACІнформація з Державного реєстру речових прав на нерухоме майно та Реєстру праввласності на нерухоме майно, Державного реєстру Іпотек, Єдиного реєстру заборонвідчуження об’єктів нерухомого майна щодо суб’єктаНомер інформаційноїдовідки:99830294Дата, час формування:10.10.2017 11:01:05Інформаційну довідкусформовано:Соловей Мар'яна Миколаївна, Хмельницька міська рада,Хмельницька обл.Підстава формуванняінформаційної довідки:запит з реєстраційним номером: 24574842, дата і час реєстрації заяви:10.10.2017 10:59:31, заявник: Демків Олексій Михайлович, заяваПараметри запитуПошук в Державномуреєстрі речових прав нанерухоме майно про:права власності, інші речові права, іпотеки, обтяженняТип особи:юридична особаНазва:ТОВ "Оболонь Агро"ЄДРПОУ:34222628Пошук за:частковим співпадіннямВІДОМОСТІЗ ДЕРЖАВНОГО РЕЄСТРУ РЕЧОВИХ ПРАВ НА НЕРУХОМЕ МАЙНОАктуальна інформація про об’єкт нерухомого майнаРеєстраційний номероб’єкта нерухомогомайна:1369698468252Об’єкт нерухомогомайна:земельна ділянкаКадастр

Google
Student
28.03.2019
07:42:34
С рута же нельзя

Кто так вообще делает

Vladimir
28.03.2019
07:43:08
С рута же нельзя
привычка от дебиана, которая перенеслась в минт )

Tishka17
28.03.2019
07:43:35
Vladimir
28.03.2019
07:43:58
казалось бы при чем тут дебиан
там по умолчанию судо нету )))) Потому чтоб что-то поставить, надо под рутом заходить )

Edgyr Var
28.03.2019
07:44:09
Всем привет. У меня есть программа, которая работает с файлами. Для ускорения её работы я добавил многопоток с помощью threading, но не зависимо от числа потоков скорость одна

Edgyr Var
28.03.2019
07:46:50
Программа открывает шрифты, и генерирует 28х28 пикселей numpy массив

По сути создаёт картинки из букв, с разной степенью шумов

Tishka17
28.03.2019
07:48:04
ну попробуй процессы

Сергей
28.03.2019
07:48:07
RRP-4HHANNPACІнформація з Державного реєстру речових прав на нерухоме майно та Реєстру праввласності на нерухоме майно, Державного реєстру Іпотек, Єдиного реєстру заборонвідчуження об’єктів нерухомого майна щодо суб’єктаНомер інформаційноїдовідки:99830294Дата, час формування:10.10.2017 11:01:05Інформаційну довідкусформовано:Соловей Мар'яна Миколаївна, Хмельницька міська рада,Хмельницька обл.Підстава формуванняінформаційної довідки:запит з реєстраційним номером: 24574842, дата і час реєстрації заяви:10.10.2017 10:59:31, заявник: Демків Олексій Михайлович, заяваПараметри запитуПошук в Державномуреєстрі речових прав нанерухоме майно про:права власності, інші речові права, іпотеки, обтяженняТип особи:юридична особаНазва:ТОВ "Оболонь Агро"ЄДРПОУ:34222628Пошук за:частковим співпадіннямВІДОМОСТІЗ ДЕРЖАВНОГО РЕЄСТРУ РЕЧОВИХ ПРАВ НА НЕРУХОМЕ МАЙНОАктуальна інформація про об’єкт нерухомого майнаРеєстраційний номероб’єкта нерухомогомайна:1369698468252Об’єкт нерухомогомайна:земельна ділянкаКадастр
Сочувствую, судя по всему, придется практически вручную (познаково) анализировать, где кончается одна запись и начинается другая (из-за не одинаковой структурности). Возможно, кто-то знает лучше способ. Либо искать другую возможность вытащить структуру из документа. Потому что здесь просто каша текста

Edgyr Var
28.03.2019
07:48:08
Я по сути делю число файлов по потокам,и обрабатываю по отдельности.

Tishka17
28.03.2019
07:48:23
вообще, выглядит как будто у тебя основное - это рендеринг, а не работа с файалми

Edgyr Var
28.03.2019
07:48:36
ну попробуй процессы
Хорошо, только мне нужно возвращать значение

Tishka17
28.03.2019
07:48:55
вообще, наверно несколько процентов ты должен был выиграть по сравнению с одним потоком

Edgyr Var
28.03.2019
07:49:24
Там выходит только разница на уровне погрешности

Tishka17
28.03.2019
07:49:33
Хорошо, только мне нужно возвращать значение
https://docs.python.org/3.7/library/multiprocessing.html

Vladimir
28.03.2019
07:49:47
Сочувствую, судя по всему, придется практически вручную (познаково) анализировать, где кончается одна запись и начинается другая (из-за не одинаковой структурности). Возможно, кто-то знает лучше способ. Либо искать другую возможность вытащить структуру из документа. Потому что здесь просто каша текста
ну, из-за структуры пдф, там и есть каша ) допустим, по строкам я нашел признак, чтоб поделить, а вот строки чтоб разбивать, скорее всего из-за нехватки знаний прийдется нагородить огромную кучу говнокода ))))

Edgyr Var
28.03.2019
07:50:12
Я через threading значения возвращаю

Google
Edgyr Var
28.03.2019
07:50:47
Какая вообще разница между multiprocessing и threading

Tishka17
28.03.2019
07:51:01
Ну почитай

Edgyr Var
28.03.2019
07:51:20
Ок

Сергей
28.03.2019
07:52:15
Какая вообще разница между multiprocessing и threading
Почитай этой и обрати внимание на последний пример: http://toly.github.io/blog/2014/02/13/parallelism-in-one-line/

ну, из-за структуры пдф, там и есть каша ) допустим, по строкам я нашел признак, чтоб поделить, а вот строки чтоб разбивать, скорее всего из-за нехватки знаний прийдется нагородить огромную кучу говнокода ))))
Судя по всему, библиотека, которая достает текст из pdf все превращает в кашу. Нужно как то все элементы друг от друга отделить еще при чтении из pdf

Vladimir
28.03.2019
07:54:13
не, тут уже нормально сравнительно достает, если чистым pdf2txt, то тогда реально каша выходила, а тут хотя-бы данные стоят возле того признака, который к ним относится )))))

но это уже доделал костыли, чтоб оно сравнительно нормально вытягивало )

сейчас таки думаю, как это дело по словарям раскидать, а потом словари в пандас вставить

?
28.03.2019
07:54:56
Пора учить Паскаль
Real Programmers Don't Use Pascal

Mr
28.03.2019
08:01:46
Что выходит, простая регулярка?

ldm37?
28.03.2019
08:02:05
Как говорил мой дед (нет): "Если хочешь что-то выучить, то окружи себя этим, людьми, делами, разговорами".

Vladimir
28.03.2019
08:02:23
Я ж говорю, это повод подучить регулярки )))

?

Mr
28.03.2019
08:03:16
Нужен positive/negative look behind

Dark
28.03.2019
08:04:06
есть ли нормальный способ узнать есть ли запись со значением в таблице пандаса? https://pastebin.com/wrYZiern здесь csv с двумя колонками, серия и номер паспорта задача - сказать есть ли паспорт имеющий указанную серию и номер в этом csv

я это сделал но костылями

Сергей
28.03.2019
08:04:24
Google
Tishka17
28.03.2019
08:04:46
вы pandas юзаете просто чтобы csv прочитать что ли?

Страница 8534 из 9768