Vologymyr
Vologymyr
я его сначала поделил по "Актуальна інформація... "
Vologymyr
получил строки по каждой записи
Sergey
интересует в том виде в каком ты ее достал из pdf до любой обработки
Vologymyr
Сейчас выгружу )))
Vologymyr
интересует в том виде в каком ты ее достал из pdf до любой обработки
RRP-4HHANNPACІнформація з Державного реєстру речових прав на нерухоме майно та Реєстру праввласності на нерухоме майно, Державного реєстру Іпотек, Єдиного реєстру заборонвідчуження об’єктів нерухомого майна щодо суб’єктаНомер інформаційноїдовідки:99830294Дата, час формування:10.10.2017 11:01:05Інформаційну довідкусформовано:Соловей Мар'яна Миколаївна, Хмельницька міська рада,Хмельницька обл.Підстава формуванняінформаційної довідки:запит з реєстраційним номером: 24574842, дата і час реєстрації заяви:10.10.2017 10:59:31, заявник: Демків Олексій Михайлович, заяваПараметри запитуПошук в Державномуреєстрі речових прав нанерухоме майно про:права власності, інші речові права, іпотеки, обтяженняТип особи:юридична особаНазва:ТОВ "Оболонь Агро"ЄДРПОУ:34222628Пошук за:частковим співпадіннямВІДОМОСТІЗ ДЕРЖАВНОГО РЕЄСТРУ РЕЧОВИХ ПРАВ НА НЕРУХОМЕ МАЙНОАктуальна інформація про об’єкт нерухомого майнаРеєстраційний номероб’єкта нерухомогомайна:1369698468252Об’єкт нерухомогомайна:земельна ділянкаКадастр
Anonymous
С рута же нельзя
Anonymous
Кто так вообще делает
Vologymyr
С рута же нельзя
привычка от дебиана, которая перенеслась в минт )
Tishka17
Vologymyr
казалось бы при чем тут дебиан
там по умолчанию судо нету )))) Потому чтоб что-то поставить, надо под рутом заходить )
adamfull
Всем привет. У меня есть программа, которая работает с файлами. Для ускорения её работы я добавил многопоток с помощью threading, но не зависимо от числа потоков скорость одна
Tishka17
треды в питоне тебе дадут ускорение только если много ждешь ввод вывод
adamfull
Программа открывает шрифты, и генерирует 28х28 пикселей numpy массив
adamfull
По сути создаёт картинки из букв, с разной степенью шумов
Tishka17
ну попробуй процессы
Sergey
RRP-4HHANNPACІнформація з Державного реєстру речових прав на нерухоме майно та Реєстру праввласності на нерухоме майно, Державного реєстру Іпотек, Єдиного реєстру заборонвідчуження об’єктів нерухомого майна щодо суб’єктаНомер інформаційноїдовідки:99830294Дата, час формування:10.10.2017 11:01:05Інформаційну довідкусформовано:Соловей Мар'яна Миколаївна, Хмельницька міська рада,Хмельницька обл.Підстава формуванняінформаційної довідки:запит з реєстраційним номером: 24574842, дата і час реєстрації заяви:10.10.2017 10:59:31, заявник: Демків Олексій Михайлович, заяваПараметри запитуПошук в Державномуреєстрі речових прав нанерухоме майно про:права власності, інші речові права, іпотеки, обтяженняТип особи:юридична особаНазва:ТОВ "Оболонь Агро"ЄДРПОУ:34222628Пошук за:частковим співпадіннямВІДОМОСТІЗ ДЕРЖАВНОГО РЕЄСТРУ РЕЧОВИХ ПРАВ НА НЕРУХОМЕ МАЙНОАктуальна інформація про об’єкт нерухомого майнаРеєстраційний номероб’єкта нерухомогомайна:1369698468252Об’єкт нерухомогомайна:земельна ділянкаКадастр
Сочувствую, судя по всему, придется практически вручную (познаково) анализировать, где кончается одна запись и начинается другая (из-за не одинаковой структурности). Возможно, кто-то знает лучше способ. Либо искать другую возможность вытащить структуру из документа. Потому что здесь просто каша текста
adamfull
Я по сути делю число файлов по потокам,и обрабатываю по отдельности.
Tishka17
вообще, выглядит как будто у тебя основное - это рендеринг, а не работа с файалми
adamfull
ну попробуй процессы
Хорошо, только мне нужно возвращать значение
Tishka17
вообще, наверно несколько процентов ты должен был выиграть по сравнению с одним потоком
adamfull
Там выходит только разница на уровне погрешности
Tishka17
Хорошо, только мне нужно возвращать значение
https://docs.python.org/3.7/library/multiprocessing.html
Vologymyr
Сочувствую, судя по всему, придется практически вручную (познаково) анализировать, где кончается одна запись и начинается другая (из-за не одинаковой структурности). Возможно, кто-то знает лучше способ. Либо искать другую возможность вытащить структуру из документа. Потому что здесь просто каша текста
ну, из-за структуры пдф, там и есть каша ) допустим, по строкам я нашел признак, чтоб поделить, а вот строки чтоб разбивать, скорее всего из-за нехватки знаний прийдется нагородить огромную кучу говнокода ))))
adamfull
Я через threading значения возвращаю
adamfull
Какая вообще разница между multiprocessing и threading
Tishka17
Ну почитай
adamfull
Ок
Sergey
Какая вообще разница между multiprocessing и threading
Почитай этой и обрати внимание на последний пример: http://toly.github.io/blog/2014/02/13/parallelism-in-one-line/
Sergey
ну, из-за структуры пдф, там и есть каша ) допустим, по строкам я нашел признак, чтоб поделить, а вот строки чтоб разбивать, скорее всего из-за нехватки знаний прийдется нагородить огромную кучу говнокода ))))
Судя по всему, библиотека, которая достает текст из pdf все превращает в кашу. Нужно как то все элементы друг от друга отделить еще при чтении из pdf
Vologymyr
не, тут уже нормально сравнительно достает, если чистым pdf2txt, то тогда реально каша выходила, а тут хотя-бы данные стоят возле того признака, который к ним относится )))))
Vologymyr
но это уже доделал костыли, чтоб оно сравнительно нормально вытягивало )
Vologymyr
сейчас таки думаю, как это дело по словарям раскидать, а потом словари в пандас вставить
Co(n)stantine👨‍🔬
Пора учить Паскаль
Real Programmers Don't Use Pascal
Mr Smith
Что выходит, простая регулярка?
Anonymous
Как говорил мой дед (нет): "Если хочешь что-то выучить, то окружи себя этим, людьми, делами, разговорами".
Vologymyr
Я ж говорю, это повод подучить регулярки )))
Vologymyr
😊
Mr Smith
Нужен positive/negative look behind
Anonymous
есть ли нормальный способ узнать есть ли запись со значением в таблице пандаса? https://pastebin.com/wrYZiern здесь csv с двумя колонками, серия и номер паспорта задача - сказать есть ли паспорт имеющий указанную серию и номер в этом csv
Anonymous
я это сделал но костылями
Tishka17
вы pandas юзаете просто чтобы csv прочитать что ли?
Vospitan
Нет, если еще в ней таблица
Anonymous
Ща мне показали чатик, в котором всё серьезно так, что я чутка завалил. @Saluev это к вопросу про профессиональные чатики.
Vologymyr
вы pandas юзаете просто чтобы csv прочитать что ли?
Не, чтоб потом общую площадь вывести, количество, и по желанию пользователя в какую-то сводную засунуть ))) ну, и в этом случае просто для практики, поскольку с ним уже больше чем с эксклями дружу )))
Vospitan
Но каждая из них по чуть чуть чтото делает
Anonymous
питон его не осиливает
Vospitan
Я в хтмл преобразовывал
Tishka17
питон его не осиливает
ну такой как у тебя csv можно по строкам читать вообще. но ок
Александр
он 1,5гб весит
А вы весь файл в память пытаетесь засунуть? Извращенцы.
Александр
а как не засовывать
По кусочкам считывать, по кусочкам обрабатывать, по кусочкам сохранять
Anonymous
Бан на час при входе, правил тьма, все вопросы хештегами. Это чатик по психиатрии, где как мне сказали, тусуются очень крутые специалисты.
Александр
как
Серьёзно? Вы не знаете как прочесть текстовый файл построчно?
Tishka17
а как
def has_password(number, serial): with open(“list_of_expired_passports.csv”) as f: return any(x.split(“,”)[1:] == (numebr, serial) for x in f)
Anonymous
О, ну это очень специфическая сфера. Там небось у половины участников проблемки)
Психиатры - не психологи, камон. Вообще, почти весь медицинский кластер телеги очень суров по требованиям.
Vospitan
Csv это лучше но если его получили после преобразователя это не лучше ткст версии
Vospitan
В свое время я пытался преобразовать пдф в хтмл, путного ничего не вышло
Vospitan
Оказалось лучше прогнать через FR в хтмл, а поточ копать
Anonymous
А, ну, может, это потому что их осаждают всякие страждущие.
Или потому что формально они хоть и не несут ответвенность за диагноз, по дефакто - да.
Anonymous
Или чтобы кто то туда попросился