@ru_python

Страница 8015 из 9768
Костян
06.02.2019
10:43:55
В этом году запустили в России нечто подобное. Друг говорил, что они будут выдавать дипломы, аналогичные school42

Называется школа 21

Вроде это сбер организовал

Этот же друг там учился

Google
Yury
06.02.2019
10:44:42
42/2=21?

?

Zain
06.02.2019
10:44:59
Я слышал про него

Я просто принимаю другое гражданство. С ним проще поехать в США.

Костян
06.02.2019
10:46:09
Везёт?

Игорь
06.02.2019
10:46:41
из первых уст слышал о том как проходят вступительное испытание в школе 21 в сбере: вы приходите, вам дают задание, выход в интернет, ОС с частично установлным ПО, а потом делай что хочешь

Костян
06.02.2019
10:46:41
А что узнать хочешь?

Zain
06.02.2019
10:47:15
Я читал что учебную визу от них не сделать. Интересует возможность учится по B1/B2

Dark
06.02.2019
10:50:25
https://pastebin.com/VPyUavp7 код сравнивает гугл диск и папку, и если находит файл которого нет на гугл диске - он его загружает а потом удаляет с компа всё работает, но проблема в том что это модуль программы и если нет интернета он намертво зависает трай не помогает как повесит на него таймаут?

он зависает когда во время загрузки пропадает интернет

Yury
06.02.2019
10:54:13
смотри параметры либы

Dark
06.02.2019
10:54:31
там нету таймаута(

Google
Yury
06.02.2019
10:56:03
значит не теряй интернет!

Ну или вешай асинхронный код xD

Michael
06.02.2019
11:02:56
братцы, есть кто нибудь кто скрейпил веб сайты с помощью машинного обучения?

Michael
06.02.2019
11:03:50
надо распознавать что на чужой веб странице написано

типа на входе странциа - и в ней контент определенного рода - но как расформатировано и где что неясно - а на выходе все что надо найдено и в структуру данных запихано

сейчас делается через lxml

для каждого сайта свой xpath

а надо умный чтобы сам находил где что

есть кто нибудь кто умеет?

Yury
06.02.2019
11:07:00
Ну я парсил

но без мл

Michael
06.02.2019
11:07:40
ML не цель а средство. Цель - чтобы не подкручивать ничего под конкретный сайт

я могу вам в личку постучать?

pavel
06.02.2019
11:07:56
гугл наверное такое делает

Yury
06.02.2019
11:08:10
А, если не крутить под конкретный сайт то хз, не подскажу)

Michael
06.02.2019
11:08:14
гугл наверное такое делает
Ну так они же мне не расскажут как они делает

А, если не крутить под конкретный сайт то хз, не подскажу)
Под конкретный сайт я умею - lxml, xpath, regex

Yury
06.02.2019
11:08:53
Это был намек на объем работы, я думаю)

Michael
06.02.2019
11:09:01
я нафигачил примерно ту же архитектуру как у телеграма

Google
Michael
06.02.2019
11:09:49
Это был намек на объем работы, я думаю)
Да нет, у меня есть конкурент который эту задачу решил - это один человек или два

Братья и сестры, неужели нету никого кто МЛ знает?

Andrew
06.02.2019
11:15:11
Братья и сестры, неужели нету никого кто МЛ знает?
Ты наверное ждёшь готового рецепта?

pavel
06.02.2019
11:15:44
Michael
06.02.2019
11:15:54
Ты наверное ждёшь готового рецепта?
Нет. Было бы славно, но врядли найду. Надо посоветоваться по паре вопросов.

А что ожидается как помощь?
Задать пару вопросов

я ведь только начал учить МЛ и полный чайник в этом

pavel
06.02.2019
11:16:29
Ну так не проще ли их задать сейчас?

Michael
06.02.2019
11:16:46
Ну так не проще ли их задать сейчас?
Нет, потому что они узко специализированные

Денис
06.02.2019
11:17:03
Задать пару вопросов
Задаю вопрос в помощь - нужно чем-то обученным распознавать какие-то тексты на странице?

Michael
06.02.2019
11:17:18
Ладно попробую

задача - распознать ингридиенты рецепта

есть веб страница

на ней рецепт

но каждый дезайнер верстал как ему угодно

Денис
06.02.2019
11:17:57
задача - распознать ингридиенты рецепта
Одним сообщением, пожалуйста

Michael
06.02.2019
11:19:02
Одним сообщением, пожалуйста
Да конечно. уешл на 15 минут писать

Денис
06.02.2019
11:19:04
но каждый дезайнер верстал как ему угодно
Вот в обучающую выборку нужно всё это запихнуть. Штук сто страниц с метками классов. Для каждого класса - свой алгоритм парсинга. Поправьте, плез

pavel
06.02.2019
11:19:25
Нужен корпус слов, которые характеризуют рецепт. В каждом блоке по тексту ищешь как часто слова из корпуса встречаются в этом блоке. Если много - то это рецепт. Что такое много - надо определить в ручном режиме

Google
pavel
06.02.2019
11:22:19
Мл тут не нужен

Andrew
06.02.2019
11:22:24
задача - распознать ингридиенты рецепта
Алгоритмически не получилось? Ну например найти расположение рецепта в разметке, выдернуть блок

Michael
06.02.2019
11:22:47
задача - распознать ингридиенты рецепта есть веб страница, на ней рецепт. но каждый дезайнер верстал как ему угоднo, и чтмл одной страницы отличается от другой. сегодня для сайтов написан ручной парсер - на основе лхмл,xpath, regex. это позволяет сравнивать МЛ алгоритм с ожидаемым результатом для нескольких десятков сайтов - т.е. сотен рецептов, если нужно. Вопрос - какой МЛ алгоритм применить. Я опытный программист но ничего в МЛ не понимаю. Начал слушать курс. Хотелось бы понять на какие алгоритмы обратить внимание. Какие фичи могли бы быть полезны?

Алгоритмически - это как? вот есть <ul><li>5 gr salt</li></ul>

как знать что это ингредиент?

Michael
06.02.2019
11:24:40
ищи блоки с некстом где встрекаются куски рецептурных слов
Проблема - эти слова есть и в ингредиентах и в инструкциях а некоторые - в списке нутриентов и даже в заголовке

Dark
06.02.2019
11:25:15
у них разная длина размер и всё такое

Andrew
06.02.2019
11:25:53
Michael
06.02.2019
11:26:01
Мне представляется что я примерно могу сказать какие есть характеристики у всего. У инградиента чаще цифры. У инструкций больше глаголов. Но какие веса какой характеристике дать?

pavel
06.02.2019
11:27:31
Прогнать по понятным данными и посмотреть метрики

Michael
06.02.2019
11:28:29
Классификатор это кто?

Сапорт - Векторная машина (это мой кривой перевод с английского) или логистическая регрессия? Или дип лернинг?

В какую сторону идти

Там куча деталей - как данные подготавлват

Google
Денис
06.02.2019
11:32:36
Классификатор это кто?
http://www.pvsm.ru/python/284772 Очень-очень для начала

Классификатор это кто?
Короче. Классификатор - чёрный ящик, который даёт ответ на вопрос в определенной форме. "Предсказывает", похоже ли то, что ему дают на вход на один из классов, на которые он был обучен. Представим картинку с писосом. А теперь другую. Хороший классификатор на обе картинки скажет "это писос". И так можно и с другими данными.

Michael
06.02.2019
11:38:19
ага

какой алгоритм для классификатора вы бы рекомендовали

Dark
06.02.2019
11:42:20
как правильно сделать мультипроцессинг? https://pastebin.com/PPBJ7Z2g сейчас код выполняется и дойдя до 164 строки ждет максимум минуту и опять начинает работать нужно как то запустить параллельно эти процессы

Денис
06.02.2019
11:42:28
какой алгоритм для классификатора вы бы рекомендовали
Ну, вот тот же Catboost позволяет себя использовать без заморочек. Документация есть на его сайте, она на ангельском (летом была, по крайней мере), но разобраться, думаю, можно. Разве что, в терминологии могут быть проблемы.

Dark
06.02.2019
11:43:03
помогите

мне

Денис
06.02.2019
11:46:16
какой алгоритм для классификатора вы бы рекомендовали
Лучше разные пробовать, конечно, да и бустингом себя не ограничивать, глубокое обучение (нейросети) могут лучший результат дать. Но это уже по ходу выяснится. В ML нет 100% результата.

serbernar
06.02.2019
11:46:21
Tishka17
06.02.2019
11:46:44
не
А если попробовать более простую функцию в таргет?

Dark
06.02.2019
11:46:52
А что-то в логах от tryupload есть?
только печатается тру если ожидание меньше минуты

Tishka17
06.02.2019
11:47:10
только печатается тру если ожидание меньше минуты
Вообще добавь больше принтов в трайаплоад

Кажется он где-то виснет

Dark
06.02.2019
11:47:47
Кажется он где-то виснет
ну когда интернет падает он и виснет

Tishka17
06.02.2019
11:48:01
Dark
06.02.2019
11:48:11
на любой строчке которая ходит в нет

Страница 8015 из 9768