
Костян
06.02.2019
10:43:55
В этом году запустили в России нечто подобное. Друг говорил, что они будут выдавать дипломы, аналогичные school42
Называется школа 21
Вроде это сбер организовал
Этот же друг там учился

Google

Yury
06.02.2019
10:44:42
42/2=21?
?

Zain
06.02.2019
10:44:59
Я слышал про него
Я просто принимаю другое гражданство. С ним проще поехать в США.

Костян
06.02.2019
10:46:09
Везёт?

Игорь
06.02.2019
10:46:41
из первых уст слышал о том как проходят вступительное испытание в школе 21 в сбере: вы приходите, вам дают задание, выход в интернет, ОС с частично установлным ПО, а потом делай что хочешь

Костян
06.02.2019
10:46:41
А что узнать хочешь?

Zain
06.02.2019
10:47:15
Я читал что учебную визу от них не сделать. Интересует возможность учится по B1/B2

Dark
06.02.2019
10:50:25
https://pastebin.com/VPyUavp7
код сравнивает гугл диск и папку, и если находит файл которого нет на гугл диске - он его загружает а потом удаляет с компа
всё работает, но проблема в том что это модуль программы и если нет интернета он намертво зависает
трай не помогает
как повесит на него таймаут?
он зависает когда во время загрузки пропадает интернет

Yury
06.02.2019
10:54:13
смотри параметры либы

Dark
06.02.2019
10:54:31
там нету таймаута(

Google

Yury
06.02.2019
10:56:03
значит не теряй интернет!
Ну или вешай асинхронный код xD

Michael
06.02.2019
11:02:56
братцы, есть кто нибудь кто скрейпил веб сайты с помощью машинного обучения?

Dark
06.02.2019
11:03:24

Michael
06.02.2019
11:03:50
надо распознавать что на чужой веб странице написано
типа на входе странциа - и в ней контент определенного рода - но как расформатировано и где что неясно - а на выходе все что надо найдено и в структуру данных запихано
сейчас делается через lxml
для каждого сайта свой xpath
а надо умный чтобы сам находил где что
есть кто нибудь кто умеет?

Yury
06.02.2019
11:07:00
Ну я парсил
но без мл

Michael
06.02.2019
11:07:40
ML не цель а средство. Цель - чтобы не подкручивать ничего под конкретный сайт
я могу вам в личку постучать?

pavel
06.02.2019
11:07:56
гугл наверное такое делает

Yury
06.02.2019
11:08:10
А, если не крутить под конкретный сайт
то хз, не подскажу)

Michael
06.02.2019
11:08:14

Yury
06.02.2019
11:08:53
Это был намек на объем работы, я думаю)

Michael
06.02.2019
11:09:01
я нафигачил примерно ту же архитектуру как у телеграма

Google

Michael
06.02.2019
11:09:49
Братья и сестры, неужели нету никого кто МЛ знает?

Andrew
06.02.2019
11:15:11

pavel
06.02.2019
11:15:44

Michael
06.02.2019
11:15:54
я ведь только начал учить МЛ и полный чайник в этом

pavel
06.02.2019
11:16:29
Ну так не проще ли их задать сейчас?

Michael
06.02.2019
11:16:46

Денис
06.02.2019
11:17:03
Задать пару вопросов
Задаю вопрос в помощь - нужно чем-то обученным распознавать какие-то тексты на странице?

Michael
06.02.2019
11:17:18
Ладно попробую
задача - распознать ингридиенты рецепта
есть веб страница
на ней рецепт
но каждый дезайнер верстал как ему угодно

Денис
06.02.2019
11:17:57

Michael
06.02.2019
11:19:02

Денис
06.02.2019
11:19:04

pavel
06.02.2019
11:19:25
Нужен корпус слов, которые характеризуют рецепт. В каждом блоке по тексту ищешь как часто слова из корпуса встречаются в этом блоке. Если много - то это рецепт. Что такое много - надо определить в ручном режиме

Google

pavel
06.02.2019
11:22:19
Мл тут не нужен

Andrew
06.02.2019
11:22:24

Michael
06.02.2019
11:22:47
задача - распознать ингридиенты рецепта
есть веб страница, на ней рецепт.
но каждый дезайнер верстал как ему угоднo, и чтмл одной страницы отличается
от другой.
сегодня для сайтов написан ручной парсер - на основе лхмл,xpath, regex.
это позволяет сравнивать МЛ алгоритм с ожидаемым результатом для нескольких десятков сайтов - т.е. сотен рецептов, если нужно.
Вопрос - какой МЛ алгоритм применить. Я опытный программист но ничего в МЛ не понимаю. Начал слушать курс.
Хотелось бы понять на какие алгоритмы обратить внимание.
Какие фичи могли бы быть полезны?
Алгоритмически - это как? вот есть <ul><li>5 gr salt</li></ul>
как знать что это ингредиент?

Dark
06.02.2019
11:24:01
и потом загоняй в табличку

Michael
06.02.2019
11:24:40

Dark
06.02.2019
11:25:15
у них разная длина размер и всё такое

Andrew
06.02.2019
11:25:53

Michael
06.02.2019
11:26:01
Мне представляется что я примерно могу сказать какие есть характеристики у всего. У инградиента чаще цифры. У инструкций больше глаголов. Но какие веса какой характеристике дать?

pavel
06.02.2019
11:27:31
Прогнать по понятным данными и посмотреть метрики

Денис
06.02.2019
11:27:35

pavel
06.02.2019
11:28:02

Michael
06.02.2019
11:28:29
Классификатор это кто?
Сапорт - Векторная машина (это мой кривой перевод с английского) или логистическая регрессия? Или дип лернинг?
В какую сторону идти
Там куча деталей - как данные подготавлват

Валентин
06.02.2019
11:31:47

Google

Денис
06.02.2019
11:32:36
Классификатор это кто?
Короче.
Классификатор - чёрный ящик, который даёт ответ на вопрос в определенной форме. "Предсказывает", похоже ли то, что ему дают на вход на один из классов, на которые он был обучен.
Представим картинку с писосом. А теперь другую. Хороший классификатор на обе картинки скажет "это писос". И так можно и с другими данными.

Michael
06.02.2019
11:38:19
ага
какой алгоритм для классификатора вы бы рекомендовали

Dark
06.02.2019
11:42:20
как правильно сделать мультипроцессинг?
https://pastebin.com/PPBJ7Z2g
сейчас код выполняется и дойдя до 164 строки ждет максимум минуту и опять начинает работать
нужно как то запустить параллельно эти процессы

Денис
06.02.2019
11:42:28
какой алгоритм для классификатора вы бы рекомендовали
Ну, вот тот же Catboost позволяет себя использовать без заморочек. Документация есть на его сайте, она на ангельском (летом была, по крайней мере), но разобраться, думаю, можно. Разве что, в терминологии могут быть проблемы.

Dark
06.02.2019
11:43:03
помогите
мне

Tishka17
06.02.2019
11:45:52

Денис
06.02.2019
11:46:16

Dark
06.02.2019
11:46:17

serbernar
06.02.2019
11:46:21

Tishka17
06.02.2019
11:46:44
не
А если попробовать более простую функцию в таргет?

Dark
06.02.2019
11:46:52

Tishka17
06.02.2019
11:47:10
Кажется он где-то виснет

Dark
06.02.2019
11:47:47

Tishka17
06.02.2019
11:48:01

Dark
06.02.2019
11:48:11
на любой строчке которая ходит в нет