@bigdata_ru

« Назад

Страница 275 из 327

Далее »

Anton

25.05.2018
10:18:00

можешь пройтись по датасету и выбрать тексты с максимальной вероятностью для класса, но one-hot тут это плохая идея

А вместо one hot ,что лучше использовать? Ну тогда я получу текста, а не слова

Vlad

25.05.2018
10:19:25

А вместо one hot ,что лучше использовать? Ну тогда я получу текста, а не слова

тренировать word-embedding или взять готоый предтренированный, glove vectors потом помжно поробовать найти общие слова для текстов

векторы для конкретного языка можно найти онлайн

Arcady

25.05.2018
10:20:28

активировать сетку отдельными словами и посмотреть что на выходе. Правда, при жтом допускаем, что одно слово без окружения ведет себя так же, как и целый текст.

Google

Vlad

25.05.2018
10:27:20

Народ, может ли кто подсказать, у меня есть нейросеть для бинарной классификации текстов, можно ли какую-нибудь образом получить список слов,по которому сеть принимает решение к какому классу относить текст?

если используешь рнн с атеншеном можно также пройти по всему сету, выбрать слова для которых атеншн максимально активируется

но мне кажется без ворд векторов тут адекватного результата не будет

alex

25.05.2018
10:41:45

А если заменить сетку на деревья, то вообще можно просто на значимость признаков смотреть )

Народ, может ли кто подсказать, у меня есть нейросеть для бинарной классификации текстов, можно ли какую-нибудь образом получить список слов,по которому сеть принимает решение к какому классу относить текст?

можешь еще в эту сторону посмотреть https://github.com/marcotcr/lime

Dan

25.05.2018
10:51:54

Коллеги, тут у Otus новые курсы открылись по deep learning

#обучение #образование #Otus Открыт набор на курс Deep Learning Engineer от OTUS. Курс рассчитан на углубление знаний в области классического машинного обучения, погружение в мир нейронных сетей и глубокого обучения. Знакомьтесь с программой, сдавайте вступительное тестирование: https://otus.pw/NLO6/ Программа курса содержит в себе самые актуальные наработки в отрасли и позволяет изучить архитектуру нейронных сетей, ее реализацию на языке Python, систему и методы построения. обучения и решения практических задач в таких областях как: — Компьютерное зрение, — Обработка естественных языков, — Анализ социальных графов, — Предиктивная аналитика. И многие другие. Преподаватель курса Артур Кадурин — признанный эксперт в области науки о больших данных, первый сотрудник в группе анализа данных департамента рекламных технологий Mailru Group, возглавивший впоследствии группу сегментирования аудитории. Руководил и участвовал в проектах, связанных с пользовательской аналитикой в рекламе, соц.сетях, играх и т.д. CEO Insilico Taiwan и Chief AI Officer Insilico Medicine. https://otus.pw/NLO6/

Nikolai

25.05.2018
11:14:39

Всем привет. Как правильно удалить Анаконду с Манджаро, чтобы ничего другого не поломать?

Herman

25.05.2018
13:37:12

http://lobe.ai/ - норм тема?

.

25.05.2018
13:38:10

http://lobe.ai/ - норм тема?

Все без кода - игрушки, имхо

Herman

25.05.2018
13:38:10

как я понимаю это инфраструктура, которая дает апишки для обучения по заранее заданным алгоритмам и с визуализацией

Dan

25.05.2018
13:39:19

Все без кода - игрушки, имхо

+

Артем

25.05.2018
13:40:17

Все без кода - игрушки, имхо

Я знаю людей, которые делают модели в Azure ML и им вроде даже нормально)

.

25.05.2018
13:41:29

Я знаю людей, которые делают модели в Azure ML и им вроде даже нормально)

Хм. Какие например модели?

Google

.

25.05.2018
13:41:46

Вернее даже, для каких кейсов

Артем

25.05.2018
13:42:32

классификацию страховщиков например. Кому давать, кому не давать.

.

25.05.2018
13:45:39

Даже не знаю. Если им нормально, то чего бы и нет)

Артем

25.05.2018
13:46:49

ну, я просто к тому, что иногда drag-n-drop инструменты тоже можно использовать. Хотя код, конечно, гибче. Но и порог входы выше.

Rafael

26.05.2018
21:39:41

срочно подскажите плз внятные примеры реинфорсмент лернинга плз

alex

26.05.2018
21:41:40

срочно подскажите плз внятные примеры реинфорсмент лернинга плз

https://towardsdatascience.com/april-edition-reinforcement-learning-e82cfba4d9c2

.

26.05.2018
21:41:58

срочно подскажите плз внятные примеры реинфорсмент лернинга плз

https://www.analyticsvidhya.com/blog/2017/01/introduction-to-reinforcement-learning-implementation/

Anya

26.05.2018
21:42:28

https://gym.openai.com/

Илья

27.05.2018
03:17:08

Ребята, подскажите пожалуйста ко Керасу один момент. Есть два тензора, в них с шейпом [None, 40, 64] другой же [None, 64, 40]. Я их перемножаю с помощью keras.backend.dot(x, y) и получаю тензор с шейпом [None, 40, None, 40] Беда в том что есть аналогичный код на тензорфлоу который я пытаюсь портировать на керас, и там число батчей определено на этапе определения графа, т.е. вместо None у нас число батчей, т.е. 256, и при перемножении тензоров [256, 40, 64] и [256, 64, 40] функцией tf.matmul получается трехмерный тензор [256, 40, 40]. Как мне получить такой же результат перемножения тензоров в керасе? Т.е. трехмерные тензор [None, 40, 40] вместо четырёхмерного?

Пардон, нашел решение. Вместо keras.backend.dot нужно юзать keras.backend.batch_dot

Sergey

27.05.2018
20:59:29

Привет, У меня вопрос (или просьба, не знаю), я пробую keras, но мне не принципиально я хочу попробовать co-training алгоритм на двух view (текст и изображения), но немного не понимаю, как это сделать. Т.е. идея в том, что есть картинка и некое описание к ней насчёт картинок более менее понятно: мы трансформируем их в матрицы со значениями цветов (или яркостей) и на этих матрицах обучаем модель а как подготовить текст для обучения? в интернете многие советуют через tokenizer, но подойдёт ли это для классификации связных данных (кортинка+описание)?

Henadz

28.05.2018
07:03:11

Привет, У меня вопрос (или просьба, не знаю), я пробую keras, но мне не принципиально я хочу попробовать co-training алгоритм на двух view (текст и изображения), но немного не понимаю, как это сделать. Т.е. идея в том, что есть картинка и некое описание к ней насчёт картинок более менее понятно: мы трансформируем их в матрицы со значениями цветов (или яркостей) и на этих матрицах обучаем модель а как подготовить текст для обучения? в интернете многие советуют через tokenizer, но подойдёт ли это для классификации связных данных (кортинка+описание)?

char cnn?

Sergey

28.05.2018
10:52:07

спасибо, попробую

.

28.05.2018
13:06:27

Лень уже даже легенду придумать?

yopp

28.05.2018
13:33:46

Лень уже даже легенду придумать?

Если вы хотите помочь, то нажимайте Report на сообщении, а не разговаривайте со спам ботом ;)

Dan

28.05.2018
13:34:40

Кстати да, действенный метод. Чем больше репортов - тем быстрее спамеров и их группы/каналы заблокируют

Paul

28.05.2018
15:02:07

Лайфхак ?

Или совет от бывалого)

Artem

29.05.2018
12:48:48

Коллеги, добрый день! Еще не знаком хорошо с тематикой AI / Big Data / Machine Learning. но есть вроде подходящяя по нее задача. Нужно извлечь данные из неструктурированного текста (медицинской выписки из истории болезни). Может кто сталкивался с такой задачей в этом или смежной бласти?

Andrey

29.05.2018
12:52:48

Там прямо вот бигдата? задача в чём — оцифровка и извлечение, только оцифровка или только извлечение?

Google

Artem

29.05.2018
12:59:42

задача разобрать неструктурированный текст - типа сочинения и извлечь конкретные данные - типа ФИО, диагноза заболевания

тут может machine learning или какие то другие методы подойдут

скорее это не bigdata, документов не миллион

Paul

29.05.2018
13:14:08

Задача NLP

Смотри в Сторону библиотек для Python, например Natasha

Или есть еще вариант http://www.pullenti.ru/

Andrey

29.05.2018
13:15:53

Вообще, это похоже на задачу простого парсинга с виду, если честно :)

Скрудж

29.05.2018
13:16:32

Вообще, это похоже на задачу простого парсинга с виду, если честно :)

Так и есть))

Andrey

29.05.2018
13:16:38

ФИО явно можно регулярными выражениями диагноз , ну может быть даже тоже

Paul

29.05.2018
13:16:45

Так то да, но если тексты не структурированы, то нет простым парсингом не обойдешься.

Скрудж

29.05.2018
13:17:24

Так то да, но если тексты не структурированы, то нет простым парсингом не обойдешься.

ФИО пишут с больших букв. Три слова подряд с больших букв = ФИО

Andrey

29.05.2018
13:17:47

боюсь, неструктурированный может предполагать отсутствие правильного написания.

Admin

ERROR: S client not available

Paul

29.05.2018
13:18:26

Да, но спарсить ты сможешь не только ФИО с больших букв, но и начало абзаца например с большой буквы

Скрудж

29.05.2018
13:18:42

Да, но спарсить ты сможешь не только ФИО с больших букв, но и начало абзаца например с большой буквы

Три слова подряд блэт

Иванов Иван Иванович

Andrey

29.05.2018
13:19:03

вообще, пару экземпляров бы кинуть, так бы был разговор предметнее

Paul

29.05.2018
13:19:19

Так три слова подряд могут быть например и расшифровка какой-нибудь комании в которой работает человек.

Научный Институт Исследований

Обычно пишется так)

Google

Скрудж

29.05.2018
13:20:15

Здесь согласен, тогда Paul выгоднее посадить девочку за 15 тыщ рублей в месяц и пусть все это разбирает, тк решение такого уже будет стоить немалых денег. Имхо

Andrey

29.05.2018
13:20:39

честно вот, пока не видно данных, непонятно сложно или нет

Vova

29.05.2018
13:21:23

Здесь согласен, тогда Paul выгоднее посадить девочку за 15 тыщ рублей в месяц и пусть все это разбирает, тк решение такого уже будет стоить немалых денег. Имхо

+100500 удаленно поработает

Paul

29.05.2018
13:21:32

Да нет, просто нужно использовать NLP. Но если текст структурированный и под один шаблон заточен, то регулярки хватит, да

Andrey

29.05.2018
13:21:58

+

Vova

29.05.2018
13:22:16

Я читал о подобной проблеме медицинского архива в какой то из стран латинской америки

Дешевые люди-распозновальщики рулят

Paul

29.05.2018
13:23:55

?

Artem

29.05.2018
13:38:15

текст к сожалению не структированный

ФИО просто можно вычленить

а вот например диагноз который может идти в разном порядке слов и окончаниях наверное уже сложнее

yopp

29.05.2018
13:39:34

Тексты рукописные или уже оцифрованные? Точность какая нужна?

Artem

29.05.2018
13:39:52

тескт сканы- распозование получается нужно

yopp

29.05.2018
13:40:09

а вот например диагноз который может идти в разном порядке слов и окончаниях наверное уже сложнее

Так есть же мкб вроде.

Artem

29.05.2018
13:40:13

не идеальные, ошибки даже в распозновании до разбора бывают

там МКБ есть , но самого кода в тексте нет

yopp

29.05.2018
13:40:51

А на выходе надо мкб получить?

« Назад

Страница 275 из 327

Далее »

Открыть в Telegram