15-10-2018 15:59

Машинное обучение и анализ данных: программа обучения, отзывы

Термин "машинное обучение и анализ данных" был придуман в 1959 году Артуром Самуэлем. Машинное обучение исследует изучение и построение алгоритмов, которые дают возможность учиться и делать прогнозы по данным - такие алгоритмы превосходят строго заданные статические программные команды, выдавая предсказания или решения. Машинное обучение используется в ряде вычислительных задач, где проектирование и программирование явных алгоритмов с хорошей производительностью является трудным или неосуществимым. Примеры приложений включают фильтрацию электронной почты, обнаружение сетевых злоумышленников и компьютерное зрение.

Постоянная тонкой структуры: определение, значение и физический смыслВам будет интересно:Постоянная тонкой структуры: определение, значение и физический смысл

Суть такова

Машинное обучение тесно связано (и часто совпадает) с вычислительной статистикой, которая также фокусируется на прогнозировании с использованием компьютеров. Оно имеет прочные связи с математической оптимизацией, которая предоставляет методы, теории и области приложений в этой научной сфере. Машинное обучение иногда сочетается с интеллектуальным анализом данных, где последнее подполе больше фокусируется на аналитическом анализе данных и известно как неконтролируемое обучение.

Независимый это... Как мы сталкиваемся с независимостью в жизниВам будет интересно:Независимый это... Как мы сталкиваемся с независимостью в жизни

Машинное обучение и анализ данных - это метод, используемый для разработки сложных моделей и алгоритмов, которые поддаются прогнозированию. В коммерческом использовании это называется прогностической аналитикой. Эти аналитические модели позволяют исследователям, ученым, инженерам и аналитикам создавать надежные, повторяемые решения и результаты и раскрывать скрытые идеи посредством изучения исторических отношений и тенденций в данных.

Пример алгоритмов

Том М. Митчелл представил широко цитированное, более формальное определение алгоритмов, изучаемых в области машинного обучения: «Говорят, что компьютерная программа учится на опыте E по отношению к некоторому классу задач T и показателю производительности P, если его производительность при выполнении задач в T, измеренное P, улучшается с опытом E ». Буквы - формальные обозначения алгоритмов. Это определение задач, которые рассматривает машинное обучение и анализ данных.

Бронислав Малиновский: биография, научная деятельность, книгиВам будет интересно:Бронислав Малиновский: биография, научная деятельность, книги

История

Возникновение этой чудо-науки последовало после предложения Алана Тьюринга в его статье «Вычислительная техника и разведка», в которой вопрос «Могут ли машины думать?» заменяется вопросом: «Могут ли машины делать то, что мы (как мыслящие сущности) можем делать?». В предложении Тьюринга раскрываются различные характеристики, которыми может обладать мыслящая машина, и различные последствия ее построения.

Артур Самуэль, американский пионер в области компьютерных игр и искусственного интеллекта, в 1959 году придумал термин «машинное обучение» (machine learning). Как научная дисциплина, машинное обучение выросло из стремления к искусственному интеллекту. Уже в первые дни ИИ в качестве академической дисциплины некоторые исследователи были заинтересованы в том, чтобы машины учились на уже имеющихся данных. Они пытались подойти к проблеме с помощью различных символических методов, а также того, что тогда называлось «нейронными сетями». Это были главным образом персептроны и другие модели, которые позже были признаны заново в обобщенных линейных моделях статистики. Были также использованы вероятностные рассуждения и построения моделей будущих событий за счет вероятности их происшествия, особенно в автоматизированной медицинской диагностике.

Проблема искусственного интеллекта

Однако все большее внимание в логическом, основанном на знаниях подходе вызвал разрыв между ИИ и машинным обучением (machine learning). Вероятностные системы страдают от теоретических и практических проблем сбора и представления данных. К 1980 году экспертные системы стали доминировать над ИИ, и статистика была не в пользу искусственного интеллекта, который был и остается слишком несовершенным. Работа над символическим / основанным на знаниях обучением продолжалась в рамках ИИ, что приводило к индуктивному логическому программированию, но более статистическая линия исследований в настоящее время выходит за рамки собственно ИИ в распознавании образов и поиске информации. Исследования нейронных сетей были брошены ИИ и информатикой примерно в то же время. Эта линия также продолжалась за пределами поля AI / CS как связь между исследователями из разных дисциплин, включая Хопфилда, Румельхарта и Хинтона. Их основной успех был достигнут в середине 1980-х годов с переосмыслением обратного распространения.

Специализация "Машинное обучение и анализ данных", реорганизованная как отдельная дисциплина, начала процветать в 1990-х годах. На данный момент цель этой дисциплины - добиться создания искусственного интеллекта для решения разрешимых проблем практического характера. Она сместила фокус от символических подходов, которые были унаследованы от первых экспериментов с ИИ, к методам и моделям, заимствованным из статистики и теории вероятностей.

Интеллектуальный анализ

Судя по отзывам, на курсах машинного обучения и анализа данных часто используют уже готовые данные, с помощью которых можно развивать компьютеры и механизмы, делая их отдаленным подобием искусственного интеллекта. Интеллектуальный анализ данных в свою очередь фокусируется на обнаружении ранее неизвестных свойств в данных (это этап анализа открытия знаний в базах данных). Для интеллектуального анализа данных используются многие методы машинного обучения, но с разными целями. С другой стороны, машинное обучение также использует методы интеллектуального анализа данных как «неконтролируемое обучение» или как шаг предварительной обработки для повышения точности обучения.

Большая часть путаницы между этими двумя исследовательскими сообществами (которые часто имеют отдельные конференции и отдельные журналы, ECML, PKDD, являющееся основным исключением) исходит из основных предположений, с которыми они работают: в компьютерном обучении эффективность обычно оценивается в отношении способности воспроизводить известные знания, а при открытии знаний и интеллектуальном анализе данных (KDD) ключевой задачей является обнаружение ранее неизвестных знаний. Оцененный в отношении известных знаний, неосведомленный (неконтролируемый) метод будет легко превосходить другие контролируемые методы, в то время как в типичной задаче KDD контролируемые методы не могут использоваться из-за недоступности данных обучения.

Оптимизация

У машинного обучения также есть тесная связь с оптимизацией: многие проблемы обучения сформулированы как минимизация потерь во время самого процесса обучения. Функции потерь выражают несоответствие между предсказаниями обучаемой модели и фактическими результатами.

Машинное обучение и анализ данных: МФТИ

Основная цель учащегося состоит в том, чтобы обобщить свой опыт. Это касается и обучения в МФТИ, в котором доступен курс машинного обучения. Там проводится обучение студентов с помощью учебных компьютеров точно выполнять новые, невиданные доселе примеры / задачи после того, как они проанализируют стартовый набор данных. Примеры, решаемые в ходе обучения, взяты из некоторого общеизвестного распределения вероятностей, и учащийся должен построить общую модель об этом пространстве, которая позволяет ему производить достаточно точные предсказания в новых случаях.

Анализ алгоритмов

Вычислительный анализ алгоритмов машинного обучения и их эффективности - это отрасль теоретической информатики, известная как теория вычислительного обучения. Поскольку наборы обучения являются конечными, а будущее неопределенным, теория обучения обычно не дает гарантий выполнения алгоритмов. Вместо этого вероятные оценки производительности довольно распространены. Декомпозиция смещения-дисперсии является одним из способов количественной оценки ошибки обобщения.

Сложность данных

Для достижения максимальной производительности в контексте обобщения сложность гипотезы должна соответствовать сложности функции, лежащей в основе данных. Если гипотеза менее сложна, чем функция, то модель не соответствует данным. Если сложность модели увеличивается в ответ, тогда ошибка обучения уменьшается. Но если гипотеза слишком сложна, то модель подвержена переопределению, а обобщение будет хуже. И этот вывод мы делаем исходя из многих журналов машинного обучения и анализа данных, сохраняющихся после серьезных научных работ и исследований в этой сфере.

В дополнение к ограничениям производительности теоретики вычислительного обучения изучают временную сложность и осуществимость обучения. В теории вычислительного обучения вычисление считается выполнимым, если его можно произвести в полиномиальное время. Есть два вида результатов временной сложности. Положительные результаты показывают, что определенный класс функций может быть изучен за полиномиальное время. Отрицательные результаты показывают, что некоторые классы не могут быть изучены за полиномиальное время. Потому для тех, кто не знает, с чего начать машинное обучение и анализ данных, существуют специальные задачи на анализ данных, доступные на курсах во многих университетах.