Отчет по преддипломной практике тема диплома




Скачать 157.76 Kb.
НазваниеОтчет по преддипломной практике тема диплома
Дата публикации28.03.2013
Размер157.76 Kb.
ТипОтчет
odtdocs.ru > Информатика > Отчет
Федеральное государственное автономное образовательное учреждение высшего Профессионального образования

Национальный исследовательский университет

ВЫСШАЯ ШКОЛА ЭКОНОМИКИ

Московский институт электроники и математики
Кафедра ИКТ

ОТЧЕТ ПО ПРЕДДИПЛОМНОЙ ПРАКТИКЕ

Тема диплома: Разработка системы автоматизированного создания резюме.

Выполнила: студентка группы С-104

Ухина О.В.

Руководитель: Леохин Ю.Л.



Москва

2013


Оглавление

Введение 3

Аннотация 3

Актуальность 3

Цели и задачи анализа данных в обучении 3

Обзор методов, применяемых для анализа учебных данных 5

Помощь в оценке вклада студентов в проект на основе данных Wiki, SVN и Google Docs (TeamAnalytics) 5

Анализ участия студентов в онлайн курсах с использованием техники социальных сетей 7

Что могут сказать закрытые множества студентов и их оценки? 8

Модель данных для простого анализа образовательных ресурсов 9

Список литературы 13


^

Введение

Аннотация


Данный проект выполняет задачу создания резюме для студентов. Для решения этой задачи используются данные кафедральных ресурсов: lms, где содержатся оценки по данным курсам, и учебные планы. Проект состоит из модулей обработки и анализа данных и имеет веб-интерфейс.

Актуальность


В настоящее время студенты после окончания вуза испытывают проблемы при поиске и устройстве на работу. Проблема заключается в том, что как таковых практических навыков с места работы нет, есть некоторые практические знания, полученные в основном в ходе производственной практики и дипломного проекта. Работодателю порой сложно оценить навыки студента, основываясь только на дипломе и оценках по дисциплинам, так как это не отражает реальных умений студента-выпускника. Существует устоявшаяся форма выражения навыков в виде резюме. Но многие студенты испытывают проблемы в его написании [8].

Отсюда возникает необходимость рекомендаций студенту относительно резюме, то есть его создание на основе оценок по курсам и содержания учебных планов.
^

Цели и задачи анализа данных в обучении


Основная цель Educational Data Mining - использование большого количества данных, полученных в образовательном процессе. Наборы данных служат для лучшего понимания обучения и представления информации о процессе обучения. EDM использует в основном данные студентов, оставленные ими в течение их обучения по курсу, например, за учебный год. Исследователи могут использовать для анализа различные накопленные данные: обучающие ресурсы, дискуссионные форумы, электронные журналы оценок, стандартизированные тесты. Развитие систем хранения и передачи информации упростило задачу хранения больших наборов данных.

Наличие большого количества данных еще не все. Так же необходимо их необходимо найти, адаптировать и применить техники для анализа и понимания нового качества этих данных. EDM имеет важные источники данных. Все больше и больше школ и вузов используют образовательные ресурсы, в которых фиксируется взаимодействие студента и компьютера. C возрастанием требований к отчетности и стандартизации различных тестов появилось большое количество электронных баз данных активности студентов, поэтому появляется необходимость в создании вычислительных и статистических фреймворков и других техник для вычленения из этих данных полезной информации.

В EDM стоят есть несколько основных направлений задач.

  1. Разработка вычислительных инструментов и техник для работы с большими наборами данных, нахождение наилучших оценочных метрик и моделей. Примером может служить визуализация, которая поможет понять, как смотреть на данные и найти в них смысл. Другой подход в EDM — обучающие кривые. Они служат для наблюдения изменений знаний студентов. EDM преследует цель найти наиболее гибкие функциональные формы и исследования какие другие факторы, такие как участие обязанности студентов в учебном процессе, необходимо включить. Существует проблема в создании моделей, так как иногда нет способа определить лучший параметр для определенной модели. Работы в этом направлении задач на понимание вычислительных инструментов, т. е. как можно извлечь информацию из данных. Остальные направления не менее важны, но не так глубоко исследованы в настоящее время.

  2. В этом направлении стоит вопрос о том, что мы хотим получить из данных. Например, несколько наиболее очевидных вопросов: насколько хорошо усвоили студенты материал для того, чтобы продолжить изложение следующих? Достаточно ли студент получил знаний, чтобы успешно закончить школу (вуз). EDM позволяет нам ответить на эти вопросы более точно, используя данные. Большое количество данных и вычислительных ресурсов дает огромную возможность вынести выгоду из них. На какие вопросы мы еще можем ответить, используя EDM? Например, групповые студенческие проекты, в качестве данных здесь выступают дискуссии между участниками команды и другие виды их активности. Не всегда можно увидеть, какие проблемы имеют студенты во время их работы над проектом, поэтому необходим такой инструмент, который позволил бы видеть преподавателю проблемы команды, в то время как сами студенты еще этого не осознают.

  3. Третья задача EDM — найти круг заинтересованных лиц, которые могут воспользоваться преимуществами, появляющимися в результате использования EDM. Очевидно, что это студенты и преподаватели. Так же это может быть полезно и родителям, например, когда у ребенка-школьник по какой-то причине резко начала снижаться успеваемость, для начальства. Цель этого направления состоит в расширении круга заинтересованных лиц в такого рода информации.

EDM стал бурно развиваться с 2005 года. Этому послужили: во-первых значимость темы образования, которая актуальна среди всех стран и культур наравне с медициной и здравоохранением, во-вторых, эффективное исследование в образовании теперь не требует квалифицированных сотрудников и офисов, заполненных бумагами. Существуют различные ресурсы с открытыми наборами данных, поэтому присоединиться и начать исследования может каждый[1].

В целом применение EDM можно изобразить следующей схемой:


^

Обзор методов, применяемых для анализа учебных данных

Помощь в оценке вклада студентов в проект на основе данных Wiki, SVN и Google Docs (TeamAnalytics)


Этот инструмент предназначен для оценки и динамического представления вклада студентов в проект. Преподаватели не всегда могут видеть и оценить результат работы команды и каждого студента в отдельности, так как обычно проект хранится в Google Docs, Wiki и SVN, и для того, чтобы это исследовать преподавателю необходимо достаточно много времени. Для более простого наблюдения за успеваемостью необходим соответствующий простой в использовании инструмент, TeamAnalitycs — такой инструмент, собирающий информацию о вкладе участников проекта и команды в целом и направляющий ее преподавателям для оценки эффективности работы. Цель — не просто ставить одинаковые оценки для всех членов команды, а оценивать вклад каждого участника, проверять прогресс по проекту в любой момент времени. TeamAnalitycs встроен в Moodle[2]. В этом инструменте собираются данные об изменении, добавлении, удалении страниц в Wiki и Google Docs (они привязаны к курсам в Moodle), а так же статистика об активности в SVN. После сбора данных идет их обработка. Для обработки данных из Wiki используется NLP и машинное обучение. При появлении новых данных запускается программа, которая разбирает документы и на основании автоматического классификатора генерирует распределение страниц по темам. Затем сводная полученная информация отправляется еженедельно преподавателю на почту. Так же они могут просматривать статистику по каждой группе в Moodle в любое время. Помимо информации о вкладах участников команд из Wiki и SVN генерируется так же дерево страниц Wiki, генерация этого дерева основана на ссылках страниц и их распределении по темам. Делается это для структуризации страниц проекта и удобного просмотра.

Процесс обработки данных. Данные SVN-сервера забираются каждые 24 часа, так же собирается информация из Wiki и Google Docs с помощью Google API, в случае обработки страниц, программа запускается при каждом их изменении участником команды. Данные складываются в общую базу данных, затем запускается обработчик, которые из этих данных вырабатывает суммарный модуль, который доступен из Moodle.

Классификация страниц на темы по заголовкам и содержанию основана на использовании Labeled LDA[3]. LDA имеет недостаток, который состоит в том, что этот метод не позволяет учитывать семантику слов, а только сами слова, что в случае наличия шумов (например, неподходящих данных из обсуждений страниц), не подходит, такие данные нужно отбросить.

В результате TeamAnalitycs предоставляет визуализацию документов в виде дерева, сгруппированные по темам, в случае, если страницы Wiki, они связаны ссылками, если это GoogleDocs, то они связываются ссылками при помощи Moodle. В дереве документов показано, сколько раз редактировалась страница, сколько слов было добавлено, сколько ссылок в документе, кто создал документы и т. д. Так же предоставляется недельный отчет - диаграмма, показывающая количество документов по каждой теме, затем такая же диаграмма, но относящаяся к каждому участнику команды отдельно.

Был сделан анализ компонент TeamAnalitycs. Преподавателей и менеджеров опросили о важности для них каждой части инструмента. Наиболее полезной для них оказалась информация, полученные из данных SVN.
^

Анализ участия студентов в онлайн курсах с использованием техники социальных сетей


В настоящее время происходит рост количества курсов с различными электронными обучающими средами, использующими инструменты, такие как Moodle, WebCT и проч. Накопленные онлайн обсуждения в этих ресурсах влияют на процесс обучения студентов. Эти обсуждения могут содержать огромное количество данных, накопленных в течение месяцев или целых учебных семестров. Из них можно вынести полезную информацию для преподавателей, например, оценку участия студентов в образовательном процессе, что избавит преподавателей от траты большого количества времени на ручную обработку данных, находящихся в обучающих средах.

Чаще всего в обучающих системах есть только статистическая информация о частоте правок, которая не дает полного представления об активности студента. Анализировать преподавателям дискуссии студентов вручную достаточно сложно и влечет за собой ошибки. Такие методы, как анализ содержимого, один из наиболее традиционных методов, позволяет выделить информацию о конкретных участниках. Анализ содержимого поможет понять шаблоны поведения студентов и дать ответы на вопросы: кто и в какие дискуссии вовлечен, кто в них играет активную роль, а кто пассивную.

Для выделения полезной информации из дискуссий используются подход нахождения социальных сетей при помощи анализа содержимого. Здесь может потребоваться поиск подходящих индикаторов для оценки участия и их измерения, используя анализ социальных сетей.

Meerkat-ED — инструмент для анализа взаимодействий студентов в дискуссионных форумах с использованием техник социальных сетей. Этот инструмент подготавливает и визуализирует информацию из дискуссий, анализирует содержимое сообщений при помощи создания информационной сети терминов и использует анализ сообщества, создает иерархию обсуждаемых тем в форуме, что дает инструктору быстрый доступ к обсуждаемым темам. В дальнейшем этот инструмент показывает, как студенты участвуют в обсуждаемых темах, выводя информацию о количестве сообщений, ответов и порции терминов, используемых студентом в дискуссии.

Социальные сети представляют собой множество или сеть участников. Участниками могут быть как люди, так и веб-страницы, страны, документы. Могут быть различные типы отношений — сотрудничество, дружба, веб-ссылки , цитаты, информационные потоки.
^

Что могут сказать закрытые множества студентов и их оценки?


Здесь представлено применение FCA. Этот метод применяется для анализа данных во многих областях: психология, лингвистика, социология, информационный менеджмент и информатике. FCA — алгебраический метод построения категорий (формальных понятий), определенных как множества объектов, разделяющих некоторые атрибуты. FCA предоставляет удобный метод определения формального понятия как единицу человеческого мышления. Это определение похоже на философское «понятие», характеризующееся сущностями и атрибутами, которые они имеют. В данном случае сущностями являются студенты, а атрибутами их оценки. Понятия образуют таксономии, которые называются решеткой понятий. Таксономии позволяют аналитику понять связи между группами объектов и некоторые интересные и потенциально полезные связи между их атрибутами. FCA основан на объединении объектов по их схожести при помощи общих атрибутов. Цель данной работы выявить некоторые однородные группы относительно студентов (по их оценкам) и проследить эволюцию таких групп в разные сроки исследования с помощью FCA, а так же показать, как эта мощная инвентаризации может быть полезной для образования области интеллектуального анализа данных [5].

Самый большой недостаток решетки понятий ее большой размер при небольших данных. Чтобы избежать этот недостаток используют айсберг-решетку, где встречаются только частые понятия (берется верхняя часть решетки понятий). Так же используется «стабильность понятий».

В связи с этим контекст, где студенты - объекты и оценки студентов — атрибуты является вполне адекватным. Формальные понятия представляют сообщества студентов как группы оценок на курсах вместе с соответствующими студентами. Удаление нескольких студентов из контекста не изменит резко хорошо изученные (или хуже изученные) курсы студенческого сообщества - "настоящие" сообщества студентов должны быть стабильными, несмотря на зашумленные данные. Двумя образами мы можем определить экстенсиональный индекс стабильности, который показывает, как понятие зависит от конкретных атрибутов. Это помогает ответить на вопрос: будет ли студент данного понятия по-прежнему принадлежать к той же категории, если они прекратят обмен такого же уровеня достижений на некоторых курсах?

В этой статье мы имели дело с оценками студентов, таким образом, контекст не содержит двоичный атрибуты. Такие контексты называются многозначными контекстами. Существует метод для преобразования многозначных формальных контекстов в обычные однозначные контексты. Эта техника называется концептуальным масштабированием.

Основная идея концептуального масштабирования - представление одного многозначного атрибута многозначному контексту с помощью некоторых бинарных признаков. Есть несколько различных видов масштабирования. Номинальное масштабирование, где значения атрибутов не сопоставимы, и порядковое масштабирование, где значения атрибутов сопоставимы друг с другом.

В исследовании рассматривается два набора данных, описывающих оценки учащихся, которые поступили в университет в 2006 году и 2007 г. соответственно. С помощью интенсионального (экстенсионального) родства с ними ищутся основные тенденции в студенческих достижениях, чтобы понять, какие дисциплины являются наиболее сложными.

Анализируются оценки студентов, которые обучались на кафедре "Прикладная математика и Информатика" в двух разных учебного года 2006/2007 и 2007/2008. Стоит отметить, что в Университете поддерживается 10-бальная система оценки: оценки от 1 до 3 означает неудовлетворительную, 4 и 5 показывают удовлетворительные результаты, оценки 6 и 7 показывают хорошие результаты, и больше 8 удостоверяют отличные достижения.
^

Модель данных для простого анализа образовательных ресурсов


Обучающее программное обеспечение обычно не рассчитано на то, чтобы производить анализ данных, которые накапливаются в нем. Поэтому дынные требуют тщательной и длительной обработки. Далее будет представлена модель данных для извлечения информации из Moodle LMS, реализация и архитектуры системы, которая выполняет структурирование и экспорт данных, а так же ее внедрение в LMS. Цель данной системы — частично автоматизировать предшествующую анализу данных обработку.

LMS не содержит, например, такую информацию, как:

  1. Как много студентов никогда не просматривали определенный ресурс;

  2. Если студент справился с заданием А, справится ли он с заданием В;

  3. Какая средняя оценка у студентов, которые прошли определенный тест, при этом прочитав ресурс А;

  4. Какие ресурсы имеют большое количество обучающих аудио ресурсов.

Цель данной системы — модель данных, которая не будет зависеть от определенной LMS, а будет достаточно универсальной. В данной работе внимание обращено на описание и структурирование информации о взаимодействии студентов и объектах обучения LMS. Словарь частично позаимствован ил LMS Moodle как наиболее популярный.

Модель данных представлена близко к FACT constellation schema [6]. Она содержит три вида таблиц:

  • Таблицы, описывающие объекты найденные в LMS (таблицы измерения);

  • Таблицы, описывающие взаимодействия с объектами обучения (FACT таблицы);

  • Таблицы, описывающие ассоциации между объектами.

Существуют следующие предположения: каждый курс содержит свою вики, свои тесты и ресурсы, некоторые участники могут быть в некоторых курсах в качестве слушателя, а в некоторых — лекторами, на курсы могут быть зарегистрированы не просто отдельные студенты, а группы, некоторые вопросы тестов могут содержаться не только в данном, относящемся к одному курсу, но и в других тестах. Основное предположение — каждый курс содержит форум, вики и ресурсы. Но это определенный случай, в котором таблицы ассоциаций содержат только один кортеж. В данном случае считаем, что LMS хранит логи взаимодействия пользователей и системы. Для каждого данного взаимодействия LMS хранит идентификатор пользователя, курса, ресурса, ворума, вики, теста, а так же отметки («просмотр», «изменение», «создание», «попытка», «отправка состояния»), оценки.

Следующие 5 таблиц описывают объекты, которые обычно имеют место быть в LMS.

  1. Таблица пользователь. Здесь находится информация о времени и дате первого и последнего доступа к ресурсам, о первом и последнем входе в систему.

  2. Таблица курс. Содержит информацию о времени создания курса, дате и времени начала (обычно это время фиксируется преподавателем), разрешенное время начали и завершения записи на курс, время последнего изменения курса, а также его название и краткое описание.

  3. Таблица тест. Содержит тип теста, идентификатор теста, название теста, время начала и завершения, время создания и модификации теста.

  4. Таблица вопрос. Содержит заголовок, текст, тип ответа, время создания и изменения.

  5. Таблица ресурс. Описывает ресурсы в LMS, которые лекторы могут использовать в курсах. Содержит тип, время создания, время изменения и заголовок

  6. Таблица логов теста. Описывает информацию, которая хранится в LMS, когда студент проходит тесты. Содержит пользователя (он же идентификатор из таблицы пользователя, т. е. внешний ключ), курс — идентификатор курса, который так же является внешним ключом, идентификатор теста и тип теста, время взаимодействия, действие (например, просмотр, попытка, отправка ответов, изменение)

  7. Таблица логов теста. Содержит информацию из предыдущей таблицы, пенальти (возможность ответить на вопрос еще раз после ошибки), промежуточная оценка, оценка, тип ответа, ответ.

  8. Таблица логи ресурсов.

Архитектура программы изображена на следующем рисунке:

Использование системы началось с курса «Программирование на Java». Студентам необходимо было пройти 8 обязательных упражнений и 7 необязательных, который рекомендовал преподаватель. Прошел ли студент или нет дополнительные упражнения влияет на финальную оценку, которую поставит преподаватель в конце семестра. В итоге было выявлено, что к концу семестра все меньше и меньше студентов выполняло дополнительные задания. Были выведены ассоциативные правила: 2 → 1 означает, что «если студенты завершают упражнение 2, то они завершают упражнение 1» и т. д. Ассоциативные правила представлены в следующей таблице.

Определить насколько повлияло выполнение дополнительных заданий не удалось, так как мало студентов выполняло их.



В данной таблице указаны оценки студентов, для выполнявших дополнительные задания и не выполнявших. Как видно, у тех, кто выполнял задания средние оценки выше[7].
^

Список литературы


  1. Cristóbal Romero, Sebastian Ventura, Mykola Pechenizkiy, and Ryan S.J.d. Baker. Handbook of Educational Data Mining. CRC Press. 2011

  2. https://moodle.org/

  3. Ramage, D. and Hall, D. and Nallapati, R. and Manning, C.D. Labeled LDA: A supervised topic model for credit attribution in multi-labeled corpora. Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing.

  4. Kalina Yacef, Osmar Zaïane, Arnon Hershkovitz, Michael Yudelson and John Stamper. Proceedings of the 5th International Conference on Educational Data Mining

  5. Gerd Stumme . Efficient Data Mining Based on Formal Concept Analysis.

  6. http://www.data-e-education.com/E172_FACT_Constellation_Schema.html

  7. Ryan S.J.d. Baker, Agathe Merceron, Philip I. Pavlik Jr. Proceedings of the Educational Data Mining 2010 3rd International Conference on Educational Data Mining Pittsburgh.

  8. Формальное описание обучающегося на основании подхода «навык-карьера». Вестник дополнительного образования. Выпуск 1 (7) 2012. Игнатьев И.С., Соболевский А.А.

^ Федеральное государственное автономное образовательное учреждение высшего Профессионального образования

Национальный исследовательский университет

^ ВЫСШАЯ ШКОЛА ЭКОНОМИКИ

Московский институт электроники и математики
Кафедра ИКТ

ОТЧЕТ ПО ПРЕДДИПЛОМНОЙ ПРАКТИКЕ

Тема диплома: Разработка системы автоматизированного создания резюме.

Выполнила: студентка группы С-104

Ухина О.В.

Руководитель: Игнатьев И.С.



Москва

2013

^ Федеральное государственное автономное образовательное учреждение высшего Профессионального образования

Национальный исследовательский университет

^ ВЫСШАЯ ШКОЛА ЭКОНОМИКИ

Московский институт электроники и математики
Кафедра ИКТ

ОТЧЕТ ПО ПРЕДДИПЛОМНОЙ ПРАКТИКЕ

Тема диплома: Разработка системы автоматизированного создания резюме.

Выполнил:______________/Ухина О.В./

Руководитель_________/Игнатьев И.С./



Москва

2013

Федеральное государственное автономное образовательное учреждение высшего Профессионального образования

Национальный исследовательский университет

ВЫСШАЯ ШКОЛА ЭКОНОМИКИ

Московский институт электроники и математики
Кафедра ИКТ

ОТЧЕТ ПО ПРЕДДИПЛОМНОЙ ПРАКТИКЕ

Тема диплома: Разработка системы автоматизированного создания резюме.

Выполнил:______________/Ухина О.В./

Руководитель:_________/Леохин Ю.Л./



Москва

2013

Добавить документ в свой блог или на сайт

Похожие:

Реферат Отчет содержит: листов 59, рисунков 4, приложений Ключевые...
В данном отчете по преддипломной практике «Распределенная файловая система» рассматривается

Отчет по преддипломной практике

Отчет о преддипломной практике

Отчёт по преддипломной практике
...

Дипломной практике тема диплома: Разработка системы позиционирования...
Тема диплома: Разработка системы позиционирования транспорта по сигналам сотовых сетей

Дипломной практике тема диплома: Разработка сетевой инфраструктуры...
Тема диплома: Разработка сетевой инфраструктуры единой информационной среды кафедры икт

Дипломной практике тема диплома: Разработка библиотеки для просмотра...
Тема диплома: Разработка библиотеки для просмотра сферических панорам средствами html5

Дипломной практике тема диплома: Разработка распределенной системы управления хостингом
То есть, фактически описываемые модели маршрутизаторов являются небольшими компьютерами. Далее везде под понятиями «маршрутизатор»...

Отчет о преддипломной практике Тема «Разработка решения для централизованного...
Тема «Разработка решения для централизованного мониторинга ресурсов еис кафедры икт»

Отчет о преддипломной практике Выполнил студент: Овсиенко Анна
Скоростная видеосъемка берет свое начало от скоростной киносъемки и принимает на себя часть ее задач регистрацию и визуализацию быстропротекающих...

Вы можете разместить ссылку на наш сайт:
Школьные материалы


При копировании материала укажите ссылку © 2013
контакты
odtdocs.ru
Главная страница