Распознаватель нот по звуку

Содержание

Chord Pickout
Notes recognition
Описание проекта
Recognition of music sheet and transcribing it into MIDI
Подход к распознаванию нот
Датасет
Характеристики датасета
Обучение
Сложности
Как запустить
Быстрая установка и запуск на Линуксе
Тест на своём датасете
Комментарии
Приложение для смартфона, декодирующее напетую мелодию в ноты.
Ваш голос — музыкальный инструмент
Полный охват!
Обзор программ для работы со звуком и музыкой
Распознаватели нот
SmartScore
AutoScore
Преобразователи форматов
Convert
AWave
Считыватели звуковых дорожек с компакт-дисков
WinDAC
AudioGrabber
Психоакустические компрессоры
MP3 Producer (professional)
BladeEnc
SoundVQ Encoder
Проигрыватели
WinAMP
SoundVQ Player
MegaMID
RealPlayer G2
Системы для радиовещания и дискотек
Virtual Turntables
Утилиты и управляющие программы
MIDI-Ox
Hubi’s Loopback
Virtual Audio Cable
MIDI Keyboard Monitor
XG Edit
XG-Gold

Chord Pickout

Программа для распознавания нот.

Windows 10
Windows 8.1
Windows 8
Windows 7
Windows Vista
Windows XP

Тип лицензии:
Условно-бесплатное

Chord Pickout – специальный сервис для получения нотных страниц из аудиодорожек. Инструмент устанавливается на стандартные компьютеры и поддерживается операционной системой Windows всех версий (включая 64-битные).

Принцип работы программы очень прост: пользователь загружает композицию в формате MP3 или WAV, программа автоматически обрабатывает дорожку и выводит ноты на экран. Оперативные модули обработки Chord Pickout позволяют конвертировать в ноты сложную на ручной подбор музыку.

Широкое применение приложение находит среди музыкантов, желающих подобрать на гитаре, скрипке или фортепиано современные музыкальные треки. Благодаря легкому и оперативному интерфейсу освоиться в программе можно за считанные минуты.

Источник

Notes recognition

Описание проекта

Recognition of music sheet and transcribing it into MIDI

Подход к распознаванию нот

После определённого количества безуспешных попыток написания проекта с нуля и проверки разных подходов, наткнулся на следующую статью: В ней описан подход к распознаванию нот с помощью связки Convolutional и Recurrent сетей. Этот подход используется, в частности, для распознавания текста. Поэтому я решил взять одну из реализаций Optical Character Recognition и обучить сеть на базе нот.

Была выбрана эта tensorflow модель. Научная статья, объясняющая принцип её работы.

Датасет

Наиболее полная информация касательно датасетов по распознаванию нот находится здесь. Однако, датасетов с размеченной высотой нот, подходящих для моих задач не нашлось. Единственный доступный датасет со звуковысотным маппингом был взят отсюда, у ребят написавших оригинальную статью, ссылка на которую представлена выше. Он представляет из себя сгенерированные в Lilypond изображения с соответствующими лейблами для каждой ноты и знака.

Характеристики датасета

94,984 случайных монофонических последовательностей, состоящих из 52 символов: музыкальных нот от С4 до Е5, 4 длительности (половина, четверь, восьмая, шестнадцатая), 4 паузы тех же длительностей, символы размеров (3/4, 4/4, 6/8), знаки альтерации (диез, бемоль, бекар), скрипичный ключ, тактовая черта.

Поскольку датасет составлен из сгенерированных изображений, распознавание не будет адекватно работать с фотографиями. Также, с нотами, чья структура отличается от характеристик датасета.

Датасет был обработан, чтобы соответстовать требованиям сети для обучения (созданы лейблы, изображения уменьшены и т.д.). 95% — обучающая выборка 5% — тестовая.

Обучение

Сеть обучалась в течение около 8 часов на NVIDIA Tesla K80. 16 эпох.

Сложности

1. Сейчас модель может распознавать небольшие последовательности. Ей нельзя скормить весь лист с нотами. Однако, эта проблема решаема. Я пытался сделать сегментацию листа (вычленение тактов) силами OpenCV и добился определённых результатов. Но код очень по-разному работает для изображений разного качества. Поэтому, в долгосрочной перспективе, тут нужно тренировать отдельный слой сети. Для этого нужны данные с разметкой тактов, систем и прочих высокоуровневых элементов системы нотного листа.

2. Не успел сделать конвертацию в MIDI. К сожалению, вопрос в лоб не решить. Думал просто конвертировать обратно в Lilypond но сделать это оказалось не так легко из-за того, что программа сама проставляет знаки альтерации в зависимости от тональности и ещё пары тонкостей. Возможно, тут лучше подойдёт OpenXML, на изучение формата которого, однако, у меня не хватило времени. Если успею и всё получится, реализую в ближайшие дни. Следите за гитхабом.

3. Также не хватило времени на «выкат в продакшен» версии для удобного тестирования без каких-либо установок. Поэтому, чтобы поиграться с распознаванием, нужно поставить https://github.com/emedvedev/attention-ocr и запустить функцию тестирования, это опишу ниже.

4. Также не успел, как следует протестить и собрать статистику. Единичный прогон по тестовой выборке показал результат в 99,5%.

Как запустить

aocr test —visualize ПУТЬ/К/notesTest.tfrecords —log-path ./log/log.log —max-width 1000 —max-height 61 —max-prediction 36 —full-ascii —model-dir ПУТЬ/К/checkpoints

Небольшое примечание. Распакованные checkpoints.zip содержат папку checkpointsDL — путь нужно указывать к ней.

Наблюдаем за процессом. А потом смотрим на результат в папке log. Там будут находиться папки для каждой картинки, для которой было проведено распознавание. В каждой папке файл word.txt где первая строка — предсказанный результат, вторая — ground-truth Также в папке находится гифка, показывающая процесс работы нейросети.

Для перевода результата в читаемый формат (переименование папок и файлов), кидаем питоновский скрипт в папку out и запускаем.

Быстрая установка и запуск на Линуксе

sudo pip install aocr
pip install tensorflow

git clone https://github.com/Dene33/notes-recognition
cd notes-recognition
unzip checkpoints.zip -d checkpoints

aocr test —visualize notesTest.tfrecords —max-width 1000 —max-height 61 —max-prediction 36 —full-ascii —model-dir ./checkpoints/checkpointsDL

Тест на своём датасете

Чтобы протестировать на своих картинках, создаём папку с картинками. Максимальная высота картинок — 60, ширина — 1000. Создаём текстовый файл (например labels.txt) с лейблами такого формата:

где ./datasets/images/hello.jpg — путь до картинки, hello — её лейбл. Какому символу какая нота соответствует можно посмотреть тут, где 1 столбец — лейблы, 2 — соответствующая нота или знак.

Затем, чтобы создать tfrecord из картинок выполняем:

aocr test —visualize ПУТЬ/К/testing.tfrecords —log-path ./log/log.log —max-width 1000 —max-height 61 —max-prediction 36 —full-ascii —model-dir ПУТЬ/К/checkpoints

Примеры картинок из обучаемой выборки и соответствующих лейблов:

MRRRROT:3+)R*

MRRN;RK+3R»QR Denis Cera, code

Традиционные подходы работают более-менее, но 1. требовательны к качеству входного изображения — нужны отсканированные листы. 2. Не работают/работают плохо с рукописными нотами. Ну и конечно же, 3. большая часть подобного софта — проприетарные продукты. Нейронные же сети можно обучить распознавать ноты и на обычных фотографиях с телефона (был бы датасет подходящий).

В обратную сторону музыку в ноты переводить тоже можно? Не в рамках этого проекта, а вообще в принципе. Импровизируешь, потом читаешь.

Насколько я знаю, распознавание звука — более тривиальная задача, решаемая без использования нейронных сетей. Особенно, если говорить о монофонических мелодиях. С полифоническими уже сложнее, но тоже реально, особенно если играет один инструмент. Что касается записей с большим количеством инструментов — тут нейронные сети уже могли бы найти применение, да. Не уверен, что есть какие-то прям хорошие реализации для подобного, но могу ошибаться.

По поводу символов — было бы круто, если бы проект в будущем научился распознавать ноты для барабанщиков. Прикол в том, что если есть слух, то прослушать и повторить проще, чем разбирать ноты и считать длительности)
А на будущее, можно было бы еще подумать насчет интеграции с каким-нибудь существующим музыкальным ПО, тот же guitar pro, например.
Или вообще уйти в другую сторону и по нотам генерировать какую-нибудь игру, типа tap-tap:)

Распознавание нот для барабанщиков во многом даже легче реализовать (за счёт меньшего количества нотационных символов). Всё дело сводится лишь к размеченному дата сету, сама сеть работает отлично.

То, что слушать и повторять легче, чем копаться в нотах — это прям то, из-за чего я решил взяться за этот проект. Я пою в хоре и иногда хочется просто прослушать, как звучит партия. 🙂 Надеюсь, со временем получится довести проект до уровня «сфотографировал партию, прослушал».

Гитар про умеет импортировать MIDI файлы. Тут главное найти наиболее удобный способ для работы с выходными данными, да. Сейчас они генерируются в MIDI посредством питоновской библиотеки mido.

Источник

Приложение для смартфона, декодирующее напетую мелодию в ноты.

Исследователи из KTH(Kungliga Tekniska Hogskolan) – Королевского технологического института в Швеции, разработали приложение для смартфонов, которое преобразует простую мелодию в ноты. Приложение ScoreCleaner, которое уже доступно по всему миру, обеспечивает простой и эффективный способ записи мелодии из вашей головы, и декодирование ее в письменную нотную форму. Самое интересное, что ScoreCleaner является абсолютно простым в использовании, что в очередной раз подтверждает поговорку — «все гениальное — просто».

Ваш голос — музыкальный инструмент

Простота в сочетании с доступностью, дает приложению обширную сферу использования — от душевой кабины до звукозаписывающей студии. При этом пользователю не нужно иметь музыкального образования, или же уметь играть на каком-либо музыкальном инструменте, пользователю, даже не нужно знать как читаются ноты, или знать основы создания музыки. Чтобы использовать приложение, вам всего лишь нужно напеть мелодию в микрофон своего смартфона и уже через несколько мгновений на дисплеи появиться результат в виде нотной последовательности, с соблюдением темпа и размера произведения. Это просто находка для любого музыканта.

После записи, мелодия может быть воспроизведена тембром пианино в формате MIDI или тембром оригинального звучания. После чего запись можно отправить по e-mail, или опубликовать в социальную сеть, что дает возможность объединяться музыкантам, для совместного творчества. Пользователи так же могут зарегистрироваться в ScoreCleaner Cloud, что дает доступ к бесплатному, неограниченному хранилищу для сохранения мелодий, которые в дальнейшем, будут синхронизироваться с настольной версией программного обеспечения.

Технология, которая легла в основу разработки приложения, основана на исследованиях Andersa Friberga, доцента кафедры речи, музыки и слуха института KTH(Kungliga Tekniska Hogskolan). Проведенные им исследования помогли проанализировать, как люди интерпретируют музыку и звуки, и на основе этих данных создать инновационный продукт.

Конечно, у приложения есть некоторые ограничения возможностей, одно из самых основных — это создание только монофонических мелодий (одновременно записывается одна нота), из этого следует, что о гармониках не идет и речи.

Полный охват!

Компания ScoreCleaner Notes, на основе мобильного приложения разработала полную версию для настольного компьютера, известную как ScoreCleaner Desktop Notes. Она работает по тому же принципу что и мобильная версия, а из дополнительных возможностей предоставляется подключение MIDI синтезатора, для создания более сложных композиций.

Чтобы увидеть приложение в действии, посмотрите это видео:

Источник

Обзор программ для работы со звуком и музыкой

Распознаватели нот

Достаточно узкий класс программ, пытающихся путем анализа звукового сигнала или изображения выделить в нем отдельные музыкальные ноты (звучащие, нарисованные или напечатанные) и выдать результат в формате MIDI-партитуры. В связи с исключительной сложностью задача для звукового сигнала пока имеет только частные решения — выделение нот из одноголосого произведения, распознавание аккордов и ритмических долей. С распознаванием изображения дело обстоит гораздо лучше — качественно напечатанная партитура распознается в общем случае без ошибок.

SmartScore

Профессиональная система распознавания отсканированных нотных партитур, редактирования, преобразования в MIDI-формат и печати. Разработана «по следам» известной программы MIDIScan.

Исходное изображение может быть загружено из файла или введено со сканера. Для доводки и подчистки изображения имеется несложный графический редактор с набором основных функций — монтажа, поворота, рисования линий, стирания участков. Есть эффективная функция устранения перекоса (deskew): при помощи мыши изображается линия, параллельная горизонтали на изображении, после чего нужный поворот выполняется автоматически.

Функция Recognition запускает распознавание нотного текста. После ее завершения исходное изображение и распознанные ноты отображаются в смежных окнах с синхронной прокруткой, что облегчает внесение исправлений.

Программа имеет достаточно богатый набор средств для расстановки музыкальных обозначений в нотном тексте, а также для редактирования MIDI-данных — Piano Roll и Event List. Поддерживаются наборы инструментов GM, GS, MT-32 и XG.

MIDI-сообщения также могут быть записаны в реальном времени с MIDI-порта.

AutoScore

Программа для распознавания нот в реальном времени. Для работы требуется любой процессор Pentium и Windows 3.1/95/98.

Добавляет в систему собственный MIDI-порт, в который передаются распознанные ноты, и откуда их может принимать любая программа. Настраиваются параметры голоса (мужской, женский, музыкальный инструмент, свист), диапазон изменения высоты, способ генерации MIDI-нот (только ноты, ноты с небольшими отклонениями по Pitch Bend, непрерывный Pitch Bend).

При работе может располагаться в панели задач (System Tray), — с управлением оттуда же через меню или с управлением через отдельную панель, либо встраиваться в меню секвенсора (например, Cakewalk Home Studio).

Преобразователи форматов

Преобразование формата может быть искажающим и неискажающим. При неискажающем преобразовании никакая информация, содержащаяся в исходных данных, не теряется, хотя в процессе может быть добавлена дополнительная информация. При искажающем преобразовании происходит необратимая потеря какой-либо части исходной информации, что нередко влечет за собой ухудшение конечных параметров звука.

Для преобразований справедливо правило: если преобразование формата A в формат B является неискажающим, то обязательно существует обратное преобразование B в A, полностью восстанавливающее всю исходную информацию формата A. Другими словами, преобразование набора данных из A в B и сразу затем обратно в A дает в результате исходный набор данных, если все операции выполнены корректно. Обратное преобразование из B в A в общем случае может быть и искажающим.

Convert

Разработчик — Jesus Villena Последняя выпущенная версия — 1.4b, freeware Дистрибутивный пакет Первый универсальный преобразователь для DOS с управлением из командной строки. Поддерживает форматы 669, AIF, AU, DMF, DSF, DSM, DSP, FAR, FSM, F2R, F3R, GKH, IFF, INS, KRZ, MED, MOD, MTM, OKT, PAC, PAT, PSM, RAW, SBK, SDK, SDS, SDX, SF, SMP, SND, SOU, STM, S3I, S3M, SYW, TXW, ULT, UNI, UWF, VOC, WAV, XI, XM. Способен извлекать из банков инструментов описания отдельных инструментов, раскладывая их по собственным файлам.

AWave

Мощный конвертор с оконным интерфейсом под Win32. Поддерживается более 330 различных форматов звуковых файлов, инструментов и банков синтезтаторов и трекеров.

Содержит встроенный редактор инструментов: раскладка по клавиатуре, режимы звукоизвлечения, точки зацикливания семпла (loops), параметры генераторов огибающих, LFO, фильтров и эффект-процессора, а также простой встроенный редактор оцифровок с функциями монтажа и настройки циклов. Звучание семплов может быть прослушано на выбранном аудиоустройстве (поддерживается DirectSound).

Описания инструмента и оцифровки могут быть из синтезатора получены по MIDI посредством SDS (Sample Dump Standard), а также переданы обратно в синтезатор.

Предоставляется функция пакетной обработки (Batch Conversion) для множественной обработки файлов без вмешательства пользователя.

Считыватели звуковых дорожек с компакт-дисков

Для точного (без потери качества) чтения звуковых дорожек вся компьютерная система должна удовлетворять ряду условий:

Привод CD-ROM должен поддерживать функцию прямого чтения звуковых дорожек (команды Read Long, Read Raw Sectors)
Функция прямого чтения в приводе должна быть реализована корректно — то есть без изменений передавать считанную с дорожки звуковую информацию драйверу привода, а также обеспечивать точное позиционирование на нужный звуковой кадр (сектор). Большинство приводов при чтении «промахивается» мимо нужного кадра, что требует специальных программных мер восстановления данных
Драйвер привода и служба управления CD-ROM в операционной системе должны поддерживать операции прямого чтения и буферизацию данных
Программа считывания должна корректно выполнять все необходимые для работы функции

Основной элемент правильной системы, пригодной для считывания звуковых дорожек, — сам привод CD-ROM. При условии выбора подходящего привода (Panasonic CR-584 и выше; Pioneer DR-511, 502S; Sony CDU-711, 811; Samsung 2030, 2430, 3230; Teac 532) остальное обычно не представляет особых проблем.

Программный метод корректной стыковки прочитанных участков с чьей-то легкой руки получил название Jitter Correction, в то время как Jitter — совершенно посторонний термин из области фазовых характеристик сигнала. Более правильно было бы называть этот метод коррекцией ошибок позиционирования.

Прямое чтение дорожек получило устоявшееся жаргонное название Grab (grabbing).

WinDAC

Разработчик — Christoph Schmelnik

Последняя выпущенная версия — 1.49, shareware

Удобная и надежная программа. Поддерживет несколько приводов CD-ROM, для каждого из которых можно задать режимы работы.

Копирование может выполняться в трех режимах:

Normal — чередующиеся чтение с CD и запись на HDD
Burst — перекрывающиеся чтение и запись, приводит к ошибкам на некорректных приводах и драйверах
Sector Synchronisation — чтение с CD «внахлест», когда очередная операция читает несколько секторов, уже прочитанных предыдущей. Такой режим позволяет правильно состыковать прочитанные порции секторов в том случае, когда привод не может точно позиционироваться на заданный сектор

Поддерживается два вида операций копирования: Track — одна или несколько дорожек целиком, и Range — заданный диапазон звуковых кадров в пределах всего диска. Во втором случае предлагается удобная возможность прослушивания фрагмента с коррекцией его начального и конечного участков.

Программа умеет работать с файлом CDPLAYER.INI, в котором стандартный Windows CD Player хранит названия и содержание дисков. При копировании WinDAC может присваивать файлам названия дорожек диска, а также помещать их в каталоги, соответствующие названиям дисков.

При создании файла может использоваться любой системный ACM Codec, так что при использовании хорошего привода, не сбивающегося при прерывистом чтении, возможно прямое преобразование в нужный формат — MP3, ADPCM и др. Поддерживаются также подключаемые модули (plugins) для преобразования выходных форматов и пакеты внешних команд (scripts) для дополнительной обработки полученных файлов.

Дополнительно предоставляются функции простого CD-проигрывателя.

AudioGrabber

Последняя выпущенная версия — 1.50, коммерческая

Мощный, красивый и элегантный считыватель. Поддерживает работу через интерфейсы ASPI и MSCDEX, а также аналоговую запись через АЦП звуковой карты, совмещенные во времени чтение и запись (burst copy), стыковку фрагментов дорожки (synch).

Есть режим тестового чтения с проверкой корректности, без записи на жесткий диск. Поддерживается CDDB (глобальная база данных по содержимому звуковых компакт-дисков).

Считанные дорожки могут быть сразу же преобразованы в формат MP3 с помощью ACM Codec или внешнего компрессора.

Другие функции — нормализация фонограммы, сравнение считанных файлов, вычисление контрольных сумм, поддержка базы данных CDPLAYER.INI.

Демонстрационная версия читает только половину всех дорожек диска, выбранную случайным образом.

Психоакустические компрессоры

В отношении сжатых этими методами фонограмм применяется понятие скорости битового потока (bitrate), достаточной для воспроизведения сжатой фонограммы. Скорость потока является относительным показателем степени сохранения качества звучания при сжатии — на высоких скоростях оно обычно выше, чем на низких, однако во многом это зависит от глубины и точности анализа исходной фонограммы.

Наибольшее распространение получил метод Audio MPEG-1 Layer 3, именуемый чаще всего MPEG-3 или MP3. Менее популярны форматы MPEG-2 AAC (Advanced Audio Coding), VQF (Vector Quantization Format) и MPEG-4.

Надо заметить, что при оценке качества сжатых фонограмм допустимо исключительно тестовое прослушивание. Поскольку эти методы сжатия ориентированы только на человеческое восприятие, никакие объективные показатели — полоса частот, амплитудные, частотные, фазовые и иные характеристики не могут служить критериями качества преобразования.

MP3 Producer (professional)

MP3-компрессор с хорошим качеством и строгим интерфейсом. Поддерживает широкий спектр форматов — от 8 кбит/с (11025 Гц, 8 бит, моно) до 256 кбит/с (44100 Гц, 16 бит, стерео). Формирует файлы формата MP3 или WAV — в последнем случае к файлу добавляется стандартный заголовок RIFF Wave, позволяющий работать с файлом при помощи стандартных функций и программ Windows. Имеет функцию PreListen — кодирование и непосредственное прослушивание первых пяти секунд звучания для оценки его качества.

По скорости преобразования занимает промежуточные места, имеет хорошее соотношение скорости и качества. Содержит также пакетный обработчик (batch processor), с помощью которого можно создавать пакет заданий на обработку нескольких файлов, каждого — со своими собственными параметрами.

При скорости потока 128 Кбит/с дает хорошее качество звучания, не отличаемое большинством слушателей от оригинала. Сжатие при такой скорости происходит в 10 раз.

Ранние (1.x) версии компрессора устанавливали в системе модуль кодирования и декодирования (codec) службы сжатия аудиозаписей (ACM), через который и выполнялось сжатие Wav-форматов. При наличии в системе такого модуля любая программа Windows может считывать и формировать поток MP3 в формате RIFF (WAV) с заданными параметрами. Версии 2.x устанавливают только модуль декодирования, позволяющий считывать и проигрывать такие файлы; модули кодирования встроен в программу компрессора. Группа хакеров Radium сумела извлечь модуль сжатия и объединить оба модуля в виде ACM Codec, который распространяется этой группой под названием Fraunhofer MPEG-3 Audio Codec (Radium optimized). Codec поддерживает частоты дискретизации до 48 кГц.

BladeEnc

Небольшой и достаточно качественный компрессор с запуском из командной строки, один из самых скоростных. Существует под множество платформ и ОС: x86, Alpha, M68k, Windows 95/98/NT, Linux, Solaris, SCO и др. Доступен в исходных текстах.

Поддерживает скорости от 32 до 320 Кбит/с и частоты дискретизации 32, 44,1 и 48 кГц. Входной и выходной файлы могут быть стандартными потоками StdIn и StdOut.

Для удобства использования BladeEnc создано несколько оконных графических интерфейсов под Windows 95/NT — AutoBlade, BEShell, BFree, BladeBatch и т.п. Процессор BladeEnc выпускается также в виде независимого DLL-модуля (plugin), который может подключаться к другим программам обработки звука.

Автор рекомендует применять BladeEnc при скоростях потока 160 Кбит/с и выше, признавая, что при низких скоростях более высокое качество обеспечивают продукты Fraunhofer IIS.

SoundVQ Encoder

Компрессор в формат VQF. При скорости потока 96 Кбит/с обеспечивает качество звучания, примерно равное хорошему компрессору MP3 при скорости потока 128 Кбит/с (степень сжатия около 1:14). При меньших скоростях обеспечивается сжатие до 20 раз.

Поддерживаются входные форматы от 8 кГц/8 разрядов/моно до 44,1 кГц/16 разрядов/стерео.

В состав входит пакетный процессор SoundVQ Batch Encoder для групповой обработки файлов.

Проигрыватели

Расшифровка и интерпретация проигрываемого файла может выполняться как самим проигрывателем, так и системными службами или подключаемыми модулями (plugins). Если результирующий звук создается и выводится самим проигрывателем, возможна его обработка (акцентировка басов, расширение стереоэффекта, эквалайзер) и индикация (осциллограмма, спектрограмма).

Многие проигрыватели поддерживают список проигрываемых файлов (playlist).

Полезной функцией ряда MIDI-проигрывателей является посылка команды инициализации синтезатора в режимах GM, GS или XG перед проигрыванием файла, так как многие MIDI-файлы не содержат таких команд ни в начале, ни в конце, из-за чего состояние синтезатора может стать неопределенным.

WinAMP

Очевидно, это самый популярный проигрыватель звуковых модулей. Поддерживает форматы WAV, VOC, MP1, MP2, MP3, STM, S3M, XM, IT, DSM, MED, FAR, ULT, MTM, а также звуковые компакт-диски (CD-DA). Поддерживаются списки форматов M3U, PLS, случайное и циклическое проигрывание.

Распространяется в двух вариантах: базовый — с поддержкой вышеперечисленных форматов, и полный — с дополнительной поддержкой форматов WMA и Mjuice.

Имеет открытую архитектуру, основанную на подключаемых и заменяемых модулях (plugins). За расшифровку входных форматов отвечают модули-декодеры, за вывод на конкретные устройства (Wave Out, DirectSound) — модули вывода. Имеется модуль записи выходного сигнала на диск в WAV-файл (Disk Writer). Большая коллекция модулей находится на сайте WinAMP.

Для внутренней обработки сигнала (DSP/Effects), отображения динамики воспроизведения (Visualization), а также изображения внешнего вида окна проигрывателя (Skin) тоже используются подключаемые модули. В состав входят два стандартных режима отображения динамики — осциллограмма и спектрограмма.

Содержит встроенный 10-полосный эквалайзер с набором пресетов и мини-браузер, через который могут автоматически формироваться запросы на обновление проигрывателя с авторского сайта. Имеет возможность проигрывать файл с удаленного сайта параллельно с его перекачкой.

SoundVQ Player

Последняя выпущенная версия — 2.51 b1, shareware

Проигрыватель файлов сжатого формата VQF. Для работы с максимальной скоростью потока требуется Pentium-90, 16 Мбайт памяти.

MegaMID

Маленький симпатичный MIDI-проигрыватель с поддержкой нескольких видов reset-команд и явного указания устройства воспроизведения. Отображает звучащие в каждый момент ноты, позволяет менять инструменты (имеется полная карта инструментов GM, GS и XG), а также — подыгрывать исполнению с MIDI-клавиатуры.

Недостаток — низкий приоритет задачи, из-за чего при параллельной работе других программ могут сбиваться и «зависать» ноты.

RealPlayer G2

Разработчик — Progressive Networks

Последняя выпущенная версия — 6.06.99, shareware

Сетевой проигрыватель в стандарте RealAudio. Воспроизводит звуковой поток, получаемый с сервера, вместе с серией периодически сменяющихся видеокадров (скорость передачи видео не позволяет передать непрерывный поток по обычному модемному каналу). Позволяет также проигрывать звуковые файлы форматов RealAudio, Audio MPEG, ShockWave и т.п., а также просматривать изображения в форматах GIF и JPEG.

Расшифровка входных форматов выполняется подключаемыми модулями (plugins), большинство которых устанавливается при установке проигрывателя. Поддерживает работу через Proxy-серверы, автоматический выбор наиболее эффективного протокола передачи данных.

Имеет большой список работающих RealAudio-каналов, может динамически отображать новые зарегистрированные каналы. Ведет и отображает статистику передачи, по которой можно судить о параметрах канала связи и эффективности работы протоколов.

Системы для радиовещания и дискотек

Предназначены для ведения звуковых программ в реальном времени. Предоставляют возможности оперативного выбора источников звука, заранее заготовленных роликов, динамического управления их воспроизведением.

Virtual Turntables

Последняя выпущенная версия — 1.8, shareware

Программа для диджеев, имитирующая специфический рабочий пульт с двумя проигрывателями винилитовых или компакт-дисков. Позволяет в реальном времени переключать, смешивать и плавно переводить один в другой несколько источников сигнала, одновременно подготавливая следующий номер.

Для прослушивания следующего по очереди звукового номера (обычно через наушники — headphones) одновременно со звучанием основного сигнала через громкоговорители (speaker) может быть использован дополнительный звуковой адаптер. При наличии только одного адаптера стереоканалы смешиваются, основной звук подается в один канал адаптера, а звук для наушников — в другой. При помощи разветвителя эти сигналы разделяются на два звуковых разъема.

Источниками сигнала служат аудиофайлы форматов WAV и MP3, вывод возможен только через DirectSound-порты.

Имеются функции автоматической подстройки скорости воспроизведения одной композиции к другой и их синхронизации, пометки определенных точек внутри композиции и прямого доступа к ним, зацикливание участка звучания, вставка заранее подготовленных звуковых эффектов по нажатию назначенных им клавиш.

Для обработки звука применяется встроенный 10-полосный эквалайзер с поддержкой пресетов и DSP-модули от проигрывателя WinAMP. Могут также применяться модули декодирования от WinAMP, что дает возможность проигрывать через VTT трекерные и другие модули. Поддерживаются модули описания интерфейса (skins), позволяющие менять внешний вид панелей и органов управления.

Поддерживается ведение списков проигрываемых файлов. Возможна прямая запись результата в WAV- или MP3-файл.

Утилиты и управляющие программы

MIDI-Ox

Разработчик — Jamie O’Connell, Jerry Jorgenrud

Последняя выпущенная версия — 5.5.1, freeware

Полезная программа для диагностики и отладки MIDI-оборудования, портов и драйверов. Обеспечивает трассировку, фильтрование и формирование MIDI-сообщений, а также ведение несложной библиотеки SysEx-банков.

Основные функции: выдача в окно MIDI-сообщений, приходящих с выбранных портов; передача этих сообщений в выбранные выходные порты; запрет приема определенных классов сообщений (фильтация); замена заданных приходящих событий на другие при отправке в выходной порт (отображение); посылка сформированных программой сообщений Control/Bank/Patch Change и SysEx; имитация MIDI-клавиатуры на алфавитно-цифровой клавиатуре компьютера; посылка команд сброса MIDI-устройства и включения режимов GM/GS/XG. Есть простой MIDI-проигрыватель.

Hubi’s Loopback

Последняя выпущенная версия — 2.51, freeware

Драйвер, создающий в системе несколько виртуальных MIDI-кабелей с портами In и Out на каждом конце. К каждому порту может быть одновременно подключено несколько программ (мультиклиентная технология). Сообщения, посылаемые программами в Out-порт кабеля, смешиваются и передаются в In-порт, откуда их могут извлекать другие программы. Таким образом, результат работы одной программы может быть подан непосредственно на вход другой, минуя какие-либо аппаратные MIDI-средства.

Кроме этого, драйвер создает для каждого существующего MIDI-устройства дополнительные мультиклиентные порты, позволяя использовать и эти устройства нескольким программам сразу.

Virtual Audio Cable

Последняя выпущенная версия — 1.11, коммерческая

Драйвер, подобный Hubi’s Loopback, для audio-технологии. Создает в системе несколько виртуальных аудиокабелей, передавая звуковой поток, поступающий на Out-порт каждого кабеля, в соответствующий In-порт. Посредством виртуальных кабелей можно последовательно соединить несколько программ обработки звука, а также записать на диск сигнал, для которого в программе предусмотрен только вывод в аудиопорт.

Для потоков формата PCM выполняется смешивание (mixing) в Out-портах с объединением нескольких источников звука в один.

Пакет включает утилиту AudioRepeater, выполняющую обратную операцию — прямую передачу из любого In-порта в любой Out-порт. С ее помощью можно сделать «ответвление» от входа виртуального кабеля на выход звуковой карты, чтобы прослушать промежуточные результаты, или наоборот.

MIDI Keyboard Monitor

Последняя выпущенная версия — 1.0, freeware

Простейший монитор MIDI-клавиатуры с разделением ее на два мануала.

Для каждого мануала задается диапазон клавиш (зона) мануала, входные и выходные MIDI-устройства и каналы, номера банка и инструмента. Ноты, принятые из приемного канала соответствующей зоны, переправляются в выводной канал с заданным смещением по высоте. Таким образом, реализуется одновременная игра двумя руками и различными инструментами. При задании перекрывающихся зон нажатие клавиш вызывает одновременное звучание обоих инструментов.

XG Edit

Последняя выпущенная версия — 2.645, shareware

Первый широко известный редактор параметров для синтезаторов стандарта XG. Поддерживает популярные звуковые платы DB50, SW60, модули SW1000, MU10, MU50, MU80, MU90, MU100 и сменные модули расширения (plugins) к SW1000 и MU100. Поддерживается также управление дополнительным АЦП для внешнего аналогового сигнала в SW60/1000 и MU10/80/100.

Предоставляет удобную панель управления всеми режимами синтезатора, кроме TG300B. Трехуровневая группировка в окне выбора тембра: класс (мелодические, ударные, эффекты), группа (фортепиано, органы, струнные, духовые, народные) и название конкретного инструмента. По сравнению с группировкой по номерам банков, как это было в ранних версиях, такая структура гораздо более удобна.

Для карты SW60 имеется специальная панель микшера, схематично отражающая функциональную структуру карты, где можно определить пути распространения сигнала и установить его уровни.

Функция Merge MIDI загружает внешний MIDI-файл, объединяя его содержимое с текущими параметрами синтезатора. Если файл содержит собственные команды настройки синтезатора, они отображаются на панели управления. Получившаяся «настроенная» партитура может быть прослушана собственными средствами редактора, после чего сохранена обратно в файл с новыми параметрами.

XG-Gold

Разработчик — Hans-Joachim Stulgiessss

Последняя выпущенная версия — 2.0.1, shareware

Редактор, похожий на XG Edit, полностью перекрывающий его по объему доступных для редактирования параметров синтезатора. Поддерживаются все доступные режимы синтезатора — GM, XG и QS300. Последнее особенно интересно, так как лишь в этом режиме возможно создание новых инструментов из существующих волновых форм и управление параметрами генераторов, огибающих, LFO и фильтров, недоступное для режима XG.

XG-Gold использует более наглядное, чем в XG Edit, графическое представление волновых форм и видов огибающих и АЧХ фильтров.

Источник

Распознаватель нот по звуку

Chord Pickout

Notes recognition

Описание проекта

Recognition of music sheet and transcribing it into MIDI

Подход к распознаванию нот

Датасет

Характеристики датасета

Обучение

Сложности

Как запустить

Быстрая установка и запуск на Линуксе

Тест на своём датасете

Комментарии

Приложение для смартфона, декодирующее напетую мелодию в ноты.

Ваш голос — музыкальный инструмент

Полный охват!

Обзор программ для работы со звуком и музыкой

Распознаватели нот

SmartScore <img decoding="async" src="https://compress.ru/archive/images/eye.gif"/>

AutoScore

Преобразователи форматов

Convert

AWave <img decoding="async" src="https://compress.ru/archive/images/eye.gif"/>

Считыватели звуковых дорожек с компакт-дисков

WinDAC <img decoding="async" src="https://compress.ru/archive/images/eye.gif"/>

AudioGrabber <img decoding="async" src="https://compress.ru/archive/images/eye.gif"/>

Психоакустические компрессоры

MP3 Producer (professional) <img decoding="async" src="https://compress.ru/archive/images/eye.gif"/>

BladeEnc

SoundVQ Encoder

Проигрыватели

WinAMP <img decoding="async" src="https://compress.ru/archive/images/eye.gif"/>

SoundVQ Player

MegaMID <img decoding="async" src="https://compress.ru/archive/images/eye.gif"/>

RealPlayer G2

Системы для радиовещания и дискотек

Virtual Turntables <img decoding="async" src="https://compress.ru/archive/images/eye.gif"/>

Утилиты и управляющие программы

MIDI-Ox <img decoding="async" src="https://compress.ru/archive/images/eye.gif"/>

Hubi’s Loopback

Virtual Audio Cable

MIDI Keyboard Monitor <img decoding="async" src="https://compress.ru/archive/images/eye.gif"/>

XG Edit <img decoding="async" src="https://compress.ru/archive/images/eye.gif"/>

XG-Gold <img decoding="async" src="https://compress.ru/archive/images/eye.gif"/>

SmartScore

AWave

WinDAC

AudioGrabber

MP3 Producer (professional)

WinAMP

MegaMID

Virtual Turntables

MIDI-Ox

MIDI Keyboard Monitor

XG Edit

XG-Gold