Sáng tác nhạc với AI
Sự tăng trưởng đáng kể trong lĩnh vực Thị giác máy tính (Computer Vision – CV) và Xử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP) trong năm trước đã thu hút sự quan tâm của cộng đồng học thuật toàn cầu đối với tiềm năng mà học sâu và các mô hình ngôn ngữ lớn (Large Language Models – LLMs) mang lại trong lĩnh vực sáng tác âm nhạc. Trong thời gian gần đây, đã có bốn bài báo mới công bố, mỗi bài giới thiệu một mô hình âm thanh tiềm năng, giúp tạo điều kiện thuận lợi hơn cho các nghiên cứu tiếp theo trong lĩnh vực này.
Một trong những mô hình đầu tiên được phát triển là MusicLM, do các nhà nghiên cứu tại Google và IRCAM – Sorbonne Universite thực hiện. MusicLM có khả năng sáng tác nhạc chất lượng cao dựa trên các prompt văn bản, chẳng hạn như “một giai điệu violon êm dịu kết hợp với một giai điệu guitar rè (distortion)”. Mô hình này được huấn luyện trên cả dữ liệu văn bản và giai điệu. Đồng thời, MusicCaps là bộ dữ liệu công khai với hơn 5,5 nghìn cặp văn bản nhạc được chú thích chi tiết bởi con người.
Một mô hình khác là SingSong, một hệ thống của Google có khả năng tạo ra nhạc không lời để đệm cho giọng hát solo. SingSong sử dụng hai phát triển quan trọng trong lĩnh vực công nghệ âm nhạc: phân tách nguồn và mô hình âm thanh sinh. Đội nghiên cứu đã tạo ra một bộ dữ liệu âm nhạc lớn chứa 1 triệu bản nhạc, gồm các cặp nguồn giọng hát và nhạc cụ. Mô hình AudioLM được sử dụng để tạo ra nhạc cụ dựa trên giọng hát bằng cách huấn luyện nó trên dữ liệu đã được phân tách. Kết quả là SingSong đã cải thiện hiệu suất của giọng hát đơn lẻ lên tới 55%, và các bản nhạc được tạo ra bởi SingSong được người nghe ưa thích hơn so với nhạc gốc đến 66%.
Moûsai là một mô hình tạo ra nhạc dựa trên văn bản, cho phép tạo ra âm nhạc stereo với độ dài liên tục 48kHz dựa trên ngữ cảnh trong một phút. Mô hình này sử dụng kỹ thuật khuếch tán theo chuỗi hai giai đoạn và học cách tạo ra các biểu diễn latent giảm kích thước từ văn bản sử dụng một mô hình ngôn ngữ được tiền huấn luyện.
Cuối cùng, AudioLDM là một hệ thống TTA (Text-to-Audio) sử dụng các mô hình latent diffussion liên tục để tạo ra âm thanh chất lượng cao với hiệu quả tính toán. Mô hình này sử dụng các biến thể của các vectơ embedding có kiến trúc cơ bản để tạo ra các TTA và đạt được hiệu suất tốt hơn rất nhiều so với các mô hình trước đây.
Các mô hình sáng tác âm nhạc này hứa hẹn mang đến một cuộc cách mạng trong ngành âm nhạc, giúp giảm thời gian và công sức trong quá trình sáng tác và tiếp cận dễ dàng hơn với mọi người. Tuy nhiên, các nhà nghiên cứu cũng nhận thức về các hậu quả tiềm tàng của việc sử dụng AI trong âm nhạc, và đề xuất sử dụng các mô hình để tăng cường sự sáng tạo của con người thay vì thay thế nó. Điều này giúp bảo vệ tính tinh tế và cá nhân của nghệ thuật âm nhạc trong thời đại số.