Корпусом называется отобранная и специально обработанная коллекция текстов. Корпусы могут решать самые разные задачи и активно используются как в теоретической, так и в компьютерной лингвистике. Если специалисты получают в корпусе информацию о языке, вводя интересующие их запросы, то компьютерные программы изучают корпус целиком, что позволяет им на огромном количестве примеров научиться общаться или переводить с языка на язык.
⠀
▫️Национальный корпус русского языка http://www.ruscorpora.ru/new/ Открытый в 2004 году Национальный корпус русского языка охватывает прежде всего период от середины XVIII до начала XXI века: этот период представляет как язык предшествующих эпох, так и современный, в разных социолингвистических вариантах — литературном, разговорном, просторечном, отчасти диалектном. Объем корпуса превышает 600 миллионов слов. Национальный корпус имеет множество подкорпусов, в том числе мультимедийный и параллельный с английским.
⠀
▫️Генеральный Интернет-Корпус Русского Языка http://www.webcorpora.ru/ Открытый в 2013 году Генеральный Интернет-Корпус Русского Языка включает в себя текстовые материалы из блогосферы, социальных сетей, с крупнейших новостных ресурсов и из литературных журналов. Объем корпуса, при создании которого сознательно отказались от фокуса на художественной литературе и отредактированных текстах, превышает 19,8 миллиардов слов.
⠀
▫️Открытый корпус русского языка http://www.opencorpora.org/ OpenCorpora — это проект по созданию размеченного корпуса текстов силами сообщества. Любой желающий может присоединиться к проекту и поучаствовать в разметке текста. Объем доступного бесплатно в полном объёме корпуса превышает 1,5 миллиона слов.
⠀
▫️Тюбингенский корпус русского языка http://www.lingexp.uni-tuebingen.de/sfb441/b1/en/korpora.html Тюбингенский корпус русского языка объединяет Уппсальский корпус - старейший из корпусов русского языка, созданный в 1980-х под руководством профессора Леннарта Лённгрена - и корпус текстов из российских онлайн-изданий, который отобрали и разметили исследователи Университета Тюбингена.
⠀
▫️Хельсинкский аннотированный корпус русских текстов (ХАНКО) http://h248.it.helsinki.fi/hanco/index.html Проект по созданию корпуса объёмом около 100 тыс. словоупотреблений, извлеченных из журнала «Итоги», осуществлялся с 2001 по 2012 гг. на Отделении славянских и балтийских языков и литератур Хельсинкского университета под руководством профессора Арто Мустайоки.
⠀
#gramotaru
Присоединяйтесь — мы покажем вам много интересного
Присоединяйтесь к ОК, чтобы подписаться на группу и комментировать публикации.
Нет комментариев