Слепая печать:
  Championship-Ru
  Championship-En
Список форумов urikor.net urikor.net
Все о слепой машинописи и клавиатурных тренажерах
 
 FAQFAQ   ПоискПоиск   ПользователиПользователи   ГруппыГруппы   РегистрацияРегистрация 
 ПрофильПрофиль   Войти и проверить личные сообщенияВойти и проверить личные сообщения   ВходВход 

Частотные словари и 2 буквенные сочетания.
На страницу Пред.  1, 2, 3, 4, 5, 6  След.
 
Начать новую тему   Ответить на тему    Список форумов urikor.net -> Слепая машинопись
Предыдущая тема :: Следующая тема  
Автор Сообщение
Magnij
lieutenant
lieutenant


Зарегистрирован: 16.10.2007
Сообщения: 158

СообщениеДобавлено: Вт Апр 21, 2009 11:00 am    Заголовок сообщения: Ответить с цитатой

Марусяк Валерий писал(а):
Magnij писал:
Цитата:
К-во пробелов несущественно. Важна последовательность: {пробел-n_символов}, {n_символов-пробел}, {пробел-n_символов-пробел}.
А для каких целей, если не секрет?


Не секрет: знакомство с нек-рыми особенностями языков решил начать с родного.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Magnij
lieutenant
lieutenant


Зарегистрирован: 16.10.2007
Сообщения: 158

СообщениеДобавлено: Вт Апр 21, 2009 11:12 am    Заголовок сообщения: Ответить с цитатой

myst писал(а):
У меня где-то валялась подборка фантастики, мегабайт 100—200. Могу на ней посчитать. Но лучше, конечно, взять более разнообразный материал.


Если это оригинал с хорошим русским яз., напр., АБС, а не машинные переводы, то годится. Можно добавить детективы - их сейчас как грязи. Отличия от тематических текстов или толковых словарей, видимо, будут, но не обязательно значительными. Но могут быть любопытными.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Magnij
lieutenant
lieutenant


Зарегистрирован: 16.10.2007
Сообщения: 158

СообщениеДобавлено: Вт Апр 21, 2009 11:28 am    Заголовок сообщения: Ответить с цитатой

myst писал(а):
Меня тут одна идея посетила. А не отобразить ли полученную статистику на руки? Не просто какой палец как нагружен, а рассчитать частотность типовых приёмов (
одиночное нажатие, удвоение, пара слева направо, пара справа налево, тройка слева направо, тройка справа налево и т. д.)
В общем, нужно ещё определиться с набором приёмов.

Кому-нибудь интересна эта затея?


Ну, разве что voldemar"у - для доказательства принципиальной порочности.

Впрочем, и конструкторам раскладок м.б. интересно, и спортсменам, точнее, их тренерам. Да и нек-рым п.с. для размышлений.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
myst
Подполковник
Подполковник


Зарегистрирован: 05.12.2008
Сообщения: 1332

СообщениеДобавлено: Вт Апр 21, 2009 11:30 am    Заголовок сообщения: Ответить с цитатой

Magnij писал(а):

Если это оригинал с хорошим русским яз., напр., АБС, а не машинные переводы, то годится.

Какое качество русского языка, не знаю: читал там только Толкина. Основная масса — переводы англоязычных авторов.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
myst
Подполковник
Подполковник


Зарегистрирован: 05.12.2008
Сообщения: 1332

СообщениеДобавлено: Вт Апр 21, 2009 11:33 am    Заголовок сообщения: Ответить с цитатой

Magnij писал(а):
myst писал(а):
Меня тут одна идея посетила. А не отобразить ли полученную статистику на руки? Не просто какой палец как нагружен, а рассчитать частотность типовых приёмов (
одиночное нажатие, удвоение, пара слева направо, пара справа налево, тройка слева направо, тройка справа налево и т. д.)
В общем, нужно ещё определиться с набором приёмов.

Кому-нибудь интересна эта затея?


Ну, разве что voldemar"у - для доказательства принципиальной порочности.

Впрочем, и конструкторам раскладок м.б. интересно, и спортсменам, точнее, их тренерам. Да и нек-рым п.с. для размышлений.

То есть неинтересна (Вольдемар не в счёт). Smile Ладно, тогда обсчитаю только свою технику.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Magnij
lieutenant
lieutenant


Зарегистрирован: 16.10.2007
Сообщения: 158

СообщениеДобавлено: Вт Апр 21, 2009 11:58 am    Заголовок сообщения: Ответить с цитатой

myst писал(а):
Magnij писал(а):

Если это оригинал с хорошим русским яз., напр., АБС, а не машинные переводы, то годится.

Какое качество русского языка, не знаю: читал там только Толкина. Основная масса — переводы англоязычных авторов.


Для отработки ПО и предварительных рез-тов - годится.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Magnij
lieutenant
lieutenant


Зарегистрирован: 16.10.2007
Сообщения: 158

СообщениеДобавлено: Вт Апр 21, 2009 12:05 pm    Заголовок сообщения: Ответить с цитатой

myst писал(а):
То есть неинтересна (Вольдемар не в счёт). Smile Ладно, тогда обсчитаю только свою технику.


М.б. интересна для корректировки зон ответственности и нагрузок на пальцы для индивидуумов с дефектами кисти.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
myst
Подполковник
Подполковник


Зарегистрирован: 05.12.2008
Сообщения: 1332

СообщениеДобавлено: Вт Апр 21, 2009 12:38 pm    Заголовок сообщения: Ответить с цитатой

Magnij писал(а):
myst писал(а):
То есть неинтересна (Вольдемар не в счёт). Smile Ладно, тогда обсчитаю только свою технику.


М.б. интересна для корректировки зон ответственности и нагрузок на пальцы для индивидуумов с дефектами кисти.

Кстати, можно будет посмотреть какой профит от нарушения зон. Smile
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Марусяк Валерий
Подполковник
Подполковник


Зарегистрирован: 11.08.2008
Сообщения: 1001

СообщениеДобавлено: Ср Апр 22, 2009 1:05 pm    Заголовок сообщения: Ответить с цитатой

myst писал:
Цитата:
Меня тут одна идея посетила. А не отобразить ли полученную статистику на руки? Не просто какой палец как нагружен, а рассчитать частотность типовых приёмов (одиночное нажатие, удвоение, пара слева направо, пара справа налево, тройка слева направо, тройка справа налево и т. д.)
Идея интересная. Можно будет сгруппировать буквосочетания или даже слова по направлениям и потренироваться на них. Например, в одну справоналевную группу будут входить - вый, ная, дом, для, так... Однако, о полезности таких упражнений можно будет судить только после тренировок. Если сделаете расчет частотности, поделитесь результатами Smile.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Посетить сайт автора
myst
Подполковник
Подполковник


Зарегистрирован: 05.12.2008
Сообщения: 1332

СообщениеДобавлено: Ср Апр 22, 2009 2:18 pm    Заголовок сообщения: Ответить с цитатой

Марусяк Валерий писал(а):
myst писал:
Цитата:
Меня тут одна идея посетила. А не отобразить ли полученную статистику на руки? Не просто какой палец как нагружен, а рассчитать частотность типовых приёмов (одиночное нажатие, удвоение, пара слева направо, пара справа налево, тройка слева направо, тройка справа налево и т. д.)
Идея интересная. Можно будет сгруппировать буквосочетания или даже слова по направлениям и потренироваться на них. Например, в одну справоналевную группу будут входить - вый, ная, дом, для, так....

Я имел в виду приёмы выполняемые одной рукой. Например, строенные нажания «ыва», «авы», «йцу»; сдвоенные «ав», «ва», «ло» etc. Нарушение зон может расширить область применения приёма: «имя», «род» etc.
Техника нажатий соседних клавиш одним пальцем («па», «кам», «ака» etc) тоже отличается от техники одиночных нажатий, поэтому я считаю их разными приёмами.

Я заметил, что у меня при переходе с приёма на приём (особенно на приём другого типа) вероятность возникновения ошибок резко возрастает. Например, я слово «лорд» набираю двумя спаренными нажатиями «ло» + «рд», они противоположнонаправленные, и это приводит к возникновению ошибок и общему ощущению дискомфорта. На этой почве я решил немного изучить эту проблему. Ладно, оффтоп это. Smile
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Nestor
major
major


Зарегистрирован: 21.12.2008
Сообщения: 638

СообщениеДобавлено: Ср Апр 22, 2009 2:58 pm    Заголовок сообщения: Ответить с цитатой

Это не оффтоп. Я вчера ещё написал большое, сообщение для этой темы, но понял, что оно только запутает всех.
В двух словах: Такое исследование нужно, но делать его на лемметезированых словарях бессмысленно. Да вообще словари не идеальный вариант. Т.к. в и символы разделенные пробелом влияют друг на друга больше чем пробел влияет на них, ведь для пробела есть 1 а у кого-то и 2 больших пальца, которые ничем кроме этого не заняты. Только делать такой анализ на фантастике... Тут лучше сделать выборку из классиков + разбавить современной литературой. За количеством тут не так важно. Задача другого рода, выявить существенные закономерности.
_________________
Учусь объясняться с компьютером на пальцах.
http://www.klavogonki.ru/profile/76392
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
myst
Подполковник
Подполковник


Зарегистрирован: 05.12.2008
Сообщения: 1332

СообщениеДобавлено: Ср Апр 22, 2009 4:25 pm    Заголовок сообщения: Ответить с цитатой

Nestor писал(а):
В двух словах: Такое исследование нужно, но делать его на лемметезированых словарях бессмысленно.

Я на частотном списке словоформ делаю.

Nestor писал(а):
Т.к. в и символы разделенные пробелом влияют друг на друга больше чем пробел влияет на них, ведь для пробела есть 1 а у кого-то и 2 больших пальца, которые ничем кроме этого не заняты.

Какое-то влияние действительно есть.

Nestor писал(а):

Только делать такой анализ на фантастике... Тут лучше сделать выборку из классиков + разбавить современной литературой. За количеством тут не так важно. Задача другого рода, выявить существенные закономерности.

Мне тоже фантастика не нравится, особенно то, что она переводная. Там иноязычных да и просто выдуманных слов пруд-пруди наверняка. Нужен нормальный корпус. У Шарова довольно подробно описана проблема составления корпуса для расчёта частотности, но самого корпуса на его сайте я не нашёл.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
myst
Подполковник
Подполковник


Зарегистрирован: 05.12.2008
Сообщения: 1332

СообщениеДобавлено: Ср Апр 22, 2009 4:52 pm    Заголовок сообщения: Ответить с цитатой

Корпусы, составленные по науке, есть, но доступ к ним только через web. Sad
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Nestor
major
major


Зарегистрирован: 21.12.2008
Сообщения: 638

СообщениеДобавлено: Чт Апр 23, 2009 6:10 am    Заголовок сообщения: Ответить с цитатой

В том, не отправленном сообщении я как раз сравнивал НКРЯ и Шарова.. Последний слабенький по сравнению с первым. На основании корпуса Шарова и начали создавать НКРЯ. А анализ словоформ для анализа последовательностей даст очень отдаленное представление о реальных последовательностях. –приставки – суффиксы – окончания… Куда это годится для анализа последовательностей букв... Там до 50 % слова меняется... Если бы это был английский язык где изменения не так значительны...

В идеале, конечно, использовать тексты, которые легли в основу НКРЯ… но кто нам их даст. А обратиться как организация, которой нежен какой-то анализ мы не можем.
_________________
Учусь объясняться с компьютером на пальцах.
http://www.klavogonki.ru/profile/76392
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Magnij
lieutenant
lieutenant


Зарегистрирован: 16.10.2007
Сообщения: 158

СообщениеДобавлено: Чт Апр 23, 2009 9:41 am    Заголовок сообщения: Ответить с цитатой

myst писал(а):
Мне тоже фантастика не нравится, особенно то, что она переводная. Там иноязычных да и просто выдуманных слов пруд-пруди наверняка.


Не преувеличивайте значимость фантастики. Вы лично сколько НОВЫХ слов за свою жизнь выдумали?
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Magnij
lieutenant
lieutenant


Зарегистрирован: 16.10.2007
Сообщения: 158

СообщениеДобавлено: Чт Апр 23, 2009 9:59 am    Заголовок сообщения: Ответить с цитатой

Nestor писал(а):
А анализ словоформ для анализа последовательностей даст очень отдаленное представление о реальных последовательностях. –приставки – суффиксы – окончания… Куда это годится для анализа последовательностей букв...


Так список приставок и т.д. РЯ есть в любом справочнике. А вот как часто они встречаются в реальных текстах - нигде нет.

Nestor писал(а):
Там до 50 % слова меняется... Если бы это был английский язык где изменения не так значительны...


Ну, РЯ - это еще тот подарок, но и англ. примерно такой же. Да и вообще все естественные языки в этом смысле похожи - странные правила и еще более странные исключения из них. Так что эксперименты лучше начать с эсперанто - в нем раньше не было исключений. Но - с кем поведешься, того и наберешься - и за свои 120 лет он тоже набрался исключений. Хотя по сравнению с РЯ - просто идеал.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
myst
Подполковник
Подполковник


Зарегистрирован: 05.12.2008
Сообщения: 1332

СообщениеДобавлено: Чт Апр 23, 2009 11:06 am    Заголовок сообщения: Ответить с цитатой

Nestor писал(а):
А анализ словоформ для анализа последовательностей даст очень отдаленное представление о реальных последовательностях. –приставки – суффиксы – окончания… Куда это годится для анализа последовательностей букв... Там до 50 % слова меняется...

Простите, но я не понял. Особенно последние 2 предожения. Что такое 50%-ое изменение слова, но не словоформа? Shocked
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
myst
Подполковник
Подполковник


Зарегистрирован: 05.12.2008
Сообщения: 1332

СообщениеДобавлено: Чт Апр 23, 2009 11:11 am    Заголовок сообщения: Ответить с цитатой

Magnij писал(а):
Не преувеличивайте значимость фантастики. Вы лично сколько НОВЫХ слов за свою жизнь выдумали?

Как я понял, для расчёта частотности в корпусе не должно быть длинных произведений, одного автора и одной тематики. Посчитать-то можно, но насколько адекватным будет результат? Есть такой вариант: отфильтровать слова по списку Шарова и собрать пробельную статистику только для них.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
myst
Подполковник
Подполковник


Зарегистрирован: 05.12.2008
Сообщения: 1332

СообщениеДобавлено: Чт Апр 23, 2009 11:14 am    Заголовок сообщения: Ответить с цитатой

Nestor писал(а):
В том, не отправленном сообщении я как раз сравнивал НКРЯ и Шарова.. Последний слабенький по сравнению с первым.

Для наших целей разница существенна?
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Magnij
lieutenant
lieutenant


Зарегистрирован: 16.10.2007
Сообщения: 158

СообщениеДобавлено: Чт Апр 23, 2009 11:41 am    Заголовок сообщения: Ответить с цитатой

myst писал(а):
Magnij писал(а):
Не преувеличивайте значимость фантастики. Вы лично сколько НОВЫХ слов за свою жизнь выдумали?

Как я понял, для расчёта частотности в корпусе не должно быть длинных произведений, одного автора и одной тематики. Посчитать-то можно, но насколько адекватным будет результат? Есть такой вариант: отфильтровать слова по списку Шарова и собрать пробельную статистику только для них.


Можно и так, для начала - безразлично.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
myst
Подполковник
Подполковник


Зарегистрирован: 05.12.2008
Сообщения: 1332

СообщениеДобавлено: Чт Апр 23, 2009 4:18 pm    Заголовок сообщения: Ответить с цитатой

Magnij писал(а):
Важна последовательность: {пробел-n_символов}, {n_символов-пробел}, {пробел-n_символов-пробел}.

Вас интересуют слова целиком или буквы, примыкающие к пробелу?
Знаки препинания имеют значение?
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Magnij
lieutenant
lieutenant


Зарегистрирован: 16.10.2007
Сообщения: 158

СообщениеДобавлено: Пт Апр 24, 2009 9:06 am    Заголовок сообщения: Ответить с цитатой

myst писал(а):
Magnij писал(а):
Важна последовательность: {пробел-n_символов}, {n_символов-пробел}, {пробел-n_символов-пробел}.

Вас интересуют слова целиком или буквы, примыкающие к пробелу?
Знаки препинания имеют значение?


Слова есть разной длины, от 1 символа и больше. Поэтому хорошо бы иметь для сравнения 2 списка: слова целиком и куски слов, чего больше.

Знаки препинания не очень важны: и так ясно, что в любом тексте запятых больше, чем точек, а в технических знаки "!" и "..." практически не бывают. Так что можно приравнять их к пробелу. Хотя, если не сложно получить статистику и со знаками, то это может быть любопытно.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
myst
Подполковник
Подполковник


Зарегистрирован: 05.12.2008
Сообщения: 1332

СообщениеДобавлено: Пт Апр 24, 2009 1:19 pm    Заголовок сообщения: Ответить с цитатой

Magnij писал(а):
Слова есть разной длины, от 1 символа и больше. Поэтому хорошо бы иметь для сравнения 2 списка: слова целиком и куски слов, чего больше.

Не понял.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Magnij
lieutenant
lieutenant


Зарегистрирован: 16.10.2007
Сообщения: 158

СообщениеДобавлено: Сб Апр 25, 2009 3:07 pm    Заголовок сообщения: Ответить с цитатой

Есть слово "_о_", и, например, окончание в слове "около_". Они похожи как две капли водки. Без бутылки (программы, словаря и т.д. - нужное подчеркнуть) их не различить. Как узнать, что чаще встречается: "_о_" или "о_" и насколько чаще?
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
myst
Подполковник
Подполковник


Зарегистрирован: 05.12.2008
Сообщения: 1332

СообщениеДобавлено: Сб Апр 25, 2009 5:52 pm    Заголовок сообщения: Ответить с цитатой

Magnij писал(а):
Есть слово "_о_", и, например, окончание в слове "около_". Они похожи как две капли водки. Без бутылки (программы, словаря и т.д. - нужное подчеркнуть) их не различить. Как узнать, что чаще встречается: "_о_" или "о_" и насколько чаще?

Ну, то есть учитывать только пробел и буквы, непосредственно к нему примыкающие. Так?

P. S. Про два списка так и не понял. Smile
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
myst
Подполковник
Подполковник


Зарегистрирован: 05.12.2008
Сообщения: 1332

СообщениеДобавлено: Вс Апр 26, 2009 7:30 pm    Заголовок сообщения: Ответить с цитатой

Не знаю, правильно ли я понял. В общем, вот: http://www.filefactory.com/file/agd51ef/n/whitespace_stats_rar
101.txt — пробел-непробел-пробел;
01.txt — пробел-непробел;
10.txt — непробел-пробел.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Magnij
lieutenant
lieutenant


Зарегистрирован: 16.10.2007
Сообщения: 158

СообщениеДобавлено: Пн Апр 27, 2009 11:22 am    Заголовок сообщения: Ответить с цитатой

Есть однобуквенные слова "а, в, и, к, о, у, я" и т.д. Они же могут быть приставками, окончаниями, входить в состав корня и суффикса. Если сравнить частотность всех четырех списков, то, возможно, в этой статистике обнаружится что-то любопытное, а может и нет. А вот в двухбуквенных - может, и да. Надо посмотреть.

А скачать http://www.filefactory.com/file/agd51ef/n/whitespace_stats_rar

не удалось.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
myst
Подполковник
Подполковник


Зарегистрирован: 05.12.2008
Сообщения: 1332

СообщениеДобавлено: Пн Апр 27, 2009 12:44 pm    Заголовок сообщения: Ответить с цитатой

Magnij писал(а):

А скачать http://www.filefactory.com/file/agd51ef/n/whitespace_stats_rar
не удалось.

Странно. Попробуйте эти:
http://slil.ru/27490027
http://depositfiles.com/ru/files/o7uipx0sc
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
myst
Подполковник
Подполковник


Зарегистрирован: 05.12.2008
Сообщения: 1332

СообщениеДобавлено: Пн Апр 27, 2009 12:53 pm    Заголовок сообщения: Ответить с цитатой

Magnij писал(а):
Есть однобуквенные слова "а, в, и, к, о, у, я" и т.д. Они же могут быть приставками, окончаниями, входить в состав корня и суффикса.

Здесь потребуется деление на морфемы. У меня пока нет такого алгоритма. Sad

Найду алгоритмы — сделаю частотный анализ морфем и слогов. Меня давно занимает вопрос: как наиболее эффективно членить слова? Хочу сравнить морфемный, слоговой и частотный способы членения.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Magnij
lieutenant
lieutenant


Зарегистрирован: 16.10.2007
Сообщения: 158

СообщениеДобавлено: Пн Апр 27, 2009 3:12 pm    Заголовок сообщения: Ответить с цитатой

Спасибо, скачал.

Но вот что странно. Кроме букв, там много и др. символов псевдографики из еще досовской таблицы ASCII. Они как сюда попали?

Морфемы сейчас не обязательны, достаточно посмотреть на 2-х, 3-х и т.д. буквосочетания.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Показать сообщения:   
Начать новую тему   Ответить на тему    Список форумов urikor.net -> Слепая машинопись Часовой пояс: GMT + 2
На страницу Пред.  1, 2, 3, 4, 5, 6  След.
Страница 3 из 6

 
Перейти:  
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах


Powered by phpBB © 2001, 2005 phpBB Group
Русская поддержка phpBB
Как бесплатно сделать свой сайт    Просто о сложном