Слепая печать:
  Championship-Ru
  Championship-En
Список форумов urikor.net urikor.net
Все о слепой машинописи и клавиатурных тренажерах
 
 FAQFAQ   ПоискПоиск   ПользователиПользователи   ГруппыГруппы   РегистрацияРегистрация 
 ПрофильПрофиль   Войти и проверить личные сообщенияВойти и проверить личные сообщения   ВходВход 

Идеи ускорения печати на обычных клавиатурах
На страницу 1, 2, 3, 4  След.
 
Начать новую тему   Ответить на тему    Список форумов urikor.net -> Слепая машинопись
Предыдущая тема :: Следующая тема  
Автор Сообщение
ZukerPA
Touchtyping Expert


Зарегистрирован: 14.02.2005
Сообщения: 440
Откуда: Троицк МО

СообщениеДобавлено: Вт Сен 18, 2007 11:15 pm    Заголовок сообщения: Идеи ускорения печати на обычных клавиатурах Ответить с цитатой

В нашем мире правят стандарты. И часто эти стандарты далеки от идеального. Но нам приходится ими пользоваться и приноровляться к ним. Стандарт, о котором хочу поговорить я -- это форма клавиатуры, которая используется во всём мире, а также расположение клавиш ЙЦУКЕН для русского и QWERTY для английского языка.

Те, кто уже не первый день на этом форуме, отлично знают, почему эти стандарты не идеальны. Если коротко, то нынешняя форма клавиатуры с неудобными сдвинутыми рядами унаследовалась от механической печатной машинки, для которой такое расположение клавиш имело смысл -- надо было компактно распределить механические части машинки. В раскладке QWERTY же основной идеей было удаление букв из наиболее часто встречающихся буквосочетаний на максимальные расстояния друг от друга во избежание залипания рычажков, которые печатали буквы. Что, естественно, выливалось в большее неудобство печати и в меньшую скорость. Раскладка ЙЦУКЕН определённо лучше QWERTY, но тоже не идеальна: она перегружена наиболее частыми буквами в центре, что имело смысл на печатных машинках, для которых была важна сила удара и, конечно, было логично расположить самые частые буквы на самых сильных указательных пальцах.

Скажем честно -- заменить ту клавиатуру, которую сейчас используют в каждом доме, на другую -- практически невозможно. Поэтому надо думать, как можно увеличить скорость печати именно на ней. Это не значит, что не надо придумывать новые клавиатуры и концепции для них. Конечно, надо. Просто это немного другое направление. Преимущества метода, который позволит увеличить скорость печати на обычной клавиатуре в том, что его могут применять все желающие без каких-то дополнительных затрат.

Прошли времена, когда замена раскладки клавиатуры была болезненным и денежным делом. Многие знают, что английской раскладке QWERTY есть альтернатива -- раскладка Дворака. Это раскладка намного удобнее QWERTY, быстрее, меньше нагружает руки. Но придумана она была не вовремя -- это было во время Великой Депрессии и во время печатных машинок. Если сейчас поставить раскладку Дворака на компьютере обычно занимает меньше минуты и меньше 10 кликов мышки, то тогда это занимало несколько дней и не символическую денег, чтобы перебить буквы на рычажках печатных машинок.

Наука пошла ещё дальше. Теперь можно делать программы, которые обрабатывают поток данных с клавиатуры и выдают результат по заложенным в них правилам. Один из самых распространённых примеров -- текст Т9 на мобильных телефонах. Не буду вдаваться в подробности этой технологии. Если применить то, что я сказал, к клавиатурам, то это означает, что при желании на одну клавишу можно "повесить" комбинацию из нескольких букв, т.е. при нажатии на клавишу в текстовом редакторе наберётся заданная комбинация. Можно на комбинацию клавиш повесить букву или комбинацию букв. Частично это уже реализовано на клавиатуре -- заглавные буквы являются комбинациями клавиши Shift и соответствующих букв.

Так какие же идеи всё-таки перспективны для увеличения скорости печати? Рассмотрим несколько в порядке убывания важности.

1) Раскладка (расположение букв на клавиатуре), которая позволяет печатать максимально быстро. Обычно это означает, что наиболее часто встречающиеся пары букв должны находить на разных сторонах клавиатуры, так как наименьшее время между нажатиями достигается как раз тогда, когда буквы находятся на разных сторонах. Также если слово набирается, оно должно обычно не прыгать между всеми тремя рядами, а находиться либо на среднем и верхнем, либо на среднем и нижнем ряду. Пальцы должны проходить как можно меньшее расстояние, должны учитываться наиболее удобные движения для пальцев и т.д. и т.п.

Это наиболее важный пункт. Уже после того, как он будет реализован, можно приступать к другим пунктам. Это база, а база всегда имеет наибольшее значение. Можно сделать замечательный дом из соломы, но это будет дом из соломы, который не выдержит зимы и не сможет защитить своего хозяина от ветра. А можно сделать неказистый, некрасивый дом из камня, но при этом он выдержит и зиму, и ветер. Да и улучшить его будет можно после зимы, когда новые деньги появятся.

2) Введение на клавиатуре возможности набирать наиболее частые комбинации букв в языке быстрее, чем это делается обычным способом. Имеется в виду, что, например, слог "не" можно набирать быстрее, если его повесить на клавишу "о". Это не значит, что набирать в общем станет удобнее, но "не" будет набираться однозначно быстрее. Также, например, слово "нет" можно повесить на Ctrl+о. Так как используется две клавиши, а не три, то опять набор станет быстрее (тут можно поспорить, но общая тенденция ясна).

Итак, здесь бы я различил несколько главных вариаций. Во-первых, комбинации клавиш и соответствующие им буквосочетания заданы жёстко, т.е. сколько бы ты раз не нажимал Ctrl+о, каждый раз будет печататься "нет" и ни разу не напечатается "да". Во-вторых, может не быть такого жёсткого задания комбинаций, т.е. умная программа на компьютере сама разбирается, чтобы вы имели в виду (аналогия Т9 на телефоне).

Сначала рассмотрим первый случай. Очевидно, что вещать сочетания из двух букв на сочетание из двух клавиш не имеет смысла. При условии создания более хорошей раскладки наиболее частые буквосочетания и так набираются разными руками. Сочетание из двух и более букв имеет смысл либо вешать на одну букву, либо сочетания из трёх и более букв вешать на комбинации, в которых используется меньше клавиш, чем появляется букв на экране.

К сожалению, по крайней мере, для русского языка, нет такого набора буквосочетаний, которые бы покрывали весь язык. Всё равно достаточно часто придётся пользоваться отдельными буквами. Если же всё-таки будет доказано, что мы используем слог "не" не реже чем в два раза мы используем букву "ю", то имеет смысл поменять местами набор этих буквосочетаний. Т.е. при нажатии на "ю" будет печататься "не", а при наборе "не" программа на компьютере будет менять это на одну букву "ю". Почему "не реже чем в два раза". Да потому что "не" длиннее "ю" в два раза, для набора используется две клавиши, а не одна. Поэтому если отношение использования "не" к "ю" составляет пропорцию больше, чем 1 к 2, то нам выгодно на более удобную клавишу повесить "не".

Сюда же можно добавить вопрос использования цифрового ряда для увеличения скорости печати. Т.е. цифры печатать комбинациями, а на цифровой ряд повесить наиболее часто встречающиеся комбинации. Также мне представляется очень позитивным направление "программируемого пробела", т.е. приравнивание пробела к программируемым клавишам. Пробел очень удобно нажимать и реально при его использовании мы получаем дополнительно 30-40 удобных комбинаций.

Развитие этого метода пока упирается в отсутствие частотного анализа русского языка и сравнительной частоты использования цифр, знаков препинаний, букв и комбинаций из букв между собой.

Второй метод -- это когда при нажатии на одни и те же клавиши в разных условиях, мы получаем разные результаты, которые зависят от того, что было нажато до этих клавиш и что будет нажато позже. Этот метод определённо имеет будущее, но каких-либо значительных разработок на данный момент я не знаю, поэтому писать о них не могу.

Это пока пилотный текст редакции 0.1, т.е. дальше он будет правиться по результатам умных постов на форуме, более внимательного его перечитывания и т.д. Ускорение печати программным методом является очень перспективным направлением и я не сомневаюсь, что постепенно будут появляться результаты.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail
Dron
Полковник
Полковник


Зарегистрирован: 06.07.2005
Сообщения: 2213
Откуда: Odessa

СообщениеДобавлено: Ср Сен 19, 2007 2:38 pm    Заголовок сообщения: Ответить с цитатой

Цитата:
1) Раскладка (расположение букв на клавиатуре), которая позволяет печатать максимально быстро. Обычно это означает, что наиболее часто встречающиеся пары букв должны находить на разных сторонах клавиатуры, так как наименьшее время между нажатиями достигается как раз тогда, когда буквы находятся на разных сторонах. Также если слово набирается, оно должно обычно не прыгать между всеми тремя рядами, а находиться либо на среднем и верхнем, либо на среднем и нижнем ряду. Пальцы должны проходить как можно меньшее расстояние, должны учитываться наиболее удобные движения для пальцев и т.д. и т.п.

Для английского языка на сегодня самая проработанная раскладка Colemak, наверное. Не пробовал? Про неё пишут, что в 16 раз меньше перескоков с ряда на ряд для одной руки, чем в QWERTY, что можно набрать в 35 раз больше слов, не уходя с основного ряда, меньше последовательной работы одному и тому же пальцу и т.д. Для русского языка, похоже, ничего подобного не проводилось.

Цитата:
Развитие этого метода пока упирается в отсутствие частотного анализа русского языка и сравнительной частоты использования цифр, знаков препинаний, букв и комбинаций из букв между собой.

Анализ частот букв есть, слогов не встречал. Но это ведь не сложно сделать. Текстов куча, компы быстрые. Что конкретно нужно-то? Частоту цифр нет смысла делать. Очень зависит от типа набираемого текста.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
ZukerPA
Touchtyping Expert


Зарегистрирован: 14.02.2005
Сообщения: 440
Откуда: Троицк МО

СообщениеДобавлено: Ср Сен 19, 2007 11:41 pm    Заголовок сообщения: Ответить с цитатой

Dron писал(а):
Для английского языка на сегодня самая проработанная раскладка Colemak, наверное. Не пробовал? Про неё пишут, что в 16 раз меньше перескоков с ряда на ряд для одной руки, чем в QWERTY, что можно набрать в 35 раз больше слов, не уходя с основного ряда, меньше последовательной работы одному и тому же пальцу и т.д. Для русского языка, похоже, ничего подобного не проводилось.


В том-то и дело, что нужно что-то подобное для русского языка. Естественно, посмотрел на ссылку, сравнил все три раскладки на нескольких текстах. То, что QWERTY проигрывает, уже давно не обсуждается, сделать раскладку лучше неё -- как нечего делать. А вот при сравнение Дворака и Колемарк и скорее заметил проигрыш второй. У Дворака примерно на 30% меньше буквосочетаний, набираемых одной рукой, а этот показатель, имхо, важнее, чем пройденное расстояние и другое.

Конечно, плюсы у Колемакс есть: на неё легче переучиваться, например. Минусы -- то, что её нет в стандартных раскладках Виндоус, в отличие от Дворака. Вообще, я очень хочу добраться до книжки Дворака, которая описывает, почему именно так он сделал свою раскладку. Ну и до новых исследований. Но, естественно, время не резиновое, тем более во время учёбы.

Цитата:
Анализ частот букв есть, слогов не встречал. Но это ведь не сложно сделать. Текстов куча, компы быстрые. Что конкретно нужно-то? Частоту цифр нет смысла делать. Очень зависит от типа набираемого текста.


Для начала нужен сравнительный анализ букв и буквосочетаний русского языка. Конкретно, есть ли буквосочетание из двух букв, которое встречается в языке в 1.5-1.9 раз реже, чем любая буква. То же самое для трёх букв, только с коэффициентом 2.5-2.9.

Если таких буквосочетаний не найдётся, то можно с уверенностью заявить, что замена букв на буквосочетания на клавиатуре смысла не имеет.

После анализа также можно будет начать работу по разбросу букв для новой расладке на клавиатуре, но тут у меня пока теоретического материала, как это стоит делать, нет.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail
Dron
Полковник
Полковник


Зарегистрирован: 06.07.2005
Сообщения: 2213
Откуда: Odessa

СообщениеДобавлено: Чт Сен 20, 2007 12:04 am    Заголовок сообщения: Ответить с цитатой

ZukerPA писал(а):
У Дворака примерно на 30% меньше буквосочетаний, набираемых одной рукой, а этот показатель, имхо, важнее, чем пройденное расстояние и другое.

А почему? Ведь если много сочетаний на одну руку, то чаще попадаются на один и тот же палец или на неудобные пальцы (средний, мизинец), что намного медленнее, чем набирать разными руками.

ZukerPA писал(а):
Для начала нужен сравнительный анализ букв и буквосочетаний русского языка. Конкретно, есть ли буквосочетание из двух букв, которое встречается в языке в 1.5-1.9 раз реже, чем любая буква. То же самое для трёх букв, только с коэффициентом 2.5-2.9.

Если таких буквосочетаний не найдётся, то можно с уверенностью заявить, что замена букв на буквосочетания на клавиатуре смысла не имеет.

Не совсем понял. Наверное чаще, а не реже? А то вот сочетание "ъъ" очень редко встречается, реже любой буквы точно.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Baratov
Praporshik - ensign
Praporshik - ensign


Зарегистрирован: 22.08.2007
Сообщения: 99

СообщениеДобавлено: Чт Сен 20, 2007 6:58 pm    Заголовок сообщения: Re: Идеи ускорения печати на обычных клавиатурах Ответить с цитатой

ZukerPA писал(а):

Скажем честно -- заменить ту клавиатуру, которую сейчас используют в каждом доме, на другую -- практически невозможно.


Ой, не многие заметят эту замену...
Smile

ZukerPA писал(а):

Прошли времена, когда замена раскладки клавиатуры была болезненным и денежным делом.


Да, я уже не помню того, что бы на любую клавишу нельзя было повесить любое событие, в частности, воспроизведение произвольного символа. Хотя, если коснется, вспоминать, как это делается, придется по новой.
Smile

ZukerPA писал(а):

Наука пошла ещё дальше. Теперь можно делать программы, которые обрабатывают поток данных с клавиатуры и выдают результат по заложенным в них правилам. Один из самых распространённых примеров -- текст Т9 на мобильных телефонах. Не буду вдаваться в подробности этой технологии.


Это типичная функция многих текстовых редакторов, клавиатура тут не при чем. Клавиатура просто посылает компьютеру произвольный байт данных, а в его обработке она участия не принимает.

ZukerPA писал(а):

Так какие же идеи всё-таки перспективны для увеличения скорости печати? Рассмотрим несколько в порядке убывания важности.


Извините, мне кажется, всё уже придумано до нас. Я считаю, бОльшая часть времени уходит на обдумывание текста, чем на его печать. Так что, начиная с определенного уровня, скорость печати перестает быть критичным элементом.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Посетить сайт автора
Dron
Полковник
Полковник


Зарегистрирован: 06.07.2005
Сообщения: 2213
Откуда: Odessa

СообщениеДобавлено: Пт Сен 21, 2007 12:53 am    Заголовок сообщения: Re: Идеи ускорения печати на обычных клавиатурах Ответить с цитатой

Baratov писал(а):
Извините, мне кажется, всё уже придумано до нас. Я считаю, бОльшая часть времени уходит на обдумывание текста, чем на его печать. Так что, начиная с определенного уровня, скорость печати перестает быть критичным элементом.


Не могу с этим согласиться. Можно обдумывать фразу сколько угодно времени, но потом она рождается и её уже хочется напечатать мгновенно, чтобы обдумывать следующую. Можно думать и пока печатаешь, но тогда число ошибок увеличивается. А иногда поток сознания так захлестнет, что только успевай долбить. Так что скорости много не бывает.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
ZukerPA
Touchtyping Expert


Зарегистрирован: 14.02.2005
Сообщения: 440
Откуда: Троицк МО

СообщениеДобавлено: Пт Сен 21, 2007 4:23 am    Заголовок сообщения: Ответить с цитатой

Baratov, честно говоря, не увидел никакой логики в вашем посте. То, что рядовые пользователи не заметят замену клавиатуры, не значит, что все мировые производители уже завтра перейдут на "новую супер-пупер эргономичную клавиатуру" и поставят её в каждый дом. "Денежная замена раскладки" -- конечно, имелись в виду печатные машинки. То, что клавиатура посылает только информацию, которую уже будет обрабатывать программа -- это очевидно всем, никто и не отрицал. Ну, а то, что "всё уже до нас придумано" -- бред какой-то, не ориентирована русская раскладка на скорость. Плюс не всегда мы набираем текст из головы, иногда мы его с рукописи перепечатываем, например. Или записываем под диктовку.

Dron, конечно, ты прав. Ошибся я в расчётах. Чтобы был смысл в замене буквосочетания на букву, оно должно появляться чаще, чем буква, ведь после замены буква набирается двумя нажатиями. Если бы буква продолжала набираться одним нажатием, то то, что я написал, было бы верно.

А вот если мы предположим, что можем использовать для размещения букв и цифровой ряд, то буквосочетания, которые появляются реже, но не больше чем в два раза, понадобятся.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail
Dron
Полковник
Полковник


Зарегистрирован: 06.07.2005
Сообщения: 2213
Откуда: Odessa

СообщениеДобавлено: Пт Сен 21, 2007 11:21 am    Заголовок сообщения: Ответить с цитатой

Хорошо, с меня частотный анализ 2-буквенных сочетаний. Где-то в течение недели, думаю, найду время набросать что-то. Частоты одиночных букв есть, но можно и пересчитать. У меня на разных текстах очень сильно различались значения уже в районе 3-4-й букв. Но на больших объемах картина должна выравняться.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Baratov
Praporshik - ensign
Praporshik - ensign


Зарегистрирован: 22.08.2007
Сообщения: 99

СообщениеДобавлено: Пт Сен 21, 2007 12:46 pm    Заголовок сообщения: Ответить с цитатой

ZukerPA писал(а):
... то, что "всё уже до нас придумано" -- бред какой-то, не ориентирована русская раскладка на скорость. Плюс не всегда мы набираем текст из головы, иногда мы его с рукописи перепечатываем, например. Или записываем под диктовку.


В стандартной поставке операционной системы идет 10 раскладок для русского языка. Я это имел в виду, когда говорил, что все придумано до нас.
Решил, что есть там и эргономичные раскладки, но, конечно, не проверял, мне это не нужно было.
Кроме того, попадались на глаза фотографии приспособлений для стенографии, имевшие форму, сравнимую с полусферой - с современной клавиатурой ничего общего, но деваться некуда, это тоже клавиатура.
Вот, по быстрому нашел нечто подобное -
http://zedomax.com/blog/wp-content/uploads/2007/06/wolf-king-round-type-keyboard1.jpgго
То, что я видел - 2 таких бублика, или сектора, кнопки расположены в дальней от руки половине клавиатуры. Подробнее не помню, не интересовали тогда такие вещи, когда на глаза попалось.
По поводу перепечатывания текстов и диктовки - теперь уж раньше сделают распозновалочки рукописных текстов и речи, чем будут исследовать раскладки.
По поводу того, что русская раскладка не ориентирована на скорость - надо посмотреть верхние показатели у профессионалов слепой печати, и сравнить эти значения для русского и нерусского языков.
Вот, пока писал, попалась ссылка, возможно, вас заинтересует.
http://www.geocities.com/razdel_2006/
Хотя, вполне возможно, это просто чья-то шутка.

ZukerPA писал(а):

А вот если мы предположим, что можем использовать для размещения букв и цифровой ряд, то буквосочетания, которые появляются реже, но не больше чем в два раза, понадобятся.


На сколько я знаю, французы так и делают. Только им там не буквосочетания, а символы приходится размещать.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Посетить сайт автора
Автандилина
AvtandiLine


Зарегистрирован: 06.12.2005
Сообщения: 3238
Откуда: Москва и Санкт-Петербург

СообщениеДобавлено: Пт Сен 21, 2007 1:36 pm    Заголовок сообщения: Ответить с цитатой

Baratov писал(а):
http://www.geocities.com/razdel_2006/
Хотя, вполне возможно, это просто чья-то шутка.

А, интересно. В букмарки её... Пока что смотреть совсем некогда Sad
_________________
http://klava.tel быстрая справка, http://www.liveinternet.ru/community/faq_avtandiline/post153540114/ Амишка (AMi) и ФАВТ
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
ZukerPA
Touchtyping Expert


Зарегистрирован: 14.02.2005
Сообщения: 440
Откуда: Троицк МО

СообщениеДобавлено: Пт Сен 21, 2007 2:15 pm    Заголовок сообщения: Ответить с цитатой

Андрей, отлично, после анализа можно будет первые выводы сделать.

Baratov, просто для информации перед вашим следующим постом в этой теме. Вы новичок на форуме и не в курсе некоторых вещей, поэтому это может показаться полезным.

-- В стандартной поставке Windows две русские раскладки: обычная и машинопись.

-- Если вы что-то не проверяли, потому что вам это было не нужно, но это относится к обсуждаемой теме, то не надо выдавать это, как доказанный факт. Там нет эргономичных раскладок.

-- Перед постом посмотрите, как называется тема, может быть то, что вы собираетесь написать, к ней не относится. Например, как увеличить скорость за счёт модернизации клавиатуры. Здесь эта тема не рассматривается.

-- Перепечатывание vs распознавание -- далеко не простая тема, чтобы уместить её в одно предложение. Плюс мы не просим кого-то исследовать раскладки, мы занимаемся этим сами.

-- По поводу того, что русская раскладка не ориентирована на скорость совсем не надо сравнивать показатели на русской и нерусской раскладке. QWERTY тоже не ориентирована на скорость и мало что получится из этого сравнения. Если сравнивать, то, очевидно и естественно, надо русские раскладки.

-- Хотя, в принципе, спросить можно у меня. На последнем онлайн-чемпионате мира я занял 10-е место в своей категории, печатая на 16 языках. Поэтому я знаком с различными раскладками. На английском Двораке печатать намного удобнее и, в итоге, быстрее, чем на ЙЦУКЕН (502 против 486, вроде). Хотя это не сильно о чём говорит, разные языки -- разные показатели.

За ссылку по русской раскладке спасибо, посмотрю внимательно попозже. Пока на первый взгляд скажу, что основной мотив "нагрузка равномерно распределяется по основным рабочим пальцам\зонам" похоже является и единственным, что не может радовать. Улучшить ЙЦУКЕН труда не составит, его надо улучшить так, чтобы дальнейшее улучшение не имело смысла долгие годы (как Дворак).
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail
Baratov
Praporshik - ensign
Praporshik - ensign


Зарегистрирован: 22.08.2007
Сообщения: 99

СообщениеДобавлено: Пт Сен 21, 2007 3:15 pm    Заголовок сообщения: Ответить с цитатой

Dron писал(а):
Хорошо, с меня частотный анализ 2-буквенных сочетаний. Где-то в течение недели, думаю, найду время набросать что-то. Частоты одиночных букв есть, но можно и пересчитать. У меня на разных текстах очень сильно различались значения уже в районе 3-4-й букв. Но на больших объемах картина должна выравняться.


По ходу дела можно так:

fold -b2 example.txt > test.odnako
Разделили файл по 2 символа на строчку.
Можно и по 1, тогда будет считаться частота использования символов.
sort test.odnako > test.odnako.snova
Отсортировали все встретившиеся строки
uniq -c test.odnako.snova > result.odnako
Получили файл, в котором указано, сколько раз в тексте встретилось каждое буквосочетание.

Это в альтернативной операционной системе, где много раскладок. Так что, если в самом деле интересно, готовьте файлик, в котором вы хотите что-то посчитать. Линух для этого найти - не очень большая проблема. Несколько упростил, будут считаться и пробелы, и знаки препинания, и вообще, всё, что попадется. Если кто-то не любит какой-то конкретный символ, можно будет убрать..
Very Happy

Приношу извинения, если опять не в тему выступил. Подумал - набросать в течение недели - написать программу, которая выполнит подсчет. Зачем, есть ведь готовые? Но, может, опять ошибся, и неделя нужна для подготовки текстов?
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Посетить сайт автора
Dron
Полковник
Полковник


Зарегистрирован: 06.07.2005
Сообщения: 2213
Откуда: Odessa

СообщениеДобавлено: Пт Сен 21, 2007 4:56 pm    Заголовок сообщения: Ответить с цитатой

Baratov писал(а):
Приношу извинения, если опять не в тему выступил. Подумал - набросать в течение недели - написать программу, которая выполнит подсчет. Зачем, есть ведь готовые? Но, может, опять ошибся, и неделя нужна для подготовки текстов?


Я где-то писал, что буду заниматься этим в течение недели? Я сказал, что найду время в течение недели, а сколько это будет, час или день зависит от многих вещей.

За скрипт спасибо, некоторых команд не знал. Но, думаю, можно было бы и одним sed'ом обойтись, который портирован и под неальтернативную ОС. Я тоже предпочитаю находить готовое и люблю всякие утилиты для обработки текстов.

Но готовое не всегда подходит. Так, например, предложенный вами вариант будет работать неправильно для 2-символьных сочетаний. Строку "абвг" он разобьет на "аб" и "вг", а сочетание "бв" пропустит. Так что надо долепить 1 пробел в начало файла и повторить процедуру.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Baratov
Praporshik - ensign
Praporshik - ensign


Зарегистрирован: 22.08.2007
Сообщения: 99

СообщениеДобавлено: Пт Сен 21, 2007 10:08 pm    Заголовок сообщения: Ответить с цитатой

Dron писал(а):
думаю, можно было бы и одним sed'ом обойтись, который портирован и под неальтернативную ОС.


Если будете делать, поделитесь, как седом делить строку на кучу двухбайтовых. Сразу найти не удалось, а интересно теперь...
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Посетить сайт автора
NM
major
major


Зарегистрирован: 07.08.2006
Сообщения: 524
Откуда: Москва

СообщениеДобавлено: Чт Сен 27, 2007 11:59 pm    Заголовок сообщения: Ответить с цитатой

Dron писал(а):
Хорошо, с меня частотный анализ 2-буквенных сочетаний. Где-то в течение недели, думаю, найду время набросать что-то. Частоты одиночных букв есть, но можно и пересчитать. У меня на разных текстах очень сильно различались значения уже в районе 3-4-й букв. Но на больших объемах картина должна выравняться.


С нетерпением жду продолжения этого обсуждения.
Мучают 2 вопроса:
1. Какие тексты нужно анализировать, чтобы получить картину современного русского языка? Современную литературу (Пелевин, Донцова и др.)? Российскую газету или Московский комсомолец? Может быть, учебники экономики, менеджмента, маркетинга?
2. Какое количество текстов, какой объем можно считать достаточным?
НМ
_________________
GZOS.RU INTERSTENO.RU
Тренировки круглый год!
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Dron
Полковник
Полковник


Зарегистрирован: 06.07.2005
Сообщения: 2213
Откуда: Odessa

СообщениеДобавлено: Пт Сен 28, 2007 12:56 am    Заголовок сообщения: Ответить с цитатой

NM писал(а):

Мучают 2 вопроса:
1. Какие тексты нужно анализировать, чтобы получить картину современного русского языка? Современную литературу (Пелевин, Донцова и др.)? Российскую газету или Московский комсомолец? Может быть, учебники экономики, менеджмента, маркетинга?
2. Какое количество текстов, какой объем можно считать достаточным?
НМ

Постепенно подбираюсь. Скриптовые решения хорошо работают, пока их не начинаешь проверять в реальных условиях. Вылазят всякие нюансы. Еще на другую темку переключился (см. закрытый форум). Но частотный анализ сделаю.

Нора Максовна, действительно важные вопросы. Может у вас есть какие-то предположения? Брать надо тексты наверное такие, которые предполагается набирать. А что мы обычно набираем? Почту, чат, документы. Соответственно и стиль - официальный, эпистолярный, разговорный. В рамках приличий, конечно желательно Smile

Но где набрать именно таких текстов? Намного проще взять художественной литературы. Детективы, например, считаются наиболее близко соответствующими обыденной жизни. Много диалогов, живой речи. Фантастику и фэнтези я бы поостерегся использовать, потому что там могут с высокой частотой встречаться имена собственные с нехарактерной для русского языка структурой. Газеты? Там совсем другая лексика, другой стиль. Но ведь есть задачи, когда и в таком стиле набирать надо. Для тех же журналистов.

Так что по-видимому набрать надо всего понемногу. Первые результаты можно делать по современной литературе (думаю, несколько десятков мегабайт достаточно - 20-30 книжек). А потом можно проверить, меняется ли существенно расклад на других текстах.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
NM
major
major


Зарегистрирован: 07.08.2006
Сообщения: 524
Откуда: Москва

СообщениеДобавлено: Пт Сен 28, 2007 1:48 am    Заголовок сообщения: Ответить с цитатой

Вот и я об этом думаю.
Одни учатся печатать для себя, другие - для работы. К сожалению, данные о частотности употребления слов и словосочетаний в разных стилях (даже подстилях) достаточно сильно различаются. Получается, что нужно делать несколько словарей. Это плохо.
С другой стороны, на уровне слогов и частей слов можно определить общие для русского языка часто встречающиеся элементы. Но в процессе печати выделение и отражение этих буквосочетаний каким-то особым (даже очень простым способом) становится еще одной работой.
Сейчас мне кажется, что для начала можно сделать словарь так называемых "стоп слов". Это предлоги, союзы и т.п. (какой, который, в течение). Их около 300. А больше и не запомнить. Придумать способы ускоренного и удобного их ввода (хорошо было бы, если бы они еще и автоматически согласовывались бы с другими словами). Проверить, даст ли это результат, а потом подумать, куда двигаться дальше.
НМ
_________________
GZOS.RU INTERSTENO.RU
Тренировки круглый год!
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Dron
Полковник
Полковник


Зарегистрирован: 06.07.2005
Сообщения: 2213
Откуда: Odessa

СообщениеДобавлено: Вт Окт 02, 2007 8:01 pm    Заголовок сообщения: Ответить с цитатой

Baratov писал(а):
Dron писал(а):
думаю, можно было бы и одним sed'ом обойтись, который портирован и под неальтернативную ОС.
Если будете делать, поделитесь, как седом делить строку на кучу двухбайтовых. Сразу найти не удалось, а интересно теперь...
Для 2-буквенных, так, например: sed "s/\(.\)/\1\n\1/g2" text.txt
И не надо 2 раза проходить. Но считать уже потом лучше другими средствами.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Baratov
Praporshik - ensign
Praporshik - ensign


Зарегистрирован: 22.08.2007
Сообщения: 99

СообщениеДобавлено: Ср Окт 03, 2007 7:42 am    Заголовок сообщения: Ответить с цитатой

Dron писал(а):
sed "s/\(.\)/\1\n\1/g2" text.txt

Спасибо. Не часто sed мне нужен, сам не вспомнил бы про последний параметр.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Посетить сайт автора
Dron
Полковник
Полковник


Зарегистрирован: 06.07.2005
Сообщения: 2213
Откуда: Odessa

СообщениеДобавлено: Пт Окт 05, 2007 10:10 am    Заголовок сообщения: Ответить с цитатой

Dron писал(а):
Хорошо, с меня частотный анализ 2-буквенных сочетаний. Где-то в течение недели, думаю, найду время набросать что-то. Частоты одиночных букв есть, но можно и пересчитать. У меня на разных текстах очень сильно различались значения уже в районе 3-4-й букв. Но на больших объемах картина должна выравняться.

Готов обещанный частотный анализ. Пока на 1 и 2 буквы. Сегодня-завтра выложу на 3-буквенные сочетания тоже.

Для начала параметры текста:

Детективы (5М)
Фантастика (1.5М)
Новости (1.8М)
Философия (1М)
Форумы, анекдоты (1М)
Экономика, политика (0.7М)
Путешествия (0.3М)

Общий объем: 11.3 М

Частоты по одиночным буквам (рабочий инструмент для взлома простых шифров Smile):
Код:
о  10.89%    к  3.44%     з  1.67%     ф  0.26%
е  8.26%     м  3.11%     ч  1.47%     ъ  0.04%
а  8.22%     д  3.02%     й  1.15%     ё  0.01%
и  6.80%     п  2.93%     ж  1.03%
н  6.63%     у  2.79%     х  0.82%
т  6.44%     я  2.11%     ш  0.76%
с  5.47%     ы  1.85%     ю  0.74%
р  4.69%     ь  1.84%     ц  0.42%
л  4.67%     г  1.70%     щ  0.33%
в  4.44%     б  1.69%     э  0.31%

Частоты первых 50-ти самых частых 2-буквенных сочетаний:
Код:
ст  1.63%     ко  1.12%     ре  0.89%     ел  0.78%     ри  0.67%
то  1.63%     ни  1.10%     ол  0.89%     те  0.75%     ле  0.66%
на  1.50%     ал  1.06%     ер  0.88%     ан  0.74%     ве  0.65%
но  1.46%     ос  1.01%     ть  0.87%     ом  0.73%     ит  0.65%
по  1.43%     ет  0.99%     от  0.86%     де  0.72%     да  0.62%
не  1.23%     пр  0.98%     во  0.85%     за  0.72%     ес  0.61%
ра  1.18%     го  0.98%     ва  0.84%     ло  0.72%     ог  0.60%
ов  1.16%     ка  0.95%     ор  0.81%     од  0.72%     ль  0.59%
ен  1.13%     ли  0.91%     ла  0.79%     ат  0.69%     ти  0.58%
ро  1.13%     та  0.89%     он  0.79%     ил  0.68%     ск  0.58%

Проценты здесь вычисляются как отношение указанного сочетания к числу всех допустимых сочетаний в тексте, очищенном от всего, кроме букв (пробелы на этом этапе остаются, чтобы слова несклеивались, удаляются потом). Для 2-буквенных сочетаний даже первая десятка на разных текстах может существенно различаться. Но первые 3-5 сочетаний обычно неизменны.

Полные результаты всместе с результатами на некоторых одиночных произведениях можно взять тут.


Последний раз редактировалось: Dron (Пн Янв 12, 2009 10:18 am), всего редактировалось 4 раз(а)
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Dron
Полковник
Полковник


Зарегистрирован: 06.07.2005
Сообщения: 2213
Откуда: Odessa

СообщениеДобавлено: Пт Окт 05, 2007 11:42 am    Заголовок сообщения: Ответить с цитатой

Выложил, теперь можно поразмышлять об удобстве/неудобстве раскладки.

Сначала по одиночным буквам. Видно, что неоптимально расположена, например, буква И, входящая в Top 5. За ней надо далековато тянуться, теряя базовую позицию. Аналогично - Н. Буква Х - не такая уж нечастая, чтобы запихивать её на такую неудобную позицию. Лучше было бы её поменять местами с Ф - одной из самых редких букв.

Также что-то надо бы сделать с Ё. На моих текстах она последняя по частоте, но это только лишь из-за того, что слова с ней заменяются на Е. Если "ёфицировать" тексты, будет совсем другая картина. И для тех, кто её набирает, она расположена не очень-то удобно. Я бы поменял её с Э.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Dron
Полковник
Полковник


Зарегистрирован: 06.07.2005
Сообщения: 2213
Откуда: Odessa

СообщениеДобавлено: Пт Окт 05, 2007 11:50 am    Заголовок сообщения: Ответить с цитатой

Теперь анализ 2-буквенных сочетаний.

Частовстречающиеся сочетания, которые надо набирать одним и тем же пальцем: ТО, НО, РО, ГО. Это 5.2% всех сочетаний и все с О! Наверное, надо взять на вооружение идею Дворака и повесить на одну руку гласные ОЕАИ (и С куда-то туда же), а согласные (как минимум ТНРКЛ) - на другую.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Автандилина
AvtandiLine


Зарегистрирован: 06.12.2005
Сообщения: 3238
Откуда: Москва и Санкт-Петербург

СообщениеДобавлено: Пт Окт 05, 2007 1:47 pm    Заголовок сообщения: Ответить с цитатой

Dron, поздравляю с получением результатов.
Впечатляющие таблицы.
Насколько успела, сравнила с самыми истёртыми буквами на клавиатуре. (Пока только на одной). Судя по истёртости, Ы и В встречались несравнимо чаще, чем А. Удивилась Smile
А в проанализированных Вами текстах буква Ы только на 18-м месте. Разница немаленькая, действительно! Впору тематические раскладки делать [шучу].
_________________
http://klava.tel быстрая справка, http://www.liveinternet.ru/community/faq_avtandiline/post153540114/ Амишка (AMi) и ФАВТ
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
voldemar
Генерал-майор
Генерал-майор


Зарегистрирован: 11.09.2007
Сообщения: 3738

СообщениеДобавлено: Пт Окт 05, 2007 2:04 pm    Заголовок сообщения: Ответить с цитатой

Андрей, спасибо за исследования, очень интересно и во многом совпадает с моими результатами.
Только я не могу понять смысл всего этого. Вы что, хотели бы стать "русским Двораком", то есть предложить для массового использования альтернативную ЙЦУКЕН раскладку? Но ведь это же проверенная временем раскладка на которой "при наличие определенных способностей и затраченных усилий можно достичь скорости 600 зн и выше". Smile Или ваша цель поставить новый рекорд по скорости? Но тогда вы совершенно спокойно можете сделать на своей раскладке все эти изменения (в том числе и такие радикальные как вынесение гласных на одну сторону, а согласных на другую) и попытаться поставить мировой рекорд в онлайн-чемпионатах. Это было бы лучшей рекламой для вашей новой раскладки.
Насколько успела, сравнила с самыми истёртыми буквами на клавиатуре. (Пока только на одной). Судя по истёртости, Ы и В встречались несравнимо чаще, чем А. Удивилась
Автандилина, не удивляйтесь. Если только одна клава, то это может быть просто дефект краски на клавише Ы. У меня кстати, самой истертой оказалась С, возможно из-за того, что её неудобно нажимать и палец об неё "трётся".
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Dron
Полковник
Полковник


Зарегистрирован: 06.07.2005
Сообщения: 2213
Откуда: Odessa

СообщениеДобавлено: Пт Окт 05, 2007 2:32 pm    Заголовок сообщения: Ответить с цитатой

Автандилина, а может вы часто сохраняетесь (CTRL+S) и дело не в Ы вовсе?

Владимир, пока поисследуем, а там видно будет. А почему бы и не создать новую более удобную раскладку? Вдруг на ней Автандилина 800 будет печатать? Если придумаем новую раскладку, проверять первому дадим Петру. Он уже к ним быстро привыкает, как я понял. Мне на английскую несколько месяцев наверное пришлось потратить, чтобы не путалась с русской в голове.

Теперь к вопросу о том, есть ли сочетания из двух букв, которые встречаются чаще, чем отдельные буквы. Видно, что есть. Вот список потенциальных кандидатов: ХШЮЦЩЭФЪЁ. Но тут не всё однозначно. Например, очевидным кажется - повесить СТ на Ъ, а Ъ набирать как-то по-другому, как CTRL+SHIFT+Ь например. Или как CAPSLOCK+Ь. Чего он без дела простаивает-то? Но Ъ расположен далеко и неудобно и не факт, что его нажатие будет более быстрым, чем набор "ст". Поэтому для анализа ещё наверное нужно учитывать и положение клавиши.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Автандилина
AvtandiLine


Зарегистрирован: 06.12.2005
Сообщения: 3238
Откуда: Москва и Санкт-Петербург

СообщениеДобавлено: Пт Окт 05, 2007 2:53 pm    Заголовок сообщения: Ответить с цитатой

Автандилина, а может вы часто сохраняетесь (CTRL+S) и дело не в Ы вовсе?
О! Верно, Dron! ))))))))
_________________
http://klava.tel быстрая справка, http://www.liveinternet.ru/community/faq_avtandiline/post153540114/ Амишка (AMi) и ФАВТ
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
ZukerPA
Touchtyping Expert


Зарегистрирован: 14.02.2005
Сообщения: 440
Откуда: Троицк МО

СообщениеДобавлено: Пт Окт 05, 2007 2:59 pm    Заголовок сообщения: Ответить с цитатой

Если бы не полное отсутствие денег (американские кончились из-за нецелевого использования :) ), то я бы прямо сейчас заказал книжку Дворака и ещё парочку относящихся к этому вещей, тем более что коллеги по новой работе едут в Америку и могут привезти. Хотя до конца эту неделю не оставляю, так как пробудут они там месяц, может, и решусь.

http://www.dvorak-keyboard.com/dv-order.html -- вот я бы из этого списка первую, вторую, 4ю и 7ю позицию заказал бы. Всего 60 баксов, а уже будет от чего работать.

Вообще, из очевидных принципов построения раскладки могу отметить в порядке убывания важности: наиболее часто встречающиеся буквы в основном ряду; чередование рук как можно чаще; если уж буквосочетание набирается одной рукой, то разными пальцами, от внешнего края к внутреннему (попробуйте побарабанить пальцами по столу от указательного к мизинцу и наоборот -- почувствуете разницу); самые редкоиспользуемые буквы внизу, так как вверх тянуться легче. Ну и в таком духе.

Наличие времени и книжки Дворака и других исследований (которых не так много) меня бы наставили на путь истинный. Я всё-таки ещё подумаю и поищу в ближайшее время материалы, связанные с производством раскладок. Например, есть норвежский Дворак, по-моему, японская альтернатива была сделана по Двораку. Вообще, если вдруг знаете какие-нибудь хорошие ссылки по этому поводу, то приветствую их здесь.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail
voldemar
Генерал-майор
Генерал-майор


Зарегистрирован: 11.09.2007
Сообщения: 3738

СообщениеДобавлено: Пт Окт 05, 2007 3:12 pm    Заголовок сообщения: Ответить с цитатой

Автандилина, а может вы часто сохраняетесь (CTRL+S) и дело не в Ы вовсе?
Точно. Smile
Владимир, пока поисследуем, а там видно будет. А почему бы и не создать новую более удобную раскладку? Вдруг на ней Автандилина 800 будет печатать? Если придумаем новую раскладку, проверять первому дадим Петру. Он уже к ним быстро привыкает, как я понял. Мне на английскую несколько месяцев наверное пришлось потратить, чтобы не путалась с русской в голове
Ага, как придумывать - так вы, а как отдуваться - так Петр или Автандилина. Smile Она, кстати, возможно скоро будет печатать 800 и без вашей раскладки (у неё есть кое-что поинтересней SmileSmile).
Теперь к вопросу о том, есть ли сочетания из двух букв, которые встречаются чаще, чем отдельные буквы. Видно, что есть. Вот список потенциальных кандидатов: ХШЮЦЩЭФЪЁ. Но тут не всё однозначно. Например, очевидным кажется - повесить СТ на Ъ, а Ъ набирать как-то по-другому, как CTRL+SHIFT+Ь например. Или как CAPSLOCK+Ь. Чего он без дела простаивает-то? Но Ъ расположен далеко и неудобно и не факт, что его нажатие будет более быстрым, чем набор "ст". Поэтому для анализа ещё наверное нужно учитывать и положение клавиши.
Андрей, честное слово, ну не тратьте ваше драгоценное время на изыскивание косметических улучшений! Менять нужно всю технологию. Я, возможно, скоро опубликую базовый русский вариант и там все эти проблемы решены гораздо более фундаментально и без всяких "проблем ноиер один".
Кстати, я только сейчас додумался проверить вашу затею с "мультишифтами". Так вот, сообщаю, на клаве BTC (такой же как у Автандилины) одновременное сочетание "олдж" не работает (вместо него появляется либо пустота, либо почему-то ж или жо. Так что пользователям, решившимся пользоваться вашим нововведением тоже придётся менять клавиатуру. Smile
А вот я сейчас придумал как сделать вариант, чтобы работало на ВСЕХ клавиатурах.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
voldemar
Генерал-майор
Генерал-майор


Зарегистрирован: 11.09.2007
Сообщения: 3738

СообщениеДобавлено: Пт Окт 05, 2007 3:19 pm    Заголовок сообщения: Ответить с цитатой

Наличие времени и книжки Дворака и других исследований (которых не так много) меня бы наставили на путь истинный. Я всё-таки ещё подумаю и поищу в ближайшее время материалы, связанные с производством раскладок. Например, есть норвежский Дворак, по-моему, японская альтернатива была сделана по Двораку. Вообще, если вдруг знаете какие-нибудь хорошие ссылки по этому поводу, то приветствую их.
Пардон, а зачем вообще нужен "руский Дворак"? Если уж ведутся бесконечные споры о том, что лучше Кверти или Дворак, а Йцукен гораздо "рациональней" Кверти, то я думаю, что даже у дискуссии "Что лучше Йцукен или Цукер-Николаев?" очень небольшие шансы на появление. Smile
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Автандилина
AvtandiLine


Зарегистрирован: 06.12.2005
Сообщения: 3238
Откуда: Москва и Санкт-Петербург

СообщениеДобавлено: Пт Окт 05, 2007 3:21 pm    Заголовок сообщения: Ответить с цитатой

на клаве BTC (такой же как у Автандилины) одновременное сочетание "олдж" не работает

Клавы различаются по ходовым качествам прямо-таки поэкземплярно Sad (уже сколько раз в этом с грустью убеждаюсь). На моей клаве BTC одновременное сочетание "олдж" как раз таки работает. Только если недонажалось, тогда, конечно, не_все четыре буквы печатаются.

олдж олдж олдж олджолдж олдж олдж олдж олдж олдж олдж олдж олдж олдж олдж олдж олдж одж одж лодж одж олдж олдж олдж олдж олдж олдж одж лодж лолдж одж олдж олдж олдж олджолдж олдж олдж олдж олдж олдж олдж олдж олдж олдж
_________________
http://klava.tel быстрая справка, http://www.liveinternet.ru/community/faq_avtandiline/post153540114/ Амишка (AMi) и ФАВТ
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора
Показать сообщения:   
Начать новую тему   Ответить на тему    Список форумов urikor.net -> Слепая машинопись Часовой пояс: GMT + 2
На страницу 1, 2, 3, 4  След.
Страница 1 из 4

 
Перейти:  
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах


Powered by phpBB © 2001, 2005 phpBB Group
Русская поддержка phpBB
Как бесплатно сделать свой сайт    Просто о сложном