Слепая печать:
  Championship-Ru
  Championship-En
Список форумов urikor.net urikor.net
Все о слепой машинописи и клавиатурных тренажерах
 
 FAQFAQ   ПоискПоиск   ПользователиПользователи   ГруппыГруппы   РегистрацияРегистрация 
 ПрофильПрофиль   Войти и проверить личные сообщенияВойти и проверить личные сообщения   ВходВход 

Частотные словари и 2 буквенные сочетания.
На страницу Пред.  1, 2, 3, 4, 5, 6  След.
 
Начать новую тему   Ответить на тему    Список форумов urikor.net -> Слепая машинопись
Предыдущая тема :: Следующая тема  
Автор Сообщение
myst
Подполковник
Подполковник


Зарегистрирован: 05.12.2008
Сообщения: 1332

СообщениеДобавлено: Пн Апр 27, 2009 3:27 pm    Заголовок сообщения: Ответить с цитатой

Magnij писал(а):
Но вот что странно. Кроме букв, там много и др. символов псевдографики из еще досовской таблицы ASCII. Они как сюда попали?

Они были текстах. Но много их быть не должно: я их поудалял. Разве упустил несколько. Сам корпус надо будет почистить.

Magnij писал(а):

Морфемы сейчас не обязательны, достаточно посмотреть на 2-х, 3-х и т.д. буквосочетания.

Это не проблема.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Nestor
major
major


Зарегистрирован: 21.12.2008
Сообщения: 638

СообщениеДобавлено: Пн Апр 27, 2009 3:48 pm    Заголовок сообщения: Ответить с цитатой

myst писал(а):

Мне тоже фантастика не нравится, особенно то, что она переводная. Там иноязычных да и просто выдуманных слов пруд-пруди наверняка. Нужен нормальный корпус. У Шарова довольно подробно описана проблема составления корпуса для расчёта частотности, но самого корпуса на его сайте я не нашёл.


На первой странице я давал ссылку откуда брал частотные списки буквосочетаний, там есть словарь более поздний чем Шарова.
Алфавитный список 14636 словоформ
Цитата:

В алфавитном списке приведено 60 тысяч наиболее частотных словоформ. Чтобы найти информацию о нужном слове, перейдите в раздел Алфавитный список лемм, выберите первую букву слова и найдите искомое слово в таблице. Чтобы быстро найти слово, вы можете также воспользоваться окном поиска, например:

направляют сюда

Я так понимаю тут их больше, но они леммитизированы?

myst писал(а):
Nestor писал(а):
А анализ словоформ для анализа последовательностей даст очень отдаленное представление о реальных последовательностях. –приставки – суффиксы – окончания… Куда это годится для анализа последовательностей букв... Там до 50 % слова меняется...

Простите, но я не понял. Особенно последние 2 предожения. Что такое 50%-ое изменение слова, но не словоформа? Shocked


Я спутал словоформы с лексемами.

Короче можно там найти что-то лучше, чем корпус Шарова
Вот подправленные ссылки на особенности этих словарей (на сайте они с ошибками)
http://dict.ruslang.ru/freq_faq.html
http://dict.ruslang.ru/freq.pdf
_________________
Учусь объясняться с компьютером на пальцах.
http://www.klavogonki.ru/profile/76392
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
myst
Подполковник
Подполковник


Зарегистрирован: 05.12.2008
Сообщения: 1332

СообщениеДобавлено: Пн Апр 27, 2009 4:11 pm    Заголовок сообщения: Ответить с цитатой

Nestor писал(а):

Короче можно там найти что-то лучше, чем корпус Шарова

Что-то я не вижу там ссылок на архивы словарей. Опять товарищи лингвисты самое главное забыли. Sad
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Nestor
major
major


Зарегистрирован: 21.12.2008
Сообщения: 638

СообщениеДобавлено: Пн Апр 27, 2009 4:35 pm    Заголовок сообщения: Ответить с цитатой

Ну скопировать можно и ручками если вы про словари, то как раз они там есть. А вот текстов на основе которых они получили эти данные увы нету Sad. Хотя где-то на НКРЯ я видел перечень.
_________________
Учусь объясняться с компьютером на пальцах.
http://www.klavogonki.ru/profile/76392
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
myst
Подполковник
Подполковник


Зарегистрирован: 05.12.2008
Сообщения: 1332

СообщениеДобавлено: Пн Апр 27, 2009 6:21 pm    Заголовок сообщения: Ответить с цитатой

Nestor писал(а):
Ну скопировать можно и ручками если вы про словари, то как раз они там есть.

Нет, ручками — это не наш путь. Smile

Nestor писал(а):
А вот текстов на основе которых они получили эти данные увы нету Sad. Хотя где-то на НКРЯ я видел перечень.

Сами тексты-то зачем? Разве для пробельной стистики только. В любом случае это огромный объём, я не смогу его скачать.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Magnij
lieutenant
lieutenant


Зарегистрирован: 16.10.2007
Сообщения: 158

СообщениеДобавлено: Вт Апр 28, 2009 9:26 am    Заголовок сообщения: Ответить с цитатой

Пришел на работу, посмотрел эти файлы сегодня внимательнее и еще сильнее удивился. Вы читаете фантастику на многих яз., в т.ч. на сербском? И во всех этих романах полно рисунков и формул, выполненных псевдографикой?
Я ожидал увидеть 3 файла по 33 строки в каждом и даже меньше: в РЯ нет слов, начинающихся с Ы, Ъ, Ь и т.д. Подозреваю, что эти тексты не очень подходят для такого рода исследований...

Еще раз об условных обозначениях. Обозначим пробел или знак препинания как "0", а любую букву РЯ как "*". Тогда однобуквенных файлов будет 3 шт.: 0*, *0, 0*0 и строк в каждом 33. Двухбуквенных файлов будет тоже 3 шт.: 0**, **0, 0**0, а вот строк в каждом - 1089. Ну и т.д.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
myst
Подполковник
Подполковник


Зарегистрирован: 05.12.2008
Сообщения: 1332

СообщениеДобавлено: Вт Апр 28, 2009 11:25 am    Заголовок сообщения: Ответить с цитатой

Magnij писал(а):
Я ожидал увидеть 3 файла по 33 строки в каждом и даже меньше: в РЯ нет слов, начинающихся с Ы, Ъ, Ь и т.д. Подозреваю, что эти тексты не очень подходят для такого рода исследований...

Я подозреваю, Вы не в той кодировке смотрите. Файлы — в досовской кодировке. 33 строки невозможно: в текстах содержатся не только буквы кириллицы, но и другие знаки. Лишние данные можно легко отфильтровать.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Magnij
lieutenant
lieutenant


Зарегистрирован: 16.10.2007
Сообщения: 158

СообщениеДобавлено: Вт Апр 28, 2009 1:36 pm    Заголовок сообщения: Ответить с цитатой

В разных пробовал. А файл 101 - это последняя буква одного слова, пробел, первая буква другого?

Расскажите, пожалуйста, подробнее о своей технологии и ПО.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
myst
Подполковник
Подполковник


Зарегистрирован: 05.12.2008
Сообщения: 1332

СообщениеДобавлено: Вт Апр 28, 2009 2:29 pm    Заголовок сообщения: Ответить с цитатой

Magnij писал(а):
В разных пробовал.

Вот начало файла 101.txt:
Цитата:

", ч" 672348
", к" 535417
"о в" 452249
"о п" 446432
", н" 435050
"о с" 434228
"о н" 417745
", -" 395069
"е п" 390536
"и п" 384302
", п" 379515

У Вас так же?

Magnij писал(а):

А файл 101 - это последняя буква одного слова, пробел, первая буква другого?

Пробел с примыкающими к нему символами. Там не только буквы, но и знаки препинания. Ну и псевдографика с управляющими символами затесалась. Очищу сегодня корпус от этой скверны. Smile

Цитата:
Расскажите, пожалуйста, подробнее о своей технологии и ПО.

Да нет никакой технологии. Совершенно тривиальная программа-зубочистка в пару десятков строк. Smile
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Magnij
lieutenant
lieutenant


Зарегистрирован: 16.10.2007
Сообщения: 158

СообщениеДобавлено: Ср Апр 29, 2009 10:13 am    Заголовок сообщения: Ответить с цитатой

myst писал(а):

Вот начало файла 101.txt:
Цитата:

", ч" 672348
", к" 535417
"о в" 452249
"о п" 446432
", н" 435050
"о с" 434228
"о н" 417745
", -" 395069
"е п" 390536
"и п" 384302
", п" 379515

У Вас так же?


Да, в одной кодировок.


myst писал(а):
Пробел с примыкающими к нему символами. Там не только буквы, но и знаки препинания. Ну и псевдографика с управляющими символами затесалась. Очищу сегодня корпус от этой скверны. Smile


Вы где такой взяли, если не секрет? Я к хорошей фантастике неравнодушен с детства, но такой точно не читал...
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
myst
Подполковник
Подполковник


Зарегистрирован: 05.12.2008
Сообщения: 1332

СообщениеДобавлено: Ср Апр 29, 2009 12:55 pm    Заголовок сообщения: Ответить с цитатой

Magnij писал(а):
myst писал(а):

Вот начало файла 101.txt:
Цитата:

", ч" 672348
", к" 535417
"о в" 452249
"о п" 446432
", н" 435050
"о с" 434228
"о н" 417745
", -" 395069
"е п" 390536
"и п" 384302
", п" 379515

У Вас так же?

Да, в одной кодировок.

Тогда я не понял, в чём проблема.

Magnij писал(а):
Вы где такой взяли, если не секрет? Я к хорошей фантастике неравнодушен с детства, но такой точно не читал...

Я уж точно и не помню (10 лет почти прошло), с какого-то CD, «Старая башня», какое-то такое название. Там в некоторых книгах псевдографикой рамки были сделаны.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
myst
Подполковник
Подполковник


Зарегистрирован: 05.12.2008
Сообщения: 1332

СообщениеДобавлено: Ср Апр 29, 2009 2:25 pm    Заголовок сообщения: Ответить с цитатой

Версия на очищенном корпусе (01, 10, 010, 011, 110, 0110, 0111, 1110, 01110):
http://depositfiles.com/files/uxhqmnbyr
0 — пробел; 1 — непробел. Кодировка 1251.

Четырёх-, пятибуквенные нужны?
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Magnij
lieutenant
lieutenant


Зарегистрирован: 16.10.2007
Сообщения: 158

СообщениеДобавлено: Чт Апр 30, 2009 8:44 am    Заголовок сообщения: Ответить с цитатой

Скачать не удалось, наверное, какие-то ограничения на нашем сервере. Если можно, разместите еще где-нибудь, 5-го мая скачаю.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Magnij
lieutenant
lieutenant


Зарегистрирован: 16.10.2007
Сообщения: 158

СообщениеДобавлено: Чт Апр 30, 2009 9:04 am    Заголовок сообщения: Ответить с цитатой

myst писал(а):
Тогда я не понял, в чём проблема.


А, напр., в том, что {". п" 4549}. После точки и пробела в РЯ должна идти прописная буква. Ну, и т.д. - ошибок уж очень много.

Помнится, пару лет т.н. voldemar пропагандировал интеррусский язык, включающий в себя не только безошибочный текст и произношение (как нулевой уровень ИРЯ), но и все возможные ошибки. А я скромно полагаю - ни в коей мере не претендуя на авторство, что высшие уровни ИРЯ должны включать также и все невозможные ошибки (в соответствии с законом Мэрфи). Вот поэтому я и заинтересовался происхождением исследуемых текстов.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
myst
Подполковник
Подполковник


Зарегистрирован: 05.12.2008
Сообщения: 1332

СообщениеДобавлено: Чт Апр 30, 2009 9:57 am    Заголовок сообщения: Ответить с цитатой

Magnij писал(а):
myst писал(а):
Тогда я не понял, в чём проблема.


А, напр., в том, что {". п" 4549}. После точки и пробела в РЯ должна идти прописная буква. Ну, и т.д. - ошибок уж очень много.

Не факт, это может быть фрагмент от «и т. п.», «см. п. 1» и подобных сокращений.
Вот в Вашем сообщении
Цитата:
т.д.
. По норме должно писа́ться «т. д.», причём пробел здесь должен быть неразрывный.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Magnij
lieutenant
lieutenant


Зарегистрирован: 16.10.2007
Сообщения: 158

СообщениеДобавлено: Чт Апр 30, 2009 1:24 pm    Заголовок сообщения: Ответить с цитатой

myst писал(а):
Magnij писал(а):
myst писал(а):
Тогда я не понял, в чём проблема.


А, напр., в том, что {". п" 4549}. После точки и пробела в РЯ должна идти прописная буква. Ну, и т.д. - ошибок уж очень много.

Не факт, это может быть фрагмент от «и т. п.», «см. п. 1» и подобных сокращений.


Это было первое, что попалось под руку, есть и другие. 4549 - это число вхождений? И все эти сокращения и аббревиатуры в высокохудожественной литературе? В таком к-ве?
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
myst
Подполковник
Подполковник


Зарегистрирован: 05.12.2008
Сообщения: 1332

СообщениеДобавлено: Чт Апр 30, 2009 1:36 pm    Заголовок сообщения: Ответить с цитатой

Magnij писал(а):

Это было первое, что попалось под руку, есть и другие. 4549 - это число вхождений? И все эти сокращения и аббревиатуры в высокохудожественной литературе? В таком к-ве?

Это ж не много. Smile Объём массива текста почти 13 миллионов слов.
Вот выборка из корпуса:
Цитата:

Это просто... ужасная ошибка... просто недоразумение.
Посмотри, вот Магеллановы Облака... и... посмотри... как раз тут должны
- Простите... простите... очень уж разволновались.
Избранный римским консулом, в 185 г. до н.э. под впечатлением
коллегий, а в III в. до н.э. при ее же храме была организована коллегия
началась в 78 г. после смерти Суллы.

Основная масса случаев — это продолжения после многоточия, но есть немного сокращений. Всё нормально, это не ошибки. Smile
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Magnij
lieutenant
lieutenant


Зарегистрирован: 16.10.2007
Сообщения: 158

СообщениеДобавлено: Ср Май 06, 2009 11:52 am    Заголовок сообщения: Ответить с цитатой

Magnij писал(а):
Скачать не удалось, наверное, какие-то ограничения на нашем сервере. Если можно, разместите еще где-нибудь, 5-го мая скачаю.


Просьба все еще та же.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
myst
Подполковник
Подполковник


Зарегистрирован: 05.12.2008
Сообщения: 1332

СообщениеДобавлено: Ср Май 06, 2009 1:26 pm    Заголовок сообщения: Ответить с цитатой

Magnij писал(а):
Magnij писал(а):
Скачать не удалось, наверное, какие-то ограничения на нашем сервере. Если можно, разместите еще где-нибудь, 5-го мая скачаю.


Просьба все еще та же.

Ой! Извиняюсь, не заметил.
http://slil.ru/27513196
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Magnij
lieutenant
lieutenant


Зарегистрирован: 16.10.2007
Сообщения: 158

СообщениеДобавлено: Чт Май 07, 2009 9:34 am    Заголовок сообщения: Ответить с цитатой

myst писал(а):
Версия на очищенном корпусе (01, 10, 010, 011, 110, 0110, 0111, 1110, 01110):
http://depositfiles.com/files/uxhqmnbyr
0 — пробел; 1 — непробел. Кодировка 1251.

Четырёх-, пятибуквенные нужны?


Спасибо! Да, если это возможно, и даже больше.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
myst
Подполковник
Подполковник


Зарегистрирован: 05.12.2008
Сообщения: 1332

СообщениеДобавлено: Чт Май 07, 2009 9:36 am    Заголовок сообщения: Ответить с цитатой

Magnij писал(а):
Спасибо! Да, если это возможно, и даже больше.

ОК. В новой версии знаки препинания, оказывается, выпали. Они нужны?
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Magnij
lieutenant
lieutenant


Зарегистрирован: 16.10.2007
Сообщения: 158

СообщениеДобавлено: Чт Май 07, 2009 9:50 am    Заголовок сообщения: Ответить с цитатой

myst писал(а):
Magnij писал(а):
Спасибо! Да, если это возможно, и даже больше.

ОК. В новой версии знаки препинания, оказывается, выпали. Они нужны?


Т.е. они считаются пробелами? Для начала и так сойдет, а там видно будет.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
myst
Подполковник
Подполковник


Зарегистрирован: 05.12.2008
Сообщения: 1332

СообщениеДобавлено: Чт Май 07, 2009 10:16 am    Заголовок сообщения: Ответить с цитатой

Magnij писал(а):
Т.е. они считаются пробелами?

Нет. Они вообще не учитывались, то есть, например, сочетания типа «она, » не попали в статистику, только «она ».
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Magnij
lieutenant
lieutenant


Зарегистрирован: 16.10.2007
Сообщения: 158

СообщениеДобавлено: Чт Май 07, 2009 10:37 am    Заголовок сообщения: Ответить с цитатой

Тогда ошибки могут быть солидными, надо знаки показывать или приравнять к пробелу.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
myst
Подполковник
Подполковник


Зарегистрирован: 05.12.2008
Сообщения: 1332

СообщениеДобавлено: Чт Май 07, 2009 11:32 am    Заголовок сообщения: Ответить с цитатой

Magnij писал(а):
Тогда ошибки могут быть солидными, надо знаки показывать или приравнять к пробелу.

Сегодня пересчитаю с учётом знаков препинания.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
myst
Подполковник
Подполковник


Зарегистрирован: 05.12.2008
Сообщения: 1332

СообщениеДобавлено: Чт Май 07, 2009 2:30 pm    Заголовок сообщения: Ответить с цитатой

Посчитал от 1 до 12 символов. Объём результатов под 30 мегабайт в сжатом виде. Осилите?
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Марусяк Валерий
Подполковник
Подполковник


Зарегистрирован: 11.08.2008
Сообщения: 1001

СообщениеДобавлено: Чт Май 07, 2009 2:43 pm    Заголовок сообщения: Ответить с цитатой

Осилим-осилим Smile.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Посетить сайт автора
myst
Подполковник
Подполковник


Зарегистрирован: 05.12.2008
Сообщения: 1332

СообщениеДобавлено: Чт Май 07, 2009 3:25 pm    Заголовок сообщения: Ответить с цитатой

Марусяк Валерий писал(а):
Осилим-осилим Smile.

Тады держите. Smile
http://slil.ru/27517050
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Марусяк Валерий
Подполковник
Подполковник


Зарегистрирован: 11.08.2008
Сообщения: 1001

СообщениеДобавлено: Чт Май 07, 2009 9:12 pm    Заголовок сообщения: Ответить с цитатой

Спасибо! БОльшую часть утянул Smile.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Посетить сайт автора
myst
Подполковник
Подполковник


Зарегистрирован: 05.12.2008
Сообщения: 1332

СообщениеДобавлено: Чт Май 07, 2009 9:16 pm    Заголовок сообщения: Ответить с цитатой

Марусяк Валерий писал(а):
Спасибо! БОльшую часть утянул Smile.

Это как, 2/3 файла? Smile
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Показать сообщения:   
Начать новую тему   Ответить на тему    Список форумов urikor.net -> Слепая машинопись Часовой пояс: GMT + 2
На страницу Пред.  1, 2, 3, 4, 5, 6  След.
Страница 4 из 6

 
Перейти:  
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах


Powered by phpBB © 2001, 2005 phpBB Group
Русская поддержка phpBB
Как бесплатно сделать свой сайт    Просто о сложном