Category: it

Category was added automatically. Read all entries about "it".

Alexei Kouprianov

Проблемы в R с tm_map, tolover, stemDocument, stemCompletion

Эта запись сделана для памяти и будет носить эзотерический характер. Чем дальше от старых добрых статистических методов, тем страшнее и тем меньше стандартизации. Забрел, с подачи Кирилла Маслинского, в область компьютерного анализа текстов. Довольно быстро выяснилось, что какие-то пакеты для обработки текстов написаны под более позднюю версию R, чем та, что стоит у меня на машине, за обновлением R потянулась необходимость обновления Java, за ними -- недокументированные причуды самих новых версий пакетов и т. д. и т. п.

Коротко говоря, чтобы не забыть:

(1) Для установки пакета mallet нужна библиотека, которой у меня не было, пришлось ставить (без нее не компилируется):

apt get install liblzma-dev

(2) В новой версии пакета tm иначе работает функция tolower (конвертация всех заглавных букв в строчные):

corpus<-tm_map(corpus, content_transformer(tolower))

если использовать старый способ работы с нею, то потом не работает стемминг (усечение слов до основы):

corpus<-tm_map(corpus, stemDocument)

Восстановление слов от основ до наиболее обычной по корпусу формы

corpus<-tm_map(corpus, stemCompletion, dictionary=corpus, type="prevalent")

(надобное, как я понимаю, в эстетических целях) пока не заработало и гугление никакого ответа пока не принесло.



This entry was originally posted at http://kouprianov.dreamwidth.org/310044.html Comment wherever you wish.
Alexei Kouprianov

Совет дня от Dissernet.org

Если Вы хотите облегчить доступ к выложенным Вами данным, то надо просто вставить в середину html файла второй набор тегов, обозначающих его начало, и все пойдет, как по маслу...


wiki.dissernet.org-wsave-PonyatovskayaAF2010.html

This entry was originally posted at http://kouprianov.dreamwidth.org/303695.html Comment wherever you wish.
Alexei Kouprianov

Настройка предустановленной Ubuntu / Обновление до Medit 1.2.0

Недоставало хорошего текстового редактора. Gedit не понравился. Medit, который я поставил из репозитария, почему-то страдал странным недостатком. Он был лишен большинства стандартных горячих клавиш и не позволял их определять. Немного погуглив, узнал, что это -- известный баг, который уже исправлен в версии 1.0.5. Удивился. Полез смотреть версию и обнаружил, что у меня стоит 1.0.3. Еще немного погуглив, решил установить 1.2.0. Установил, надеюсь, установка dependencies ничего не разрушила. Пока все, вроде бы, живы.

http://mooedit.sourceforge.net/ Здесь живет Medit.

http://sourceforge.net/p/mooedit/bugs/161/ Здесь мне сказали, что такой баг заметили и починили в версии 1.0.5.

http://www.tuxarena.com/2014/04/medit-1-2-0-gnome-alternative-to-gedit-ubuntu-installation/ Здесь мне рассказали, как поставить Medit 1.2.0.

Collapse )



This entry was originally posted at http://kouprianov.dreamwidth.org/302885.html Comment wherever you wish.
Alexei Kouprianov

Осваиваю синхронизацию: напоминалка себе

Так можно скопировать файлы с удаленного компьютера на свой:

rsync -zarvptP -e ssh user@server:Path/Folder Path

Что писать вместо user@server можно подглядеть в окне терминала в начале командной строки, Folder и Path добавить по вкусу (это имя синхронизируемой папки и путь, куда откуда взять / куда положить). Чтобы копировать со своего на удаленный, надо поменять местами адресата и получателя. Справку, как всегда, смотрим по rsync -h или man rsync. Краткий рецепт и объяснялку на русском языке подглядел здесь:

http://linux-freebsd.ru/linux/programmnoe_obespechenie-linux/sinhronizatsiya-faylov-s-pomoshhyu-rsync-po-ssh-linux-freebsd/

https://cloudtips.org/rsync.html

P. S. Вчера было: 2/300/-84/216



This entry was originally posted at http://kouprianov.dreamwidth.org/302820.html Comment wherever you wish.
Alexei Kouprianov

Настройка предустановлнной Ubuntu / Tuning a pre-installed Ubuntu

Еще в прошлом семестре перед самым скачком курса купил ноутбук Dell Latitude с предустановленной Ubuntu (старый нетбук от Asus начал потихоньку распадаться, да и тормозит он порядком). Только сейчас дошли руки до переезда. Оставлю себе памятку по поводу того, что пришлось сделать (уверен, выявились еще не все проблемы, буду updatить по ходу дела).

Collapse )

This entry was originally posted at http://kouprianov.dreamwidth.org/302476.html Comment wherever you wish.
Alexei Kouprianov

Для тех, кто потерял надежду (экономистам I курса посвящается)

Сегодня мы так и не добрались до сути, но для тех, кто потерял надежду, попытаюсь на маленьком примере объяснить, зачем бывает нужен Perl. Вот у нас есть данные, в которых даты записаны так:

Collapse )

P. S. 2/290/-74/216.



This entry was originally posted at http://kouprianov.dreamwidth.org/299932.html Comment wherever you wish.
Alexei Kouprianov

Торговали мы недаром неуказанным товаром...

Одно из странных обстоятельств моей жизни заключается в том, что в курсе «Академического письма» мне было, не то чтобы запрещено, но настоятельно-посоветовано-не касаться тем, связанных с методами научной работы. Например, того, что любая научная статья -- результат некого исследования, и, если это исследование криво спланировано, то хорошая статья из него, в любом случае, не вылезет. Вчера читал лекцию на запрещенную тему.

Совершенно отдельно от этого, радовался тому, что одна из студенток нашего семинара, еще месяц назад стоявшая в тупике перед простейшим скриптом на perl'е, уже строит одного за другим маленьких боевых нечеловекообразных роботов, позволяющих ей собирать и анализировать данные. Результаты ее поражающего воображение прорыва скажутся не только на ее собственной курсовой, но и на работах буквально десятков других людей, иные из которых еще даже об этом не догадываются. Не менее -- тому, что другая студентка из нашего семинара, о которой я уже писал ранее, победила PostgreSQL в необходимых объемах, что позволит быстро управляться с данными, которые научилась собирать первая. Так победим!

P. S. 228/6/-12/216



This entry was originally posted at http://kouprianov.dreamwidth.org/272880.html Comment wherever you wish.
Alexei Kouprianov

Perl/regexp: зашел в тупик

Поможите, чем можете! Не могу понять, как вычистить неразрывный пробел из более, чем трехзначных чисел.

s/(?<=\d)ЧТОВПИСАТЬСЮДА?(?=\d\d\d)//g;

В качестве кандидатов уже побывали "\x0xA0", "\xA0", "\x0xC2", "\xC2". Я понимаю, что чего-то не понимаю, но это само по себе не помогает. Все эти долбанные cookbookи и учебники написаны, похоже, какими-то людьми, которые уже все знают, поэтому они общаются с простыми смертными, вроде меня, языком полупонятных намеков.

Alexei Kouprianov

В борьбе со справедливостью...

Минувшим летом я позволил себе в дискуссии по одной из записей asafich весьма резко (до уровня нецензурной лексики) охарактеризовать работы Ж. И. Резниковой по исследованию способностей муравьев к счету и передаче сложной информации о маршрутах. См. ссылку 1

wolf_kitses связался с Жанной Ильиничной и сообщил ей содержание нашего онлайнового диалога. Ж. И. была настолько любезна, что ответила ему письмом, которое wolf_kitses и опубликовал в своем журнале, снабдив комментариями. Эта публикация вызвала довольно обширную дискуссию (в основном, сфокусированную на моей скромной персоне). См. ссылку 2

Размещаю здесь несколько сокращенную и переработанную для публикации в отрыве от контекста конкретного обсуждения версию моего ответа wolf_kitses (с исходной версией можно ознакомиться по ссылке 3):

Довожу до сведения всех, кто это видит, что я готов принести извинения и посыпать голову пеплом, если выяснится, что опыты Ж. И. Резниковой по установлению сложных счетных и коммуникативных способностей муравьев действительно воспроизводились в не связанных с нею биологических лабораториях, и результаты этих исследований были опубликованы в биологических журналах, строго соблюдающих процедуру peer-review.

К сожалению, в письме Ж. И. Резниковой не нашлось места ни для одной библиографической ссылки на подобные публикации. Если такие ссылки будут предоставлены, то я буду рад с ними ознакомиться и изменить свое мнение к лучшему.

Я повторю, я специально настаиваю на том, что (1) исследования должны быть повторены биологами, а не специалистами в области информационных технологий, криптографии, создания искусственного интеллекта и т. п., (2) результаты исследований должны быть опубликованы в виде статьи в научном биологическом журнале, строго собюдающем процедуру peer-review, а не в виде тезисов или полного текста доклада на конференции. Эти относительно несложные дополнительные требования, которые вряд ли можно назвать чрезмерными, навеяны анализом списка англоязычных публикаций Ж. И. Резниковой, с которым каждый желающий может ознакомиться здесь:

http://reznikova.net/Publications.html

Мои требования просты: я хочу видеть свидетельства (1) независимой проверки и (2) воспроизводимости результатов. Эти требования стандартны для любой экспериментальной работы.

Если это сложно, то пока я хотел хотя бы понять, чем (при допущении широкого международного признания этого выдающегося открытия, которое несомненно достойно самой широкой популяризации, статьи в Nature и т. п.) можно объяснить следующие результаты поиска (убрал под lj-cut, чтобы не смотрелось так криво):Collapse )

Алексей Куприянов