哈哈哈哈,感觉现在学语言学的也得熟练掌握一门编程语言才行了,“语料库”三个字真的是水论文的神器:)
另外,大家也可以分享一下心得和一些很有意思的项目,考虑到本论坛CS专业的人可能不多,偏文科方向会多一点,可以整点实在的东西,什么 LeetCode、龙书这样过于专业的东西就不要丢出来了。
我先来,算是抛砖引玉吧。
先简单交代下背景,高中理科,日语专业本科,学编程全靠自己一个人摸索,没有报过班之类。
最常用的编程语言是Python,跟着北理的嵩天老师《Python语言程序设计》学习,三天打鱼两天晒网地学了2年,才考过了Python的计算机二级(主要还是背题库背过的)。摸过一点JS,主要是为了写Auto.js脚本,折腾的过程中意识到JS在数据处理方面实在是太拉跨了
综上,如果给学日语的同学推荐编程语言,JS和Python里面选的话,
- 出于学术研究的目的,我偏向于推荐Python,我接触过的日语相关的语料库研究工具Wordless和大名鼎鼎的 mecab都与Python高度相关。现成的语料库或者只依赖第三方工具编辑下恐怕不太容易做出真正有意义的研究
玩出新花样,而且做研究的数据往往都都是数以万计,总不能手动编辑吧,Python在文本处理方向甩JS真的不是一星半点——抛开第三方库不谈,单就正则表达式,这个对于文本处理而言最重要的特性而言,JS真的是相形见绌。
如果只是为了处理文本的话,推荐的学习路径是看嵩天老师《Python语言程序设计》入门了解基本的语法,然后再看看配套的《Python网络爬虫与信息提取》(边看边动手),最后翻翻余晟老师的《正则指引》的相关章节(不要光看,把现成的代码边改边看学得更快,过一遍,之后遇到问题再查就可以了),有了上面三板斧,基本就能做出来自己想要的语料,轻松水满字数,查重率也轻松降下来虽然据说国内的日语论文查重就是个摆设;
- 出于就业的目的的话,我推荐JS,虽然日本目前招聘程序员最受欢迎的还是Java,但网页作为目前为止在日本运用最广的跨平台技术(Java其实是伪跨平台啦),而且JS的上手难度和Python有得一拼,蛮适合非计算机专业的人自学。再加上近几年TypeScript(相当于JS的升级版)异军突起,node.js、Electron等等后起之秀,让JS早已不只是简单的HTML网页的脚本语言,在未来的可能真的可以在软件开发领域和Java、C#、Swift等传统语言分庭抗礼。学习路径的话,我是看的阮一峰的《JavaScript教程》,视频课是Build Responsive Real-World Websites with HTML and CSS(没看完)
另外,有用过R、Perl的可以简单评价下么?据我所知,这2门语言在文本处理和数据分析方面也蛮有优势的。