哈哈哈哈,感觉现在学语言学的也得熟练掌握一门编程语言才行了,“语料库”三个字真的是水论文的神器:)
另外,大家也可以分享一下心得和一些有意思的项目,考虑到本论坛 CS 专业的人可能不多,偏文科方向会多一点,可以整点实在的东西,什么 LeetCode、龙书这样过于专业的东西就不要丢出来了。
我先来,算是抛砖引玉吧。
先简单交代下背景,高中理科,日语专业本科,学编程全靠自己一个人摸索,没报过班。
最常用的编程语言是 Python,跟着北理的嵩天老师《Python 语言程序设计》学习,三天打鱼两天晒网地学了 2 年,才考过了 Python 的计算机二级(主要还是背题库背过的)。摸过一点 JS,主要是为了写 Auto.js 脚本,折腾的过程中意识到 JS 在数据处理方面实在是太拉跨了。
综上,如果给学日语的同学推荐编程语言,JavaScript 和 Python 里面选的话:
- 出于学术研究的目的,我偏向于推荐 Python
- 我接触过的日语相关的语料库研究工具Wordless和大名鼎鼎的 mecab都与 Python 高度相关。
- 现成的语料库或者只依赖第三方工具编辑下恐怕不太容易做出真正有意义的研究
玩出新花样,而且做研究的数据往往都都是数以万计,总不能手动编辑吧。Python 在文本处理方向甩 JS 真的不是一星半点——抛开第三方库不谈,单就正则表达式,这个对于文本处理而言最重要的特性而言,JS 真的是相形见绌。 - 如果只是为了搞点语料库语言学的研究,推荐的学习路径是看嵩天老师《Python 语言程序设计》入门了解基本的语法,然后再看看配套的《Python 网络爬虫与信息提取》(边看边动手),最后翻翻余晟老师的《正则指引》的相关章节(不要光看,把现成的代码边改边看学得更快,过一遍,之后遇到问题再查就可以了),有了上面三板斧,基本就能做出来自己想要的语料,轻松水满字数,查重率也轻松降下来
虽然据说国内的日语论文查重就是个摆设
- 出于就业的目的的话,我推荐 JS
4. 虽然日本目前招聘程序员最受欢迎的还是 Java,但招聘方往往都是招全栈(沾)工程师,平时的工作或多或少都会用到 JavaScript。而且 JavaScript 的上手难度和 Python 有得一拼,也蛮适合非计算机专业的人自学。
5. 近几年 TypeScript(相当于 JS 的升级版) 异军突起,node.js 、Electron、React Native 等等后起之秀,让 JS 早已不只是简单的脚本语言。在未来,可能真的可以在软件开发领域和 Java、C#、Swift 等传统语言分庭抗礼。(补充:2025年,以我在日本工作一年半的经验来看,TypeScript 已经算是前端必须的知识了……)
6. 学习路径的话,我是看的阮一峰的《JavaScript 教程》,视频课是 Build Responsive Real-World Websites with HTML and CSS(没看完)
另外,有用过 R、Perl 的可以简单评价下么?据我所知,这 2 门语言在文本处理和数据分析方面也蛮有优势的。